13925013474
移动推广,广告投放蓝海渠道,抢占移动互联网无限商机

如何判断是百度爬虫真假?

2015-08-14 来源:   阅读:1678次

如果你仔细分析过网站日志,你会发现有大量冒充的百度爬虫,这些爬虫或是来采集文章的,或是被黑客用来探测网站目录的,总之百害而无一利,我们需要判断百度爬虫的,并且分析出百度爬虫的真假,把假蜘蛛屏蔽掉,节约服务器的资源,更好的为用户服务。

1、如何判断百度爬虫

打开网站日志,查找百度爬虫名的英文字母,就能找到百度爬虫的信息,通用的百度爬虫叫Baiduspider。

2、如何判断假的百度爬虫

百度站长平台给了判断真假爬虫的方法,这里直接贴出来。

 

建议您使用DNS反查方式来确定抓取来源的ip是否属于百度,根据平台不同验证方法不同,如linux/windows/os三种平台下的验证方法分别如下:

1、在linux平台下,您可以使用host ip命令反解ip来判断是否来自Baiduspider的抓取。Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。

$ host 123.125.66.120 
120.66.125.123.in-addr.arpa domain name pointer 
baiduspider-123-125-66-120.crawl.baidu.com.

host 119.63.195.254
254.195.63.119.in-addr.arpa domain name pointer 
BaiduMobaider-119-63-195-254.crawl.baidu.jp.

 2  在windows平台或者IBM OS/2平台下,您可以使用nslookup ip命令反解ip来 判断是否来自Baiduspider的抓取。打开命令处理器 输入nslookup xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 来判断是否来自Baiduspider的抓取,Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。

 3  在mac os平台下,您可以使用dig 命令反解ip来 判断是否来自Baiduspider的抓取。打开命令处理器 输入dig xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 来判断是否来自Baiduspider的抓取,Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。