我们在根据网站日志分析搜索引擎蜘蛛抓取网页的记录时,实际上很多站点都是有一些伪装称baiduspider的到访者的。这些数据会严重影响我们对日志分析后的判断。
这些到访者,为什么会伪装为baiduspider来访问我们的网站呢?最典型的就是采集你内容的那些人。他们知道很多工具是能够看到哪些ip访问网站的量过大的。例如某一个ip今天访问你网站1万次,那正常吗?肯定是不正常的。但他要是baiduspdier呢?呵呵,那就正常了。
我们应该如何识别baiduspider的真假呢?
百度pc端的爬虫UA是这样的:
Mozilla/5.0(compatible;Baiduspider/2.0;+http://www.baidu.com/search/spider.html) Mozilla/5.0(compatible;Baiduspider-render/2.0;+http://www.baidu.com/search/spider.html)
百度移动端的爬虫UA是这样的:
Mozilla/5.0(Linux;u;Android4.2.2;zh-cn;)AppleWebKit/534.46(KHTML,likeGecko)Version/5.1MobileSafari/10600.6.3(compatible;Baiduspider/2.0;+http://www.baidu.com/search/spider.html) Mozilla/5.0(iPhone;CPUiPhoneOS9_1likeMacOSX)AppleWebKit/601.1.46(KHTML,likeGecko)Version/9.0Mobile/13B143Safari/601.1(compatible;Baiduspider-render/2.0;+http://www.baidu.com/search/spider.html)
如上是包含了百度的常规爬虫,和渲染爬虫render的。这两个爬虫的区别符已经用红色字体标出来了。
区分百度pc和移动端的爬虫
1、通过关键词“Android”或者“Mobile”来进行识别,判断为移动访问或者抓取。
2、通过关键词“Baiduspider/2.0”、“Baiduspider-render/2.0”,判断为百度爬虫。
那么,站长该如何通过IP来判断此spider是不是来自百度搜索引擎的呢?
可以通过DNS反查方式来解决这个问题。根据平台不同验证方法不同,如linux/windows/os三种平台下的验证方法分别如下:
1、在linux平台下,您可以使用hostip命令反解ip来判断是否来自Baiduspider的抓取。Baiduspider的hostname以.baidu.com或.baidu.jp的格式命名,非.baidu.com或.baidu.jp即为冒充。
2、在windows平台或者IBMOS/2平台下,您可以使用nslookupip命令反解ip来判断是否来自Baiduspider的抓取。打开命令处理器输入nslookupxxx.xxx.xxx.xxx(IP地址)就能解析ip,来判断是否来自Baiduspider的抓取,Baiduspider的hostname以.baidu.com或.baidu.jp的格式命名,非.baidu.com或.baidu.jp即为冒充。
3、在macos平台下,您可以使用dig命令反解ip来判断是否来自Baiduspider的抓取。打开命令处理器输入digxxx.xxx.xxx.xxx(IP地址)就能解析ip,来判断是否来自Baiduspider的抓取,Baiduspider的hostname以.baidu.com或.baidu.jp的格式命名,非.baidu.com或.baidu.jp即为冒充。
以上就是本站教程自学网傲远对怎么识别百度蜘蛛Baiduspider的真假的介绍,希望可以帮到你!如有疑问,欢迎留言!
相关阅读:
1、英语表达爱情长久的句子-ipad背面刻字,求表达爱情的英语句子_IT屋博客_IT博客
2、索引型sitemap是什么,索引型sitemap百度将不予处理,索引型sitemap百度将不予处理
3、梓铭秒赞网 梓铭-云任务,是一个分布式云挂机平台,本平台拥有QQ秒赞秒评、
文章声明:以上内容(如有图片或视频在内)除非注明,否则均为小星空博客原创文章,转载或复制请以超链接形式并注明出处。
本文作者:访客本文链接:https://xxkblog.cn/post/736.html
还没有评论,来说两句吧...