端点SEO博客

系统化学习SEO技术,实时关注业界动态

如何正确识别Baiduspider

经常听到有人抱怨百度蜘蛛爬的太频繁导致服务器被跑挂了,大部分情况下那些不是真的百度蜘蛛,而是一些采集站点来爬内容,这里替百度觉得冤。辨别爬虫是否是百度的,不单单看主机头,毕竟浏览器头信息是可以伪造的,一般我们通过DNS反向解析能更好的判断当前IP是否为真实的百度spider。

当然不能排除有些站点确实是被搜索引擎spider拖垮的,不过不能只抱怨爬虫,能被拖垮,说明自身做得不够好,检查下程序哪里有瓶颈,该优化的优化该加机器的加机器,如果你不是靠搜索引擎活下来的,那么你可以毫不犹豫的直接屏蔽搜索引擎。

那么,站长该如何通过IP来判断此spider是不是来自百度搜索引擎的呢?以下是百度站长平台提供的识别方法。

可以通过DNS反查方式来解决这个问题。根据平台不同验证方法不同,如linux/windows/os三种平台下的验证方法分别如下:
1、在linux平台下,您可以使用host ip命令反解ip来判断是否来自Baiduspider的抓取。Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。

2、在windows平台或者IBM OS/2平台下,您可以使用nslookup ip命令反解ip来 判断是否来自Baiduspider的抓取。打开命令处理器 输入nslookup xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 来判断是否来自Baiduspider的抓取,Baiduspider的hostname以*.baidu.com 或*.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。

3、在mac os平台下,您可以使用dig 命令反解ip来 判断是否来自Baiduspider的抓取。打开命令处理器 输入dig xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 来判断是否来自Baiduspider的抓取,Baiduspider的hostname以 *.baidu.com 或*.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。

常见百度蜘蛛(Baiduspider)名称
产品名称 对应user-agent
网页搜索 Baiduspider
无线搜索 Baiduspider
图片搜索 Baiduspider-image
视频搜索 Baiduspider-video
新闻搜索 Baiduspider-news
百度搜藏 Baiduspider-favo
百度联盟Baiduspider-cpro
竞价蜘蛛Baiduspider-sfkr

点击继续阅读"百度蜘蛛抓取规则"

除非注明,文章均由©端点SEO博客原创
转载请保留本文链接:http://www.iseoduan.com/baiduseo/184.html
最后更新: 2016年5月15日 — 21:38
©2015~2017 | 端点SEO博客:揭露SEO本质,提供SEO培训,系统的学习SEO优化 备案号:京ICP备12011610号-3 站点地图|端点SEO博客