搜索引擎爬虫列表

搜索引擎是人们再熟悉不过的工具,它将Internet上的信息索引起来,方便人们在海量数据中迅速查找有用的信息。而搜索引擎公司,国外以 Google为代表,国内以百度为代表,成为互联网上举足轻重的公司,其访问量也远远超过传统门户网站,成为网民最离不开的网络服务。而遇到问题 “Google一下”或者“百度一下”也成为人们日常生活中的习惯。

而对于网站建设者而言,也会经常与搜索引擎打交道,这就是Search Engine Spiders(网络爬虫,或者叫搜索引擎蜘蛛,网页爬取机器人等)。这些Spider爬虫蜘蛛会经常光顾各个网站,将网站上的最新内容爬取下来,并编入索引库中。以下是一些常见的搜索引擎蜘蛛列表:
高强度爬虫程序

Baiduspider+(+http://www.baidu.com/search/spider.htm)
    百度爬虫
    高强度爬虫,有时会从多个IP地址启动多个爬虫程序!
    由于算法问题,百度爬虫对相同页面会多次发出请求(尤其是首页),令人烦恼。
    推广效果好。

Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html)
Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)
    雅虎爬虫,分别是雅虎中国和美国总部的爬虫
    高强度爬虫,有时会从多个IP地址启动多个爬虫程序!
    比较规范的爬虫,看参考其网址,设定爬虫访问间隔。(但需要考虑同时出现多个yahoo爬虫)
    推广效果尚可。

iaskspider/2.0(+http://iask.com/help/help_index.html)
Mozilla/5.0 (compatible; iaskspider/1.0; MSIE 6.0)
    新浪爱问爬虫
    算法差,大量扫描无实际意义的页面,对动态链接网站负担很大
    推广效果差。

Sogou web spider/3.0(+http://www.sogou.com/docs/help/webmasters.htm#07)
Sogou Push Spider/3.0(+http://www.sogou.com/docs/help/webmasters.htm#07)
    【早期用法:“sogou spider”】
    搜狗爬虫
    算法差,大量扫描无实际意义的页面,对动态链接网站负担很大
    推广效果差。

中等强度爬虫程序

Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
    Google爬虫
    算法优秀,多为访问有实际内容的页面
    推广效果好。 → 详情
Mediapartners-Google/2.1
    Google AdSense广告内容匹配爬虫,对网页收录有一定辅助作用。→ 详情

Mozilla/5.0 (compatible; YodaoBot/1.0; http://www.yodao.com/help/webmaster/spider/; )
    【早期采用“ OutfoxBot/0.5 (for internet experiments; http://; outfoxbot@gmail.com)”】
    网易爬虫
    其搜索算法需要改进
    推广效果差。

ia_archiver
    Alexa排名爬虫,用于检测网站是否做了alexa排名的作弊。→ 详情
Mozilla/5.0 (Twiceler-0.9 http://www.cuill.com/twiceler/robot.html)
    美国斯坦福大学的一个学生研究项目。→ 详情

WebAlta Crawler/2.0 (http://www.webalta.net/ru/about_webmaster.html) (Windows; U; Windows NT 5.1; ru-RU)
    来自俄国的爬虫,对中国大陆的网站基本无推广效果。
    其agent信息中给出的网页无法打开,据说webalta.net是俄国非常流行的搜索引擎。

其他搜索引擎的爬虫

msnbot/1.0 (+http://search.msn.com/msnbot.htm)
    MSN爬虫
    特点未知

msnbot-media/1.0 (+http://search.msn.com/msnbot.htm)
    {{{1}}}(欢迎补充资料)
    特点未知

Mozilla/4.0(compatible; MSIE 5.0; Windows 98; DigExt)
    DigExt并非一个独立的爬虫程序,而是IE5的“允许脱机阅读”模式标记。→ 详情

Mozilla/3.0 (compatible; Indy Library)
    Indy Library本来是个开源程序库,但后来被spam bots冒用。→ 详情
    抓取强度:各服务器上不一定
    推广效果:无

P.Arthur 1.1
    据称为北大天网的搜索引擎爬虫程序

Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; QihooBot 1.0)
    名字上看来是Qihoo的
    特点未知

Gigabot
Gigabot/2.0 (http://www.gigablast.com/spider.html)
    Gigabot搜索引擎爬虫。已被google收购?(欢迎补充资料)

eApolloBot/1.0 (eApollo search engine robot; http://www.eapollo.com; eapollo at global-opto dot com)

lanshanbot/1.0
    据说是中搜爬虫。(欢迎补充资料)

iearthworm/1.0, iearthworm@yahoo.com.cn
    专抓图片的爬虫,据说来源IP是3721或阿里巴巴。→ 详情

TMCrawler

Mozilla/5.0 (compatible; heritrix/1.10.2 +http://i.stanford.edu/)
    开源的网络爬虫,一个数字图书馆项目。→ 详情
WebNews http.pl

 



文章来自: 本站原创
引用通告: 查看所有引用 | 我要引用此文章
Tags: 搜索引擎 爬虫 百度蜘蛛
相关日志:
评论: 0 | 引用: 0 | 查看次数: 268
发表评论
昵 称:
密 码: 游客发言不需要密码.
内 容:
验证码: 验证码
选 项:
虽然发表评论不用注册,但是为了保护您的发言权,建议您注册帐号.
字数限制 1000 字 | UBB代码 开启 | [img]标签 关闭