爬虫优化 | 云防线技术博客

爬虫优化

来源:本站原创 网站优化 超过围观 0条评论

网络爬虫(Web Crawler, Spider)就是一个在网络上乱爬的机器人。当然它通常并不是一个实体的机器人,因为网络本身也是虚拟的东西,所以这个”机器人”其实也就是一段程序,并且它也不是乱爬,而是有一定目的的,并且在爬行的时候会搜集一些信息。

搜索引擎爬虫经常抓取收录网站在通常情况下应该是有利于网站对外推广传播的,但很遗憾,一些技术比较”烂”的搜索爬虫我们甚至可以认为它们更像流氓、无赖.比如,某些爬虫本身技术就存在缺陷,结果导致一次抓取小网站的时候能把整个网站给拖垮(不要告诉我这样的事情没有发生过),另外还有像采用云服务托管的网站,比如SAE,流量和计算量都是要收费的。一个本来就没有多少流量的搜索引擎,天天过来抓内容,带来少的可怜的流量跟花去的流量费用对比,简直让人心疼,鉴于此类原因,CloudFence推出爬虫优化的功能,让您限制除知名爬虫外的其他爬虫来爬取您的页面,为您节省带宽和服务器资源。

常见国内搜索引擎蜘蛛程序名称 (User-agent List):

● 百度 www.baidu.com:Baiduspider

● 谷哥 www.Google.com:Googlebot、Googlebot-Mobile、Googlebot-Image、Mediapartners-Google、Adsbot-Google

● 雅虎 www.yahoo.com.cn:Yahoo Slurp

● 搜狗 www.sogou.com:Sogou Push Spider

● 有道 www.yodao.com:YodaoBot

● MSN www.msn.com:msnbot

● sina 爱问 iask.com:iaskspider

● 360 www.360sou.com: 360Spider

 

版权信息:原创文章:云防线
本文标题:爬虫优化
本文链接:http://blog.cloudfence.cn/?p=33转载请注明转自云防线
如果喜欢:点此订阅本站
上篇文章:
下篇文章: