新闻中心

郑州热点计算机科技有限公司

河南省郑州市花园路国基路居易摩根2702室

税号:914101050664919817

全国服务热线:0371-55126589

邮箱:370666871@qq.com

网址:www.zzrd.net

 

详解百度蜘蛛IP

您的当前位置: 首 页 >> 祥云资讯 >> 前沿技术

详解百度蜘蛛IP

发布日期:2015-10-23 14:22 来源:http://www.zzrd.net 点击:

百度蜘蛛是什么?百度蜘蛛是百度搜索引擎的一个爬行程序,百度蜘蛛的作用是手机互联网的文字网页、图片、视频、等内容,然后将这些内容分类建立索引数据库排名,使用户能在百度搜索中看到你相应的结果!笔者也在网上找了很久,都没找到比较详细百度蜘蛛IP以及其原理的深入浅出介绍,特意整理下网上的资料加上笔者本人的一些见解整理出这篇详解百度蜘蛛!

详解百度蜘蛛IP

 

从百度官方站长平台上可以看出官方说是没有所谓的高权重和低权重的蜘蛛IP分别的!不要乱听信网上那些说的千篇一律的蜘蛛IP解释,其实百度的蜘蛛IP据不完全统计都有差不多上百个,可以确定的是每个IP都有其不同的作用!

如果要知道一个百度蜘蛛的是好是坏,第一个首先要了解百度常用抓取返回码示意和百度支持的返回码(返回码在网站日志里面可以看到,如果不知道怎么查看网站日志或者怎么分析网站日志请看:SEO之网站日志详解):

一:网站日志里面最常见的返回值是404,这个代表网页已经失效找不到,已经在库中被删除了,在段时间内如果蜘蛛发现这条URL也不会去抓取这个URL!

二:返回值503代表网页临时不可以访问,如果网站临时关闭或者宽度有限的情况可能会产生这种情况,如果返回503代码,百度蜘蛛不会将这条URL直接删除,同时在短时间内会访问该URL几次,如果该页面已经恢复,那么蜘蛛会正常抓取,如果页面URL继续返回503的话,那么这条URL会被蜘蛛认为是失效链接,从而从数据库里面删除!

三:返回值如果是403的话代表网页当前是禁止访问的,这个时候就要检查下自己的robots.txt看看是不是禁止抓取了当前页面,如果是条新的URL,蜘蛛会暂时不抓取,会在短期内访问该URL几次,如果是已经收录的,那么在访问几次后,如果能正常访问的话就抓取,如果还是禁止访问的话,该URL就会被认为是无效链接,从搜索引擎库中删除!

四:如果返回值是301的话代表是网页重定向到新的URL,这个大部分站长都懂就不赘续了!

五:如果返回值是200的话,就代表是正常访问,正常爬取该URL!

六:返回码是304的话就代表,蜘蛛有来爬取但是爬取的页面跟库中的页面是一致的那么返回就是304,一般情况下如果是静态页面不更新的话,那么极有可能就是返回304代码!如果一个网站被搜索引擎抓取的次数以及频率越多那么他是越有利于排名的,但是如果你的网站出现太多的304,那么一定会降低搜索引擎的抓取频率以及次数,从而让自己的网站排名比别人落一步

日志分析实例

2014-9-18 23:45:33 W3SVC7499849XX 61.145.116.XX GET /asyj/1112_5544.html – 80 – 123.125.71.78 Mozilla/5.0+(compatible;+Baiduspider/2.0;++http://***.baidu.coX/search/spider.html[1] ) 304 0 0

其实这段文字是这样理解的。

2014-9-18 23:45:33 ——代表访问的日期和时间。W3SVC7499849XX ——代表虚拟主机的名称61.145.116.XX ——代表访问ip,GET ——代表访问的方法,   /asyj/1112_5544.html——代表具体访问的文件      80 ——代表访问的端口    123.125.71.78 ——代表来源ip
Mozilla/5.0+(compatible;+Baiduspider/2.0;++http://***.baidu.coX/search/spider.html) ——代表访问来源;这里是代表百度蜘蛛。注*换为w         ,304 ——304返回码。这个也是这里介绍的重点。这里表示客户端已经执行了GET,但文件未变化   ,前一个0 ——代表服务端传送到客户端的字节大小  ,后一个0 ——代表客户端传送到服务端的字节大小
从这一段日志。我们可以看出这次百度蜘蛛访问的结果的返回了一个304状态码。那么搜索引擎就不会对我们的页面进行再次抓取了

详解百度蜘蛛IP之百度IP分析:刚上面百度官方平台说了没有什么降权蜘蛛和提权蜘蛛的分别,权重上升的过程中也不乏出现所谓的降权蜘蛛,如果你仔细观察你的蜘蛛IP在对比网上所谓的提权和降权蜘蛛发现很多根本都是说不通的!

一:百度服务器有N个,同样百度的蜘蛛IP也是有很多而且全国的线路都不一样,移动电信等等都有,所以肯定会有不同线路的IP段!

二、不同线路蜘蛛ip来了后,对网站的体验是不一样的(比如电信蜘蛛读数据超时、移动线路蜘蛛ip太胖爬行慢数据滞后),可能获取多个不一样的网页快照,因此百度就需要按一定算法,将这些快照进行存储到不同的地方,之后根据情况调整一些ip,比如电信蜘蛛读数据超时再来爬行还是超时,那么可能持续一段时间这个ip会一直来(或者换其他电信ip来),当达到一定门阀值,再结合普通电信用户的访问情况来看,如果其他电信用户同样访问超时,各种指标偏低,那么决定你的网站在电信这条线路来看是不可靠的。这样就会形成上述所说的一些seoer看到了网站搜索量下降或排名下降的现象,这时这个超时的百度电信蜘蛛ip就被当成降权蜘蛛。换一种思路,如果百度换另一个电信ip来检查你网站的访问情况,结果这个蜘蛛ip现在是访问良好的,其他普通电信用户访问指标也改善了,百度就决定你的网站质量可靠了,那么你的网站搜索量上升或排名上升。当然这仅仅是以蜘蛛ip访问超时的情况来说明,网页的质量因素较多,不再综合来说。

因此研究特定段百度蜘蛛的ip是没有多大价值的,建议研究不同线路的百度蜘蛛ip的访问情况以及结合各线路的普通用户的访问情况,这样才是价值王道。

详解百度蜘蛛IP:本文没有对百度各个蜘蛛IP的详细解说,但是说出了本人的观点,其实确实没有所谓的降权提权蜘蛛,只要你把SEO个方面做好,打好基础,做好细节,不管爬过来的是什么蜘蛛你的排名流量照样能做上来!

相关标签:网络营销

总部地址

未标题-3.png 河南省郑州市花园路国基路居易摩根2702室

未标题-3.png 全国服务热线:0371-55126589

未标题-3.png 税号:914101050664919817

未标题-3.png 邮箱:370666871@qq.com

  网址:www.zzrd.net
二维码
在线客服
分享
欢迎给我们留言
请在此输入留言内容,我们会尽快与您联系。
姓名
联系人
电话
座机/手机号码