怎样查看百度蜘蛛的抓取情况

1.怎么查看百度蜘蛛爬行记录 在哪看 ? 新手 请详细说明

什么是spider?(引擎蜘蛛)

spider是搜索引擎的一个自动程序。它的作用是访问互联网上的html网页,建立索引数据库,使用户能在搜索引擎中搜索到您网站的网页。

spider对一个网站服务器造成的访问压力如何?

spider会自动根据服务器的负载能力调节访问密度。在连续访问一段时间后,spider会暂停一会,以防止增大服务器的访问压力。所以在一般情况下,spider对您网站的服务器不会造成过大压力。

为什么spider不停的抓取我的网站?

对于您网站上新产生的或者持续更新的页面,spider会持续抓取。此外,您也可以检查网站访问日志中spider的访问是否正常,以防止有人恶意冒充spider来频繁抓取您的网站。 如果您发现spider非正常抓取您的网站,请发送反馈邮件到该搜索引擎,并请尽量给出spider对贵站的访问日志,以便于我们跟踪处理。

我不想我的网站被spider访问,我该怎么做?

spider遵守互联网robots协议。您可以利用robots.txt文件完全禁止spider访问您的网站,或者禁止spider访问您网站上的部分文件。 注意:禁止spider访问您的网站,将使您的网站上的网页,在搜索引擎以及所有提供搜索引擎服务的搜索引擎中无法被搜索到。

关于robots.txt的写作方法,请参看我们的介绍:robots.txt写作方法

为什么我的网站已经加了robots.txt,还能在搜索出来?

因为搜索引擎索引数据库的更新需要时间。虽然spider已经停止访问您网站上的网页,但搜索引擎数据库中已经建立的网页索引信息,可能需要二至四周才会清除。 另外也请检查您的robots配置是否正确。

蜘蛛在robots.txt中的名字是什么?

“spider”全部为小写字母。

spider多长时间之后会重新抓取我的网页?

搜索引擎每周更新,网页视重要性有不同的更新率,频率在几天至一月之间,spider会重新访问和更新一个网页。

知道了什么是SPIDER蜘蛛,那么怎么才能知道蜘蛛是否来过你的站?这个可以从你服务器或者虚拟主机的日志中看出来,比如我用的站的www.2iqq.com的完整使用日志中有这样的记录:

220.181.38.198 - - [11/Nov/2007:04:28:29 +0800] "GET / HTTP/1.1" 200 61083 "-" "Baiduspider+(+http://www.baidu.com/search/spider.htm)"这就说明蜘蛛来过我的站了,如果你还想知道有没有其它搜索引擎的蜘蛛来过你的站,你可以在日志文件中搜索“spider”这个词,或者搜索蜘蛛的IP,我的就查到sogou也来过我的站,IIS日志与Apache的日志是一样的,都可以查到。

下面是整理出来的一些搜索蜘蛛的地址

1 202.106.186.* 163蜘蛛

2 202.108.36.* 163蜘蛛

3 202.108.44.* 163蜘蛛

4 202.108.45.* 163蜘蛛

5 202.108.5.* 163蜘蛛

6 202.108.9.* 163蜘蛛

7 220.181.12.* 163蜘蛛

8 220.181.13.* 163蜘蛛

9 220.181.14.* 163蜘蛛

10 220.181.15.* 163蜘蛛

11 220.181.28.* 163蜘蛛

12 220.181.31.* 163蜘蛛

13 222.185.245.* 163蜘蛛

14 202.165.100.* 3721蜘蛛

220.181.38.177 百度蜘蛛

15 220.181.19.* 百度蜘蛛

16 159.226.50.* 百度蜘蛛

17 202.108.11.* 百度蜘蛛

18 202.108.22.* 百度蜘蛛

19 202.108.23.* 百度蜘蛛

20 202.108.249.* 百度蜘蛛

21 202.108.250.* 百度蜘蛛

22 61.135.145.* 百度蜘蛛

23 61.135.146.* 百度蜘蛛

24 64.124.85.* become.com

25 61.151.243.* china蜘蛛

26 202.165.96.* gais.cs.ccu.edu.tw

27 216.239.33.* google蜘蛛

28 216.239.35.* google蜘蛛

29 216.239.37.* google蜘蛛

30 216.239.39.* google蜘蛛

31 216.239.51.* google蜘蛛

32 216.239.53.* google蜘蛛

33 216.239.55.* google蜘蛛

34 216.239.57.* google蜘蛛

35 216.239.59.* google蜘蛛

36 64.233.161.* google蜘蛛

37 64.233.189.* google蜘蛛

38 66.102.11.* google蜘蛛

39 66.102.7.* google蜘蛛

40 66.102.9.* google蜘蛛

41 66.249.64.* google蜘蛛

42 66.249.65.* google蜘蛛

43 66.249.66.* google蜘蛛

44 66.249.71.* google蜘蛛

45 66.249.72.* google蜘蛛

46 72.14.207.* google蜘蛛

47 61.135.152.* iask蜘蛛

48 65.54.188.* msn蜘蛛

49 65.54.225.* msn蜘蛛

50 65.54.226.* msn蜘蛛

51 65.54.228.* msn蜘蛛

52 65.54.229.* msn蜘蛛

53 207.46.98.* msn蜘蛛

54 207.68.157.* msn蜘蛛

55 194.224.199.* noxtrumbot

56 220.181.8.* Outfox

57 221.239.209.* Outfox

58 217.212.224.* psbot

59 219.133.40.* QQ蜘蛛

60 202.96.170.* QQ蜘蛛

61 202.104.129.* QQ蜘蛛

62 61.135.157.* QQ蜘蛛

63 219.142.118.* sina蜘蛛

64 219.142.78.* sina蜘蛛

65 61.135.132.* sohu蜘蛛

66 220.181.26.* sohu蜘蛛

220.181.19.*

67 61.135.158.* tom蜘蛛

68 66.196.90.* yahoo蜘蛛

69 66.196.91.* yahoo蜘蛛

70 68.142.249.* yahoo蜘蛛

71 68.142.250.* yahoo蜘蛛

72 68.142.251.* yahoo蜘蛛

73 202.165.102.* yahoo中国蜘蛛

74 202.160.178.* yahoo中国蜘蛛

75 202.160.179.* yahoo中国蜘蛛

76 202.160.180.* yahoo中国蜘蛛

77 202.160.181.* yahoo中国蜘蛛

78 202.160.183.* yahoo中国蜘蛛

79 72.30.101.* yahoo蜘蛛

80 72.30.102.* yahoo蜘蛛

81 72.30.103.* yahoo蜘蛛

82 72.30.104.* yahoo蜘蛛

83 72.30.107.* yahoo蜘蛛

84 72.30.110.* yahoo蜘蛛

85 72.30.111.* yahoo蜘蛛

86 72.30.128.* yahoo蜘蛛

87 72.30.129.* yahoo蜘蛛

88 72.30.131.* yahoo蜘蛛

89 72.30.133.* yahoo蜘蛛

90 72.30.134.* yahoo蜘蛛

91 72.30.135.* yahoo蜘蛛

92 72.30.216.* yahoo蜘蛛

93 72.30.226.* yahoo蜘蛛

94 72.30.252.* yahoo蜘蛛

95 72.30.97.* yahoo蜘蛛

96 72.30.98.* yahoo蜘蛛

97 72.30.99.* yahoo蜘蛛

98 74.6.74.* yahoo蜘蛛

99 202.108.4.* 中搜蜘蛛

100 202.108.4.* 中搜蜘蛛

101 202.108.33.* 中搜蜘蛛

102 202.96.51.* 中搜蜘蛛

103 219.142.53.* 中搜蜘蛛

怎样查看百度蜘蛛的抓取情况  第1张

2.如何查看我的网页被百度蜘蛛抓取过?

希望大家帮我把这个帖发给你身边的人,谢谢!

怎样查看百度蜘蛛的抓取情况  第2张

3.如何抓取APP上的信息?

不论是app还是网页,最后都是数据包的交互。 直接请求app上的地址就可以。 ps:如果域名是http://m.xxx.com这种的,有可能需要修改user-agent为mobile这类,不然有可能做的比较好的网站,会把你重定向到 w http://ww.xxx.com电脑版的页面。

怎样查看百度蜘蛛的抓取情况  第3张

4.如何抓取APP上的信息?

抓取APP上的信息1、识别url重定向,互联网信息数据量很庞大,涉及众多的链接,但是在这个过程中可能会因为各种原因页面链接进行重定向,在这个过程中就要求百度蜘蛛对url重定向进行识别2、对网站抓取的友好性,百度蜘蛛在抓取互联网上的信息时为了更多、更准确的获取信息,会制定一个规则最大限度的利用带宽和一切资源获取信息,同时也会仅最大限度降低对所抓取网站的压力。3、对作弊信息的抓取,在抓取页面的时候经常会遇到低质量页面、买卖链接等问题,百度出台了绿萝、石榴等算法进行过滤,据说内部还有一些其他方法进行判断,这些方法没有对外透露。4、无法抓取数据的获取,在互联网中可能会出现各种问题导致百度蜘蛛无法抓取信息,在这种情况下百度开通了手动提交数据。5、百度蜘蛛抓取优先级合理使用,由于互联网信息量十分庞大,在这种情况下是无法使用一种策略规定哪些内容是要优先抓取的,这时候就要建立多种优先抓取策略,目前的策略主要有:深度优先、宽度优先、PR优先、反链优先。

怎样查看百度蜘蛛的抓取情况  第4张

1.如何查询百度蜘蛛爬行!

现在的百度蜘蛛机器人决非以前的机器人了,貌似更聪明,爬行也更灵活多变,今天我们就用实例给大家谈谈。 一、爆发式爬行 不知百度蜘蛛是不是喜欢高效率的爬行,有时百度蜘蛛能在一两分钟内爬行几百次。比如我的站,天天基本上百度蜘蛛都会爆发式爬行几次,早上6点钟有一次大约爬行300次;上午9点钟的时候有一次也是爬行300多次;13点的时候也有一次,不过要少一点,只有200多次;18点的时候也有一次,大约会爬行400多次,23点的时候也有一次,大约只有250次。有时候,我查看具体爬行记录时,这些爆发式爬行基本上不会超过五分钟。有一次,我的站不知是哪个会事,百度蜘蛛在两分钟内爬行了1800多次,我当时就有点纳闷,百度蜘蛛机器人的运算速度可真是惊人。不过我现在基本上知是哪个会事了,由于蜘蛛机器人,它爬行一段时间过后,蜘蛛机器人在去运算程序,看是否是原来收录过的,是否是原创什么的,是否应该收录等等。 二、 确认式爬行 确认式爬行方式百度也是在9月底才开始试行,那么什么是确认式爬行呢,就是指你网站更新一个内容过后,百度第一次爬行过后,一定不会给你放出收录来,百度蜘蛛还要进行第二次爬行在运算、比较计算的,假如以为你这个更新内容有必要收录,百度蜘蛛会进行第三次爬行,正常情况下百度蜘蛛不会进行第四次爬行。第三次确认过后,百度蜘蛛就会慢慢的给你放出收录。 这种确认式爬行方式,就有点类似与谷歌的爬行方式。百度蜘蛛机器人爬行首页的方式还是同原来一样,一天不知要爬行多少次首页,其它页面,假如百度以为有必要进行计算的话,就会进行第二次确认爬行。比如我的站吧,我天天更新的内容,只要是百度蜘蛛机器人爬行了三次的,基本上都会放出收录来。爬行两次了的,都不会放出来。爬行四次的基本上没有看到过。 三、稳定式爬行 稳定式爬行,指的是天天24小时,每一个小时的爬行量相差不大。稳定式爬行往往是对新站才会出现,对于百度以为你站是成熟期的,假如出现了这种爬行方式,你可一定要小心了,这种爬行方式,你的站多半会被降权。第二天就能看出来,首页的快照日期,一定不会给你更新的。比如我的站aabc.cn,每一个小时内的爬行量,从图表中看出来都相差无几。所以这个站的首页基本上不会出现24小时快照。天天我更新的内容一样会收录一些。就比如一个人做任何事式的,没有了激情,也就没有了爆发力,当然不会卖力干事的,不卖力干事,你说效果会有多好。 以上说了这么多,大家可能有疑问了,百度蜘蛛来没有,我怎么知道,这个很简单你可以去查看服务器的记录日志。你假如查看不了记录日志的话,看一下网站后台有没有记录蜘蛛爬行记录的。给大家推荐一款源码露珠CMS,这个建站源码后台能比较清楚的记录各大搜索机器人的痕迹,有各个机器人来访的时间,来访的页面,对来访的具体数据作了分析,进行24小时时间段分析,对各个频道的分析,对你所加的内容的版块进行分析。对各大搜索机器人喜欢你网站的哪个频道,哪个版块都进行了分析,同时也给你提出了补救其它频道和版块的建议,哪个时间加内容收录最快等等。 综上所述,百度蜘蛛对每一个网站的爬行规律是不一样的,只有我们自己认真的比对分析,才能总结出更加完美的更新网站的方式,只有我们把握了百度蜘蛛的一些规律,我们更新内容才能有的放矢。

怎样查看百度蜘蛛的抓取情况  第5张

2.如何查看我的网页被百度蜘蛛抓取过?

希望大家帮我把这个帖发给你身边的人,谢谢!

怎样查看百度蜘蛛的抓取情况  第6张

3.如何抓取APP上的信息?

不论是app还是网页,最后都是数据包的交互。 直接请求app上的地址就可以。 ps:如果域名是http://m.xxx.com这种的,有可能需要修改user-agent为mobile这类,不然有可能做的比较好的网站,会把你重定向到 w http://ww.xxx.com电脑版的页面。

怎样查看百度蜘蛛的抓取情况  第7张

4.如何抓取APP上的信息?

抓取APP上的信息1、识别url重定向,互联网信息数据量很庞大,涉及众多的链接,但是在这个过程中可能会因为各种原因页面链接进行重定向,在这个过程中就要求百度蜘蛛对url重定向进行识别2、对网站抓取的友好性,百度蜘蛛在抓取互联网上的信息时为了更多、更准确的获取信息,会制定一个规则最大限度的利用带宽和一切资源获取信息,同时也会仅最大限度降低对所抓取网站的压力。3、对作弊信息的抓取,在抓取页面的时候经常会遇到低质量页面、买卖链接等问题,百度出台了绿萝、石榴等算法进行过滤,据说内部还有一些其他方法进行判断,这些方法没有对外透露。4、无法抓取数据的获取,在互联网中可能会出现各种问题导致百度蜘蛛无法抓取信息,在这种情况下百度开通了手动提交数据。5、百度蜘蛛抓取优先级合理使用,由于互联网信息量十分庞大,在这种情况下是无法使用一种策略规定哪些内容是要优先抓取的,这时候就要建立多种优先抓取策略,目前的策略主要有:深度优先、宽度优先、PR优先、反链优先。

怎样查看百度蜘蛛的抓取情况  第8张

上一篇:游戏厅打蜘蛛游戏
下一篇:上线审车多少钱