搜索引擎蜘蛛爬取策略

1.如何把网站中一些特定的页面隐藏起来只给搜索引擎蜘蛛爬取

一、蜘蛛爬取原2113理大自然的蜘5261蛛我相信都看到过,它是4102通过网来进行1653爬取的。专而搜索引擎的蜘蛛属是通过链接来爬取的。蜘蛛在网页上爬取到一个链接就会把它放到一个单独的数据库。这些数据库都是有特性的,特性就是域名的后缀。常用的后缀有.net、.org、.com、.cn、.com.cn等等。蜘蛛会把这些域名后缀的链接放到一个数据库,然后逐个去爬取,这可能是很多站长朋友的一个误区。蜘蛛是不会像用户一样直接点击进入的,如果那样,那么这个蜘蛛就可以一直在外面不用回家了。因为每个网页都是有链接不断的循环的,爬不完的。百度反向链接蜘蛛也是会爬取的,有些朋友称之为相关域。百度相关域的意思就是说,只有一个页面被百度收录了,并且这个页面包含你的域名,这不是一个超链接,但是只有百度收录了我写的这篇文章的页面,那么蜘蛛是会把这个域名列入它的数据库的,然后也会爬取。并且也会计算权重,这就是我们所说的链接诱饵,用来吸引蜘蛛

搜索引擎蜘蛛爬取策略  第1张

2.蜘蛛爬行策略有哪些?

1、深度优先(策来略):一直往前源爬,直到没有2113链接,再返回5261第一层爬向下一个4102入口 2、广度优1653先(策略):先把这一层所有入口爬完,再爬下一层。3、吸引蜘蛛:1)搜索引擎认为重要的页面爬行深度高,会有更多页面被收录 2)页面更新度,有规律3)、导入链接数量0(导入到自己网站页面的链接)4)、与首页点击距离5)、c结构(链接比较好)4、地址库:为了避免重复查询或抓取网址,搜索引擎会建立一个地址库记录已经被发现、但还没被抓取的页面,以及被抓取的页面。1)来源、人工录入的种子网站。2)、蜘蛛抓取页面后,从HTML中解析出新的链接URL,与地址库中的数据库相比,如果是地址库中没有的网址,就存入待访问的的地址库。3)、站长通过搜索引擎页面提交表格提交进来的网址4)、站长通过XML网站地图、站长平台提交的网址

搜索引擎蜘蛛爬取策略  第2张

3.蜘蛛爬行策略有哪些?

1、深度优先(策来略):一直往前源爬,直到没有2113链接,再返回5261第一层爬向下一个4102入口 2、广度优1653先(策略):先把这一层所有入口爬完,再爬下一层。3、吸引蜘蛛:1)搜索引擎认为重要的页面爬行深度高,会有更多页面被收录 2)页面更新度,有规律3)、导入链接数量0(导入到自己网站页面的链接)4)、与首页点击距离5)、c结构(链接比较好)4、地址库:为了避免重复查询或抓取网址,搜索引擎会建立一个地址库记录已经被发现、但还没被抓取的页面,以及被抓取的页面。1)来源、人工录入的种子网站。2)、蜘蛛抓取页面后,从HTML中解析出新的链接URL,与地址库中的数据库相比,如果是地址库中没有的网址,就存入待访问的的地址库。3)、站长通过搜索引擎页面提交表格提交进来的网址4)、站长通过XML网站地图、站长平台提交的网址

搜索引擎蜘蛛爬取策略  第3张

4.不利于搜索引擎爬行和抓取的蜘蛛陷进有哪些

首先搜索引擎最常见的一种陷阱是Flash。在网页的某一小部分使用Flash增强62616964757a686964616fe59b9ee7ad9431333363363534视觉效果是和很正常的,比如用Flash做成广告,图标等。这样的Flash对搜索引擎的爬行与抓取是没有什么影响的。但是,万万不可在首页使用一个大大的Flash文件,因为这样就形成一个蜘蛛陷阱。当搜索引擎抓取的HTML代码只有一个连向Flash文件的连接,没有其他的文字内容。如果Flash效果是必须滴,那也要在首页加上一个通往HTML版本的链接。这个链接要在Flash文件之外的HTML代码中,搜索引擎跟踪这个链接可以抓取后面的HTML版本页面。再一个常见的蜘蛛陷阱就是Session ID(会话ID)。有些网站使用Session ID跟踪用户反问,每个用户访问网站时都会生成独特唯一的Session ID,加在URL中。搜索引擎蜘蛛的每一次访问也会被当成一个新的用户,URL中会加上一个不同的Session ID,这样搜索引擎蜘蛛每次来访问时所得到的同一个页面的URL将不一样,后面带着一个不一样的Session ID也是一个蜘蛛陷阱。各种跳转也是蜘蛛陷阱之一,除了301转向以外,搜索引擎对其他形式的跳转都比较敏感,如:302跳转,JavaScrt跳转,Flash跳转,Meta Refresh跳转。有些网站用户访问首页时会被自动转向到某个目录下的页面。但大部分这种首页转向看不出任何理由和目的,像这样的转向应能勉则勉,不到万不得已,尽量不要使用301转向以外的跳转。框架结构也可以算是一种蜘蛛陷阱,如果你还在使用框架结构的设计,本人在这里建议大家立马停止。不要浪费时间如研究怎么让搜索引擎去收录框架结构网站。因为搜索引擎无法判断框架中的页面内容应属于主框架还是框架调用的文件。动态URL不利于搜索引擎蜘蛛爬行,应该尽量避免。JavaScript链接可以创造出很多好的视觉效果,但是,这也是一种蜘蛛陷阱。在这里,告诉大家,用CSS做导航系统一样能创造出好的视觉效果,所以,大家可以用CSS来代替JavaScript,可能会事半功倍哦!有些网站内容必须用户登陆之后才能看到,我们可以试着猜想一下,如果是搜索引擎想要抓取该页面内容呢,难道也要先登陆吗,要清楚,搜索引擎是不会填写登陆资料和注册会员的。所以,我们也要避免这种蜘蛛陷阱的产生。最后给大家介绍一种非常值得大家注意的蜘蛛陷阱,那就是当一个网站为了实现某种功能,如记住用户登陆信息,跟踪用户访问路径等,强制用户使用Cookies,如果用户的浏览器没有启用Cookies,页面的显示就会不正常。这个问题直接就指向了搜索引擎,因为搜索引擎蜘蛛就相当于一个禁用Cookies的浏览器,如果强制搜索引擎蜘蛛使用Cookies的话就会造成无法正常访问。希望可以帮助到你~望采纳哦~谢谢~

搜索引擎蜘蛛爬取策略  第4张

上一篇:有效客户
下一篇:百度百科词条编辑入口