重要的搜索引擎收集网页的原理
发布者: 华企立方 发布时间:2014-1-22
1.搜索引擎对于网页数据的收集是预先收集而非在用户搜索的时候即时收集显示的,网络上庞大的信息量决定了搜索引擎不可能在用户每次搜索的时候再收集数据,我们查询得到的结果都是搜索引擎预先处理后放到数据库中的数据。
2.蜘蛛负责采集网站数据但蜘蛛的行为是受程序控制的。搜索引擎的蜘蛛每时每刻都在网络上爬行,它的爬行是有规律性的,搜索引擎会根据网站的更新规律来调度蜘蛛从而提高工作效率,譬如一个天天更新的网站蜘蛛可能会每天都来采集数据,相反,一个网站如果一周才更新一次,蜘蛛在爬行几次抓住更新规律后可能会一周来爬行一次,所以说,有规律的更新网站更有利于内容的收录和快照更新。
3.搜索引擎收集网页是从一些种子站点开始的,蜘蛛的爬行必须有一个起点,这些起点就被称为种子站点,这些站点通常是一些权重很高的网站,所以说对于一个新站,如果你能在这些网站首页上留一个链接很可能会被妙收的,因为这些站点的权重高,蜘蛛几乎每时每刻都来这些网站采集数据。
4.搜索引擎有两种爬行策略:深度优先和广度优先。对于不同的站点搜索引擎的爬行策略也是不一样的,深度优先指的是蜘蛛在爬行到一个网站时候顺着一个链接一直往下采集,譬如首页-栏目页-内容页,一直到找不到下级链接为止,而蜘蛛在遵循广度优先的时候是一层一层爬行的,先爬完栏目页才会去抓取内容页。对于新站,搜索引擎往往遵循广度优先的策略,所以说往往首页,栏目页先被收录。
更多资讯来自:
佛山网站建设http://www.ceall.net.cn
此文关键字: