佛山网络推广告诉你搜索引擎爬虫研究与爬去原则_佛山网站建设|南海建站公司|顺德企业建站|高端网站制作|seo优化公司|企业网络营销|大良网络公司|佛山腾讯邮箱|佛山市华企立方信息技术有限公司

当前位置：首页 > 新闻资讯 新闻资讯

佛山网络推广告诉你搜索引擎爬虫研究与爬去原则

发布者：华企立方发布时间：2017-3-3 9:55:30

我们先来看一下它的定义：网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
从以上的定义来看，百度蜘蛛，谷歌机器人都属于爬虫的一种，而爬虫主要是按照一定的规则，自动抓取信息的脚本或者程序，这个不难理解，有经验的程序员都能够独立的编写出来一套比较完整的蜘蛛程序，用来收集网络信息，充实自己的网站。其实很多的信息采集软件也是采用了这种技术。
那么我们在来看一下蜘蛛到底进行的什么工作：

每一种类型的资源，都有相应的蜘蛛爬虫来搜集，当然解析的方式也各不相同。我们经常能够在网站的日志中看到百度的spider和image-spider，不同的爬虫利用其自身的规则来对其页面进行解析。即使是这样，我们也能够看到爬虫在爬去页面的时候还是有一定的规律性的，这种规律性则是来自于搜索引擎效率最大化的取舍。

宽度优先遍历原则：这个原则是从网站自身做起的，根据网站的层级来抓取。因为我们在做网站的时候都有一个优先的考虑，比如我第一个想让搜索引擎看到的就是首页，其次的各个目录页面，再其次就是内容页面，蜘蛛也是利用这一点来抓取。
非完全pagerank排序：这个原则就是利用谷歌的pr值来计算的。因为每一个网页在谷歌中都会有一个评分，根绝这些评分高低来抓取。如果完全计算就比较耗费计算资源，所以它就采用高pr值的网页传递出来的链接肯定都是可靠的。
OPIC（online page importance computation在线页面重要性计算）：这一个原则跟pr值计算相差无几，在采集的网页中来计算每一个网页的重要性，然后在进行优先抓取。
大站优先策略：这个毋庸置疑了。因为大战比较符合信赖的原则。0 \ c7 W1 |- e5 o

其实我们可以看到，这种原则其实是对抓取的有限性和网页的无限性的一个折中，即在有限的时间内抓取网络中更为重要的页面和资源。当然我们也需要去了解网络爬虫工作的原理，这样的话更有利于我们去做SEO优化。

文章由：佛山网络推广http://www.ceall.net.cn整理提供

『上一篇新闻』禅城网站推广告诉你网站制作中静态网页和动态网页哪个好？
『下一篇新闻』佛山推广网站教你如何做好网站反向链接
『返回上一页』
『返回首页』

此文关键字：

扫一扫加关注

咨询热线

微信咨询