欢迎光临华企立方官方网站!
400-289-1189
10年网站建设经验(服务上千家客户) 网络营销策划能力(成功策划实施多家企业) 专业的服务团队(超30人的后台服务团队)
当前位置:首页 > 新闻资讯
新闻资讯
介绍蜘蛛爬行的三步走

发布者: 华企立方   发布时间:2014-6-28

      网站进行SEO优化都是希望被搜索引擎所收录.就是希望网络蜘蛛能爬到自己的网站里收录信息,吸引蜘蛛爬行自己的网站,对此,佛山网站建设认为一定要懂得蜘蛛爬行的规律。
      第一步:搜索引擎蜘蛛把页面url抓取,获取页面的url存放在数据库。
      第二步:程序对数据库中抓取来的内容进行内容提取,分词建立索引。
      第三步:排名程序对数据库中索引调用,计算内容页面的相关性和权重值,然后按照一定的格式排列在用户搜索页。
      详细的介绍这三个步骤:
      1、搜索引擎又叫做蜘蛛、机器人,当蜘蛛发现一个页面时,服务员会返回页面的html代码。当搜索引擎爬取一个页面时一般都是首先访问网站的robots.txt协议,在明确网站管理设置的禁止抓取协议以后,才对页面进行抓取索引数据库。
      2、搜索引擎蜘蛛抓取的时间是:定期抓取(根据每个搜索引擎蜘蛛的更新时间不一样而异)、增量抓取(在原有的页面上抓取更多的页面)、分类抓取(根据类目不同而抓取的时间不一样,例如新闻类的内容可以几个分钟抓取一次。)
      3、蜘蛛程序对抓取存储在数据库内容的内容提取以及分词建立索引:为了避免重复抓取搜索引擎蜘蛛会建立一个数据库,在每次抓取页面的时候分别详细的记录页面的url,文件大小以及创建日期等。
      搜索引擎把抓取来的页面都存放在数据库中,数据库中的url来源大致有3种途径:搜索引擎蜘蛛爬取页面从html解析出来的url,如果没有访问过的url就把他放在待访问数据库,接着回按照重要性抓取更新的资源页面,如果检测到已经抓取收录的就会把他删了。人工手动写入的url,还有就是站长通过表格提交的url,每一个url都有一个特定的编号。然后对每个url对应的页面进行内容提取,切词分词相关性建立索引,当用户搜索这个词的时候,程序会根据页面的相关性,页面的权重进行合理的排序。
      文章来源:http://www.ceall.net.cn



『上一篇新闻』搜索引擎对网页的大小有要求吗?
『下一篇新闻』关于网站SEO优化的重点
『返回上一页』
『返回首页』

此文关键字:
相关新闻

扫一扫加关注

微信公众号搜索
"佛山华企立方"

服务热线:
13702423088
Copyright © 2015 佛山市华企立方信息科技有限公司 All Rights Reserved .粤ICP备16014130号
咨询热线

400-9986-936

13702423088

13119895388

微信咨询