在线咨询: 点击这里给我发消息 点击这里给我发消息
 
新闻资讯 关于华企立方最新动态加入我们联系方式
 
介绍蜘蛛爬行的三步走
发布日期:6/28/2014
 
 
      网站进行SEO优化都是希望被搜索引擎所收录.就是希望网络蜘蛛能爬到自己的网站里收录信息,吸引蜘蛛爬行自己的网站,对此,佛山网站建设认为一定要懂得蜘蛛爬行的规律。
      第一步:搜索引擎蜘蛛把页面url抓取,获取页面的url存放在数据库。
      第二步:程序对数据库中抓取来的内容进行内容提取,分词建立索引。
      第三步:排名程序对数据库中索引调用,计算内容页面的相关性和权重值,然后按照一定的格式排列在用户搜索页。
      详细的介绍这三个步骤:
      1、搜索引擎又叫做蜘蛛、机器人,当蜘蛛发现一个页面时,服务员会返回页面的html代码。当搜索引擎爬取一个页面时一般都是首先访问网站的robots.txt协议,在明确网站管理设置的禁止抓取协议以后,才对页面进行抓取索引数据库。
      2、搜索引擎蜘蛛抓取的时间是:定期抓取(根据每个搜索引擎蜘蛛的更新时间不一样而异)、增量抓取(在原有的页面上抓取更多的页面)、分类抓取(根据类目不同而抓取的时间不一样,例如新闻类的内容可以几个分钟抓取一次。)
      3、蜘蛛程序对抓取存储在数据库内容的内容提取以及分词建立索引:为了避免重复抓取搜索引擎蜘蛛会建立一个数据库,在每次抓取页面的时候分别详细的记录页面的url,文件大小以及创建日期等。
      搜索引擎把抓取来的页面都存放在数据库中,数据库中的url来源大致有3种途径:搜索引擎蜘蛛爬取页面从html解析出来的url,如果没有访问过的url就把他放在待访问数据库,接着回按照重要性抓取更新的资源页面,如果检测到已经抓取收录的就会把他删了。人工手动写入的url,还有就是站长通过表格提交的url,每一个url都有一个特定的编号。然后对每个url对应的页面进行内容提取,切词分词相关性建立索引,当用户搜索这个词的时候,程序会根据页面的相关性,页面的权重进行合理的排序。
      文章来源:http://www.ceall.net.cn

 
关 闭
 
 
 
 
 
关于我们 | 域名注册 | 虚拟主机 | 网站建设 | 网站推广 | 企业邮局 | 在线招聘 | 付款方式 | 联系我们
华企立方经营:佛山网站建设 佛山网页设计 佛山做网站 佛山网络公司 佛山网站推广 佛山SEO 佛山域名注册 佛山主机托管 中山虚拟主机 佛山网站托管
佛山400电话 佛山短信群发 佛山即时通讯 华企立方官方网站:佛山网络公司 顺德网站建设 南海网络公司 三水网络公司 中山网络公司 顺德网络公司

地 址:佛山市顺德区大良新宁路60号时代大厦14层(海通证券、时代酒店楼上) 电 话:0757-22381556 22309662 传 真:0757-22309662 免费服务热线:400-089-1189
CopyRight www.ceall.net.cn All Rights Reserved 粤ICP备07042303号 本公司常年法律顾问:李全英律师 陈常德律师    网 址:www.ceall.net.cn
友情链接:顺德网站建设 | 顺德做网站 | 南海网站建设 | 南海做网站 | 三水网站建设 | 三水做网站 | 中山网站建设 | 中山做网站 | 顺德网络推广 | 顺德网络公司|
顺德网页设计 | 顺德网站建设| 佛山网页设计 | 佛山网站建设