企业网络营销顾问-山东网络营销策划专家,为中小企业网络营销人员提供电子商务解决方案。

什么是搜索引擎蜘蛛(spider)?

        如果把互联网比喻成一个蜘蛛网,那么spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其他链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。
        搜索引擎蜘蛛(spider)在网站上采集内容的过程是,当一个未加载任何数据的空spider顺着互联网上的URL来到某个网站时,一般会按照如下流程进行工作:
        (1)检查网页是不是有过更新。这个过程中spider会把网页的内容和服务器上的快照内容进行对比,如果不同,就抓取新的网页内容,将其带到搜索引擎的数据库,并更新原来的网页快照。
        (2)如果是新网页,蜘蛛不但要抓取该网页的内容,还要将网页的URL带到搜索引擎的数据库。
        (3)经过数据处理,将蜘蛛带回的数据建立新的网页索引,并按照与关键词的相关度排序。

        当然,实际的搜索引擎工作过程是十分复杂的,包括数据挖掘、网页文件抓取、倒排索引、中文分词、分类和聚类、TF-IDF修改、信噪比计算、内容消重和反SPAM机制等一系列的工作。
 

标签:spider搜索引擎蜘蛛
分类:seo优化| 发布:阿东| 查看: | 发表时间:2011-2-14
原创文章如转载,请注明:转载自企业网络营销顾问 http://www.wlyxe.cn/
本文链接:http://www.wlyxe.cn/seo/38/38.html

相关文章

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

Powered By Z-Blog 1.8 | Login | Theme By Seanloo.cn