简单来说,搜索引擎是由网络爬虫、索引数据库、其他辅助程序和搜索结果显示页面组成的。搜索引擎首先会派出能够从互联网上自动收集信息的搜索引擎蜘蛛(spider),通过互联网之间的URL链接来获取到网页的内容。接着,搜索引擎蜘蛛会把找到的这些信息带回数据服务器,由分析索引系统对收集回来的信息进行分析处理,例如提取URL、提取页面编码、获取网页各项内容和页面生成时间等。搜索引擎根据大量的相关度算法对这些网页进行计算,得出网页与关键词之间的相关度,在将得出的结果进行分类、消重、清除SPAM(搜索引擎垃圾网页)等一系列的工作后,搜索引擎会把这些信息录入到索引数据库中。当用户进行相关关键词查询时,搜索引擎会从索引数据库中找到最匹配的信息,反馈给用户。在这个过程中,大部分工作是由计算机程序完成的,只有在处理一些特殊数据的时候,才会采取人工干预手段。
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。