1、相关性定律:情报检索、信息检索或全文检索的相关性都是基于词频统计的。当用户输入检索词时,搜索引擎去找那些检索词在文章(网页)中出现频率较高的,位置较重要的,再加上一些对检索词本身常用程度的加权,最后排出一个结果来(检索结果页面)。
2、人气定律:解决了技术问题。科学引文索引机制的思路移植到网上就是谁的网页被链接次数多,那个网页就被认为是质量高,人气旺的。再加上相应的链接文字分析,就可以用在搜索结果的排序上了。根据这一定律,搜索结果的相关性排序,并不完全依赖于词频统计,而是更多地依赖于超链分析。
3、自信心定律:根据这一定律,搜索结果的相关性排序,除了词频统计和超链分析之外,更注重的是竞价拍卖。谁对自己的网站有信心,谁就排在前面。有信心的表现就是愿意为这个排名付钱。
百度超链接分析的基本原则:当一个文件被搜索引擎索引进入数据库的时候,连同指向这个文件的超链接以及每个超链接当中使用的锚文字一同记录。而搜索引擎也会建立一个数据库,每个词连同含有这个词的超链接以及这些超链接所指向的文件一同被记录。当一个关键词被搜索的时候,含有以关键词为连接文字的反向链接数目最多的那个文件或网页,将被作为最相关的结果排在前面。
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。