【聚杰网搜索引擎】PageRank排名新算法-TSPR理论
2-1-4. 二者的有机结合:主题性搜索引擎的实现
现在我们对主题性页面级别和CIRCA都有了一定的了解,那么接下来的问题就是:这二者之间是如何有机联系的?换言之,Google如何结合这些技术来产生一个更好的搜索引擎呢?
首先,让我们来设想一下:假如对于大量的(上百直至上千个)主题或概念,Google已然解决了如何计算其主题性页面级别的问题。
在Google过去所使用的页面级别系统中,计算结果的精准性是相当重要的。但随着主题性算法的发展,不久我们就可能看到,也许速度快而且效果良好的近似计算结果才是他们所需要的。从上述论文中我们不难看出这一点已然颇具可行性。
现 在,如果用户再查询的话,则查询条件中的词语将至少与CIRCA数据库中若干主题紧密匹配。Google完全能够基于用户所使用的查询条件及数据库中所包含的主题之间的“距离”来提供“主题性页面级别”得分,从而向用户提供更好的搜索结果。查询与主题的关系越密切,则主题性页面级别得分效果越佳。
由于一个给定的搜索查询条件有可能与数据库中的多个主题匹配,所以页面级别计算中出现的任何小错误都将由影响该查询条件的多个主题性页面级别得分平摊,因而只需近似的主题性页面级别得分就足以提供高质量的搜索结果了。
当数据库中无任何主题与用户的查询条件匹配时,则Google可使用原来的页面级别系统。若与查询条件匹配的主题太多,则仍使用新系统计算主题性页面级别得分,尽管新算法可能会与原算法得出的分数相似。如果匹配主题与查询条件之间的相关度很低,则效果亦会大打折扣。
2-1-5. 安然接受和理解算法的改变
可能某些查询条件返回的搜索结果有较大的变动-–但原来在搜索结果中排名在前100位的网页全都被刷下去的情形却少之又少。
有效数据所面临的一个大问题在于:对于发生搜索结果改变较大的报告呈上升趋势。从这些“自述”数据之中我们可以看到Google的很多搜索结果发生了彻底的改变。而造成我们看到这种局面的原因恰好在于,这些“自述”数据中的绝大部分都是由那些排名被刷下来的网站提供的。
我们并未从这些“自述”变化着手,而是采用了另外一种途径,即从若干可用的网上资源中记录下最近时间内发生的搜索,然后观察搜索结果中的变化。
我们随机(没有任何成见地)研究了上百个人们日常使用的真实存在的查询条件,并标识出其中每个查询条件的改变总数,然后我们发现改变的程度在总体上仍保持着一贯的干净局面。在实际生活中,这种根本性的改变只是发生的例外,把它当成规则就大错特错了。
2-1-6. 主题并非关键词... 亦并非十全十美
千万不要把“主题”和“关键词”相混淆。主题代表的是一个综合性题目,例如“计算处理”、“市场营销”等等。而特定的查询条件(关键词),如“笔记本电脑租赁”,“电子邮件营销”等,将与更多的综合性主题联系起来。
但 从Google目前所提供的一些搜索结果来看,不难发现其中的部分搜索结果所匹配的主题是错误的。例如对”laptop rental”,用户搜索“笔记 本租赁”往往是想租赁一台笔记本电脑,但在Google返回的搜索结果中,排在前面的却是大学里面的笔记本租赁信息-- www.google.com/search?sourceid=navclient&q=laptop+rental。










