skip to content

以下文字的原文:http://pr.efactory.de/e-pagerank-implementation.shtml

关于 PageRank 的实现,首先,重要的是 PageRank 怎样被 Google 综合考虑进网页的排序。Lawrencec Page 和 Sergey Brin 在公开发表的文章中阐述了这个过程。最初,Google 搜索引擎对于网页的排序由三个因素决定:

  • 页面的特定因素
  • 入链锚的文字内容
  • PageRank

页面的特定因素包是指:网页内容、标题内容和文档的 URL。根据 Page 和 Brin 公开发表的文章,很有可能有更多的因素已经影响到了 Google 的排序方式。但是这里我们并不关心。

为提供搜索结果,Google 根据网页的特定因素和入链锚的文字计算出网页的 IR 值,这个值被检索项在页面中的位置和重要性加权。用这个方法确定文档和搜索语句的相关性。然后此 IR 值结合 PageRank 值表示网页的基本重要程度。为了结合 IR 值和 PageRank 值,这两个值被相乘。很明显不可能是相加的,否则的话如果页面拥有一个很高的 PageRank 值,即使和搜索语句无关,也会在搜索结果中排在前面。

尤其对于 2 条以或更多的关键词所构成的搜索语句,内容相关性对于评级标准的影响更大;相反地,PageRank 主要对于非特定性的单个词作为搜索语句时造成显著的影响。如果 webmasters 的期望搜索短语有 2 个或更多的单词组成,那么可以使用传统的搜索引擎优化可以使他们的结果排在高 PageRank 的页面之前。

如果网页需要为高竞争的搜索条件做优化,即使页面已经在传统的搜索引擎优化方案下很好地被优化了,要得到好的排名基本上还是需要一个高的 PageRank 值。由于为了避免受广泛重复关键词的垃圾页面干扰,IR 值取决于文档中关键词出现的次数和入链锚的文字。因此,传统搜索引擎优化的作用就被限制了,而 PageRank 成了在高竞争的搜索条件领域内的决定性因素。

<< Google 的 PageRank 算法(三) | 使用 Google 工具栏显示 PageRank >>