Kros Dai’ Blog No excuse, no panic

Google的PageRank算法(二)

  Lawrence Page和Sergey Brin在不同的刊物中发表了2个不同版本的PageRank的算法公式。在第二个版本的算法里,页面A的PageRank值是这样得到的:

PR(A) = (1-d) / N + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn)) ——算法2

  这里的是整个互联网网页的总数。这个算法2,并不是完全不同于算法1。随机冲浪模型中,算法2中页面的PageRank值就是在点击许多链接后到达这个页面页面的实际概率。因此,互联网上所有网页的PageRank值形成一个概率分布,所有RageRank值之和为1。



  相反地,第一种算法中随机访问到一个页面的概率受到互联网网页总数的影响。因此,算法2解得的PageRank值就是用户开始访问过程后,该页面被随机访问到的概率的期望值。如果互联网有100个网页,其中一个页面PageRank值为2;那么,如果他将访问互联网的过程重新开始100次(xdanger注:这句话具体含义是,该用户随机点击网页上的链接进入另一个页面,每点击一次都有一定概率因疲劳或厌倦或其他任何原因停止继续点击,这就是阻尼系数d的含义;每当停止点击后,即算作此次访问结束,然后随机给出一个页面让他开始另一次访问过程;让他将这样的“手续”重复进行100次),平均就有2次访问到该页面。

  就像前面所提到的,两种算法并非彼此是本质的不同。用算法2解得的PR(A)乘以互联网的总网页数N,即得到由算法1解得的PR(A)。Page和Brin在他们最著名的刊物《The Anatomy of a Large-Scale Hypertextual Web Search Engine》中调和了两种算法,文中声称算法1是将PageRank形成对于互联网网页的一个概率分布,其和为1。

   接下来,我们将使用算法1。理由是算法1忽略了互联网的网页总数,使得更易于计算。

<< Google的PageRank算法(一) | Google的PageRank算法(三) >>

两任省委书记批示亿万富豪沉冤初雪

  □本报驻蓉记者  曹勇
  看见风车
  风车悠悠地转着,背后一片繁华。这座欧式城堡,现在成了四川德阳的一个标志性建筑。
  德阳人看“大风车”有不同的感受。在民间,它是一个豪华漂亮的休闲娱乐好去处;在政界,这是一笔值得大大夸耀的政绩:当初这里是一片荒地和农田,如今成了繁华的新城。
  但在企业界,“大风车”却有一种别样的解释。一位民营企业家说,看见它,就如同看见了一个人。
  8年前,一个汉子在“大风车”前夸下豪言:“如果给我一口水,我便能造出一片森林,我所索取的,仅仅是一块巴掌大的绿荫。”
  8年后,2003年11月22日下午,这汉子蹲在四川某监狱一个角落里自哀自怜:他的一座座建筑“森林”早已造出,可他却没有得到那“巴掌大的绿荫”。
  他,肖安宁,德阳政通置业有限责任公司董事长兼总经理,20世纪90年代中期德阳最成功的企业家,亿万富豪,现今的阶下囚。
  他原是一个文化人,按他的话说,他是一个理想主义者。



  90年代初,他看准时机迅速崛起,并进而成为当地最大的房地产开发商。90年代中,响应当地政府“再造一个新德阳”的号召,他进入旌湖河东进行开发。据不完全统计,肖在短短的两三年内建造了德阳新城的三分之一。
  一些德阳人惋惜地说,如果没有后来的遭遇,肖安宁当名列当今中国富豪榜。
  许多人认为,肖安宁招灾惹祸的根源在于他“嘴臭”,因为他爱发表自己的观点,“文人气太浓,锋芒毕露”;不爱结交权贵,“没有商人的奸诈、政客的手段”,还“常常从上骂到下”。
  早先事业最辉煌的时候,肖安宁开始着手创办一所大学,准备把它捐献给当地政府。“这固然是我的心愿,体现了一个有良心的、有社会责任感的‘先富起来的人’造福社会的最后归宿;但内心深处,我想以此方式消灾弭祸。因为我感觉到危机已然来临。”他说。
  “人都以为我狂,却哪里知道我内心的惶惑?”肖安宁说,他想要的那块“巴掌大的绿荫”,实际上是一个让私营企业家赖以生存发展的良好外部环境。
  11月22日本报记者见到肖安宁时,他正在看一篇报道———11月6日南方周末头版文章《亿万富翁孙大午的梦和痛》。和孙大午一样,他拒绝“黄道”、“黑道”而选择了“正道”,但他说自己的遭遇显然比孙大午要糟糕得多。

  突遭变故
  上世纪80年代末90年代初,肖安宁就创办了政通公司,按那时的政策,公司挂靠在德阳市文化局名下。
  1994年后,国家要求私人投资的公司与主管单位解除挂靠关系。肖安宁花了两年的时间跑改制,到1996年2月,德阳市文化局、工商局、德阳市政府先后下文,确认国家、集体在政通公司没有资金投入,解除文化局与政通公司的挂靠关系,政通公司改制为有限责任公司。
  “哪晓得我的公司早就被别人打上了算盘。”肖安宁说,改制后不到一个月,变故就发生了。
  1992年,德阳成立了一个省级的经济开发区,肖安宁在政府的动员下,首先进入这个开发区开发房产。
  肖安宁从市委、市政府手上,以每亩10万元的价格在开发区买了百余亩土地。此前,这些土地早已被市委、市政府以及一些机关以迁址办公为名,以每亩2万元的价格圈占。
  1993年,国家紧缩银根,规定闲置两年的土地一律要退耕。肖安宁说,这使德阳上下着急起来:市里有关领导担心高价转手卖地的事露馅,而开发区的领导则担心开发区这块牌子保不住,他们都动员肖安宁大规模开发:“先把摊子铺开再说”。
  结果,肖安宁的资金立即出现困难。在此情形下,肖推出了一个房屋促销方案,把房屋以每平方米拆零售出,承诺一年期满,购房者要房的按当时市价下调25%给房,不要房的,则按增值25%的比例回购。
  德阳市公证处认为此举合法,并自始至终给予公证。后经查实,政通公司在这个名为“优惠购房大酬宾”的促销活动中获得预售房款2000余万元,如数投入了建设。
  1995年,德阳发生“中华楼垮塌事件”,肖安宁尽管与此无关,但连锁反应也使其受到了政策限制。他开发的房屋不能按期投入使用,导致购房者纷纷要求退房。他的资金再次发生困难。
  肖安宁向银行求助。农行德阳市中区农村信用社主任米运国及农行中区支行副行长明再远向肖安宁提出,要以3800万元的价格(不到市价的一半)收购他开发的包括“大风车”及19幢豪华别墅在内的“天眷度假村”大片房产。
  但米运国、明再远向时任德阳市农行某领导汇报并请签字时,该领导指责二人:“你们吃多了!我们正在搞政通公司破产,你把度假村收购了,他有钱还那些购房者,我们还搞个啥子?”
  米运国认为此举“太毒”,不同意,不久之后即被免职。
  一个月后,德阳市中区农村信用社接收了“天眷度假村”全部资产,但分文未付肖安宁,并对购房者宣称,肖安宁收了3900万元房款,不愿退给购房者。此举引发大批购房者到市政府上访。
  肖安宁向市政府求援。他将一摞价值亿元以上的房屋产权证抱到市政府,说:我有这么多房产可以作抵押……
  多年后,肖安宁回忆起这情景,痛悔当年此举暴露了资产,是他“平生所犯的最致命的失误”。
  1995年3月21日晚,“应邀”前来的肖安宁及其未婚妻温敬棠在市政府被抓捕。市领导同时责成时任德阳市检察院副检察长、市反贪局局长的刘先茂将肖安宁抓来,“先抓,后定罪,再去查。”刘先茂被逼签发了逮捕令。
  刘先茂对此案感到难办。于是市政府将材料移交给德阳市中级人民法院,“检察院办不了,法院总办得了。”果然,一年半后,法院认定肖安宁非法吸收公众存款(依据是肖安宁搞优惠购房大酬宾活动)和侵占集体资产两项罪名成立,判处有期徒刑18年。
  多年来,刘先茂“一直为抓了肖安宁而深感良心不安”。2003年11月21日,刘先茂巧遇肖妻温敬棠,告罪说:“你们肯定恨死我了……我做了别人的工具。”
  肖安宁和他的政通公司为何落得如此下场?
  “这是一个阴谋,银行运用经济手段,某些官员运用手中权力,达到了侵吞政通资产的目的。”一位始终关注此事的民营企业家分析。
  但德阳市委有关部门否认了这种说法。

  “破产”过程
  肖安宁被抓当晚,德阳市政府派出大批警察接管政通公司,同时,一个集合了建委、工商、审计、公安、检察、法院等十几个部门,由百余人组成的“集资案领导小组”进驻该公司。
  1996年5月2日,德阳市国资局、文化局、集体经济办公室、体改委4家单位联合行文,重新认定该公司为集体所有制企业。
  之前,市文化局被指令和工商局一起尽快办理将政通公司转为集体所有制的手续。文化局几位负责人深感头痛,专门为此召开会议,并形成备案,说明文化局是在市政府的压力下不得不这样做。可不久,三名副局长即被“下课”。某位时任副局长对本报记者说,文化局此举是为了日后给自己留一条退路。
  一个月后,市文化局一职工被任命为政通公司的法定代表人,到工商局变更了营业执照;同时,文化局发文撤销了肖安宁的法定代表人资格。
  此后,在“集资案领导小组”的催逼下,新任的法定代表人开始写破产申请;6月18日,申请还未递交,德阳市中院已宣布政通公司破产。
  政通公司是否已到了破产的地步?
  肖安宁在改制期间,德阳市东方资产评估事务所对其部分资产进行评估,价值在2亿元以上;加上尚未评估的80余亩黄金地块和7幢在建工程,肖的总资产至少有2.68亿元,而肖当时的债务只有8000万元。
  德阳市政府对外宣称,政通公司“资不抵债”:经破产评估,肖的资产只有8000万元,而债务高达1.2亿元。一位参与破产评估的官员说,肖安宁建造的房屋,后来的评估价比土建造价或者原材料的价格还低,“蒸好的包子价格反而不到面粉的80%”,造价7000多万元的度假村,评估人员大笔一挥,就成了1800万元。
  随后,一场令肖安宁的大姐肖安惠“想起来就忍不住要哭”的资产变卖开始了。
  一幢7000平方米、价值千万的商住楼,市工商局仅用210余万就买下,旋即转手,净赚数百万;一幢价值数千万的临街商住楼,市农行中区支行仅以385万元买下,且搭进了时价100万元的一块地;一幢价值近两千万元的商住楼,市建行以400多万元买下,随即转卖900余万元。
  另外,库房内有一批新买的不锈钢厨具,每套价值6000余元,重新评估时被估为25元,后清算组转手一卖,每套2000元。
  肖安宁私人住宅内的一切财物在他被捕后,由检察院查封,不准亲属监管。后来房子被清算组卖掉,屋内一切家用电器、家具、衣物、书画等私人物品均被洗劫一空。
  擦擦眼泪,肖安惠说,一次,一个朋友对她说:“我画画用的宣纸是你弟弟的。”原来这个朋友的前妻在旌湖开发区工作,政通公司被强制破产时,她就“拿”了若干刀回家(一刀价值500余元)。
  即便如此,政通公司的资产仍然变卖了一亿数千万元,还了农行的贷款以及购房者的房款后,尚余数千万元。
  整个破产财产处理未经公开拍卖。清算组组长名义上是市文化局局长卢尚君,但他说:“财产处理我一概不知。清算组刻了一枚我的章,盖上了我的印。直到2002年5月,清算组才给我送来一纸文件。”

  艰难诉讼
  1996年6月28日,肖安宁的母亲李玉芳和大姐肖安惠以政通公司股东的身份,向四川省高级人民法院提起行政诉讼,状告德阳市国资局等部门错误界定企业产权,导致政通公司丧失财产权、经营权,其私有财产被违法破产。
  四川省高院将此案移交德阳中院审理。
  原告的代理律师覃天云说,合议庭严重违反行政诉讼法规定,直接充任被告的举证人;审判长苏运鸿当庭制造伪证,说此前原告在笔录中陈述“我们没有现金投入,其投入是肖安宁安上去的”等。事后经覃天云调查,笔录中根本没有这等语句,也没有同类意思的表示。
  审判长不允许原告及代理律师发言,宣判“原告主体不合格,本院裁定驳回起诉”。
  200余名旁听者大哗,不明白法院为何“不审而判”。
  2003年11月,当着本报记者的面,当年的审判长苏运鸿和肖妻温敬棠进行了一番对话。苏运鸿说:肖安宁有没有罪,资产到底是谁的,大家都清楚;“上面一定要我这么做,我有啥办法?”
  一审后原告不服,上诉。1996年12月,四川省高院将案子发回德阳中院重审。
  半年后开庭,听到原告的一切书证、人证都被法庭武断地不予采纳,心力交瘁的肖母李玉芳一头栽倒在地,随后气绝。
  肖母临终遗言:“我一生只打了一次官司,只见识了一次法庭,没想到竟然是这样……”
  此案结果:德阳中院撤销了市文化局、体改委、国资局、集体经济办公室等单位认定政通公司为集体所有制的违法文件,但又判定政通公司属集体性质。
  “这是一个非常荒诞、自相矛盾的判决。”肖安宁说,就等于法院判某人抢劫罪成立,却宣布他无罪释放,而被害人的财产判归抢劫犯所有。“法院公然超越行政审判权,用法律文书的形式,维护了被告行政侵权的后果。”肖安宁愤然说
  原告再次上诉。此后历时两年有余,四川省高院专门派员到德阳中院、检察院、四被告等相关单位了解情况,得到的结论是“领导叫这么干的”。
  省高院的办案法官们对肖安宁的遭遇颇为同情。但来自各方的干预,也使法官们为难。
  1999年11月25日,省高院作出判决,“文化局和肖安宁及国家对该企业均无投入”,维持德阳中院原判。
  这个判决被肖安宁认为“十分滑稽可笑”:国家、文化局、我个人都没有投入,那几亿元的资产是从天上掉下来的?
  此案审理中,肖安宁的三舅“受不了刺激”,心脏病突发,猝死在旁听席上。
  但肖安惠、肖安宁姐弟没有放弃,一直坚持申诉,直到今天,坚持了8年。

  胜犹未胜
  此案的代理律师覃天云是四川省社会科学院研究员。“这是我生平代理的最具典型意义、最触目惊心的一个行政侵权案。”她说。
  省高院判决后,年高六旬的覃律师在各种场合“反映情况”,但都无用。2001年9月,覃天云向时任四川省委书记的周永康写信反映:“德阳市政府处理本案的错误做法,在性质上属违法行政,严重侵害了私营企业主的财产权和人身权;两级人民法院成了行政侵权的保护屏障。”周永康很快批复查处。
  然而一年过去没有动静。覃律师再次给周永康写信,周永康再次批复查处。2002年11月29日,四川省高院院长决定重审。
  德阳市政府立即组织应诉班子,现任市委、市府主要领导挂帅。
  再审开庭前,某领导在一个会上称:“政府决不会输给一个个体户,法院也不敢判政府败诉……。”
  2003年3月27日,四川省高院开庭再审,正在服刑的肖安宁站在原告席上,颇引人注目。
  开庭不久,一篇披露政通公司被强行改为集体性质、题为“红帽子为何难摘”的内参文章,引起了现任四川省委书记张学忠的注意。张书记批示,要依法办理此事。
  9月,判决书下达,撤销四川省高院1997年的判决和德阳市中院1997年的认定政通公司产权属集体性质的判决;撤销文化局、原体改委、原集经办、原国资局认定政通公司为集体资产的文件。
  肖安宁说,这个判决对他来说等于胜了,但也等于没有胜利。说它胜了,是因为变相认定了政通公司的私有性质;没胜的是,他请求法院恢复政通公司的合法地位,但法院认为政通公司变更登记(即将私营改为集体)是另一行政行为,“不属本案审理范围”;另外,他提出的赔偿请求,法院也认为不能进行审理,也不能作出判决。
  “我得到了什么?至今我还在为侵占自己的财产而坐牢……”
  肖安惠说,自判决下达到现在,德阳市几家政府部门开始了“推皮球”的游戏,维权之行仍然举步维艰。
  2003年11月23日,本报记者又一次见到肖安宁。他正准备就刑事案提起申诉。
  受了这么多身心煎熬,老肖仍不减当年豪气,嗓门大得监内每个人都能听见:“十六大提出,政府要依法行政;我也知道,国家准备修改宪法,私有财产同样不可侵犯;我还知道,国家要修改赔偿法……我对未来充满信心。”
  他安慰自己:“当初我还执意要在‘大风车’前造一座堂吉诃德的雕塑,今后我想自己不会真的变成大战风车的堂吉诃德。”

  本报记者、特约撰稿人授权本报声明:本报所刊其作品,未经本报许可,不得转载、摘编。申请转载、摘编者请发电子邮件至nfzmcopyright@vip.sina.com。
图:
  即使作为亿万富翁,肖安宁觉得自己的生活依然脆弱。

本报记者  曹勇/摄

Google的PageRank算法(一)

  继续。以下文字翻译自http://pr.efactory.de/e-pagerank-algorithm.shtml


  Lawrence Page和Sergey Brin在个别场合描述了PageRank最初的算法。这就是

PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn)) ——算法1

式中:

  • PR(A) :网页A页的PageRank值;
  • PR(Ti) :链接到A页的网页Ti的PageRank值;
  • C(Ti) :网页Ti的出站链接数量;
  • d :阻尼系数,0<d<1。


  可见,首先,PageRank并不是将整个网站排等级,而是以单个页面计算的。其次,页面A的PageRank值取决于那些连接到A的页面的PageRank的递归值。

  PR(Ti)值并不是均等影响页面PR(A)的。在PageRank的计算公式里,T对于A的影响还受T的出站链接数C(T)的影响。这就是说,T的出站链接越多,A受T的这个连接的影响就越少。

  PR(A)是所有PR(Ti)之和。所以,对于A来说,每多增加一个入站链接都会增加PR(A)

  最后,所有PR(Ti)之和乘以一个阻尼系数d,它的值在0到1之间。因此,阻尼系数的使用,减少了其它页面对当前页面A的排序贡献。

随机冲浪模型

   Lawrence Page和Sergey Brin为以上这个PageRank算法给出了一个非常简单直观的解释。他们将PageRank视作一种模型,就是用户不关心网页内容而随机点击链接。

  网页的PageRank值决定了随机访问到这个页面的概率。用户点击页面内的链接的概率,完全由页面上链接数量的多少决定的,这也是上面PR(Ti)/C(Ti)的原因。

  因此,一个页面通过随机冲浪到达的概率就是链入它的别的页面上的链接的被点击概率的和。并且,阻尼系数d减低了这个概率。阻尼系数d的引入,是因为用户不可能无限的点击链接,常常因无聊而随机跳入另一个页面。

  阻尼系数d定义为用户不断随机点击链接的概率,所以,它取决于点击的次数,被设定为0-1之间。d的值越高,继续点击链接的概率就越大。因此,用户停止点击并随机冲浪至另一页面的概率在式子中用常数(1-d)表示。无论入站链接如何,随机冲浪至一个页面的概率总是(1-d)(1-d)本身也就是页面本身所具有的PageRank值。

 << Google的PageRank概述 | Google的PageRank算法(二) >>

Google的PageRank算法(一)

  继续。以下文字翻译自http://pr.efactory.de/e-pagerank-algorithm.shtml,部分内容参考了hedong的Google的PageRank算法学习


  Lawrence Page和Sergey Brin在个别场合描述了PageRank最初的算法。这就是

PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))

式中:

  • PR(A) :网页A页的PageRank值;
  • PR(Ti) :链接到A页的网页Ti的PageRank值;
  • C(Ti) :网页Ti的出站链接数量;
  • d :阻尼系数,0<d<1。


  可见,首先,PageRank并不是将整个网站排等级,而是以单个页面计算的。其次,页面A的PageRank值取决于那些连接到A的页面的PageRank的递归值。

  PR(Ti)值并不是均等影响页面PR(A)的。在PageRank的计算公式里,T对于A的影响还受T的出站链接数C(T)的影响。这就是说,T的出站链接越多,A受T的这个连接的影响就越少。

  PR(A)是所有PR(Ti)之和。所以,对于A来说,每多增加一个入站链接都会增加PR(A)

  最后,所有PR(Ti)之和乘以一个阻尼系数d,它的值在0到1之间。因此,阻尼系数的使用,减少了其它页面对当前页面A的排序贡献。

随机冲浪模型

   Lawrence Page和Sergey Brin为以上这个PageRank算法给出了一个非常简单直观的解释。他们将PageRank视作一种模型,就是用户不关心网页内容而随机点击链接。

  网页的PageRank值决定了随机访问到这个页面的概率。用户点击页面内的链接的概率,完全由页面上链接数量的多少决定的,这也是上面PR(Ti)/C(Ti)的原因。

  因此,一个页面通过随机冲浪到达的概率就是链入它的别的页面上的链接的被点击概率的和。并且,阻尼系数d减低了这个概率。阻尼系数d的引入,是因为用户不可能无限的点击链接,常常因无聊而随机跳入另一个页面。

  阻尼系数d定义为用户不断随机点击链接的概率,所以,它取决于点击的次数,被设定为0-1之间。d的值越高,继续点击链接的概率就越大。因此,用户停止点击并随机冲浪至另一页面的概率在式子中用常数(1-d)表示。无论入站链接如何,随机冲浪至一个页面的概率总是(1-d)(1-d)本身也就是页面本身所具有的PageRank值。

Google的PageRank概述

Google Logo  前段时间看了 hedong对于PageRank算法学习的文章http://hedong.3322.org/archives/000199.html,参考了PageRank的英文原始资料,感觉hedong写的内容稍微少了点,能有原版译文就更好了!Google了一下,没任何资料……还是自己开金山词霸看吧-.-

  想想反正都看了,索性再花点时间写成文字记下来,方便今后的同道者。可是……555,偶e文实在太Poor了,因此将原文一段段附上,如有严重错误,请一定留言指正!

  这是第一段,译自:Google PageRank Introduction - http://pr.efactory.de/




  Within the past few years, Google has become the far most utilized search engine worldwide. A decisive factor therefore was, besides high performance and ease of use, the superior quality of search results compared to other search engines. This quality of search results is substantially based on PageRank, a sophisticated method to rank web documents.

  在过去几年之内,Google成为了全世界被使用的最多的搜索引擎。与其它搜索引擎比较,除高性能和易用以外,一个决定性的因素是它的优秀的搜索结果。搜索结果的这质量极大地来源于PageRank——一个精密的排序网页文件等级的方式。

  The aim of these pages is to provide a broad survey of all aspects of PageRank. The contents of these pages primarily rest upon papers by Google founders Lawrence Page and Sergey Brin from their time as graduate students at Stanford University.

  本文的主要目的就是对PageRank的各个方面做一次广泛的勘测。本文内容主要依据Google创始人Lawrence Page和Sergey Brin在他们作为斯坦福大学研究生时的文章。

  It is often argued that, especially considering the dynamic of the internet, too much time has passed since the scientific work on PageRank, as that it still could be the basis for the ranking methods of the Google search engine. There is no doubt that within the past years most likely many changes, adjustments and modifications regarding the ranking methods of Google have taken place, but PageRank was absolutely crucial for Google's success, so that at least the fundamental concept behind PageRank should still be constitutive.

  经常被讨论的是,尤其是考虑到互联网的动态性,自从PageRank科学工作开始,许多时间被浪费了,因为他仍然可以是Google搜索引擎的等级等级的基本依据。毋庸置疑,在过去几年内有许多关于Google等级方法的调整和修改,但PageRank是Google成功的绝对关键,因此至少PageRank的根本概念在之后应该仍然不会改变的。

  Since the early stages of the world wide web, search engines have developed different methods to rank web pages. Until today, the occurence of a search phrase within a document is one major factor within ranking techniques of virtually any search engine. The occurence of a search phrase can thereby be weighted by the length of a document (ranking by keyword density) or by its accentuation within a document by HTML tags.

PageRank的概念

  从万维网的早期,搜索引擎开发不同的方法排序网页。实际上,直到今天,任一个搜索引擎对网页的排序,是根据搜索的词组短语在页面中的出现次数,并用页面长度和html标签的重要性提示等进行权重修订。

  For the purpose of better search results and especially to make search engines resistant against automatically generated web pages based upon the analysis of content specific ranking criteria (doorway pages), the concept of link popularity was developed. Following this concept, the number of inbound links for a document measures its general importance. Hence, a web page is generally more important, if many other web pages link to it. The concept of link popularity often avoids good rankings for pages which are only created to deceive search engines and which don't have any significance within the web, but numerous webmasters elude it by creating masses of inbound links for doorway pages from just as insignificant other web pages.

  为了得到更好的搜索结果,尤其是使搜索引擎自动抵制那些基于对详细等级标准页面(入口页)内容的分析而自动生成的网页,连接人气值的概念开始被开发了。根据这个概念,一个网页文件的入链数量通常表示此文件的重要程度。因此,一般地,如果从其他网页链接到一个网页的数量越多,那么这个网页就越重要。链接人气值的概念通常可以避免那些只被创造出来欺骗搜索引擎并且没有任何实际意义的网页得到好的等级,然而,许多网站管理员为了避免发生这种情况,他们从其他没有意义的网页创建大量入站链接,而不是从入口页(doorway pages)。

  Contrary to the concept of link popularity, PageRank is not simply based upon the total number of inbound links. The basic approach of PageRank is that a document is in fact considered the more important the more other documents link to it, but those inbound links do not count equally. First of all, a document ranks high in terms of PageRank, if other high ranking documents link to it.

  与链接人气值向比较,PageRank的概念并不是简单地根据入站链接的总数。PageRank基本的方法是,越是重要的文件链接一个文件,则这个文件就越重要,但那些入站链接并不是被平等计算的。首先,如果其他高等级的文件连接到它,那么根据PageRank的规则,此文件的等级也高。

  So, within the PageRank concept, the rank of a document is given by the rank of those documents which link to it. Their rank again is given by the rank of documents which link to them. Hence, the PageRank of a document is always determined recursively by the PageRank of other documents. Since - even if marginal and via many links - the rank of any document influences the rank of any other, PageRank is, in the end, based on the linking structure of the whole web. Although this approach seems to be very broad and complex, Page and Brin were able to put it into practice by a relatively trivial algorithm.

  如此, 在PageRank概念中,文件的等级由与它连接那些文件的等级决定的。它们的等级再由与他们连接文件的等级决定。因此, 文件的PageRank由其他文件的PageRank总递归之和确定。因为,即使是在边缘的少量链接,任一个文件的等级都会影响些其他文件的等级,概言之,PageRank的等级是由整个网的连接结构决定的。虽然这种方法似乎是非常宽泛和复杂的, Page和Brin已经能够通过一个微不足道的运算法则将它投入实践了。


  个人总结:PageRank绝对是个很科学的小创意。说他科学,你会在我以后的文章中看到Google是如何将数学(具体来说多数是统计学)理论淋漓尽致地发挥在搜索技术之中。说他“小”,因为这些理论对于搞数学的人来说实在太微不足道了,甚至稍微有些科学高数知识的人都能理解。

  我一向认为,搜索引擎对于互联网的价值就好比桌面操作系统对于计算机的价值,微软已经无可争议地占领PC桌面之后,互联网的桌面之争从Internet诞生起就异常惨烈,后来Yahoo!因为进入互联网最早而取得阶段性胜利。不过那时候的搜索引擎对于我们来说好比是马桶……不得不用,一用就恶心。那时无论是Yahoo!AltaVistaAllTheWeb或者Lycos,搜索出来几乎都是大便。

  对于我来说,生命中出现搜索引擎的一天,是我同学的一个英国的同学告诉我用用看www.google.com

Google的PageRank算法(一) >>

This site is licensed under a Creative Commons License .