谷歌黑板报--数学之美txt版

数学之美系列一 ‐‐ 统计语言模型 .............................................................................................. 2

数学之美系列二 ‐‐ 谈谈中文分词 .............................................................................................. 3

数学之美系列三 ‐‐ 隐含马尔可夫模型在语言处理中的应用 ................................................... 5

数学之美系列四 ‐‐ 怎样度量信息? ............................................................................................ 7

数学之美系列五 ‐‐ 简单之美：布尔代数和搜索引擎的索引 ................................................... 9

数学之美系列六 ‐‐ 图论和网络爬虫 (Web Crawlers) ............................................................. 11

数学之美系列七 ‐‐ 信息论在信息处理中的应用 .................................................................... 13

数学之美系列八‐‐ 贾里尼克的故事和现代语言处理 .............................................................. 15

数学之美系列九 ‐‐ 如何确定网页和查询的相关性 ................................................................ 17

数学之美系列十有限状态机和地址识别 ................................................................................. 19

数学之美系列十一 ‐ Google 阿卡 47 的制造者阿米特.辛格博士 ........................................ 20

数学之美系列十二 ‐ 余弦定理和新闻的分类 .......................................................................... 21

数学之美系列十三信息指纹及其应用 ..................................................................................... 24

数学之美系列十四谈谈数学模型的重要性 ............................................................................. 25

数学之美系列十五繁与简自然语言处理的几位精英 ........................................................... 27

数学之美系列十六（上）不要把所有的鸡蛋放在一个篮子里 ‐‐ 谈谈最大熵模型 ........... 29

数学之美系列十六（下）－不要把所有的鸡蛋放在一个篮子里最大熵模型 ............... 31

数学之美系列十七闪光的不一定是金子谈谈搜索引擎作弊问题(Search Engine Anti‐SPAM)

........................................................................................................................................................ 32

数学之美系列十八－矩阵运算和文本处理中的分类问题 ................................................... 35

数学之美系列十九－马尔可夫链的扩展贝叶斯网络 (Bayesian Networks) ...................... 37

数学之美系列二十－自然语

言处理的教父马库斯 ............................................................... 38

数学之美系列二十一－布隆过滤器（Bloom Filter） ........................................................... 39

数学之美系列二十二由电视剧《暗算》所想到的 - 谈谈密码学的数学原理 .................. 41

数学之美系列二十三输入一个汉字需要敲多少个键 - 谈谈香农第一定律 ...................... 44

数学之美系列一 ‐‐ 统计语言模型

2006 年 4 月 3 日上午 08:15:00

从本周开始，我们将定期刊登 Google 科学家吴军写的《数学之美》系列文章，介绍数学在信

息检索和自然语言处理中的主导作用和奇妙应用。

发表者: 吴军, Google 研究员

前言

也许大家不相信，数学是解决信息检索和自然语言处理的最好工具。它能非常清晰地描述这些领

域的实际问题并且给出漂亮的解决办法。每当人们应用数学工具解决一个语言问题时，总会感叹

数学之美。我们希望利用 Google 中文黑板报这块园地，介绍一些数学工具，以及我们是如何

利用这些工具来开发 Google 产品的。

系列一：统计语言模型 (Statistical Language Models)

Google 的使命是整合全球的信息，所以我们一直致力于研究如何让机器对信息、语言做最好的

理解和处理。长期以来，人类一直梦想着能让机器代替人来翻译语言、识别语音、认识文字（不

论是印刷体或手写体）和进行海量文献的自动检索，这就需要让机器理解语言。但是人类的语言

可以说是信息里最复杂最动态的一部分。为了解决这个问题，人们容易想到的办法就是让机器模

拟人类进行学习 - 学习人类的语法、分析语句等等。尤其是在乔姆斯基（Noam Chomsky 有

史以来最伟大的语言学家）提出。统计语言模型就是在那个时候提出的。

给大家举个例子：在很多涉及到自然语言处理的领域，如机器翻译、语音识别、印刷体或手写体

识别、拼写纠错、汉字输入和文献查询中，我们都需要知道一个文字序列是否能构成一个大家能

理解的句子，显示给使用者。对这个问题，我们可以用一个简单的统计模型来解决这个问题。

如果 S 表示一连串特定顺序排列的词 w1， w2，?， wn ，换句话说，S 可以表示某一个

由一连串特定顺序排练的词而组成的一个有意义的句子。现在，机器对语言的识别从某种角度来

说，就是想知道 S 在文本中出现的可能性，也就是数学上所说的 S 的概率用 P(S) 来表示。利

用条件概率的公式，S 这个序列出现的概率等于每一个词出现的概率相乘，于是 P(S) 可展开

为：

P(S) = P(w1)P(w2|w1)P(w3| w1 w2)?P(wn|w1 w2?wn-1)

其中 P (w1) 表示第一个词 w1 出现的概率；P (w2|w1) 是在已知第一个词的前提下，第二

个词出现的概率；以次类推。不难看出，到了词 wn，它的出现概率取决于它前面所有词。从计

算上来看，各种可能性太多，无法实现。因此我们假定任意一个词 wi 的出现概率只同它前面的

词 wi-1 有关(即马尔可夫假设），于是问题就变得很简单了。现在，S 出现的概率就变为：

P(S) = P(w1)P(w2|w1)P(w3|w2)?P(wi|wi-1)?

(当然，也可以假设一个词又前面 N-1 个词决定，模型稍微复杂些。）

接下来的问题就是如何估计 P (wi|wi-1)。现在有了大量机读文本后，这个问题变得很简单，

只要数一数这对词（wi-1,wi) 在统计的文本中出现了多少次，以及 wi-1 本身在同样的文本中

前后相邻出现了多少次，然后用两个数一除就可以了,P(wi|wi-1) = P(wi-1,wi)/ P (wi-1)。

也许很多人不相信用这么简单的数学模型能解决复杂的语音识别、机器翻译等问题。其实不光是

常人，就连很多语言学家都曾质疑过这种方法的有效性，但事实证明，统计语言模型比任何已知

的借助某种规则的解决方法都有效。比如在 Google 的中英文自动翻译中，用的最重要的就是

这个统计语言模型。去年美国标准局(NIST) 对所有的机器翻译系统进行了评测，Google 的系

统是不仅是全世界最好的，而且高出所有基于规则的系统很多。

现在，读者也许已经能感受到数学的美妙之处了，它把一些复杂的问题变得如此的简单。当然，

真正实现一个好的统计语言模型还有许多细节问题需要解决。贾里尼克和他的同事的贡献在于提

出了统计语言模型，而且很漂亮地解决了所有的细节问题。十几年后，李开复用统计语言模型把

997 词语音识别的问题简化

成了一个 20 词的识别问题，实现了有史以来第一次大词汇量非特

定人连续语音的识别。

我是一名科学研究人员，我在工作中经常惊叹于数学语言应用于解决实际问题上时的神奇。我

也希望把这种神奇讲解给大家听。当然，归根结底，不管什莫样的科学方法、无论多莫奇妙的解

决手段都是为人服务的。我希望 Google 多努力一分，用户就多一分搜索的喜悦。

数学之美系列二 ‐‐ 谈谈中文分词

2006 年 4 月 10 日上午 08:10:00

发表者: 吴军， Google 研究员

谈谈中文分词

----- 统计语言模型在中文处理中的一个应用

上回我们谈到利用统计语言模型进行语言处理，由于模型是建立在词的基础上的，对于中日韩等

语言，首先需要进行分词。例如把句子，那么（P 表示概

率）：

P (A1, A2, A3, ..., Ak）〉 P (B1, B2, B3, ..., Bm), 并且

P (A1, A2, A3, ..., Ak）〉 P(C1, C2, C3, ..., Cn)

因此，只要我们利用上回提到的统计语言模型计算出每种分词后句子出现的概率，并找出其中概

率最大的，我们就能够找到最好的分词方法。

当然，这里面有一个实现的技巧。如果我们穷举所有可能的分词方法并计算出每种可能性下句子

的概率，那么计算量是相当大的。因此，我们可以把它看成是一个动态规划（Dynamic

Programming) 的问题，并利用 &id=980775

数学之美系列三 ‐‐ 隐含马尔可夫模型在

语言处理中的应用

2006 年 4 月 17 日上午 08:01:00

发表者：吴军，Google 研究员

前言：隐含马尔可夫模型是一个数学模型，到目前为之，它一直被认为是实现快速精确的语音识

别系统的最成功的方法。复杂的语音识别问题通过隐含马尔可夫模型能非常简单地被表述、解决，

让我不由由衷地感叹数学模型之妙。

自然语言是人类交流信息的工具。很多自然语言处理问题都可以等同于通信系统中的解码问题

-- 一个人根据接收到的信息，去猜测发话人要表达的意思。这其实就象通信中，我们根据接收

端收到的信号去分析、理解、还原发送端传送过来的信息。以下该图就表示了一个典型的通信系

统：

其中 s1，s2，s3...表示信息源发出的信号。o1, o2, o3 ... 是接受器接收到的信号。通信中

的解码就是根据接收到的信号 o1, o2, o3 ...还原出发送的信号 s1，s2，s3...。

其实我们平时在说话时，脑子就是一个信息源。我们的喉咙（声带），空气，就是如电线和光缆

般的信道。听众耳朵的就是接收端，而听到的声音就是传送过来的信号。根据声学信号来推测说

话者的意思，就是语音识别。这样说来，如果接收端是一台计算机而不是人的话，那么计算机要

做的就是语音的自动识别。同样，在计算机中，如果我们要根据接收到的英语信息，推测说话者

的汉语意思，就是机器翻译；如果我们要根据带有拼写错误的语句推测说话者想表达的正确意

思，那就是自动纠错。

那么怎么根据接收到的信息来推测说话者想表达的意思呢？我们可以利用叫做许会问，你现在是不是把问题变得更复杂了，因为公式越写越长了。别着急，

我们现在就来简化这个问题。）我们在这里做两个假设：

第一，s1,s2,s3,... 是一个马尔可夫链，也就是说，si 只由 si-1 决定 (详见系列一)；

第二，第 i 时刻的接收信号 oi 只由发送信号 si 决定（又称为独立输出假设, 即

P(o1,o2,o3,...|s1,s2,s3....) = P(o1|s1) * P(o2|s2)*P(o3|s3)...。

那么我们就可以很容易利用算法 Viterbi 找出上面式子的最大值，进而找出要识别的句子

s1,s2,s3,...。

满足上述两个假设的模型就叫隐含马尔可夫模型。我们之所以用gle 一直以信息量比五比特少。香农指出，它的

准确信息量应该是

= -（p1*log p1 + p2 * log p2 + ．．．＋p32 *log p32)，

其中，p1，p2 ，．．．，p32 分别是这 32 个球队夺冠的概率。香农把它称为页自动下载。］

世界上不可能有比二进制更简单的计数方法了，也不可能有比布尔运算更简单的运算了。尽管今

天每个搜索引擎都宣称自己如何聪明、多么智能化，其实从根本上讲都没有逃出布尔运算的框框。

布尔（George Boole) 是十九世纪英国一位小学数学老师。他生前没有人认为他是数学家。布

尔在工作之余，喜欢阅读数学论著、思考数学问题。1854 年询语句器中。每当接受一个查询

时，这个查询就被分送到许许多多服务器中，这些服务器同时并行处理用户请求，并把结果送到

主服务器进行合并处理，最后将结果返回给用户。

不管索引如何复杂，查找的基本操作仍然是布尔运算。布尔运算把逻辑和数学联系起来了。它的

最大好处是容易实现，速度快，这对于海量的信息查找是至关重要的。它的不足是只能给出是与

否的判断，而不能给出量化的度量。因此，所有搜索引擎在内部检索完毕后，都要对符合要求的

网页根据相关性排序，然后才返回给用户。

数学之美系列六 ‐‐ 图论和网络爬虫

(Web Crawlers)

2006 年 5 月 15 日上午 07:15:00

发表者: 吴军，Google 研究员

[离散数学是当代数学的一个重要分支，也是计算机科学的数学基础。它包括数理逻辑、集合论、

图论和近世代数四个分支。数理逻辑基于布尔运算，我们已经介绍过了。这里我们介绍图论和互

联网自动下载工具网络爬虫 (Web Crawlers) 之间的关系。顺便提一句，我们用 Google

Trends 来搜索一下可能广地访问每个节点所直接连接的其他节点。另外还

有一种策略是从北京出发，随便找到下一个要访问的城市，比如是济南，然后从济南出发到下一

个城市，比如说南京，再访问从南京出发的城市，一直走到头。然后再往回找，看看中间是否有

尚未访问的城市。这种方法叫务，就是网络设计和程序设计的艺术了。

数学之美系列七 ‐‐ 信息论在信息处理中

的应用

2006 年 5 月 25 日上午 07:56:00

发表者：吴军, Google 研究员

我们已经介绍了信息熵，它是信息论的基础，我们这次谈谈信息论在自然语言处理中的应用。

先看看信息熵和语言模型的关系。我们在系列一中谈到语言模型时，没有讲如何定量地衡量一个

语言模型的好坏，当然，读者会很自然地想到，既然语言模型能减少语音识别和机器翻译的错误，

那么就拿一个语音识别系统或者机器翻译软件来试试，好的语言模型必然导致错误率较低。这种

想法是对的，而且今天的语音识别和机器翻译也是这么做的。但这种测试方法对于研发语言模型

的人来讲，既不直接、又不方便，而且很难从错误率反过来定量度量语言模型。事实上，在贾里

尼克(Fred Jelinek)的人研究语言模型时，世界上既没有像样的语音识别系统，更没有机器翻译。

我们知道，语言模型是为了用上下文预测当前的文字，模型越好，预测得越准，那么当前文字的

不确定性就越小。

信息熵正是对不确定性的衡量，因此信息熵可以直接用于衡量统计语言模型的好坏。贾里尼克从

信息熵出发，定义了一个称为语言模型复杂度(Perplexity)的概念，直接衡量语言模型的好坏。

一个模型的复杂度越小，模型越好。李开复博士在介绍他发明的 Sphinx 语音识别系统时谈到，

如果不用任何语言模型（即零元语言模型）时，复杂度为 997，也就是说句子中每个位置有 997

个可能的单词可以填入。如果（二元）语言模型只考虑前后词的搭配不考虑搭配的概率时，复杂

度为 60。虽然它比不用语言模型好很多，但是和考虑了搭配概率的二元语言模型相比要差很多，

因为后者的复杂度只有 20。

信息论中仅次于熵的另外两个重要的概念是这个词呢？人们很容易想到要用语法、要分析语句等等。其实，至今为止，没有一种

语法能很好解决这个问题，真正实用的方法是使用互信息。具体的解决办法大致如下：首先从大

量文本中找出和总统布什一起出现的互信息最大的一些词，比如总统、美国、国会、华盛顿等等，

当然，再用同样的方法找出和灌木丛一起出现的互信息最大的词，比如土壤、植物、野生等等。

有了这两组词，在翻译 Bush 时，看看上下文中哪类相关的词多就可以了。这种方法最初是由

吉尔(Gale)，丘奇(Church)和雅让斯基(Yarowsky)提出的。

当时雅让斯基在宾西法尼亚大学是自然语言处理大师马库斯 (Mitch Marcus) 教授的博士生，

他很多时间泡在贝尔实验室丘奇等人的研究室里。也许是急于毕业，他在吉尔等人的帮助下想出

了一个最快也是最好地解决翻译中的二义性，就是上述的方法，这个看上去简单的方法效果好得

让同行们大吃一惊。雅让斯基因而只花了三年就从马库斯那里拿到了博士，而他的师兄弟们平均

要花六年时间。

信息论中另外一个重要的概念是经历的，要么是他亲口对我讲的。

弗莱德里克.贾里尼克(Fred Jelinek)出生于捷克一个富有的犹太家庭。他的父母原本打算送他

去英国的公学（私立学校）读书。为了教他德语，还专门请的一位德国的家庭女教师，但是第二

次世界大战完全打碎了他们的梦想。他们先是被从家中赶了出去，流浪到布拉格。他的父亲死在

了集中营，弗莱德自己成天在街上玩耍，完全荒废了学业。二战后，当他再度回到学校时，他的

成绩一塌糊涂，全部是 D，但是很快他就赶上了班上的同学。不过，他在小学时从来没有得过

A。1949 年，他的母亲带领全家移民美国。在美国，贾里尼克一家生活非常贫困，全家基本是

靠母亲做点心卖钱为生，弗莱德自己十四五岁就进工厂打工补助全家。

贾里尼克最初想成为一个律师，为他父亲那样的冤屈者辩护，但他很快意识到他那浓厚的外国口

音将使他在法庭上的辩护很吃力。贾里尼克的第二个理想是成为医生，他想进哈佛大学医学院，

但经济上他无法承担医学院 8 年高昂的学费。与此同时麻省理工学院给于了他一份（为东欧移

民设的）全额奖学金。贾里尼克决定到麻省理工学电机工程。在那里，他遇到了信息论的鼻祖香

农博士，和语言学大师贾格布森 Roman Jakobson (他提出了著名的通信六功能）[注释一]，

后来贾里尼克又陪着太太听最伟大的语言学家乔姆斯基(Noam Chomsky)的课。这三位大师对

贾里尼克今后的研究方向--利用信息论解决语言问题产生的重要影响。

贾里尼克从麻省理工获得博士学位后，在哈佛大学教了一年书，然后到康乃尔大学任教。他之所

以选择康乃尔大学，是因为找工作时和那里的一位语言学家谈得颇为投机。当时那位教授表示愿

意和贾里尼克在利用信息论解决语言问题上合作。但是，等贾里尼克到康乃尔以后，那位教授表

示对语言学在没有兴趣而转向写歌剧了。贾里尼克对语言学家的坏印象从此开始。加上后来他在

IBM 时发现语言学家们嘴上头头是道，干起活来高不成低不就，对语言学家从此深恶痛绝。他

甚至说：建了阵容空前绝后强大的研究队伍，其中包括他的著名搭档波尔（Bahl），著名的语

音识别 Dragon 公司的创始人贝克夫妇，解决最大熵迭代算法的达拉皮垂(Della Pietra)孪生

兄弟，BCJR 算法的另外两个共同提出者库克(Cocke)和拉维夫(Raviv)，以及第一个提出机器

翻译统计模型的布朗。

七十年代的 IBM 有点像九十年代的微软和今天的 Google, 给于杰出科学家作任何有兴趣研

究的自由。在那种宽松的环境里，贾里尼克等人提出了统计语音识别的框架结构。在贾里尼克

以前，科学家们把语音识别问题当作人工智能问题和模式匹配问题。而贾里尼克把它当成通信问

题，并用两个隐含马尔可夫模型（声学模型和语言模型）把语音识别概括得清清楚楚。这个框架

结构对至今的语音和语言处理有着深远的影响，它从根本上使得语音识别有实用的可能。贾里

尼克本人后来也因此当选美国工程院院士。

贾里尼克和波尔，库克以及拉维夫对人类的另一大贡献是 BCJR 算法，这是今天数字通信中应

用的最广的两个算法之一（另一个是维特比算法）。有趣的是，这个算法发明了二十年后，才得

以广泛应用。IBM 于是把它列为了 IBM 有史以来对人类最大贡献之一，并贴在加州 Amaden

实现室墙上。遗憾的是 BCJR 四个人已经全部离开 IBM，有一次 IBM 的通信部门需要用这个

算法，还得从斯坦福大学请一位专家去讲解，这位专家看到 IBM 橱窗里的成就榜，感慨万分。

贾里尼克和 IBM 一批最杰出的科学家在九十年代初离开了 IBM，他们大多数在华尔街取得了

巨大的成功。贾里尼克的书生气很浓，于是去约翰霍普金斯大学建立了世界著名的 CLSP 实验

室。每年夏天，贾里尼克邀请世界上 20-30 名顶级的科学家和学生到 CLSP 一起工作，使得

CLSP 成为世界上语音和语言处理的中心之一。

贾里尼克治学极为严谨，对学生要求也极严。他淘汰学生的比例极高，即使留下来的，毕业时间

也极长。但是，另一方面，贾里尼克也千方百计利用自己的影响力为学生的学习和事业创造方便。

贾里尼克为组里的每一位学生提供从进组第一天到离开组最后一天全部的学费和生活费。他还为

每一位学生联系实习机会，并保证每位学生在博士生阶段至少在大公司实习一次。从他那里拿到

博士学位的学生，全部任职于著名实验室，比如 IBM, 微软，AT&T 和 Google 的实验室。为

了提高外国人的英语水平，贾里尼克用自己的经费为他们请私人英语教师。

贾里尼克生活俭朴，一辆老式丰田车开了二十多年，比组里学生的车都破。他每年都邀请组里的

学生

和教授到家里做客，很多毕业了的学生也专程赶来聚会。在那里，他不再谈论学术问题，而

会谈些巩俐的电影（他太太是哥伦比亚大学电影专业的教授），或是某著名教授被拉斯韦加斯的

赌馆定为不受欢迎的人等等。但是他聚会的食物实在难吃，无非是些生胡萝卜和芹菜。后来贾里

尼克掏钱让系里另一个教授承办聚会，那个教授每次请专业大厨在家作出极丰盛的晚宴，并准备

许多美酒，从此这种聚会就转移到那个教授家了。

除了巩俐的电影，贾里尼克对中国的了解就是清华大学和青岛啤酒了。他有时会把两个名字搞混，

有两次被香港科技大学的 Pascale 冯教授抓住。

贾里尼克说话心直口快，不留余地。在他面前谈论学术一定要十分严谨，否则很容易被他抓住辫

子。除了刚才提到的对语言学家略有偏见的评论，他对许多世界级的大师都有过很多ncy)，比如，在某个

一共有一千词的网页中单求和变成了加权求和，即 TF1*IDF1 +

TF2*IDF2 ＋... + TFN*IDFN。在上面的例子中，该网页和些状态（节点）和连接

这些状态的有向弧。下图是一个识别中国地址的有限状态机的简单的例子。

每一个有限状态机都有一个启始状态和一个终止状态和若干中间状态。每一条弧上带有从一个状

态进入下一个状态的条件。比如，在上图中，当前的状态是编程工具的

好传统，他们三人也把自己多年的心血拿出来和同行们共享。可惜好景不长，AT&T 实验室风

光不再，这三个人都离开了 AT&T，莫瑞成了纽约大学的教授，皮瑞尔当了宾西法尼亚大学计

算机系系主任，而瑞利成了 Google 的研究员，AT&T 实验室的新东家不再免费提供有限状态

机 C 语言工具库。虽然此前莫瑞等人公布了他们的详细算法，但是省略了实现的细节。因此在

学术界，不少科学家能够重写同样功能的工具库，但是很难达到 AT&T 工具库的效率（即运算

速度），这的确是一件令人遗憾的事。

数学之美系列十一 ‐ Google 阿卡 47 的

制造者阿米特.辛格博士

2006 年 7 月 10 日上午 09:52:00

发表者：Google 研究员，吴军

枪迷或者看过尼古拉斯.凯奇（Nicolas Cage)主演的电影方法的有效性。不少人试图用精确而复杂的办法对辛格的设计的各

种计算出它们的单

文本词汇频率/逆文本频率值（TF/IDF)。不难想象，和新闻主题有关的那些实词频率高，TF/IDF

值很大。我们按照这些实词在词汇表的位置对它们的 TF/IDF 值排序。比如，词汇表有六万四

千个词，分别为

单词编号汉字词

------------------

1 阿

2 啊

3 阿斗

4 阿姨

...

789 服装

....

64000 做作

在一篇新闻中，这 64,000 个词的 TF/IDF 值分别为

单词编号 TF/IDF 值

==============

1 0

2 0.0034

3 0

4 0.00052

5 0

...

789 0.034

...

64000 0.075

如果单词表中的某个次在新闻中没有出现，对应的值为零，那么这 64,000 个数，组成一个

64,000 维的向量。我们就用这个向量来代表这篇新闻，并成为新闻的特征向量。如果两篇新闻

的特征向量相近，则对应的新闻内容相似，它们应当归在一类，反之亦然。

学过向量代数的人都知道，向量实际上是多维空间中有方向的线段。如果两个向量的方向一致，

即夹角接近零，那么这两个向量就相近。而要确定两个向量方向是否一致，这就要用到余弦定理

计算向量的夹角了。

余弦定理对我们每个人都不陌生，它描述了三角形中任何一个夹角和三个边的关系，换句话说，

给定三角形的三条边，我们可以用余弦定理求出三角形各个角的角度。假定三角形的三条边为 a,

b 和 c，对应的三个角为 A, B 和 C，那么角 A 的余弦 --

如果我们将三角形的两边 b 和 c 看成是两个向量，那么上述公式等价于

其中分母表示两个向量 b 和 c 的长度，分子表示两个向量的内积。举一个具体的例子，假如

新闻 X 和新闻 Y 对应向量分别是

x1,x2,...,x64000 和

y1,y2,...,y64000,

那么它们夹角的余弦等于，

当两条新闻向量夹角的余弦等于一时，这两条新闻完全重复（用这个办法可以删除重复的网页）；

当夹角的余弦接近于一时，两条新闻相似，从而可以归成一类；夹角的余弦越小，两条新闻越不

谷歌黑板报--数学之美txt版

相关内容

热门内容

标签