2019款艾力绅最新消息:数学之美系列三 -- 隐含马尔可夫模型在语言处理中的应用

来源：百度文库编辑：中财网时间：2024/05/09 04:14:13

数学之美系列三 -- 隐含马尔可夫模型在语言处理中的应用

2006年4月17日上午 08:01:00

发表者：吴军，Google 研究员

前言：隐含马尔可夫模型是一个数学模型，到目前为之，它一直被认为是实现快速精确的语音识别系统的最成功的方法。复杂的语音识别问题通过隐含马尔可夫模型能非常简单地被表述、解决，让我不由由衷地感叹数学模型之妙。

自然语言是人类交流信息的工具。很多自然语言处理问题都可以等同于通信系统中的解码问题 --一个人根据接收到的信息，去猜测发话人要表达的意思。这其实就象通信中，我们根据接收端收到的信号去分析、理解、还原发送端传送过来的信息。以下该图就表示了一个典型的通信系统：

其中 s1，s2，s3...表示信息源发出的信号。o1, o2, o3 ... 是接受器接收到的信号。通信中的解码就是根据接收到的信号 o1, o2, o3 ...还原出发送的信号 s1，s2，s3...。

其实我们平时在说话时，脑子就是一个信息源。我们的喉咙（声带），空气，就是如电线和光缆般的信道。听众耳朵的就是接收端，而听到的声音就是传送过来的信号。根据声学信号来推测说话者的意思，就是语音识别。这样说来，如果接收端是一台计算机而不是人的话，那么计算机要做的就是语音的自动识别。同样，在计算机中，如果我们要根据接收到的英语信息，推测说话者的汉语意思，就是机器翻译；如果我们要根据带有拼写错误的语句推测说话者想表达的正确意思，那就是自动纠错。

那么怎么根据接收到的信息来推测说话者想表达的意思呢？我们可以利用叫做“隐含马尔可夫模型”（Hidden Markov Model）来解决这些问题。以语音识别为例，当我们观测到语音信号 o1,o2,o3时，我们要根据这组信号推测出发送的句子 s1,s2,s3。显然，我们应该在所有可能的句子中找最有可能性的一个。用数学语言来描述，就是在已知o1,o2,o3,...的情况下，求使得条件概率
P (s1,s2,s3,...|o1,o2,o3....) 达到最大值的那个句子 s1,s2,s3,...

当然，上面的概率不容易直接求出，于是我们可以间接地计算它。利用贝叶斯公式并且省掉一个常数项，可以把上述公式等价变换成

P(o1,o2,o3,...|s1,s2,s3....) * P(s1,s2,s3,...)
其中
P(o1,o2,o3,...|s1,s2,s3....) 表示某句话 s1,s2,s3...被读成 o1,o2,o3,...的可能性, 而
P(s1,s2,s3,...) 表示字串 s1,s2,s3,...本身能够成为一个合乎情理的句子的可能性，所以这个公式的意义是用发送信号为 s1,s2,s3...这个数列的可能性乘以 s1,s2,s3...本身可以一个句子的可能性，得出概率。

（读者读到这里也许会问，你现在是不是把问题变得更复杂了，因为公式越写越长了。别着急，我们现在就来简化这个问题。）我们在这里做两个假设：

第一，s1,s2,s3,... 是一个马尔可夫链，也就是说，si 只由 si-1 决定 (详见系列一)；
第二，第 i 时刻的接收信号 oi 只由发送信号 si 决定（又称为独立输出假设, 即 P(o1,o2,o3,...|s1,s2,s3....) = P(o1|s1) * P(o2|s2)*P(o3|s3)...。
那么我们就可以很容易利用算法 Viterbi 找出上面式子的最大值，进而找出要识别的句子 s1,s2,s3,...。

满足上述两个假设的模型就叫隐含马尔可夫模型。我们之所以用“隐含”这个词，是因为状态 s1,s2,s3,...是无法直接观测到的。

隐含马尔可夫模型的应用远不只在语音识别中。在上面的公式中，如果我们把 s1,s2,s3,...当成中文，把o1,o2,o3,...当成对应的英文，那么我们就能利用这个模型解决机器翻译问题；如果我们把o1,o2,o3,...当成扫描文字得到的图像特征，就能利用这个模型解决印刷体和手写体的识别。

P(o1,o2,o3,...|s1,s2,s3....) 根据应用的不同而又不同的名称，在语音识别中它被称为“声学模型” (AcousticModel)，在机器翻译中是“翻译模型” (Translation Model) 而在拼写校正中是“纠错模型” (CorrectionModel)。而P (s1,s2,s3,...) 就是我们在系列一中提到的语言模型。

在利用隐含马尔可夫模型解决语言处理问题前，先要进行模型的训练。常用的训练方法由伯姆（Baum）在60年代提出的，并以他的名字命名。隐含马尔可夫模型在处理语言问题早期的成功应用是语音识别。七十年代，当时 IBM 的 Fred Jelinek (贾里尼克) 和卡内基·梅隆大学的 Jim and Janet Baker (贝克夫妇，李开复的师兄师姐) 分别独立地提出用隐含马尔可夫模型来识别语音，语音识别的错误率相比人工智能和模式匹配等方法降低了三倍 (从 30% 到10%)。八十年代李开复博士坚持采用隐含马尔可夫模型的框架，成功地开发了世界上第一个大词汇量连续语音识别系统 Sphinx。

我最早接触到隐含马尔可夫模型是几乎二十年前的事。那时在《随机过程》（清华“著名”的一门课）里学到这个模型，但当时实在想不出它有什么实际用途。几年后，我在清华跟随王作英教授学习、研究语音识别时，他给了我几十篇文献。我印象最深的就是贾里尼克和李开复的文章，它们的核心思想就是隐含马尔可夫模型。复杂的语音识别问题居然能如此简单地被表述、解决，我由衷地感叹数学模型之妙。

固定链接 |

google 黑板报数学之美: 1.统计语言模型 2. 谈谈中文分词 3. 隐含马尔可夫模型在语言处理中的应用 4. 怎样度量信息 5. 简单之美：布尔代数和搜索引擎的索引6. 图论和网络爬虫(Web Crawlers) 7. 信息论在信息处理中的应用 8. 贾里尼克的故事和现代语言处理 ...
posted by 康海洋 @9:13 上午
Bayesian Networks網路結構應用在設計: Google黑板报-- Google 中国的博客网志: 数学之美系列十九－马尔可夫链我们在前面的系列中多次提到马尔可夫链(MarkovChain)，它描述了一种状态序列，其每个状态值取决于前面有限个状态。这种模型，对很多实际问题来讲是一种很粗略的简化。 ...
posted by vaw team @6:12 上午
哇哇哇，又找到一个好看的东东: 数学之美系列Google 黑板报-- 数学之美系列一-- 统计语言模型 Google 黑板报-- 数学之美系列二-- 谈谈中文分词Google 黑板报-- 数学之美系列三-- 隐含马尔可夫模型在语言处理中的应用 Google 黑板报-- 数学之美系列四-- 怎样度量信息...
posted by 集装箱式回收站 @7:47 下午
数学之美系列十九－马尔可夫链的扩展贝叶斯网络(Bayesian Networks): 数学之美系列十九. －马尔可夫链的扩展. －贝叶斯网络(Bayesian Networks). 发表者：Google 研究员，吴军.我们在前面的系列中多次提到马尔可夫链(Markov Chain)，它描述了一种状态序列，其每个状态值取决于前面有限个状态。这种模型，对很多实际问题来 ...
posted by @6:28 下午
数学之美系列十-- 有限状态机和地址识别: 数学之美系列十-- 有限状态机和地址识别. 发表者：吴军，Google 研究员. 地址的识别和分析是本地搜索必不可少的技术，尽管有许多识别和分析地址的方法，最有效的是有限状态机。一个有限状态机是一个特殊的有向图（参见有关图论的系列），它包括一些 ...
posted by @4:18 下午
数学之美系列十九－马尔可夫链的扩展贝叶斯网络(Bayesian Networks): 发表者：Google 研究员，吴军我们在前面的系列中多次提到马尔可夫链(Markov Chain)，它描述了一种状态序列，其每个状态值取决于前面有限个状态。这种模型，对很多实际问题来讲是一种很粗略的简化。在现实生活中，很多事物相互的关系并不能用一条链来串 ...
posted by joydandan @9:53 下午
Google黑板报数学之美系列: 我本科学的是数学，虽然现在读的不是数学专业，但是研究方向跟数学有千丝万缕的关系。本科那时候学了不少数学，从高等代数与解析几何，数学分析，高等几何，常微分方程，离散数学，复变函数，实变函数，泛函分析，抽象代数，数值分析，数学规划，概率论 ...
posted by willmove @9:47 上午
我的圣诞节: 今天是圣诞节，大部分商店都关门了。我照例出门到Starbucks, 一杯炭烧一块面包。打开电脑查邮件，开始一天的编程工作。中午回来的时候顺手抄了本TIME, 看看今年的年度人物，也就是所谓的"YOU"（你）。我看到的TIME封面和这个新浪网上的不一样。 ...
posted by @11:47 上午
google中国的“数学之美系列”: 从google中国黑板报上看到这个数学之美系列。很有意思。 1. 统计语言模型 2. 谈谈中文分词 3. 隐含马尔可夫模型在语言处理中的应用 4.怎样度量信息 5. 简单之美：布尔代数和搜索引擎的索引 6. 图论和网络爬虫(Web Crawlers) 7. 信息论在信息处理中的应用 ...
posted by Lan Huang @7:13 上午
HMM: http://googlechinablog.com/2006/04/blog-post.html.http://googlechinablog. com/2006/04/blog-post_10.html.http://googlechinablog.com/2006/04/blog-post_17.html. 写得真棒, 这次的作业全靠你了!
posted by @8:47 下午
吳軍：数学之美系列: 发表者：吴军，Google 研究员. 数学之美系列一 -- 统计语言模型.http://googlechinablog.com/2006/04/blog-post.html. 数学之美系列二 -- 谈谈中文分词.http://googlechinablog.com/2006/04/blog-post_10.html. 数学之美系列三 -- 隐含马尔可夫模型 ...
posted by @2:13 下午
Markov chain: http://googlechinablog.com/2006/04/blog-post_17.html.
posted by @8:21 上午
问google的科学家吴军一个关于《数学之美》的流氓问题: 注意：这个问题是流氓，我本人不是流氓（The proof is beyond the scope of this blog and theinterested young female readers may contanct the author for details）。背景：google的科学家吴军写了一系列关于NLP和IR中的数学的文章，题为《数学之 ...
posted by yushih @3:33 下午
注释：数学之美（2-3）: 继续： 2. 中文分词. 梁南元（google）; 王晓龙（google）; 郭进（google）; 动态规划（google）;Viterbi algorithm（google）; 孙茂松（google）; 吴德凯（google）; 葛显平（google）;朱安（google）. 3. 隐含马尔可夫模型 ...
posted by Lei @8:13 下午
数学之美系列: 今天被告知不用准备明天给老板演示ppt了，心里很是郁闷，又延期了。不想再准备自己的ppt，就在网上闲逛。跑到了googlechinablog上，看到了很多好文章。特别是数学之美系列。今天只看了14，15，16，17。呵呵！明天继续看… ...
posted by @6:20 下午
Google 黑板报--数学之美系列: 好冬冬啊. http://googlechinablog.com/. Google 黑板报-- 数学之美系列. Google 黑板报--数学之美系列一-- 统计语言模型. Google 黑板报-- 数学之美系列二-- 谈谈中文分词. Google 黑板报-- 数学之美系列三--隐含马尔可夫模型在语言处理中的应用 ...
posted by @9:21 下午
Google 黑板报--数学之美: Google 黑板报--数学之美系列. 在中学时代如果能看到这类理论应用的文章，十有八九现在我就在研究理论物理了. 哀悼一下我大脑里所剩不多的一点数学细胞. 推荐给爱好数学又有些茫然的孩子看是再合适不过了，当然，得是大孩子 ...
posted by @2:35 下午
google黑板(为加入google引擎): http://googlechinablog.com/2006/05/blog-post.htmlhttp://googlechinablog. com/2006/04/blog-post_27.htmlhttp://googlechinablog.com/2006/04/4.htmlhttp://googlechinablog.com/2006/04/beta-believe-it-google-3.html ...
posted by 生死场 @6:32 下午
信息抽取：研究小记(1): 最近接到一个项目，是关于信息抽取方面的，仔细分析下来，还真的是挺难的。对于现实的应用，如何选取一个最有效的数学模型，这个是非常考验算法功力的事情。因此，这几天把自己闷在家里，网也不上了，Blog也不读了，潜心研究信息抽取(Information ...
posted by clickstone @4:21 上午
数学之美: 非常值得一看的文章。大概这就是数学的魅力吧。 Google 黑板报-- 系列一-- 统计语言模型http://googlechinablog.com/2006/04/blog-post.html. 系列二-- 谈谈中文分词http://googlechinablog.com/2006/04/blog-post_10.html ...
posted by @3:06 下午
数学之美: Google黑板报-- 系列一-- 统计语言模型http://googlechinablog.com/2006/04/blog-post.html.系列二-- 谈谈中文分词http://googlechinablog.com/2006/04/blog-post_10.html. 系列三--隐含马尔可夫模型在语言处理中的 ...
posted by @9:54 下午
数学之美系列十--有限状态机和地址识别: 发表者：吴军，Google 研究员地址的识别和分析是本地搜索必不可少的技术，尽管有许多识别和分析地址的方法，最有效的是有限状态机。一个有限状态机是一个特殊的有向图（参见有关图论的系列），它包括一些状态（节点）和连接这些状态的有向弧。 ...
posted by @7:47 下午
谈论Google 黑板报-- 数学之美系列: 引用. Google 黑板报-- 数学之美系列. Google 黑板报-- 数学之美系列一-- 统计语言模型. Google 黑板报--数学之美系列二-- 谈谈中文分词. Google 黑板报-- 数学之美系列三-- 隐含马尔可夫模型在语言处理中的应用. Google黑板报-- 数学之美系列四-- 怎样 ...
posted by @3:15 下午
Google 黑板报-- 数学之美系列: 虽然我不是很喜欢数学，数学学得也不是很好，但是看了Google黑板报上的数学之美之后还是由衷地觉得不错。数学之美系列一-- 统计语言模型. 数学之美系列二-- 谈谈中文分词. 数学之美系列三-- 隐含马尔可夫模型在语言处理中的应用 ...
posted by @1:23 上午
Google黑板报——数学之美: 在忙一些事情到了很晚，索性翻出来前两天查自然语言处理相关的东西时找到的一些东西看。这是发在google黑板报上的"数学之美"，是google的研究员吴军学长写的，语言很浅显易懂，信息量也很丰富，通读一遍，收获不少，有时间有一些东西要深入了解一下。 ...
posted by @1:42 上午
Google 黑板报-- 数学之美系列: Google黑板报-- 数学之美系列一-- 统计语言模型. Google 黑板报-- 数学之美系列二-- 谈谈中文分词. Google 黑板报--数学之美系列三-- 隐含马尔可夫模型在语言处理中的应用. Google 黑板报-- 数学之美系列四-- 怎样度量信息 ...
posted by @10:50 下午
数学之美by Google: Google黑板报 -- 数学之美系列一 -- 统计语言模型. Google 黑板报 -- 数学之美系列二 -- 谈谈中文分词. Google黑板报 -- 数学之美系列三 -- 隐含马尔可夫模型在语言处理中的应用. Google 黑板报 -- 数学之美系列四 -- 怎样度量信息...
posted by jackhuang @12:04 上午
Google黑板报－数学之美系列: 数学之美系列一— 统计语言模型 Noam Chomsky 形式语言大师Claude Shannon 提出用数学解决自然语言处理的想法（难道形式语言不也是数学的方法？） Fred Jelinek最早提出并实现了统计语言模型（statisticallanguage model） S＝(w1,w2,w3. ...
posted by 芦苇荡 @5:20 下午
數學之美系列: 數學之美系列十四- 談談數學模型的重要性數學之美系列十三- 信息指紋及其應用數學之美系列十二- 餘弦定理和新聞的分類數學之美系列十一-Google 阿卡47 的製造者阿米特. 辛格博士數學之美系列十- 有限狀態機和地址識別數學之美系列九- 如何確定網頁和 ...
posted by earow @3:17 下午
数学和Google: 数学之美系列六图论和网络爬虫(Web Crawlers) 数学之美系列七信息论在信息处理中的应用数学之美系列八贾里尼克的故事和现代语言处理数学之美系列九如何确定网页和查询的相关性数学之美系列十有限状态机和地址识别数学之美系列十二余弦定理和新闻 ...
posted by @4:59 上午
通俗易懂Google China 数学之美系列: #发表者：吴军，Google 研究员. 数学之美系列一-- 统计语言模型.http://googlechinablog.com/2006/04/blog-post.html. 数学之美系列二-- 谈谈中文分词.http://googlechinablog.com/2006/04/blog-post_10.html. 数学之美系列三-- 隐含马尔可夫模型在语言 ...
posted by @7:56 下午
Google黑板报的数学之美: 这两天把Google黑板报上面关于数学的文章都看了一下，有几个问题确实豁然开朗:-P. 统计语言模型; 谈谈中文分词;如何确定网页和查询的相关性; 谈PageRank; 图论和网络爬虫; 布尔代数和搜索引擎的索引; 马尔可夫模型在语言处理中的应用;怎样度量信息 ...
posted by suave.su @1:18 下午
数学之美系列十有限状态机和地址识别: 2006年7月5日上午09:09:00. 发表者：吴军，Google 研究员地址的识别和分析是本地搜索必不可少的技术，尽管有许多识别和分析地址的方法，最有效的是有限状态机。一个有限状态机是一个特殊的有向图（参见有关图论的系列），它包括一些状态（节点）和连接 ...
posted by @10:52 下午
【推荐】《数学之美》: 吴军的《数学之美》系列文章确实不错，相当的不错，一定要推荐一下。文章介绍了统计语言学的一些基本概念，更结合搜索引擎的技术讲解了这些技术的实际应用。文笔深入浅出，不愧是大牛。数学之美系列一-- 统计语言模型. 数学之美系列二-- 谈谈中文分词 ...
posted by Space <@> @10:22 下午
数学之美系列十有限状态机和地址识别: 2006年7月5日上午09:09:00. 发表者：吴军，Google 研究员. 地址的识别和分析是本地搜索必不可少的技术，尽管有许多识别和分析地址的方法，最有效的是有限状态机。一个有限状态机是一个特殊的有向图（参见有关图论的系列），它包括一些状态（节点）和连接 ...
posted by liangtwin @4:01 下午
数学之美bei Google China Blog: 转自：Google 黑板报. Google 黑板报 -- 数学之美系列一 -- 统计语言模型. Google 黑板报 -- 数学之美系列二-- 谈谈中文分词. Google 黑板报 -- 数学之美系列三 -- 隐含马尔可夫模型在语言处理中的应用. Google 黑板报 --数学之美系列四 -- 怎样 ...
posted by @6:26 下午
数学之美系列十有限状态机和地址识别: 发表者：吴军，Google 研究员地址的识别和分析是本地搜索必不可少的技术，尽管有许多识别和分析地址的方法，最有效的是有限状态机。一个有限状态机是一个特殊的有向图（参见有关图论的系列），它包括一些状态（节点）和连接这些状态的有向弧。 ...
posted by 刘佳 @10:37 上午
猫族说google黑板报之61=???=黑板报的分类: http://googlechinablog.com/2006/07/blog-post_06.html#links.看到分类了，呵呵，早就希望看到这种分类了. 应该再加一个-----google在中国活动新闻，的栏目，毕竟这个活动新闻对googlefans最有吸引力了. 分类还要优化吧，呵呵 ...
posted by @5:02 下午
Google黑板报－数学之美系列: 来自Google黑板报. 数学之美系列十有限状态机和地址识别数学之美系列九— 如何确定网页和查询的相关性数学之美系列八—贾里尼克的故事和现代语言处理数学之美系列七— 信息论在信息处理中的应用数学之美系列六— 图论和网络爬虫(Web Crawlers) ...
posted by harry @12:43 下午
数学之美系列十有限状态机和地址识别: 数学之美系列十有限状态机和地址识别. 2006年7月5日上午09:09:00. uT("time115206306165358127");发表者：吴军，Google 研究员地址的识别和分析是本地搜索必不可少的技术，尽管有许多识别和分析地址的方法，最有效的是有限状态机。 ...
posted by olooba @10:39 下午
看看Google的数学之美，美在心里: 数学之美系列一-- 统计语言模型. 数学之美系列二-- 谈谈中文分词. 数学之美系列三-- 隐含马尔可夫模型在语言处理中的应用. 数学之美系列4-- 怎样度量信息? 数学之美系列五-- 简单之美：布尔代数和搜索引擎的索引. 数学之美系列六-- 图论和网络爬虫(Web ...
posted by @10:21 下午
google上的数学讲解: 数学之美系列七-- 信息论在信息处理中的应用数学之美系列六-- 图论和网络爬虫(Web Crawlers). 数学之美系列五--简单之美：布尔代数和搜索引擎的索引. 数学之美系列4 -- 怎样度量信息? 数学之美系列三-- 隐含马尔可夫模型在语言处理中的应用 ...
posted by @12:03 下午
中国移动无线音乐搜索引擎提供商－－“结信” Unison: 移动搜索，开辟无线音乐新天地！日前，中国移动联合结信网络技术服务（上海）有限公司推出了一项新的搜索服务——无线音乐智能导航。移动用户发送短信到12530(见文下附注 ) 进行搜索，就可以根据搜索结果快速设定彩铃和下载相应的手机铃声等服务。 ...
posted by @4:00 下午
在googlechinablog上看到我？引用此文，你的博客访问量也可大增的！www ...: http://googlechinablog.com/2006/05/blog-post.html.http://googlechinablog. com/2006/04/blog-post_27.html.http://googlechinablog.com/2006/04/4.html.http://googlechinablog.com/2006/04/beta-believe-it-google-3.html ...
posted by @4:26 下午
Learn to Ask: 学问学问，学会去问。看来我注定不是一个做学问的人，连上课都迟到……迟到了自然是不敢大摇大摆进门的，偷偷从门上的玻璃看到一个蛮精干的瘦瘦的先生，还有投影白布上MSRA 几个字样，心想这堂讲座应当是不错了。正准备猥琐进门，却又被一电话叫走… ...
posted by @9:36 上午
猫族说google黑板报之25===⊕⊕⊕⊕===隐含马尔可夫模型: 看了“数学之美系列三-- 隐含马尔可夫模型在语言处理中的应用”. 补充一点，给不明白概念的朋友. 隐马尔科夫模型用在语音信号方面的,是为了分析语音信号而提出的一个算法模型. 在语音信号处理上用的比较多隐马尔可夫模型（HMM）是对语音信号的时间序列结构 ...
posted by @10:43 上午
[转]数学之美系列三-- 隐含马尔可夫模型在语言处理中的应用: 数学之美系列三-- 隐含马尔可夫模型在语言处理中的应用. 最近喜欢上看google黑板报.
posted by @5:35 下午
没有模型的模型

【杀人案件】系列之三浪客系列问题之三方姓男、女孩起名。要三个字的，男突出文才女的隐含貌美之意。跪求数学之美,你怎么看? 模型三：天体问题求助采撷数学之美这句话用英语怎么说数学经济模型求上联走近数学走进数学走尽数学,数学之美美不胜收。求上联：走近数学走进数学走尽数学，数学之美美不胜收求上联：走近数学走进数学走尽数学，数学之美美不胜收三人命丧青岛交通事故系列问题之三政府能做点什么吗？饶雪漫的《左耳》是系列之三，那之二和之一分别是什么呢？牧野之战猜数学名词三十大动漫系列之三：你最喜欢的十部动画电影是什么？三人命丧青岛交通事故系列问题之四代理费诉讼费有标准吗？哪有卖长征系列火箭模型的？湖南师范大学出版社奥赛经典系列之《奥林匹克初中数学》编者：叶军圣魔之血模型 ■谜语100题之三■【美猴王手舞足蹈】【词牌名一】来点幽默,齐齐开心之:俄美飞船竞争: 猜三字数学名词一闻一多的“三美” 天津三美电机有限公司【杀人案件】系列之四【杀人案件】系列之二

2019款艾力绅最新消息:数学之美 系列三 -- 隐含马尔可夫模型在语言处理中的应用

数学之美 系列三 -- 隐含马尔可夫模型在语言处理中的应用

2019款艾力绅最新消息:数学之美系列三 -- 隐含马尔可夫模型在语言处理中的应用

数学之美系列三 -- 隐含马尔可夫模型在语言处理中的应用