3.3 序列与模型_人工智能：语音识别理解与实践-QQ阅读男生武侠网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

3.3　序列与模型

我们可以将前文讨论的马尔可夫链看作一段能够生成可观察输出的序列。因为它的输出和每一个状态都一一对应，所以又被称为可观察马尔可夫序列。其中，每一个给定的状态都唯一对应一种观察值或事件，没有任何随机性。正是由于马尔可夫链缺乏这种随机性，所以用它来描述很多真实世界的信息显得过于局限。

作为马尔可夫链的一种扩展，隐马尔可夫序列在各个状态中都引入了一种随机性。隐马尔可夫序列在马尔可夫链的基础上，用一个观察的概率分布与每一个状态对应，而不是用一个确定的观察值或事件。这样的马尔可夫序列引入了双重随机性，使得马尔可夫链不再能被直接观察。隐藏在隐马尔可夫序列下的马尔可夫链只能通过一个单独的观察概率分布函数简捷表露出来。

要注意的是，如果各个状态的观察概率分布都没有任何重叠，那么这样的序列便不是一个隐马尔可夫序列。这是因为，尽管在状态中有了随机性，但对一个特定状态而言，由于概率分布没有重叠，某个固定范围内的观察值总能找到唯一的状态与之对应。在这种情况下，隐马尔可夫序列退化成了马尔可夫序列。在文献[7, 45]中有更多详尽的阐述，讨论马尔可夫链和其概率函数或隐马尔可夫序列的关系。

当隐马尔可夫序列被用来描述现实信息时，比如拟合这种信息的统计特征，我们称之为隐马尔可夫模型。HMM非常成功地被应用于语音处理领域，其中包括语音识别、语音合成与语音增强[44, 45, 60, 72, 91~103]。在这些应用中，HMM是一种强大的模型，它能够描述语音信号中不平稳但有规律可学习的空间变量。HMM之所以成为关键的语音声学模型，是由于它具有顺序排列的马尔可夫状态，这使得HMM能够分段地处理短时平稳的语音特征，并以此来逼近全局非平稳的语音特征序列。我们将在3.6节中讨论一些非常有效率的算法，来优化局部短时平稳结构的边界。

3.3.1　隐马尔可夫模型的性质

现在，我们将从隐马尔可夫模型（HMM）的基本组成和参数等方面，给出HMM的性质。

1. 齐次马尔可夫链的转移概率矩阵A=[aij], i, j=1, 2, ..., N，其中共有N个状态

aij=P(qt=j|qt−1=i), 　　i, j=1, 2, …, N　　(3.6)

2. 马尔可夫链的初始概率：π=[πi], i=1, 2, …, N，其中，πi=P(q1=i)。

3. 观察概率分布为P(ot|s(i)), i=1, 2, ..., N。若ot是离散的，那么每个状态对应的概率分布都用来描述{v1, v2, …, vK}的观察概率：

bi(k)=P(ot=vk|qt=i), 　　i=1, 2, …, N　　(3.7)

若观察概率分布是连续的，那么概率密度函数（Probability Density Function，PDF）中的参数Λi即可代表HMM中状态i的特性。在语音处理问题中，我们用HMM下的PDF来描述连续观察向量的概率分布，其中多元混合高斯分布是最成功、应用最广泛的PDF：

在混合高斯HMM中，参数集Λi包括混合成分的权重ci, m，高斯分布的均值向量，高斯分布协方差矩阵。

当混合成分数降至M=1时，该状态下的输出概率分布便退化成高斯分布

且对应的HMM通常叫作单高斯（连续密度）HMM。

有了模型参数后，高斯HMM可以被看作一个观察值序列ot, t=1, 2, ..., T的生成器。这样，在t时刻，数据根据公式

ot=µi+rt(Σi)　　(3.10)

生成，其中时刻t的状态i取决于马尔可夫链的演变，受aij影响，且

是均值为0，依赖序号i的IID（独立同分布）的高斯剩余序列。因为剩余序列rt(Σi）是独立同分布的，并且µi在给定i时是常量（即不随时间变化而变化），所以它们二者的和（也就是观察值ot）也是独立同分布的。因而，上面讨论的HMM会生成一个局部或者分段平稳的序列。由于我们所关注的时间局部性来源于HMM中的状态，我们有时会用“平稳状态HMM”这一名称来明确描述这种性质。