首页 > 乐器声学 专利正文
一种蒙古语语音特征融合方法及装置与流程

时间:2022-02-24 阅读: 作者:专利查询

一种蒙古语语音特征融合方法及装置与流程

1.本发明涉及语音识别技术领域,更具体的说是涉及一种蒙古语语音特征融合方法及装置。


背景技术:

2.目前,蒙古语中包含百万以上的蒙古语单词并且在不断引入新的词汇,对于蒙古语语音识别的研究仍旧处于初级阶段。
3.在基于深度神经网络

隐马尔可夫声学模型(deep neural network

hidden markov model,dnn

hmm)中已经提出了许多自适应方法,按照自适应采用的方法可以分为三类,第一种是基于线性变换的自适应方法,通过对深度神经网络的输入特征或隐层特征进行变换来实现自适应,主要应用于自适应数据量较少时,当自适应数据量较多时,特征变换参数量无法表达较多和较复杂的模式;第二种是基于模型重训的自适应方法,利用目标说话人的自适应数据,直接进行声学模型参数的更新,当自适应数据量足够多的时候,基于模型重训的说话人自适应方法可以最大程度的利用自适应数据,但是在实际中无法提供足够的说话人数据来满足数据量要求;第三种是基于辅助特征的自适应方法,将表达说话人信息的特征向量替换或者融合传统声学特征后,再进行声学模型的训练,使声学模型利用说话人信息减小说话人的差异性。其中有一种基于特征最大似然线性回归(feature

space maximum likelihood linear regression,f

mllr)的方法,该方法首先利用说话人无关的高斯混合模型进行声道长度规整,然后获得每个说话人的fmllr特征后替换掉传统的频谱特征进行神经网络的训练。随后,将己经在说话人识别领域取得成功应用的i

vector和d

vector技术融合声学特征用于说话人自适应。基于辅助特征的说话人自适应方法是一种比较常用的声学模型说话人自适应方法,增强声学模型对说话人信息的感知能力,辅助特征的中的融合特征方法是将输入分成两部分,一部分是声学特征用于声学单元的区分,另一部分是辅助特征用于描述说话人信息的说话人特征,因此训练过程和自适应过程同时进行。在训练过程中网络参数随着说话人信息的不同而动态变化,减小说话人之间的差异性,但当包含不同说话人信息的说话人特征作为辅助特征与神经网络输入声学特征进行融合时,往往采用拼接的方法对声学特征和说话人特征进行固定筛选,使得声学模型训练过程中不适应说话人信息的变化,导致声学模型自适应效果较差。另外,声学特征和说话人特征属于不同的特征表达空间,直接进行简单的拼接意味着将全局信息与局部信息直接进行融合,增加后续声学模型的建模难度。
4.因此,如何提供一种能够解决上述问题的蒙古语语音特征融合方法是本领域技术人员亟需解决的问题。


技术实现要素:

5.有鉴于此,本发明提供了一种蒙古语语音特征融合方法及装置,可以用于表征不同地区蒙古语口音特点的说话人信息提取方法,进而得到融合蒙古语声学信息和说话人个
性特征的蒙古语语音特征,提高蒙古语语音识别说话人自适应系统的准确率。
6.为了实现上述目的,本发明采用如下技术方案:
7.一种蒙古语语音特征融合方法,包括:
8.获取原始蒙古语语音数据;
9.对所述原始蒙古语语音数据进行提取,得到蒙古语声学特征以及蒙古语个性特征;
10.将所述蒙古语声学特征以及所述蒙古语个性特征利用门控融合机制进行融合,得到整体声学特征。
11.优选的,得到蒙古语声学特征的过程具体包括:
12.对所述蒙古语语音数据提取fbanks特征;
13.对所述fbanks特征通过自注意力机制提取所述fbanks特征内部信息的依赖关系,并分配权重,得到对应的所述蒙古语声学特征;
14.优选的,对所述fbanks特征通过自注意力机制学习特征内部信息的依赖的关系,并分配权重,从众多特征信息中筛选出更为重要的部分信息,得到对应的所述蒙古语声学特征。
15.采用上述方法的有益效果为:蒙古语声学特征采用fbanks特征,能够涵盖更多语音信息。
16.优选的,得到所述蒙古语个性特征的过程具体包括:
17.对所述蒙古语语音数据提取t

vector特征;
18.对所述t

vector特征通过自注意力机制进行提取,得到对应的所述蒙古语个性特征;
19.优选的,对所述t

vector特征使用自注意力机制捕捉相关性较强的部分,得到对应的蒙古语个性特征。
20.采用上述方法的有益效果为:蒙古语个性特征采用区分性较高的t

vector特征,增强特征区分能力。
21.优选的,得到整体声学特征的过程具体包括:
22.对所述蒙古语声学特征及所述蒙古语个性特征去除冗余信息;
23.调整所述蒙古语声学特征及所述蒙古语个性特征的输入比例,利用门控融合机制进行融合,得到整体声学特征;
24.将所述整体声学特征输入声学模型,得到最终训练结果。
25.采用上述方法的有益效果为:门控融合模块利用门控融合机制对蒙古语声学特征和蒙古语个性特征进行自动调节,去除冗余信息,使得声学模型训练过程中利用说话人信息减小说话人的差异性,进而提高蒙古语语音识别系统的识别准确率,可以控制在层次结构中传递的信息,使更有价值的信息通过网络,抑制无用的信息,提高网络的学习能力。
26.优选的,对所述声学模型进行参数更新的过程具体包括:
27.初始化所述声学模型;
28.利用自适应模型参数更新所述声学模型;
29.利用损失函数进行有监督训练。上述训练过程能够融合说话人无关信息和说话人相关信息进行自适应,从而得到更准确的蒙古语语音识别结果。
30.进一步,本发明还提供一种蒙古语语音特征融合装置,包括:
31.语音数据获取模块,用于获取原始蒙古语语音数据;
32.蒙古语声学特征模块,用于对所述原始蒙古语语音数据进行处理,得到蒙古语声学特征;
33.蒙古语个性特征模块,用于对所述原始蒙古语语音数据进行处理,得到蒙古语个性特征;
34.门控融合模块,用于对所述蒙古语声学特征及所述蒙古语个性特征利用门控融合机制进行融合,得到整体声学特征。
35.经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种蒙古语语音特征融合方法及装置,具有如下有益效果:
36.(1)采用门控融合机制将声学特征与说话人个性特征进行自动融合,使得不同的特征空间在输入声学模型前自动进行融合和统一,缓解不同特征表达空间带来的建模困难,获得最好的协同作用的融合结果,进而提高了蒙古语语音识别系统的识别准确率;
37.(2)结合门控融合机制创新型地提出了基于门控融合机制的蒙古语语音识别特征嵌入方法,蒙古语声学特征和说话人特征通过门控融合机制进行动态融合,自动对特征加以选择,去除冗余信息,保证蒙古语声学模型有效地利用说话人信息进行建模。
38.(3)对于不同地区的蒙古语语音数据,说话人之间的口音通常具有某种相似性。因此,本发明利用自注意机制提取说话人不同地区口音信息,进一步提高蒙古语语音识别说话人自适应系统的准确性。
附图说明
39.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
40.图1为本发明提供的一种蒙古语语音特征融合方法的流程图;
41.图2为本发明实施例提供的门控融合机制的的示意图;
42.图3为本发明提供的一种蒙古语语音特征融合装置的结构原理框图。
具体实施方式
43.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
44.参见附图1所示,本发明实施例公开了一种蒙古语语音特征融合方法,包括:
45.获取原始蒙古语语音数据x;
46.对原始蒙古语语音数据x进行提取,得到蒙古语声学特征x
a
以及蒙古语个性特征x
s

47.将蒙古语声学特征x
a
以及蒙古语个性特征x
s
利用门控融合机制进行融合,得到整
体声学特征x。
48.其中,蒙古语声学特征x
a
的表达形式可以为蒙古语声学特征向量蒙古语个性特征x
s
的表达形式可以为蒙古语个性特征向量
49.式中,表示蒙古语声学特征向量x
a
中的特征值,代表着蒙古语个性特征向量x
s
中的特征值。
50.在一个具体的实施例中,得到蒙古语声学特征x
a
的过程具体包括:
51.对蒙古语语音数据x提取fbanks特征;
52.对fbanks特征通过自注意力机制学习特征内部信息的依赖的关系。并分配权重,从众多特征信息中筛选出更为重要的部分信息,得到对应的蒙古语声学特征x
a

53.具体的,获取fbanks特征的具体表达式为:
[0054][0055]
式中,代表fbanks特征向量中的特征值。
[0056]
蒙古语声学特征x
a
的具体计算表达式为:
[0057][0058]
式中,f
fbanks
(
·
)表示蒙古语fbanks声学特征提取方法,f
satt
(
·
)表示自注意力机制,表示调节因子,w
q
、w
k
、w
v
表示权重矩阵。
[0059]
在一个具体的实施例中,本发明实施例采用将时序的上下文信息放置于不同的隐藏层中的时延神经网络来提取蒙古语个性特征x
s

[0060]
那么得到蒙古语个性特征x
s
的过程具体包括:
[0061]
对蒙古语语音数据x提取t

vector特征;
[0062]
对t

vector特征使用自注意力机制捕捉相关性较强的部分,增强特征区分能力,得到对应的蒙古语个性特征x
s

[0063]
具体的,获取t

vector特征的具体表达式为:
[0064]
h
j
=tdnn(x)
[0065][0066]
蒙古语个性特征x
s
的具体表达式为:
[0067][0068][0069]
式中,tdnn表示时延网络的隐藏层,表示第l层对应的隐藏向量,f
out
(
·
)表示从输出层中以合并平均的方式得到句子级别的说话人表示(ad

vector)。
[0070]
参见附图2所示,在一个具体的实施例中,得到整体声学特征x的过程具体包括:
[0071]
对蒙古语声学特征x
a
及蒙古语个性特征x
s
去除冗余信息;
[0072]
调整蒙古语声学特征x
a
及蒙古语个性特征x
s
的输入比例,利用门控融合机制进行
融合,得到整体声学特征x;
[0073]
将整体声学特征x输入声学模型进行训练,得到最终训练结果。
[0074]
具体的,将蒙古语声学特征x
a
和蒙古语个性特征x
s
利用门控融合机制进行特征融合,具体表达式为:
[0075]
x=f
gfm
(x
a
,x
s
)
[0076]
式中,f
gfm
(
·
)表示门控融合机制。
[0077]
提取到的蒙古语声学特征和蒙古语个性特征对蒙古语语音识别系统具有不同的作用,然而固定比例的融合特征使得特征筛选十分困难,降低蒙古语语音识别系统的准确率,而门控融合模块利用门控融合机制对蒙古语声学特征和蒙古语个性特征进行自动调节,去除冗余信息,使得声学模型训练过程中利用说话人信息减小说话人的差异性,进而提高蒙古语语音识别系统的识别准确率。
[0078]
门控融合机制根据当前输入的蒙古语声学特征x
a
和蒙古语个性特征x
s
,调整和选取合适的比例,即输出的两种特征分别需要保留多少原始特征,门控融合机制对特征通过控制比例的表达式如下:
[0079][0080]
式中,x
sig
表示经sigmoid激活函数后的特征,σ(
·
)表示作用于向量上的每一个元素的逻辑函数,和分别表示和连接门控单元的权重参数矩阵。
[0081]
门控融合机制对提取到的蒙古语声学特征x
a
和蒙古语个性特征x
s
使用同一个控制比例进行特征筛选,具体表达式为:
[0082]
x=x
sig

x
a
+(1

x
sig
)

x
s
[0083]
式中,x表示融合后的蒙古语语音特征,

表示的是按元素乘的操作。
[0084]
通过上述门控融合机制的处理,可以控制在层次结构中传递的信息,使更有价值的信息通过网络,抑制无用的信息,提高网络的学习能力。
[0085]
具体的,将整体声学特征x输入声学模型进行训练的具体过程包括:
[0086]
将融合后的特征x输入声学模型,使用交叉熵损失函数进行有监督训练,时延神经网络在t时刻的输入为,具体表达式为:
[0087][0088]
式中,表示声学模型输入层第i个节点对应的当前时间节点t之前n个时刻的信息,n为隐层节点的时延步数,m表示输入特征个数,分别表示权重矩阵和偏置系数。每一层对输入信息进行计算,融合说话人无关信息和说话人相关信息进行自适应,从而得到更准确的蒙古语语音识别结果。
[0089]
在一个具体的实施例中,对声学模型进行参数更新的过程具体包括:
[0090]
初始化声学模型;
[0091]
利用自适应模型参数更新声学模型;
[0092]
利用损失函数进行有监督训练。
[0093]
参见附图3所示,本发明实施例还提供一种蒙古语语音特征融合装置,包括:
[0094]
语音数据获取模块1,用于获取原始蒙古语语音数据;
[0095]
蒙古语声学特征模块2,用于对原始蒙古语语音数据进行处理,得到蒙古语声学特征;
[0096]
蒙古语个性特征模块3,用于对原始蒙古语语音数据进行处理,得到蒙古语个性特征;
[0097]
门控融合模块4,用于对蒙古语声学特征及蒙古语个性特征利用门控融合机制进行融合,得到整体声学特征。
[0098]
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
[0099]
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。