一种新型蒙古语语音合成方法与流程

1.本发明涉及语音合成技术领域，具体为一种新型蒙古语语音合成方法。

背景技术：

2.语音合成是通过机械的、电子的方法产生人造语音的技术，tts技术(又称文语转换技术)隶属于语音合成，它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术，采用世界领先的语音合成技术，研发出来的“语音合成助手”软件可以完美的完成语音合成工作，蒙古语属阿尔泰语系或蒙古语族，主要使用者在中国蒙古族聚居区、蒙古国和俄罗斯联邦西伯利亚联邦管区，蒙古国使用的蒙古语因在二十世纪五六十年代受苏联影响主要使用西里尔字母拼写，俄罗斯的卡尔梅克语、布里亚特语被视为蒙古语的方言，中国内蒙古地区的蒙古族还在使用传统蒙古文。
3.现存的高质量语音合成器都需要消耗十分可观的计算资源，而且在计算和消耗上降低了合成器的效率，数据传到云端，会有数据安全的隐患， waveglow用flow
‑
based代替自回归，因此可以并行化，但是难以应用到实时的系统。

技术实现要素：

4.针对现有技术的不足，本发明提供了一种新型蒙古语语音合成方法，解决了现存的高质量语音合成器都需要消耗十分可观的计算资源，而且在计算和消耗上降低了合成器的效率，数据传到云端，会有数据安全的隐患， waveglow用flow
‑
based代替自回归，因此可以并行化，但是难以应用到实时的系统的问题。
5.为实现以上目的，本发明通过以下技术方案予以实现：一种新型蒙古语语音合成方法，具体包括以下步骤：
6.s1、基于bilstm对蒙古文单词序列进行处理：基于bilstm神经网络提出了融合形态向量和音系向量的蒙古文韵律建模方法，包括输入层，注意力层，bilstm层和输出层，对输入的蒙古文单词序列进行处理，具体地，给定蒙古文单词的词向量we、形态向量me、音系向量pe，它们的权重分别通过两个两层全连接神经网络进行预测，之后将三种向量乘以各自的权重wi，w2， w3后拼接在一起即为最终的蒙古文词向量表示we
*
，公式组为：w1＝1
‑
w2+w3， w2＝1σ(m1tanh(m2we+m3pre))和we
*
＝w1.we+w2.pe+w3.me，bilstm层读取输入的特征向量we
*
来提取更丰富的高层语义特征，首先使用前向lstm从左到右读取特征向量 we
*
，依次得到隐状态之后使用后向lstm同样得到隐状态隐状态与具有相同的时间长度，最后将对应时间步的隐状态求和得到每一时间步的最终隐状态输出h，bilstm层得到的隐状态输出h送入输出层解码得到最终的蒙古文单词对应韵律标签，输出层将bilstm层输出的隐状态h进行解码，选择两种输出层函数进行解码，第一种是softmax函数，与上面方法相同，它可以将输出的向量转化为0到1之间的概率值，然后对概率值进行归一化，从而找到概率值最大的韵律标签即为最终的韵律标签，另一种是条件随机场，对于序列标注问题，标签之间有着很强烈的依赖关系，为了更好的对相邻标签的依赖关系进行描述并且获得全局最
优解，crf输出层以最大化正确的完整标签序列y＝[y1，y2，
…
，y
t
]为优化目标，公式化表达为：编码网络以一个嵌入层开始，将字符或者音素转换成可训练的向量表达h
e
，嵌入的h
e
首先通过全连接层来从嵌入维度转化为目标维度，然后通过卷积块来处理，以提取文本信息的时间依赖性，最后被投影到嵌入维度，来创建注意力的key向量h
k
，注意力的value向量从注意力key向量和文本嵌入中计算：
[0007]
s2、用squeezewave提高合成器效率：tts从云端向边缘，典型的现代语音合成模型主要包含两个部分：合成器和声码器，提出用一种轻量级的基于流的声码器squeezewave用于边缘设备的语音合成，重新设计了waveglow的架构，通过重整音频张量、采用深度可分离卷积以及相关优化使其比waveglow 少消耗61
‑
214倍的计算量，可在笔记本端实现每秒123
‑
303k样本的生成，与直接进行卷积操作不同，waveglow首先将邻近的样本聚类构建多通道的输入,其中l为时域维度的长度，cg为每个时间步上的聚类组合的样本数量，波形中的样本总数量为波形随后被一系列双边映射进行转换，其中每一个都会利用的输入得到输出，在每个双边映射中，输入信号首先被可逆的逐点卷积处理，而后将结果沿通道拆分为和，其中被用于计算仿射耦合系数，其中将被应用于的后续计算，而则为类似wavenet的函数，为编码音频的梅尔谱lm 为梅尔谱的时间长度，cm为频率分量的数目，最终将在通道方向上组合得到最后的输出；
[0008]
s3、利用声码器从声学特征生产波形：waveglow最主要的计算量来自于 wn函数，输入首先通过逐点卷积进行处理，随后核为3的一维膨胀卷积将继续对上述结果进行处理，同时梅尔谱也被馈入到网络中，而后in_layer和 cond_layer输出按照wavenet的方式通过门函数进行合并，随后传输到res_skip_layer,其输出长度为l＝2000，通道数为512,随后将按照通道拆分为两部分，这一结构将重复八次，并在最后的res_skip_layer输出与end进行逐点卷积，计算出转换因子s
i
,t
i
，并将通道从512压缩到8，将输入音频变形为较小的时域长度和较多的通道上来，同时保持wn函数中的通道尺寸。
[0009]
优选的，所述s1中，输入层即将输入的蒙古文单词通过查找词表找到其对应的词向量、形态向量和音系向量，注意力层输入三种蒙古文单词特征向量,通过加权求和的方式将三种特征向量整合在一起得到新的蒙古文词向量。
[0010]
优选的，所述s2中，其中合成器用于从文字输入生成声学特征，而后利用声码器从声学特征生成波形输出。
[0011]
优选的，所述s3中，卷积使得的通道数从增加到非常大的数目，在 waveglow中start的输出维度为256维。
[0012]
优选的，所述s3中，由于梅尔谱的时域长度远小于波形长度，所以需要对其进行上采样来进行维度匹配。
[0013]
优选的，所述s3中，当l＝64时，时域长度与梅尔谱相同无需上采样，而l＝128时，梅尔谱仅需要进行最邻近采样，这样进一步减少了cond_layer 的计算开销，fig2深度可分离卷积减小计算量。
[0014]
优选的，所述s3中，基于waveglow的改进，squeezewave
–
light vocoder，可以生成相似的语音质量，但是可以在61x
–
214x mac上跑，对waveglow的网络结构进行重新设计，从而大大减少计算量。
[0015]
有益效果
[0016]
本发明提供了一种新型蒙古语语音合成方法。与现有技术相比具备以下有益效果：
[0017]
(1)、该新型蒙古语语音合成方法，通过基于bilstm对蒙古文单词序列进行处理：基于bilstm神经网络提出了融合形态向量和音系向量的蒙古文韵律建模方法，包括输入层，注意力层，bilstm层和输出层，对输入的蒙古文单词序列进行处理，具体地，给定蒙古文单词的词向量we、形态向量me、音系向量pe，它们的权重分别通过两个两层全连接神经网络进行预测，基于 bilstm神经网络提出了融合形态向量和音系向量的蒙古文韵律建模，对输入的蒙古文单词序列进行处理，利用合成器，将文字输入生产声学特征，而后利用声码器从声学特征生成波形输出，其中，加入了对waveglow的改进，极大的在计算和消耗上提升了合成器的效率。
[0018]
(2)、该新型蒙古语语音合成方法，通过waveglow最主要的计算量来自于wn函数，输入首先通过逐点卷积进行处理，随后核为3的一维膨胀卷积将继续对上述结果进行处理，同时梅尔谱也被馈入到网络中，而后in_layer和 cond_layer输出按照wavenet的方式通过门函数进行合并，随后传输到 res_skip_layer,其输出长度为l＝2000，通道数为512,随后将按照通道拆分为两部分，这一结构将重复八次，并在最后的res_skip_layer输出与end进行逐点卷积，计算出转换因子s
i
,t
i
，并将通道从512压缩到8，将输入音频变形为较小的时域长度和较多的通道上来，同时保持wn函数中的通道尺寸，对waveglow的网络结构进行重新设计，从而大大减少计算量，手机移动设备的性能大幅改进，如果在移动设备上部署，会大大降低云端的计算消耗，充分利用蒙古文形态学知识和音系学知识提升蒙古文韵律建模方法的性能。
附图说明
[0019]
图1为本发明的流程图；
[0020]
图2为本发明蒙古文韵律建模方法的示意图；
[0021]
图3为本发明逐点卷积进行处理的示意图；
[0022]
图4为本发明waveglow的网络结构示意图。
具体实施方式
[0023]
下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0024]
请参阅图1
‑
4，本发明提供一种技术方案：一种新型蒙古语语音合成方法，具体包括以下步骤：
[0025]
s1、基于bilstm对蒙古文单词序列进行处理：基于bilstm神经网络提出了融合形态向量和音系向量的蒙古文韵律建模方法，包括输入层，注意力层，bilstm层和输出层，对输入的蒙古文单词序列进行处理，具体地，给定蒙古文单词的词向量we、形态向量me、音系向量pe，它们的权重分别通过两个两层全连接神经网络进行预测，之后将三种向量乘以各
自的权重wi，w2， w3后拼接在一起即为最终的蒙古文词向量表示we
*
，公式组为：w1＝1
‑
w2+w3， w2＝1σ(m1tanh(m2we+m3pre))和we
*
＝w1.we+w2.pe+w3.me，其中m1、m2、m3和m`1、m`2、m`3是权重矩阵，σ()是logistic函数，它将计算的结果规范在0到1之间。通过注意力层的信息融合，可以使最终的蒙古文词向量we
*
从不同的信息来源获取最大的信息收益，增强蒙古文词向量表示的鲁棒性，bilstm层读取输入的特征向量we
*
来提取更丰富的高层语义特征，首先使用前向lstm从左到右读取特征向量we
*
，依次得到隐状态之后使用后向lstm同样得到隐状态隐状态与具有相同的时间长度，最后将对应时间步的隐状态求和得到每一时间步的最终隐状态输出h，bilstm层得到的隐状态输出h送入输出层解码得到最终的蒙古文单词对应韵律标签，输出层将bilstm层输出的隐状态h进行解码，选择两种输出层函数进行解码，第一种是softmax函数，与上面方法相同，它可以将输出的向量转化为0到1之间的概率值，然后对概率值进行归一化，从而找到概率值最大的韵律标签即为最终的韵律标签，另一种是条件随机场，对于序列标注问题，标签之间有着很强烈的依赖关系，例如“停顿”标签后一定跟随“非停顿”标签，不可能继续出现“停顿”标签，为了更好的对相邻标签的依赖关系进行描述并且获得全局最优解，crf输出层以最大化正确的完整标签序列y＝[y1，y2，
…
，y
t
]为优化目标，公式化表达为：其中，s
y
是输出序列y的分数，是输入序列对应的所有可能的输出序列，模型训练使用交叉熵损失函数作为优化目标，编码网络以一个嵌入层开始，将字符或者音素转换成可训练的向量表达h
e
，嵌入的h
e
首先通过全连接层来从嵌入维度转化为目标维度，然后通过卷积块来处理，以提取文本信息的时间依赖性，最后被投影到嵌入维度，来创建注意力的key 向量h
k
，注意力的value向量从注意力key向量和文本嵌入中计算：来共同考虑局部的信息h
e
和长期上下文信息h
k
。key 向量h
k
被每个注意力块使用来计算注意力权重，而最终的上下文向量由 value向量h
v
的加权平均计算；
[0026]
s2、用squeezewave提高合成器效率：tts从云端向边缘，典型的现代语音合成模型主要包含两个部分：合成器和声码器，其中合成器用于从文字输入生成声学特征，而后利用声码器从声学特征生成波形输出。现存的高质量语音合成器都需要消耗十分可观的计算资源，squeezewave的主要目的在于提升合成器的效率，提出用一种轻量级的基于流的声码器squeezewave用于边缘设备的语音合成，重新设计了waveglow的架构，通过重整音频张量、采用深度可分离卷积以及相关优化使其比waveglow少消耗61
‑
214倍的计算量，可在笔记本端实现每秒123
‑
303k样本的生成，与直接进行卷积操作不同， waveglow首先将邻近的样本聚类构建多通道的输入,其中l为时域维度的长度， cg为每个时间步上的聚类组合的样本数量，波形中的样本总数量为波形随后被一系列双边映射进行转换，其中每一个都会利用的输入得到输出，在每个双边映射中，输入信号首先被可逆的逐点卷积处理，而后将结果沿通道拆分为和，其中被用于计算仿射耦合系数，其中将被应用于的后续计算，而则为类似wavenet的函数，为编码音频的梅尔谱lm为梅尔谱的时间长度，cm为频率分量的数目，最终将在通道方向上组合得到最后的输出；
[0027]
s3、利用声码器从声学特征生产波形：waveglow最主要的计算量来自于 wn函数，输入首先通过逐点卷积进行处理，随后核为3的一维膨胀卷积将继续对上述结果进行处理，
同时梅尔谱也被馈入到网络中，而后in_layer和 cond_layer输出按照wavenet的方式通过门函数进行合并，随后传输到 res_skip_layer,其输出长度为l＝2000，通道数为512,随后将按照通道拆分为两部分，这一结构将重复八次，并在最后的res_skip_layer输出与end进行逐点卷积，计算出转换因子s
i
,t
i
，并将通道从512压缩到8，在waveglow 的源码中，每秒的计算量为229g macs，其中in_layer占据了47％，cond_layer 占据了39％,res_skip_layer则为14％，这对这样的情况，将对原始的网络结构进行改进以减少计算量提高计算效率，将输入音频变形为较小的时域长度和较多的通道上来，同时保持wn函数中的通道尺寸。
[0028]
通过对waveglow的分析发现最主要的计算量来自于输入音频波形的形状 (长度)，waveglow的输出维度为(l＝2000，cg＝8)这会从三个方面带来非常高的计算复杂度：waveglow是一维卷积，其计算复杂度随l线性增长，为了提高梅尔谱的时域分辨率需要对其进行上采样。
[0029]
本发明中，s1中，输入层即将输入的蒙古文单词通过查找词表找到其对应的词向量、形态向量和音系向量，注意力层输入三种蒙古文单词特征向量, 通过加权求和的方式将三种特征向量整合在一起得到新的蒙古文词向量。
[0030]
本发明中，s2中，其中合成器用于从文字输入生成声学特征，而后利用声码器从声学特征生成波形输出。
[0031]
本发明中，s3中，卷积使得的通道数从增加到非常大的数目，在waveglow 中start的输出维度为256维。
[0032]
本发明中，s3中，由于梅尔谱的时域长度远小于波形长度，所以需要对其进行上采样来进行维度匹配。
[0033]
本发明中，s3中，当l＝64时，时域长度与梅尔谱相同无需上采样，而 l＝128时，梅尔谱仅需要进行最邻近采样，这样进一步减少了cond_layer的计算开销，fig2深度可分离卷积减小计算量。
[0034]
本发明中，s3中，基于waveglow的改进，squeezewave
–
light vocoder，可以生成相似的语音质量，但是可以在61x
–
214x mac上跑，对waveglow的网络结构进行重新设计，从而大大减少计算量。
[0035]
同时本说明书中未作详细描述的内容均属于本领域技术人员公知的现有技术。
[0036]
需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。
[0037]
尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。