一种新的语音增强方法与流程

1.本发明提出一种新的语音增强方法，涉及语音信号处理领域。

背景技术：

2.在人类发展过程中，语音因其便捷和高效的特点成为了日常生活中最实用的信息交流方式。尤其在现代社会，随着科技水平的提高，语音信号处理技术得到广泛发展，并逐渐衍生出一系列以语音作为载体的产物，如智能音箱(耳机)、语音助手、智能录音笔以及翻译机等，这类智能设备的产生，极大方便了我们的生活。然而，在实际使用过程中，由于环境噪声、设备内部电噪声以及其他说话人声音的存在，严重影响设备的性能，甚至导致语音失真情况的出现。因此，有效解决噪声环境中智能设备的使用问题，对提高产品的用户体验有重大意义，而语音增强作为一种语音处理技术，可以很好解决这一问题。语音增强旨在提高被噪声污染过的语音信号质量以及可懂度，通过人为设计相应的增强算法从含噪语音中提取纯净语音信号，从而抑制背景噪声的干扰。尽管在一定程度上语音增强技术可以有效降低噪声信号带来的不良影响，然而，现实环境中噪声的多样性、复杂性以及突变性，无疑对语音增强技术提出了更高的要求。
3.语音增强任务起源于“鸡尾酒会问题”，该问题描述了这样一种现象。在充斥着各种环境音的舞会中，人类可以很轻易的将关注重点置于感兴趣的目标语音上并降低对其它背景音的关注度，这种听觉选择注意力的产生实际上是人类听觉系统的一种适应能力，但对于机器而言，并不具备这样的适应能力，因此设计出一种可以在嘈杂环境中获取目标信息的计算机听觉模型一直是该问题的研究重点。作为语音信号处理的关键步骤，语音增强技术在语音识别、移动通信等领域有着广泛的应用前景。在语音识别领域，现有的语音识别系统大多是在理想状态下进行，即所有研究均是基于无噪声条件下的语音数据，然而在噪声环境下，特别是在强噪声环境中，系统的识别精度将大幅度降低，语音增强技术可以作为识别系统的前端，通过对含噪语音进行预处理提高系统的识别率。在移动通信领域，通信的双方在交流过程中往往都会受到现实场景中的噪声干扰，特别是当其中一方处于街道或者餐厅环境中，信号传输过程中很容易受到畸变，严重降低通信质量，影响双方的主观听觉感受，通过在发送端施加相应的语音增强技术可以对噪声进行有效滤除，进而改善接收端的语音质量。
4.学术界对语音增强问题的研究距今已有几十年的发展历史，不同于文本分类或者目标检测等任务，语音信号的处理本质上更为复杂。由于现实应用场景中噪声的种类繁多，同时语音增强过程中还需要顾及不同说话人自身的特性以及人耳的感知特性，因此，进行语音增强时需要综合所有因素进行考虑，从而有针对性选取合适的语音增强算法。近年来，深度学习技术因其强大的学习能力备受研究人员的青睐，迅速在多个领域得到广泛应用，并取得显著成效。在语音增强任务中，这类数据驱动的方法通过建立含噪语音与干净语音之间的非线性映射关系完成语音增强过程。因此，为促进深度学习算法在语音增强领域的发展，本发明对深度学习算法进行深入研究，结合语音增强领域的特点对增强模型进行改
善，保证增强语音质量以及可懂度的同时，提升模型在未知噪声环境中的泛化水平。
5.本发明提出一种新的语音增强方法，构建了一种融合non
‑
local模块的编解码网络模型。首先使用固定长度的滑动窗作用于时域带噪语音上进行分块，并将分块后语音进行拼接并作为模型编码端输入，从而充分利用语音的幅值信息以及相位信息；其次在编码端的卷积层加入非局部模块，提取语音序列关键特征的同时，抑制无用特征，同时添加门控循环单元网络捕捉语音序列间的时序相关性信息；再次将门控循环单元网络的输出送入解码端的非局部模块中，之后引入跳跃连接，将编码端的高分辨率特征图与解码阶段的低分辨率特征图进行特征拼接，从而完成特征图之间细节信息的补充；最后使用一维卷积层对输出结果的维度进行调整，并对输出的增强语音块依次进行拼接，从而完成增强语音的整体合成。在中文语音数据集上的测试结果表明，本发明有效提高了增强语音的质量和可懂度。

技术实现要素：

6.有鉴于此，本发明的主要目的是弥补非端到端增强模型中因忽视相位谱学习的重要性而造成增强语音质量不理想问题。
7.为了达到上述目的，本发明提出的技术方案为：
8.一种新的语音增强方法，所述方法包括如下步骤：
9.步骤1、对输入的带噪语音数据进行预处理，在时域对带噪语音依次进行降采样、分块和拼接操作，将拼接结果依次送入模型内部；
10.步骤2、将步骤1拼接后的语音送入在编码端的卷积层中，并在编码端最后一个卷积层中引入非局部模块，提取语音序列关键特征的同时，抑制无用特征，同时添加门控循环单元网络捕捉语音序列间的时序相关性信息；
11.步骤3、将步骤2的并行门控循环单元网络输出特征进行融合，之后送入解码端的非局部模块中，随后引入跳跃连接，将编码端的高分辨率特征图与解码端的低分辨率特征图进行特征拼接，从而完成特征图之间细节信息的补充；
12.步骤4、使用一维卷积层对步骤3的输出维度进行规整，并对输出增强语音块依次进行拼接，从而完成增强语音的整体合成。
13.综上所述，本发明设计了一种编解码网络，将语音的时域表示作为编码端的输入进行深层特征提取，从而充分利用语音信号的幅值信息以及相位信息；在编码端和解码端的卷积层中加入非局部模块，并引入门控循环单元网络捕捉语音序列间的时序相关性信息，在减少噪声特征信息干扰的同时，提高增强语音的质量与可懂度。
附图说明
14.图1为本发明所述的一种新的语音增强方法总体流程示意图；
15.图2为带噪语音进行分块和拼接操作流程示意图；
16.图3为在编码端进行深层特征提取流程示意图；
17.图4为解码端特征恢复过程的流程示意图；
18.图5为增强语音的整体合成流程示意图；
19.图6为使用本发明得到的增强语音语谱图；
具体实施方式：
20.下面将结合本发明的附图，对本发明的技术方案进行清楚、完整地描述，显然，所举实例用于解释说明，并非限定本发明的实施方式，本发明也可以通过其它不同的具体实施方式实施。本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
21.图1为本发明所述的一种新的语音增强方法的总体流程示意图，如图1所示，本发明所述卷积循环网络与非局部模块的语音增强方法，包括如下步骤：
22.步骤1、对输入的带噪语音数据进行预处理，依次进行降采样、语音分块和拼接操作；
23.步骤2、将步骤1拼接结果送入编码端的下采样模块中，其中每个下采样模块均由卷积层、批量归一化层和激活函数层组成，另外，在编码端最后一个下采样模块后引入非局部模块，提取语音序列关键特征的同时，抑制无用特征，同时添加并行的门控循环单元网络，用于捕捉语音序列间的时序相关性信息；
24.步骤3、将步骤2并行门控循环单元网络的输出特征进行融合，之后送入解码端的非局部模块中，同时引入跳跃连接，将编码端的高分辨率特征图与解码端的低分辨率特征图进行特征拼接，从而完成特征图之间细节信息的补充；
25.步骤4、使用一维卷积层对步骤3的输出维度进行调整，并将输出的增强语音块进行拼接，从而完成增强语音的整体合成。
26.图2为带噪语音进行分块操作和拼接的流程示意图，如图2所示，步骤1中，对数据进行预处理，依次进行带噪语音的降采样、语音分块和拼接操作，包括如下步骤：
27.步骤11、对带噪语音降采样到16000hz，然后采用窗长为16384(大约1s)的滑动窗进行分块处理，每个语音块之间无重叠，对于无法被窗长整除的带噪语音，需要对其进行补零；
28.步骤12、对步骤11得到的每一帧时域信号依次沿竖直方向进行拼接操作，表示如下：
[0029][0030]
其中y
l
代表第l个带噪语音块，每个带噪语音块长度均为定值16384；
[0031]
步骤13、对步骤12中特征矩阵按照均值为0，方差为1进行归一化处理，表示如下：
[0032][0033]
其中μ代表输入数据y的均值，σ代表输入数据y的方差。
[0034]
图3为编码端深层特征提取流程的示意图，如图3所示，步骤2中，将步骤1拼接结果送入编码端的下采样模块中，其中每个下采样模块均由卷积层、批量归一化层和激活函数层组成，另外，在编码端最后一个下采样模块之后引入非局部模块，提取语音序列关键特征
的同时，抑制无用特征，同时添加并行的门控循环单元网络，用于捕捉语音序列间的时序相关性信息，包括如下步骤:
[0035]
步骤21、对输入的带噪语音时域矩阵连续经过12个下采样模块进行深层特征提取，而每个下采样模块中包括一个一维卷积层、激活函数层和批量归一化层(batchnormalization,bn)。卷积操作表示如下：
[0036]
m
i
＝f(wgy
i
+b)
[0037]
上式中为卷积层的输出特征图，其中c代表通道数，f代表特征维度，y
i
代表第i个输入的特征图，b为对应的偏置项，w为相应卷积核的权值矩阵，卷积核个数依次为24、48、72、96、120、144、168、192、216、240、264、288，其中核大小为15，步长为1，f为带泄露修正线性单元的leakyrelu激活函数，函数表示如下：
[0038][0039]
其中a为定值，一般取值为0.01；
[0040]
步骤22、将步骤21中生成的特征图m，作为非局部模块的输入，首先分别使用两个一维卷积层对m进行通道维度降维，将通道数由c减少至c2，同时对两个卷积层输出结果进行矩阵相乘，然后使用softmax函数对相乘结果进行归一化处理，生成注意力权重。该计算过程表示如下：
[0041][0042]
其中θ和ψ均代表一维卷积操作；
[0043]
步骤23、将步骤22的注意力权重与同样经一维卷积生成的特征m
j
映射表示进行矩阵相乘，得到第i个位置的输出响应y
i
；
[0044]
步骤24、对步骤23的输出结果y
i
使用卷积操作进行维度调整，使其维度与该模块输入保持一致，进而使用残差连接进行逐元素相加，得到包含语音序列全局信息的增强特征z
i
，表示为：
[0045]
z
i
＝w
z
y
i
+m
i
[0046]
其中w
z
代表训练过程待学习的权重矩阵。需要指出的是步骤22，23，24使用的卷积参数中大小和步长均为1；
[0047]
步骤25、将非局部模块的输出结果送入并行的门控循环网络，上下并行的网络计算过程相同，以上行网络为例，给定t时刻的输入为x
t
，其前向计算过程为：
[0048]
r
t
＝σ(w
xr
x
t
+w
hr
h
t
‑1+b
r
)
[0049]
z
t
＝σ(w
xz
x
t
+w
hz
h
t
‑1+b
z
)
[0050][0051][0052]
其中σ表示sigmoid激活函数，e表示元素乘积，w和b分别代表权重以及偏置，r
t
和z
t
分别代表重置门和更新门，h
t
‑1为t
‑
1时刻的隐藏状态，代表候选隐藏状态，常用于辅助隐藏状态h
t
的计算。
[0053]
图4为解码端特征恢复过程的流程示意图，如图4所示，步骤3中，将步骤2并行的门控循环单元网络输出特征进行融合，之后送入解码端的非局部模块中，随后引入跳跃连接，将编码端的高分辨率特征图与解码阶段的低分辨率特征图进行特征拼接，从而完成特征图之间细节信息的补充，包括如下步骤：
[0054]
步骤31、将并行门控循环网络输出结果进行融合。假设两个网络的输出结果分别为out1与out2，融合过程表示为：
[0055]
input
d
＝add(out1；out2)
[0056]
其中input
d
表示融合结果(解码端输入)，add代表特征融合方式；
[0057]
步骤32、将步骤31的输出送入解码端的非局部模块，重复步骤22至步骤24的计算过程，从而得到加权后的特征向量；
[0058]
步骤33、步骤32的结果送入解码端，解码端由连续12个上采样模块组成，通过跳跃连接与编码端进行关联，在跳跃连接之前，需要先对上一部分的输出在序列维度进行缩放因子为2的线性插值，之后再与对应的下采样模块输出在通道维度进行拼接，其中每个下采样模块结构与上采样模块相同，不同在于，解码端卷积核个数依次为288、264、240、216、192、168、144、120、96、72、48、24，大小为5，步长为1。
[0059]
图5为增强语音的整体合成流程示意图，如图5所示，步骤4中使用一维卷积层对解码端的输出特征进行维度规整，并对输出的增强语音块沿时间维度依次进行拼接，从而完成增强语音的整体合成，包括如下步骤：
[0060]
步骤41、解码端的输出结果与网络原始输入进行拼接，然后再送入输出层进行维度规整，其中输出层卷积核个数、大小和步长依次为1、5、1；
[0061]
步骤42、对步骤41输出结果进行标准化还原，并对预处理阶段含噪语音是否有补零操作的情况进行判断，对于有补零操作的含噪语音，应当先将模型预测输出结果中对应的补零部分去除，反之无需任何操作；
[0062]
步骤43、将步骤42的输出特征进行拼接，进而完成增强语音的重构。
[0063]
实施例
[0064]
本实例利用干净语音和噪声按照不同信噪比进行合成的带噪语音，使用本发明的语音增强方法对带噪语音进行降噪，具体步骤如下所示：
[0065]
1.对数据进行预处理，首先进行降采样过程，然后使用窗长为16384的滑动窗对带噪语音进行分块，无法整除的部分进行补零，并保证块与块之间无重叠，最终得到维度为16384的带噪语音块；
[0066]
2.然后将带噪语音块送入编码端的下采样模块，每个下采样模块中依次为一维卷积层、批量归一化层和激活函数层。在卷积层中，为保证输入与输出维度相同，以same方式进行补零，同时，数据流在编码端传递过程中，依次将下采样模块的输出特征在序列维度进行减半，因此，编码端最终输出特征大小为288
×
4，其中288为通道数，4为序列维度；
[0067]
3.将编码端输出特征依次输入非局部模块以及门控循环单元网络中，分别完成编码端输出特征的加权以及时序相关性的计算过程；
[0068]
4.将门控循环单元网络输出送入解码端，解码端同样由相同数量的上采样模块组成，其结构与编码端保持一致。通过跳跃连接与编码端进行关联，在跳跃连接之前，需要先对上一部分的输出在序列维度进行缩放因子为2的线性插值，之后再与相应的下采样模块
输出在通道维度进行拼接，最终，解码端输出特征大小为24
×
16384。然后将其与编码端的输入进行拼接，拼接后特征图的通道数为25，序列维度保持不变，最后将拼接结果送入输出层进行维度规整，最终输出特征大小为1
×
16384；
[0069]
5.在得到增强语音的一维输出结果之后，先将预处理中补零部分进行去除，然后再进行拼接操作，从而完成增强语音的合成。
[0070]
图6给出的是信噪比为
‑
3db，且被m109(坦克内部噪声)噪声污染后的带噪语音，使用本发明方法进行语音增强后的语谱图，其中横轴代表时间，纵轴代表频率，坐标点的值对应语音信号的能量，并用颜色深浅表示能量大小。其中图(a)为干净语音的语谱图，图(b)为带噪语音的语谱图，图(c)为使用本方法得到的增强语音语谱图。从语谱图上可以看出，使用本发明方法得到的增强语音较好还原了干净语音的低频细节信息，但是对高频部分的处理并不理想，并且在图6(c)的虚线框中，仍有部分的噪声冗余。