语音信号的处理方法、设备和存储介质与流程

1.本发明涉及信号处理技术领域，具体涉及一种语音信号的处理方法、装置、设备和存储介质。

背景技术：

2.语音降噪是指当语音信号被各种各样的噪声干扰、甚至淹没后，从噪声背景中提取有用的语音信号，抑制、降低噪声干扰的技术。简单地说，就是从含噪语音中提取尽可能纯净的原始语音。
3.通常情况下，可以采用nn降噪的方法实现对语音的降噪，但是，nn降噪在噪声较强时通常存在两个问题：其一，由于nn降噪单帧求解时频掩膜，原理上导致帧与帧间连续性较弱，数据表现为频谱断裂，听感有“滋滋”冲击声；其二，语音段与静音段处理不均衡，静音段噪声抑制较好，但在语音段噪声残留较多，造成听感上噪声比较突兀。
4.因此，现有技术中对噪声的抑制效果较差。

技术实现要素：

5.本发明提供一种语音信号的处理方法、装置、设备和存储介质，以解决现有技术中对噪声的抑制效果较差的技术问题。
6.本发明解决上述技术问题的技术方案如下：
7.一种语音信号的处理方法，包括：
8.对输入的含噪语音信号进行初步降噪处理，得到初始分离语音信号，并分别获得所述含噪语音信号的功率值和所述初始分离语音信号的功率值；
9.根据所述含噪语音信号的功率值和所述初始分离语音信号的功率值，确定噪声信号的功率值；
10.分别对所述初始分离语音信号的功率值、所述噪声信号的功率值和所述含噪语音信号的功率值进行时域平滑，得到所述初始分离语音信号的平滑功率值、所述噪声信号的平滑功率值和所述含噪语音信号的功率值的平滑功率值；
11.根据所述初始分离语音信号的平滑功率值、所述噪声信号的平滑功率值和所述含噪语音信号的功率值的平滑功率值，确定先验信噪比和后验信噪比；
12.根据所述先验信噪比和所述后验信噪比，对降噪增益器对应的降噪函数进行更新得到更新降噪函数；
13.对所述更新降噪函数进行频域平滑，得到降噪滤波器对应的滤波函数；
14.根据所述滤波函数和所述含噪语音信号，得到频域下的目标分离语音信号；
15.对所述频域下的目标分离语音信号进行傅里叶逆变换，得到时域下的分离语音信号。
16.进一步地，上述所述的语音信号的处理方法中，对输入的含噪语音信号进行初步降噪处理，得到初始分离语音信号，包括：
17.对所述含噪语音信号进行初步降噪处理，得到降噪信号；
18.根据所述降噪信号和所述含噪语音信号，生成时频掩膜；
19.根据所述时频掩膜和所述含噪语音信号，生成所述初始分离语音信号。
20.进一步地，上述所述的语音信号的处理方法中，所述初始分离语音信号的功率值、所述噪声信号的功率值和所述含噪语音信号的功率值之间满足第一计算式；
21.所述第一计算式为：
[0022][0023]
其中，es(t,f)表示所述初始分离语音信号的功率值，s(t,f)表示所述初始分离语音信号，en(t,f)表示所述噪声信号的功率值，ex(t,f)表示所述含噪语音信号的功率值，x(t,f)表示所述含噪语音信号，y(t,f)表示所述降噪信号。
[0024]
进一步地，上述所述的语音信号的处理方法中，所述分别对所述初始分离语音信号的功率值、所述噪声信号的功率值和所述含噪语音信号的功率值进行时域平滑，得到所述初始分离语音信号的平滑功率值、所述噪声信号的平滑功率值和所述含噪语音信号的功率值的平滑功率值，包括：
[0025]
根据第二计算式，分别对所述初始分离语音信号的功率值、所述噪声信号的功率值和所述含噪语音信号的功率值进行时域平滑，得到所述初始分离语音信号的平滑功率值、所述噪声信号的平滑功率值和所述含噪语音信号的功率值的平滑功率值；
[0026]
所述第二计算式为：
[0027][0028]
其中，表示t时初始分离语音信号的平滑功率值，表示t-1时刻初始分离语音信号的平滑功率值，α表示初始分离语音信号的平滑系数；表示t时噪声信号的平滑功率值，表示t-1时刻噪声信号的平滑功率值，β表示噪声信号的平滑系数；表示t时含噪语音信号的平滑功率值，表示t-1时刻含噪语音信号的平滑功率值，δ表示含噪语音信号的平滑系数。
[0029]
进一步地，上述所述的语音信号的处理方法中，根据所述初始分离语音信号的平滑功率值、所述噪声信号的平滑功率值和所述含噪语音信号的功率值的平滑功率值，确定先验信噪比和后验信噪比，包括：
[0030]
将所述初始分离语音信号的平滑功率值和所述噪声信号的平滑功率值代入第三
计算式，得到所述先验信噪比；以及，将所述含噪语音信号的功率值的平滑功率值和所述噪声信号的平滑功率值代入第四计算式，得到所述后验信噪比；
[0031]
所述第三计算式为：
[0032][0033]
ε(t,f)表示先验信噪比；
[0034]
所述第四计算式为：
[0035][0036]
γ(t,f)表示先验信噪比。
[0037]
进一步地，上述所述的语音信号的处理方法中，根据所述先验信噪比和所述后验信噪比，对降噪增益器对应的降噪函数进行更新得到更新降噪函数，包括：
[0038]
将所述先验信噪比和所述后验信噪比代入第五计算式，得到所述更新降噪函数；
[0039]
所述第五计算式为：
[0040][0041]
进一步地，上述所述的语音信号的处理方法中，对所述更新降噪函数进行频域平滑，得到降噪滤波器对应的滤波函数，包括：
[0042]
将所述更新降噪函数代入第六计算式，得到所述滤波函数：
[0043]
所述第六计算式为：
[0044][0045]
表示滤波函数，smoothmat表示mel滤波器的最终归一化矩阵，melmat表示mel滤波器的归一化的转换矩阵，invmelmat表示mel滤波器的归一化的转置矩阵。
[0046]
进一步地，上述所述的语音信号的处理方法中，根据所述滤波函数和所述含噪语音信号，得到频域下的目标分离语音信号，包括：
[0047]
将所述滤波函数和所述含噪语音信号代入第七计算式，得到所述频域下的目标分离语音信号；
[0048]
所述第七计算式为：
[0049][0050]
表示目标分离语音信号。
[0051]
本发明还提供了一种语音信号的处理设备，包括：处理器和存储器；
[0052]
所述处理器用于执行所述存储器中存储的语音信号的处理程序，以实现如上任一项所述的语音信号的处理方法。
[0053]
本发明还提供了一种存储介质，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被执行时实现如上任一项所述的语音信号的处理方法。
[0054]
本发明的有益效果是：
[0055]
通过对输入的含噪语音信号进行初步降噪处理，得到初始分离语音信号后，分别得到含噪语音信号的功率值、初始分离语音信号的功率值和噪声信号的功率值，并经过时
域平滑后，确定先验信噪比和后验信噪比，然后根据先验信噪比和后验信噪比，对降噪增益器对应的降噪函数进行更新得到更新降噪函数，实现了对降噪增益器的动态调整，寻找较优的增益值，并对所述更新降噪函数进行频域平滑，得到降噪滤波器对应的滤波函数后，根据所述滤波函数和所述含噪语音信号，得到频域下的目标分离语音信号后，进行傅里叶逆变换，得到时域下的分离语音信号，实现在较优的增益值下对含噪信号进行降噪，提高了降噪性能。
附图说明
[0056]
图1为本发明的语音信号的处理方法实施例的流程图；
[0057]
图2为本发明的语音信号的处理装置实施例的结构示意图；
[0058]
图3为本发明的语音信号的处理设备的结构示意图。
具体实施方式
[0059]
以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。
[0060]
图1为本发明的语音信号的处理方法实施例的流程图，如图1所示，本实施例的语音信号的处理方法具体可以包括如下步骤：
[0061]
100、对输入的含噪语音信号进行初步降噪处理，得到初始分离语音信号，并分别获得所述含噪语音信号的功率值和所述初始分离语音信号的功率值；
[0062]
在一个具体实现过程中，可以对所述含噪语音信号进行初步降噪处理，得到降噪信号；根据所述降噪信号和所述含噪语音信号，生成时频掩膜；根据所述时频掩膜和所述含噪语音信号，生成所述初始分离语音信号。
[0063]
具体地，含噪语音信号输入后，经过分帧、加窗、傅里叶变换后，得到变化后的含噪语音信号x(t,f)，可以利用nn降噪算法对输入的含噪语音信号进行初步降噪处理，并经过分帧、加窗、傅里叶变换后得到降噪信号y(t,f)，将降噪信号y(t,f)与噪语音信号x(t,f)的比值作为噪语音信号mask(t,f)，将时频掩膜与含噪语音信号的乘积作为初始分离语音信号s(t,f)。
[0064]
其中，s(t,f)＝mask(t,f)*x(t,f)。
[0065]
在一个具体实现过程中，得到初始分离语音信号后，可以分别获得含噪语音信号的功率值es(t,f)＝|s(t,f)|2和初始分离语音信号的功率值ex(t,f)＝|x(t,f)|2。
[0066]
101、根据所述含噪语音信号的功率值和所述初始分离语音信号的功率值，确定噪声信号的功率值；
[0067]
具体地，所述初始分离语音信号的功率值、所述噪声信号的功率值和所述含噪语音信号的功率值之间满足第一计算式(1)；
[0068]
所述第一计算式(1)为：
[0069][0070]
其中，es(t,f)表示所述初始分离语音信号的功率值，s(t,f)表示所述初始分离语音信号，en(t,f)表示所述噪声信号的功率值，ex(t,f)表示所述含噪语音信号的功率值，x(t,f)表示所述含噪语音信号，y(t,f)表示所述降噪信号。
[0071]
102、分别对所述初始分离语音信号的功率值、所述噪声信号的功率值和所述含噪语音信号的功率值进行时域平滑，得到所述初始分离语音信号的平滑功率值、所述噪声信号的平滑功率值和所述含噪语音信号的功率值的平滑功率值；
[0072]
具体地，可以根据第二计算式(2)，分别对所述初始分离语音信号的功率值、所述噪声信号的功率值和所述含噪语音信号的功率值进行时域平滑，得到所述初始分离语音信号的平滑功率值、所述噪声信号的平滑功率值和所述含噪语音信号的功率值的平滑功率值。
[0073]
所述第二计算式(2)为：
[0074][0075]
其中，表示t时初始分离语音信号的平滑功率值，表示t-1时刻初始分离语音信号的平滑功率值，α表示初始分离语音信号的平滑系数；表示t时噪声信号的平滑功率值，表示t-1时刻噪声信号的平滑功率值，β表示噪声信号的平滑系数；表示t时含噪语音信号的平滑功率值，表示t-1时刻含噪语音信号的平滑功率值，δ表示含噪语音信号的平滑系数。
[0076]
103、根据所述初始分离语音信号的平滑功率值、所述噪声信号的平滑功率值和所述含噪语音信号的功率值的平滑功率值，确定先验信噪比和后验信噪比；
[0077]
具体地，可以将所述初始分离语音信号的平滑功率值和所述噪声信号的平滑功率值代入第三计算式(3)，得到所述先验信噪比；以及，将所述含噪语音信号的功率值的平滑功率值和所述噪声信号的平滑功率值代入第四计算式(4)，得到所述后验信噪比；
[0078]
所述第三计算式(3)为：
[0079][0080]
ε(t,f)表示先验信噪比；
[0081]
所述第四计算式(4)为：
[0082][0083]
γ(t,f)表示先验信噪比。
[0084]
104、根据所述先验信噪比和所述后验信噪比，对降噪增益器对应的降噪函数进行更新得到更新降噪函数；
[0085]
具体地，可以将所述先验信噪比和所述后验信噪比代入第五计算式(5)，得到所述更新降噪函数；
[0086]
所述第五计算式(5)为：
[0087][0088]
105、对所述更新降噪函数进行频域平滑，得到降噪滤波器对应的滤波函数；
[0089]
具体地，将所述更新降噪函数代入第六计算式(6)，得到所述滤波函数：
[0090]
所述第六计算式(6)为：
[0091][0092]
表示滤波函数，smoothmat表示mel滤波器的最终归一化矩阵，melmat表示mel滤波器的归一化的转换矩阵，invmelmat表示mel滤波器的归一化的转置矩阵。
[0093]
106、根据所述滤波函数和所述含噪语音信号，得到频域下的目标分离语音信号；
[0094]
具体地，可以将所述滤波函数和所述含噪语音信号代入第七计算式(7)，得到所述频域下的目标分离语音信号；
[0095]
所述第七计算式(7)为：
[0096][0097]
表示目标分离语音信号。
[0098]
107、对所述频域下的目标分离语音信号进行傅里叶逆变换，得到时域下的分离语音信号。
[0099]
本实施例的语音信号的处理方法，通过对输入的含噪语音信号进行初步降噪处理，得到初始分离语音信号后，分别得到含噪语音信号的功率值、初始分离语音信号的功率值和噪声信号的功率值，并经过时域平滑后，确定先验信噪比和后验信噪比，然后根据先验信噪比和后验信噪比，对降噪增益器对应的降噪函数进行更新得到更新降噪函数，实现了对降噪增益器的动态调整，寻找较优的增益值，并对所述更新降噪函数进行频域平滑，得到降噪滤波器对应的滤波函数后，根据所述滤波函数和所述含噪语音信号，得到频域下的目标分离语音信号后，进行傅里叶逆变换，得到时域下的分离语音信号，实现在较优的增益值下对含噪信号进行降噪，提高了降噪性能。
[0100]
需要说明的是，本发明实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本发明实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成的方法。
[0101]
图2为本发明的语音信号的处理装置实施例的结构示意图，如图2所示，本实施例
的语音信号的处理装置可以包括：初步降噪模块20、功率确定模块21、时域平滑模块22、信噪比确定模块23、频域平滑模块24、更新模块25、后处理模块26和变换模块27。
[0102]
初步降噪模块20，用于对输入的含噪语音信号进行初步降噪处理，得到初始分离语音信号；
[0103]
具体地，可以对所述含噪语音信号进行初步降噪处理，得到降噪信号；根据所述降噪信号和所述含噪语音信号，生成时频掩膜；根据所述时频掩膜和所述含噪语音信号，生成所述初始分离语音信号。
[0104]
功率确定模块21，用于分别获得所述含噪语音信号的功率值和所述初始分离语音信号的功率值，根据所述含噪语音信号的功率值和所述初始分离语音信号的功率值，确定噪声信号的功率值；
[0105]
所述初始分离语音信号的功率值、所述噪声信号的功率值和所述含噪语音信号的功率值之间满足第一计算式；
[0106]
所述第一计算式为：
[0107][0108]
其中，es(t,f)表示所述初始分离语音信号的功率值，s(t,f)表示所述初始分离语音信号，en(t,f)表示所述噪声信号的功率值，ex(t,f)表示所述含噪语音信号的功率值，x(t,f)表示所述含噪语音信号，y(t,f)表示所述降噪信号。
[0109]
时域平滑模块22，用于分别对所述初始分离语音信号的功率值、所述噪声信号的功率值和所述含噪语音信号的功率值进行时域平滑，得到所述初始分离语音信号的平滑功率值、所述噪声信号的平滑功率值和所述含噪语音信号的功率值的平滑功率值；
[0110]
根据第二计算式，分别对所述初始分离语音信号的功率值、所述噪声信号的功率值和所述含噪语音信号的功率值进行时域平滑，得到所述初始分离语音信号的平滑功率值、所述噪声信号的平滑功率值和所述含噪语音信号的功率值的平滑功率值；
[0111]
所述第二计算式为：
[0112][0113]
其中，表示t时初始分离语音信号的平滑功率值，表示t-1时刻初始分离语音信号的平滑功率值，α表示初始分离语音信号的平滑系数；表示t时噪声信号的平滑功率值，表示t-1时刻噪声信号的平滑功率值，β表示噪声信号的
平滑系数；表示t时含噪语音信号的平滑功率值，表示t-1时刻含噪语音信号的平滑功率值，δ表示含噪语音信号的平滑系数。
[0114]
信噪比确定模块23，用于根据所述初始分离语音信号的平滑功率值、所述噪声信号的平滑功率值和所述含噪语音信号的功率值的平滑功率值，确定先验信噪比和后验信噪比；
[0115]
具体地，将所述初始分离语音信号的平滑功率值和所述噪声信号的平滑功率值代入第三计算式，得到所述先验信噪比；以及，将所述含噪语音信号的功率值的平滑功率值和所述噪声信号的平滑功率值代入第四计算式，得到所述后验信噪比；
[0116]
所述第三计算式为：
[0117][0118]
ε(t,f)表示先验信噪比；
[0119]
所述第四计算式为：
[0120][0121]
γ(t,f)表示先验信噪比。
[0122]
更新模块25，用于根据所述先验信噪比和所述后验信噪比，对降噪增益器对应的降噪函数进行更新得到更新降噪函数；
[0123]
具体地，将所述先验信噪比和所述后验信噪比代入第五计算式，得到所述更新降噪函数；
[0124]
所述第五计算式为：
[0125][0126]
频域平滑模块24，用于对所述更新降噪函数进行频域平滑，得到降噪滤波器对应的滤波函数；
[0127]
具体地，将所述更新降噪函数代入第六计算式，得到所述滤波函数：
[0128]
所述第六计算式为：
[0129][0130]
表示滤波函数，smoothmat表示mel滤波器的最终归一化矩阵，melmat表示mel滤波器的归一化的转换矩阵，invmelmat表示mel滤波器的归一化的转置矩阵。
[0131]
后处理模块26根据所述滤波函数和所述含噪语音信号，得到频域下的目标分离语音信号；
[0132]
具体地，将所述滤波函数和所述含噪语音信号代入第七计算式，得到所述频域下的目标分离语音信号；
[0133]
所述第七计算式为：
[0134][0135]
表示目标分离语音信号。
[0136]
变换模块27，用于对所述频域下的目标分离语音信号进行傅里叶逆变换，得到时域下的分离语音信号。
[0137]
上述实施例的装置用于实现前述实施例中相应的方法，其具体实现方案可以参见前述实施例记载的方法及方法实施例中的相关说明，并且具有相应的方法实施例的有益效果，在此不再赘述。
[0138]
图3为本发明的语音信号的处理设备的结构示意图，如图3所示，本实施例的通行设备可以包括：处理器1010和存储器1020。本领域技术人员可知的，该设备还可以包括输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
[0139]
处理器1010可以采用通用的cpu(central processing unit，中央处理器)、微处理器、应用专用集成电路(application specific integrated circuit，asic)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。
[0140]
存储器1020可以采用rom(read only memory，只读存储器)、ram(random access memory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。
[0141]
输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。
[0142]
通信接口1040用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如usb、网线等)实现通信，也可以通过无线方式(例如移动网络、wifi、蓝牙等)实现通信。
[0143]
总线1050包括一通路，在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
[0144]
需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。
[0145]
本发明还提供一种存储介质，其存储有一个或者多个程序，所述一个或者多个程序可被执行时实现上述实施例的语音信号的处理方法。
[0146]
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。
[0147]
所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明的不同方面的许多其它变化，为了简明它们没有在细节中提供。
[0148]
另外，为简化说明和讨论，并且为了不会使本发明难以理解，在所提供的附图中可以示出或可以不示出与集成电路(ic)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本发明难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本发明的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明。因此，这些描述应被认为是说明性的而不是限制性的。
[0149]
尽管已经结合了本发明的具体实施例对本发明进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态ram(dram))可以使用所讨论的实施例。
[0150]
以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。