首页 > 乐器声学 专利正文
基于神经网络的降噪方法、系统、电子设备及存储介质与流程

时间:2022-02-15 阅读: 作者:专利查询

基于神经网络的降噪方法、系统、电子设备及存储介质与流程

1.本技术涉及声音降噪技术领域,尤其是涉及一种基于神经网络的降噪方法、系统、电子设备及存储介质。


背景技术:

2.语音是一种重要的信息载体,随着现代通信技术的不断发展,语音通信逐渐成为人们日常工作中不可或缺的部分。但是在实际通信过程中,信号不可避免的受到环境噪声或者设备本体噪声的干扰,导致语音信号质量下降,影响信号的可懂度,降低人们的听觉体验。目前降噪技术主要有两类,一类是基于传统信号处理方式的降噪,一类是基于神经网络的降噪。
3.基于传统信号处理的降噪又包含谱减法、维纳滤波法、统计模型法、子空间分解法等,这些方法都依赖于噪声估计,然后将其从语音中剔除。噪声的估计在不同频带分别进行,假设各个频带语音信号功率最低值为噪声功率值,结合各频带能量值的出现概率实现对噪声的跟踪和更新;随后结合谱减、维纳滤波或子空间分解等手段完成语音信号的降噪处理。然而这种噪声估计的方式对噪声的变化响应并不及时,本质上是一种欠估计,也就是说,如果噪声估计的过小可能有噪声残留,如果估计过大可能损伤语音,为了尽可能保留语音信息,这类方法往往降噪效果有限,并且由于这类算法通常假设噪声为平稳加性噪声,其对于非平稳噪声的抑制能力有限。
4.基于神经网络的降噪方法通常又分为基于映射的方法和基于掩蔽的方法,前者训练神经网络模型学习带噪语音和纯净语音之间的映射关系,再通过这种映射关系对输入语音进行降噪,后者通过训练网络学习一个与输入时频谱大小相同的掩蔽矩阵,降噪时将掩蔽矩阵与输入语音进行点乘,从而获得降噪后的语音。但是,基于神经网络的降噪方法的主要问题在于网络参数多,模型较大(mb级别),在一些低功耗平台上较难实现。


技术实现要素:

5.为了解决基于神经网络的降噪方法的网络参数多、模型较大(mb级别)、在一些低功耗平台上较难实现的问题,本技术提供一种基于神经网络的降噪方法、系统、电子设备及存储介质。
6.第一方面,本技术提供的一种基于神经网络的降噪方法,采用如下技术方案:一种基于神经网络的降噪方法,包括以下步骤:构建神经网络并训练;对音频信号进行语音特征提取,并将提取得到的语音特征作为输入信号输入训练好的神经网络中,得到不同频带的增益系数;所述的增益系数均在0

1之间;将所述增益系数作用于频域信号,并对所述频域信号进行逆傅里叶变换,得到降噪后的语音信号。
7.通过采用以上技术方案,通过构建神经网络,然后通过所述的神经网络获得0

1之
间的增益系数(0意味着这个子带的数据都是噪声,1意味着这个子带的数据都是信号),因此,将实时输入信号(时域)的频域信号(将时域信号转换成频域信号)乘以该增益系数便可以达到降噪的目的,进一步进行逆傅里叶变换即可得到降噪后的语音信号。由于本技术中的神经网络模型结构简单,因而可以在低功耗平台上运行,进而使得基于该神经网络的降噪方法既可以用于上行降噪,也可以用于下行降噪;而且由于本技术中的神经网络模型结构简单,因而使得基于该神经网络的降噪方法也可以对通讯实时性很高的通话、直播场景中的音频进行降噪处理,比如手机通话、微信通话、即时通讯通话、k歌、对讲、直播视频播放等情景模式,使得用户接收到音频听起来更高清、噪声更低。
8.优选的,所述的神经网络包括:顺次连接的全连接层fc1、激活层relu1、长短时记忆层lstm、全连接层fc2、激活层relu2、全连接层fc3、激活层sigmoid;和或所述的全连接层fc1用于将语音特征映射到隐层空间;激活层relu1用于对隐层空间的输出信号进行处理,增大网络的稀疏性;长短时记忆层lstm用于对激活层relu1的输出数据进行处理,解决语音帧之间存在的长时依赖问题;全连接层fc2用于将长短时记忆层lstm的输出数据映射到隐层空间;激活层relu2用于对隐层空间的输出信号进行处理,增大网络的稀疏性;全连接层fc3用于将激活层relu2的输出数据映射到隐层空间;激活层sigmoid用于对全连接层fc3的输出数据进行处理,将最后的输出结果映射到0

1之间,并作为不同频带的增益系数。
9.通过以上方法构建的神经网络模型结构简单,因而可以在低功耗平台上运行,进而使得基于该神经网络的降噪方法既可以用于上行降噪,也可以用于下行降噪;而且由于本技术中的神经网络模型结构简单,因而使得基于该神经网络的降噪方法也可以对通讯实时性很高的通话、直播场景中的音频进行降噪处理,比如手机通话、微信通话、即时通讯通话、k歌、对讲、直播视频播放等情景模式,使得用户接收到音频听起来更高清、噪声更低。
10.优选的,所述的全连接层fc1的输入维度是34,输出维度是48;全连接层fc2的输入维度是48,输出维度是36;全连接层fc3的输入维度是36,输出维度是24,即得24个子带的增益系数。
11.通过采用以上技术方案,优选了数据处理过程中采用的矩阵,从而保证信息处理量更少,同时降噪效果也较好。
12.优选的,还包括:采用梯度下降法对构建的神经网络进行优化。从而使得最终确定的神经网络的参数更加准确,使用该模型进行降噪的效果更好。
13.优选的,通过以下方法对音频信号进行语音特征提取:对音频信号进行分帧处理;对于分帧处理后的信号,计算获得语音特征——梅尔倒谱系数、倒谱系数的一阶和二阶差分、信号能量、vad系数。
14.通过采用以上技术方案,尤其是选用梅尔倒谱系数、倒谱系数的一阶和二阶差分、信号能量、vad系数作为语音特征输入本技术中构建的神经网络,不仅可以较为全面的描述语音信号,同时这几个语音特征的数据量较小,能够进一步降低计算量,从而进一步确保了
本技术的降噪方法可以应用于通讯实时性很高的通话、直播场景中的进行音频降噪处理,以及同时用于上行降噪和下行降噪中。
15.优选的,对音频信号进行分帧处理前,还包括:对音频信号进行预加重处理;所述预加重处理消除发声过程中声带及口唇对语音的影响,加强高频部分,还原原始的声音。
16.通过采用以上技术方案,对音频信号进行预加重处理,从而可以在一定程度上消除发声过程中声带及口唇对语音的影响,加强高频部分,还原原始的声音。因为发声过程中,声带及口唇本身会把低频加重,高频减弱,进行预处理后,可以还原原始的声音。
17.优选的,对音频信号进行分帧处理后、计算获得语音特征前,还包括:对分帧后的数据利用窗函数进行处理。
18.通过采用以上技术方案,对分帧后的数据利用窗函数进行处理,从而可以防止频谱泄漏,使得信号的两端平滑,频域分析更准确。
19.优选的,所述的语音特征包括34个,具体包括16个梅尔倒谱系数、8个倒谱系数的一阶差分、8个倒谱系数的二阶差分、本帧信号能量和vad系数。
20.其中,梅尔倒谱系数的阶数取16,丢弃高阶次的系数有两个原因,一是这相当于使信号通过低通滤波器,可以使信号平滑化,能增进语音处理的性能;二是由于mel频率与hz频率之间非线性的对应关系,使得梅尔倒谱系数随着频率的提高,其计算精度随之下降。另外,倒谱系数的一阶和二阶差分分别取前8个,因为差分计算会扩大梅尔倒谱系数的计算精度误差,因此只提取低阶差分。最终通过选用的34个语音特征,不仅能够更为全面、准确的描述语音信号,同时这几个语音特征的数据量较小,能够进一步降低计算量,从而进一步确保了本技术的降噪方法可以应用于通讯实时性很高的通话、直播场景中的进行音频降噪处理,以及同时用于上行降噪和下行降噪中。
21.优选的,在步骤对音频信号进行语音特征提取之前还包括:通过a2dp或hfp码流接收智能终端的音频信号;判断音频信号的来源信息是否是预设类型;若所述音频信号符合预设类型,则对所述音频信号进行下行降噪处理。
22.通过采用以上技术方案,从而可以使得智能音频设备如智能蓝牙耳机、智麦等,接收到智能终端的符合预设类型的含噪音频信号后,可以通过本技术中的基于神经网络的降噪方法进行下行降噪;而传统的降噪处理,只能按照设定方法在收集信号的时候进行上行降噪;具体的说,如果设备收集的信号是含噪信号,则只能是基于人工或服务器进行用户服务的时候进行上行降噪。而本技术可以通过用户设备(如智能蓝牙耳机、智麦等)对符合预设类型的含噪音频信号进行智能化的下行降噪处理。
23.优选的,所述的若所述音频信号符合预设类型,则对所述音频信号进行下行降噪处理,包括:若所述音频信号是第一预设类型的音频信号,则对所述音频信号进行下行降噪处理;若所述音频信号是第二预设类型的音频信号,则跳过对所述音频信号进行下行降噪处理的步骤。
24.优选的,所述第一预设类型的音频信号包括但不限于手机通话信号、微信通话信号、即时通讯通话信号、k歌信号、对讲信号、短视频平台视频播放信号、直播视频播放信号;所述第二预设类型的音频信号包括但不限于高保真电影信号、高保真音乐信号,所述第二预设类型的音频信号是经过降噪的信号。
25.通过采用以上技术方案,对手机通话信号、微信通话信号、即时通讯通话信号、k歌信号、对讲信号、短视频平台视频播放信号、直播视频播放信号等通讯实时性很高的通话、直播场景中的信号进行下行降噪处理,从而保证了较好的听音环节,而且降噪成本较低。
26.第二方面,本技术提供的一种降噪系统,采用如下技术方案:一种降噪系统,包括:神经网络构建及训练模块,用于构建神经网络并训练;语音特征提取模块,用于对音频信号进行语音特征提取;增益系数获取模块,用于将提取得到的语音特征作为输入信号输入训练好的神经网络中,得到不同频带的增益系数;所述的增益系数均在0

1之间;降噪后的语音信号获取模块,用于将所述增益系数作用于频域信号,并对所述频域信号进行逆傅里叶变换,得到降噪后的语音信号。
27.通过采用以上技术方案,构建神经网络,然后通过所述的神经网络获得0

1之间的增益系数(0意味着这个子带的数据都是噪声,1意味着这个子带的数据都是信号),因此,将实时输入信号(时域)的频域信号(将时域信号转换成频域信号)乘以该增益系数便可以达到降噪的目的,进一步进行逆傅里叶变换即可得到降噪后的语音信号。由于本技术中的神经网络模型结构简单,因而可以在低功耗平台上运行,进而使得基于该神经网络的降噪方法既可以用于上行降噪,也可以用于下行降噪;而且由于本技术中的神经网络模型结构简单,因而使得基于该神经网络的降噪方法也可以对通讯实时性很高的通话、直播场景中的音频进行降噪处理,比如手机通话、微信通话、即时通讯通话、k歌、对讲、直播视频播放等情景模式,使得用户接收到音频听起来更高清、噪声更低。
28.优选的,所述的神经网络包括:顺次连接的全连接层fc1、激活层relu1、长短时记忆层lstm、全连接层fc2、激活层relu2、全连接层fc3、激活层sigmoid;和或所述的全连接层fc1用于将语音特征映射到隐层空间;激活层relu1用于对隐层空间的输出信号进行处理,增大网络的稀疏性;长短时记忆层lstm用于对激活层relu1的输出数据进行处理,解决语音帧之间存在的长时依赖问题;全连接层fc2用于将长短时记忆层lstm的输出数据映射到隐层空间;激活层relu2用于对隐层空间的输出信号进行处理,增大网络的稀疏性;全连接层fc3用于将激活层relu2的输出数据映射到隐层空间;激活层sigmoid用于对全连接层fc3的输出数据进行处理,将最后的输出结果映射到0

1之间,并作为不同频带的增益系数;和或所述系统还包括:
音频信号接收模块,用于通过a2dp或hfp码流接收智能终端的音频信号;判断模块,用于判断音频信号的来源信息是否是预设类型;降噪处理模块,用于若所述音频信号符合预设类型,则对所述音频信号进行下行降噪处理。
29.所述的降噪处理模块中,若所述音频信号是第一预设类型的音频信号,则对所述音频信号进行下行降噪处理;若所述音频信号是第二预设类型的音频信号,则跳过对所述音频信号进行下行降噪处理的步骤。
30.所述第一预设类型的音频信号包括但不限于手机通话信号、微信通话信号、即时通讯通话信号、k歌信号、对讲信号、短视频平台视频播放信号、直播视频播放信号;所述第二预设类型的音频信号包括但不限于高保真电影信号、高保真音乐信号,所述第二预设类型的音频信号是经过降噪的信号。
31.通过以上方式构建的神经网络模型结构简单,因而可以在低功耗平台上运行,进而使得基于该神经网络的降噪方法既可以用于上行降噪,也可以用于下行降噪;而且由于本技术中的神经网络模型结构简单,因而使得基于该神经网络的降噪方法也可以对通讯实时性很高的通话、直播场景中的音频进行降噪处理,比如手机通话、微信通话、即时通讯通话、k歌、对讲、直播视频播放等情景模式,使得用户接收到音频听起来更高清、噪声更低。
32.优选的,所述的全连接层fc1的输入维度是34,输出维度是48;全连接层fc2的输入维度是48,输出维度是36;全连接层fc3的输入维度是36,输出维度是24,即得24个子带的增益系数。
33.通过采用以上技术方案,优选了数据处理过程中采用的矩阵,从而保证信息处理量更少,同时降噪效果也较好。
34.优选的,所述系统还包括:优化模块,用于采用梯度下降法对构建的神经网络进行优化。
35.从而使得最终确定的神经网络的参数更加准确,使用该模型进行降噪的效果更好。
36.优选的,所述的语音特征提取模块包括:分帧处理子模块,用于对音频信号进行分帧处理;语音特征获取子模块,用于对于分帧处理后的信号,计算获得语音特征——梅尔倒谱系数、倒谱系数的一阶和二阶差分、信号能量、vad系数。
37.通过采用以上技术方案,尤其是选用梅尔倒谱系数、倒谱系数的一阶和二阶差分、信号能量、vad系数作为语音特征输入本技术中构建的神经网络,不仅可以较为全面的描述语音信号,同时这几个语音特征的数据量较小,能够进一步降低计算量,从而进一步确保了本技术的降噪方法可以应用于通讯实时性很高的通话、直播场景中的进行音频降噪处理,以及同时用于上行降噪和下行降噪中。
38.优选的,所述的语音特征提取模块还包括:预加重处理子模块,用于对音频信号进行预加重处理;所述预加重处理消除发声过程中声带及口唇对语音的影响,加强高频部分,还原原始的声音。。
39.通过采用以上技术方案,对音频信号进行预加重处理,从而可以在一定程度上消
除发声过程中声带及口唇对语音的影响,加强高频部分,还原原始的声音。因为发声过程中,声带及口唇本身会把低频加重,高频减弱,进行预处理后,可以还原原始的声音。
40.优选的,所述的语音特征提取模块还包括:数据处理子模块,用于对分帧后的数据利用窗函数进行处理。
41.通过采用以上技术方案,对分帧后的数据利用窗函数进行处理,从而可以防止频谱泄漏,使得信号的两端平滑,频域分析更准确。
42.优选的,所述的语音特征包括34个,具体包括16个梅尔倒谱系数、8个倒谱系数的一阶差分、8个倒谱系数的二阶差分、本帧信号能量和vad系数。
43.其中,梅尔倒谱系数的阶数取16,丢弃高阶次的系数有两个原因,一是这相当于使信号通过低通滤波器,可以使信号平滑化,能增进语音处理的性能;二是由于mel频率与hz频率之间非线性的对应关系,使得梅尔倒谱系数随着频率的提高,其计算精度随之下降。另外,倒谱系数的一阶和二阶差分分别取前8个,因为差分计算会扩大梅尔倒谱系数的计算精度误差,因此只提取低阶差分。最终通过选用的34个语音特征,不仅能够更为全面、准确的描述语音信号,同时这几个语音特征的数据量较小,能够进一步降低计算量,从而进一步确保了本技术的降噪方法可以应用于通讯实时性很高的通话、直播场景中的进行音频降噪处理,以及同时用于上行降噪和下行降噪中。
44.第三方面,本技术提供的一种电子设备,采用如下技术方案:一种电子设备,包括存储器和处理器,所述存储器上存储有能够被处理器加载并执行如前述任一种方法的计算机程序。
45.第四方面,本技术提供的一种计算机可读存储介质,采用如下技术方案:一种计算机可读存储介质,存储有能够被处理器加载并执行如前述任一种方法的计算机程序。
46.综上所述,本技术包括以下至少一种有益技术效果:通过本技术设计的神经网络结构,包括顺次连接的全连接层fc1、激活层relu1、长短时记忆层lstm、全连接层fc2、激活层relu2、全连接层fc3、激活层sigmoid,将其用于音频信号降噪处理,由于该模型结构简单,因而可以在低功耗平台上运行,也就是说,既可以用于上行降噪,也可以用于下行降噪;而且由于该模型结构简单,输入参数少(神经网络模型参数,以全连接层为例,不考虑偏置的情况下,模型参数数量为输入维度*输出维度。因为输入网络的数据维度小(相对于将时域或频域信号直接输入网络),且网络较浅,因此说参数少),因而也可以对通讯实时性很高的通话、直播场景中的音频进行降噪处理,比如手机通话、微信通话、即时通讯通话、k歌、对讲、直播视频播放等情景模式,使得用户接收到音频听起来更高清、噪声更低。
附图说明
47.图1是本技术的一种实施例中的降噪方法流程示意图。
48.图2是本技术的一种实施例中构建的降噪神经网络结构示意图。
49.图3是长短时记忆层lstm的更新原理示意图。
50.图4是采用本技术的降噪方法降噪后的pesq示意图。
51.图5是本技术用于下行降噪的示意图。
52.图6是应用本技术中的降噪方法进行下行降噪的方法流程示意图。
53.图7是本技术的一种实施例中的降噪系统示意图;图8是本技术的另一种实施例中的降噪系统示意图。
54.附图标记说明:501、神经网络构建及训练模块,502、语音特征提取模块,503、增益系数获取模块,504、降噪后的语音信号获取模块,505、优化模块,506、音频信号接收模块,507、判断模块,508、降噪处理模块,5021、分帧处理子模块,5022、语音特征获取子模块,5023、预加重处理子模块,5024、数据处理子模块。
具体实施方式
55.为使本技术的目的、技术方案和优点更加清楚,下面将结合附图对本技术的实施方式作进一步地详细描述。
56.如本文所使用的,术语“模块或单元”可以指或者包括专用集成电路(asic)、电子电路、执行一个或多个软件或固件程序的处理器(共享的、专用的或组)和/或存储器(共享的、专用的或组)、组合逻辑电路、和/或提供所描述的功能的其他合适的组件,或者可以是专用集成电路(asic)、电子电路、执行一个或多个软件或固件程序的处理器(共享的、专用的或组)和/或存储器(共享的、专用的或组)、组合逻辑电路、和/或提供所描述的功能的其他合适的组件的一部分。
57.现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
58.同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
59.以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
60.对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
61.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
62.本发明实施例可以应用于计算机系统/服务器,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与计算机系统/服务器一起使用的众所周知的计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
63.计算机系统/服务器可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处
理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
64.本技术实施例公开一种基于神经网络的降噪方法,如图1、图2所示,包括以下步骤:s1,构建神经网络并训练;s2,对音频信号进行语音特征提取,并将提取得到的语音特征作为输入信号输入训练好的神经网络中,得到不同频带的增益系数;所述的增益系数均在0

1之间;s3,将所述增益系数作用于频域信号,并对所述频域信号进行逆傅里叶变换,得到降噪后的语音信号。
65.上述方法中,所述的神经网络包括:顺次连接的全连接层fc1、激活层relu1、长短时记忆层lstm、全连接层fc2、激活层relu2、全连接层fc3、激活层sigmoid;和/或所述的全连接层fc1用于将语音特征映射到隐层空间;激活层relu1用于对隐层空间的输出信号(即全连接层fc1的输出信号)进行处理,增大网络的稀疏性;长短时记忆层lstm用于对激活层relu1的输出数据进行处理,解决语音帧之间存在的长时依赖问题;全连接层fc2用于将长短时记忆层lstm的输出数据映射到隐层空间;激活层relu2用于对隐层空间的输出信号(即全连接层fc2的输出信号)进行处理,增大网络的稀疏性;全连接层fc3用于将激活层relu2的输出数据映射到隐层空间;激活层sigmoid用于对全连接层fc3的输出数据进行处理,将最后的输出结果映射到0

1之间,并作为不同频带的增益系数。
66.为了验证本技术的效果,发明人还将本技术降噪所采用的神经网络(包括顺次连接的全连接层fc1、激活层relu1、长短时记忆层lstm、全连接层fc2、激活层relu2、全连接层fc3、激活层sigmoid)与其他的降噪模型进行了对比。具体的说,发明人选择tasnet模型,webrtc_ns模型和本技术进行对比。其中,tasnet是一个应用广泛的时域音频分离网络,可用于降噪。webrtc_ns是基于维纳滤波器的降噪算法。
67.具体测试所用的噪声语音是通过noise92数据集与纯净语音合成得到的。测试指标选择客观语音质量评估(pesq)、si信噪比(sisnr)和模型大小(model size),其中pesq可以反应降噪后语音的质量,该值越高,人耳听觉感受越好,sisnr可以反应降噪的效果,该值越高,降噪效果越明显。 tasnetwebrtc_ns本技术pesq1.88922.65812.8031sisnr12.4822

2.687712.4120model size8.75mb

89.25kb
68.从上表中可以看到,相对于webrtc_ns算法,本技术模型的降噪效果提高非常明显;相对于tasnet网络,本技术通过更小的模型,实现了与tasnet相当的语音质量和降噪效果。
69.具体的说,比如:得到34维语音特征后,首先进入fc1全连接层,将34维语音特征映射到48维的隐层空间(即把原来较少的节点拓宽,作为下一层神经节点的输入)。全连接层的计算方式如下:其中,y1,y2,...y
48
是fc1的输出;w和b分别是参数矩阵和偏置,其初始值是随机给定的,最终模型确定的参数矩阵和偏置是训练得到的;x1,x2,...x
34
为输入的34维语音特征。
70.fc1的输出结果进入relu1激活层,该层中,输入数据x>0时,梯度恒为1,即y=x,输入数据x<0时,输出为0。relu1激活层不改变输入数据维度。relu层可以增大网络的稀疏性,这样提取出来的特征更具有代表性,模型泛化能力更强。
71.relu1激活层的输出结果进入lstm层,lstm层的引入是为了解决语音帧之间存在的长时依赖问题。其更新原理如图3所示,其中,c
n
表示第n帧的保留状态,f
n
表示第n帧的遗忘门输出,u
n
表示第n帧的更新们输出,第n帧的输出门输出为o
n
,h
n
表示第n帧的输出。lstm单元将第n帧的输入x
n
、第n

1帧的输出h
n
‑1和第n

1帧的输出状态c
n
‑1进行组合,产生第n帧的输出h
n
和状态c
n
,并一直向后迭代。初始参数可以随机给定。
72.lstm层的输出结果进入fc2全连接层,其输入维度为48维,输出维度为36维,随后经过激活层relu2。最后数据经过全连接层fc3和sigmoid激活层后输出,sigmoid函数作为网络的最后一层,目的是将最后的输出结果映射到0,1之间,其计算公式如下:其中,x是全连接层fc3的输出。sigmoid函数是单调连续的,数据在传递过程中不容易发散,容易求导,且其输出结果在0

1之间,所以在本技术的降噪模型中,可以作为频域的增益系数(24个子带的增益系数)。
73.可选的,所述的全连接层fc1的输入维度是34(即34个语音特征),输出维度是48;全连接层fc2的输入维度是48,输出维度是36;全连接层fc3的输入维度是36,输出维度是24,即得24个子带的增益系数。
74.上述神经网络,其最终要输出24维矩阵,那么具体的,中间处理过程中比如全连接层fc1、全连接层fc2、全连接层fc3用到的矩阵维度是可变的,但是处理过程中用到的矩阵维度越高,参数越多,对信号的降噪效果可能更好,但是相应的,数据处理量也更大。所以这个过程中,优选了上述输入输出矩阵及处理过程中采用的矩阵,保证信息处理量少,同时降噪效果较好。
75.具体的说,对于全连接层fc1,输入维度固定为34,输出维度可调,本实施例选取输出维度48为优选参数;对于长短时记忆层lstm,其层数和是否为双向可调,本技术实施例选取层数为1的双向结构为优选参数;对于全连接层fc2,输入维度为fc1的输出维度,输出维度可调,本技术实施例选取输出维度36为优选参数;对于fc3,输入维度是fc2的输出维度,输出维度固定为24;激活层均不需要调节参数。
76.可选的,所述的神经网络构建后,还包括:设置训练过程中的批处理数据量大小batch_size、学习率、数据集最大迭代次数及早停条件,并对所述的神经网络进行训练;训练的过程中始终保存验证集结果最优时所对应的模型参数。
77.具体来说,训练过程的批处理大小batch_size可以设置为24,16、64、128等也都可以,适当提高batch_size大小可加快训练速度,同时也对平台的性能提出了更高的要求;设置为24时既保证训练的速度满足要求,同时对平台的要求也不太高。学习率可以设置为0.001,该值过大收敛速度加快,但可能导致欠拟合,该值过小,可能导致过拟合,当设置为0.001时,可以保证训练速度较快的情况下,同时保证收敛也较好。数据集最大迭代次数可以设置为120次,早停条件可以设置为验证集损失函数结果在连续5次迭代中没有下降。
78.本实施例中,网络训练可选用的数据集是微软2021年提供的deep noise suppression(dns)数据集,将纯净语音与噪声以不同信噪比进行混合,信噪比的范围从

30db到30db随机选择,同时生成不同的房屋反馈路径模拟混响效果,带有混响的数据占总数据比例约10%,按照本技术中的方法提取语音特征,作为数据集,将所有数据按照10:1:1来划分训练集、测试集和验证集。
79.其中,采用带权重的信号与干扰比(wsdr)表示模型的损失函数:式中,式中,为带噪语音信号,分别是纯净语音信号和估计出来的纯净语音信号,分别是噪声信号和估计的噪声信号,是纯净语音信号和带噪语音信号的能量比。
80.可选的,还包括:采用梯度下降法(比如可以是adam算法等)对构建的神经网络进行优化。
81.s21,对音频信号进行预加重处理;所述预加重处理消除发声过程中声带及口唇对语音的影响,加强高频部分,还原原始的声音;具体的,预加重处理可以通过高通滤波器完成,传输函数可以选择以下公式或其他公式:,取值0.98,z的含义是z变换;s22,对预加重处理后的音频信号进行分帧处理,每帧长度为160个点,16k采样率下,每帧长度10ms,与上一帧信号组合,共320点数据进入后续流程;s23,对分帧后的音频信号再利用窗函数进行处理,所述的窗函数可以是汉明窗、三角窗、汉宁窗等;比如分帧后的数据利用汉明窗进行处理,窗函数写为,其中的取值范围是;s24,对于利用窗函数处理后的信号,计算获得语音特征——梅尔倒谱系数、倒谱系数的一阶和二阶差分、信号能量、vad系数。
82.具体的,计算语音特征时,首先对窗函数处理后的320点信号进行512点的傅里叶变换,得到频域数据。子带的划分在梅尔域进行,梅尔标度描述了人耳频率的非线性特征,它与频率的关系可表示为。在梅尔域将频域数据等分为24个子带,并通过下式计算对数能量:
其中,是子带序号(1~24),是对应子带的梅尔滤波器,x(k)是频域数据,nfft是傅里叶变换的点数,比如512;m=24。
83.将上述能量进行离散余弦变换得到梅尔倒谱系数,变换公式如下:其中l是梅尔倒谱系数的阶数,这里阶数可以取16,也可以取其他值,如果阶数更大,则参数更多,模型计算量更大,降噪效果更好。根据计算量和降噪效果,为了使得本技术的降噪方法同时适用于上行降噪和下行降噪(下行设备一般而言处理能力都一般),那么在具体实施时,梅尔倒谱系数的阶数会选择适中的值。
84.倒谱系数只反映了当前帧语音的静态特性,语音的动态特性也是重要特征,通过差分谱来描述,差分参数的计算采用下面公式:上式中,表示第t个一阶差分,这里只计算8个一阶差分(同理,这里的一阶差分个数也是可以变化的),因此t的范围是1~8。得到一阶差分后,将再次带入上式计算得到二阶差分,同样可取8个。
85.信号能量即为当前帧能量,取本帧内所有信号点的大小求平方和,再转换为分贝表示即可,信号能量即为e。
86.vad(voice activity detection)语音活动检测系数表示当前帧是否存在语音,是语音信号的一个重要特征,vad系数vad的计算采用开源算法webrtc中的方式。
87.由此得到每一帧的语音特征34个,分别为16个梅尔倒谱系数、8个倒谱系数的一阶差分、8个倒谱系数的二阶差分、本帧信号能量和vad系数(同上,这里的语音特征个数、梅尔倒谱系数的个数、一阶差分、二阶差分的个数都是可以变化的)。
88.使用训练好的神经网络对输入音频信号进行降噪处理,将实时音频信号以160点为一帧进行采集,将本帧信号与上一帧信号拼接在一起进行信号预处理,随后提取34维的本帧信号特征,将34维数据作为输入输入训练好的网络模型,输出结果为24个子带的增益,这里为了保证各频点的增益平滑,将进行插值,得到257维的全带增益系数,然后将与频域信号相乘并进行逆傅里叶变换,最终得到降噪后的语音信号。
89.降噪后的pesq(perceptual evaluation of speech quality)如图4所示,这些数据是在dns数据集的测试集上得到的,所选用的信噪比分别为

5db、0db、5db、10db和15db,将所有相同信噪比信号的pesq值进行平均得到图4所示结果。另外在运用本技术的降噪方法的过程中,只需要进行前向传播,由于本技术中构建的降噪神经网络模型较小,均可满足dsp的实时处理要求。
90.传统的声音信号的降噪只能是在收集信号的时候进行降噪,如果设备收集的信号是含噪信号,则只能是基于人工或服务器进行用户服务的时候降噪,无法通过用户设备进
行智能化的下行降噪(因为上行降噪的模型复杂,参数多,该模型并不适用于处理能力一般的低功耗平台来进行下行降噪,比如耳机);用户在收听到相关信号后,由于音频信号差,用户听起来会很不舒服,影响使用体验,而且通过人工或者服务器降噪成本很高,并且对于通讯实时性很高的通话、直播场景中,也无法实时通过人工或服务器进行接收端的降噪(模型大,参数多,所以很难保证实时处理)。由于本技术中构建的神经网络模型简单,并且需要处理的网络参数较少,因而不仅可以对通讯实时性很高的通话、直播场景中的音频进行降噪处理,而且可以同时适用于上行降噪和下行降噪。
91.对于上行降噪,可以将本技术中的降噪方法设置于如手机、平板等智能终端中;对于下行降噪,可以将本技术中的降噪方法设置于如图5所示的耳机等设备中。
92.具体的,采用本技术进行下行降噪时,具体通过如图6所示的流程进行处理,在步骤对音频信号进行语音特征提取之前还包括:s101,通过a2dp或hfp码流接收智能终端(如手机)的音频信号;s102,(智能设备)判断音频信号的来源信息是否是预设类型;s103,若所述音频信号符合预设类型,则对所述音频信号进行下行降噪处理。
93.步骤s101中,智能终端及智能设备的蓝牙或无线音频协议包括但不限于a2dp/hfp,也可以通过swiss协议传输。
94.智能终端及智能设备内嵌的编解码器包含但不限于sbc、aptx、mp3、aac、amr等等。
95.所述的智能设备包括但不限于头戴蓝牙耳机、tws耳机、音箱、单耳蓝牙耳机、蓝牙接收器等。
96.所述的若所述音频信号符合预设类型,则对所述音频信号进行下行降噪处理,包括:若所述音频信号是第一预设类型的音频信号,则对所述音频信号进行下行降噪处理;若所述音频信号是第二预设类型的音频信号,则跳过对所述音频信号进行下行降噪处理的步骤。
97.其中,所述第一预设类型的音频信号包括但不限于手机通话信号、微信通话信号、即时通讯通话信号、k歌信号、对讲信号、短视频平台视频播放信号、直播视频播放信号;所述第二预设类型的音频信号包括但不限于高保真电影信号、高保真音乐信号,所述第二预设类型的音频信号是经过降噪的信号。
98.具体实施时,也可以采用本技术的方法进行上行降噪。
99.本技术实施例还公开一种降噪系统,如图7所示,包括:神经网络构建及训练模块501,用于构建神经网络并训练;语音特征提取模块502,用于对音频信号进行语音特征提取;增益系数获取模块503,用于将提取得到的语音特征作为输入信号输入训练好的神经网络中,得到不同频带的增益系数;所述的增益系数均在0

1之间;降噪后的语音信号获取模块504,用于将所述增益系数作用于频域信号,并对所述频域信号进行逆傅里叶变换,得到降噪后的语音信号。
100.所述的神经网络构建及训练模块501中,所述的神经网络包括:顺次连接的全连接层fc1、激活层relu1、长短时记忆层lstm、全连接层fc2、激活层relu2、全连接层fc3、激活层
sigmoid;和或所述的全连接层fc1用于将语音特征映射到隐层空间;激活层relu1用于对隐层空间的输出信号进行处理,增大网络的稀疏性;长短时记忆层lstm用于对激活层relu1的输出数据进行处理,解决语音帧之间存在的长时依赖问题;全连接层fc2用于将长短时记忆层lstm的输出数据映射到隐层空间;激活层relu2用于对隐层空间的输出信号进行处理,增大网络的稀疏性;全连接层fc3用于将激活层relu2的输出数据映射到隐层空间;激活层sigmoid用于对全连接层fc3的输出数据进行处理,将最后的输出结果映射到0

1之间,并作为不同频带的增益系数;和或所述系统还包括:音频信号接收模块506,用于通过a2dp或hfp码流接收智能终端的音频信号;判断模块507,用于判断音频信号的来源信息是否是预设类型;降噪处理模块508,用于若所述音频信号符合预设类型,则对所述音频信号进行下行降噪处理。
101.所述的降噪处理模块508中,若所述音频信号是第一预设类型的音频信号,则对所述音频信号进行下行降噪处理;若所述音频信号是第二预设类型的音频信号,则跳过对所述音频信号进行下行降噪处理的步骤。
102.所述第一预设类型的音频信号包括但不限于手机通话信号、微信通话信号、即时通讯通话信号、k歌信号、对讲信号、短视频平台视频播放信号、直播视频播放信号;所述第二预设类型的音频信号包括但不限于高保真电影信号、高保真音乐信号,所述第二预设类型的音频信号是经过降噪的信号。
103.可选的,所述的全连接层fc1的输入维度是34,输出维度是48;全连接层fc2的输入维度是48,输出维度是36;全连接层fc3的输入维度是36,输出维度是24,即得24个子带的增益系数。
104.可选的,如图8所示,所述系统还包括:优化模块505,用于采用梯度下降法对构建的神经网络进行优化。
105.可选的,所述的语音特征提取模块502包括:分帧处理子模块5021,用于对音频信号进行分帧处理;语音特征获取子模块5022,用于对于分帧处理后的信号,计算获得语音特征——梅尔倒谱系数、倒谱系数的一阶和二阶差分、信号能量、vad系数。
106.可选的,所述的语音特征提取模块502还包括:预加重处理子模块5023,用于对音频信号进行预加重处理;所述预加重处理消除发声过程中声带及口唇对语音的影响,加强高频部分,还原原始的声音。
107.可选的,所述的语音特征提取模块502还包括:数据处理子模块5024,用于对分帧后的数据利用窗函数进行处理。
108.可选的,所述的语音特征包括34个,具体包括16个梅尔倒谱系数、8个倒谱系数的一阶差分、8个倒谱系数的二阶差分、本帧信号能量和vad系数。
109.本技术实施例还公开一种电子设备,包括存储器和处理器,所述存储器上存储有能够被处理器加载并执行如上述任一种方法的计算机程序。
110.本技术实施例还公开一种计算机可读存储介质,存储有能够被处理器加载并执行如上述任一种方法的计算机程序。
111.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink) dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
112.以上均为本技术的较佳实施例,并非依此限制本技术的保护范围,故:凡依本技术的结构、形状、原理所做的等效变化,均应涵盖于本技术的保护范围之内。