首页 > 乐器声学 专利正文
麦克风阵列语音增强的方法、装置、电子设备及存储介质与流程

时间:2022-02-06 阅读: 作者:专利查询

麦克风阵列语音增强的方法、装置、电子设备及存储介质与流程

1.本技术涉及语音处理领域,尤其涉及一种麦克风阵列语音增强的方法、装置、电子设备及存储介质。


背景技术:

2.语音是人与机器之间最自然的交互方式之一。在物联网时代,语音交互的应用场景从近场过渡到远场,由于声音在传播过程中,其能量随传播距离呈指数级衰减,在远场条件下,语音信号受到噪声和混响的干扰更加严重,极大地影响了语音识别和语音通讯等应用的性能。语音增强旨在消除噪声和混响的同时,尽可能避免语音畸变,以提高语音的可懂度和感知质量,它对以语音识别、语音通讯为核心技术的语音交互应用具有重要的价值。基于麦克风阵列的多通道语音增强已经被证明能够显著提升远场语音识别的性能、语音的可懂度和感知质量。
3.掩蔽和波束形成是最常用的语音增强技术。掩蔽技术能够显著地消除加性噪声,但是它并没有考虑相位的影响,不可避免地会带来一定的语音畸变,特别是在远场混响条件下,语音畸变更加严重,极大地降低了语音识别的性能,损害了语音的感知质量和可懂度。尽管固定波束形成具有相位增强的能力,能够有效地避免语音畸变,有一定的能力应对远场混响环境,但其降噪能力非常有限。相对于固定波束形成,自适应波束形成依赖于数据,通过挖掘信号的统计信息来显著提高降噪性能,但是它严重依赖于信号统计信息的估计,这在远场混响环境里,信号统计信息的估计是一个非常有挑战性的问题,而且需要积累长时信息,会造成较大的处理时延。
4.从语音增强性能和处理时延考虑,基于掩蔽的波束形成是一个很有前景的方案,它通过将估计的掩蔽作用到波束滤波的信号来实现语音增强的目的。然而,在现有技术中,掩蔽和波束形成都是通过级联的方式分步进行的,并且波束形成器是在一定的声场假设下预先设计的,这可能限制了该方案增强语音和降低噪声的能力。


技术实现要素:

5.为了解决上述技术问题或者至少部分地解决上述技术问题,本技术的实施例提供了一种麦克风阵列语音增强的方法、装置、电子设备及存储介质。
6.第一方面,本技术的实施例提供了一种麦克风阵列语音增强的方法,包括以下步骤:通过麦克风阵列获取已知声源方向的待增强语音信号;提取所述待增强语音信号的频谱特征和方向相干特征;将所述待增强语音信号的频谱特征和方向相干特征输入预先训练好的语音增强网络中,得到所述待增强语音信号的增强后傅里叶系数;对所述待增强语音信号的增强后傅里叶系数进行逆傅里叶变换,得到增强后语音信号。
7.优选地,所述提取所述待增强语音信号的频谱特征和方向相干特征,包括:对所述待增强语音信号进行分帧、加窗和傅里叶变换,得到所述待增强语音信号的傅里叶系数;根据所述待增强语音信号的傅里叶系数和与所述声源方向对应的预设的波束形成器系数,计算所述待增强语音信号的频谱特征;根据所述待增强语音信号的傅里叶系数、与所述声源方向对应的预设的波束形成器系数和与所述待增强语音信号的声源方向和陷波方向对应的预设的波束形成器系数,计算所述待增强语音信号的方向相干特征,其中,所述陷波方向与所述声源方向对应。
8.优选地,通过以下表达式,根据所述待增强语音信号的傅里叶系数和与所述声源方向对应的预设的波束形成器系数,计算所述待增强语音信号的频谱特征:其中,为所述待增强语音信号的频谱特征,为所述声源方向对应的预设的波束形成器系数,为所述待增强语音信号的傅里叶系数。
9.优选地,通过以下表达式,根据所述待增强语音信号的傅里叶系数、与所述声源方向对应的预设的波束形成器系数和与所述待增强语音信号的声源方向和陷波方向对应的预设的波束形成器系数,计算所述待增强语音信号的方向相干特征:计算所述待增强语音信号的方向相干特征:计算所述待增强语音信号的方向相干特征:计算所述待增强语音信号的方向相干特征:计算所述待增强语音信号的方向相干特征:计算所述待增强语音信号的方向相干特征:其中,其中,其中,为与所述声源方向对应的预设的波束形成器系数,为均匀
散射场的归一化的相关矩阵,为所述声源方向的导向矢量,为第一白噪声增益控制系数,为与所述待增强语音信号的声源方向和陷波方向对应的预设的波束形成器系数,为通过所述声源方向的冯米塞斯分布得到的归一化的相关矩阵,为的柯西分解,为第二白噪声增益控制系数,为所述待增强语音信号的当前帧的傅里叶系数,为一个陷波方向对应的方向相干特征,为从至少两个陷波方向中选出的方向相干特征,为声源方向,为陷波方向,为所述待增强语音信号在声源方向滤波后傅里叶系数,为所述待增强语音信号在声源方向和陷波方向滤波后傅里叶系数,为共轭转置运算,为共轭运算。
10.优选地,所述预先训练好的语音增强网络包括预先训练好的掩蔽预测网络和波束形成网络,所述将所述待增强语音信号的频谱特征和方向相干特征输入预先训练好的语音增强网络中,得到所述待增强语音信号的增强后傅里叶系数,包括:对所述待增强语音信号的频谱特征和方向相干特征进行拼接,得到拼接特征;以所述拼接特征作为预先训练好的掩蔽预测网络的输入,以所述待增强语音信号的掩蔽值作为输出;以所述待增强语音信号的当前帧的傅里叶系数和上一帧的傅里叶系数作为预先训练好的波束形成网络的输入,以所述待增强语音信号的滤波后傅里叶系数作为输出;根据所述待增强语音信号的掩蔽值和滤波后傅里叶系数得到增强后傅里叶系数。
11.优选地,所述波束形成网络的激活函数为:其中,为所述待增强语音信号的滤波后傅里叶系数,为当前帧语音信号与所述声源方向对应的预设的波束形成器系数,为上一帧语音信号与所述声源方向对应的预设的波束形成器系数,为所述待增强语音信号的当前帧的傅里叶系数,为所述待增强语音信号的上一帧的傅里叶系数。
12.优选地,通过以下表达式,根据所述待增强语音信号的掩蔽值和滤波后傅里叶系数得到增强后傅里叶系数:其中,为所述待增强语音信号的滤波后傅里叶系数,为所述待增强语音信号的掩蔽值,为所述待增强语音信号的滤波后傅里叶系数,为点乘运算。
13.优选地,所述波束形成网络的数量为多个,各所述波束形成网络与预先对麦克风
阵列空间划分的目标区域对应,所述掩蔽预测网络和波束形成网络通过以下步骤训练得到:采集类散射噪声数据,并利用类散射噪声数据生成双麦散射噪声;利用双麦散射噪声、采集的纯净语音数据和纯净噪声数据生成双麦远场带噪数据训练集,并预存与所述双麦远场带噪数据训练集对应的双麦远场纯净语音数据;提取所述双麦远场带噪数据集中,已知声源方向的双麦远场带噪数据的频谱特征和方向相干特征;以所述双麦远场带噪数据的频谱特征和方向相干特征作为掩蔽预测网络的输入,以所述双麦远场带噪数据的掩蔽值作为输出;根据所述声源方向所属的目标区域确定与所述双麦远场带噪数据对应的波束形成网络;以所述双麦远场带噪数据的当前帧的傅里叶系数和上一帧的傅里叶系数作为对应的波束形成网络的输入,以所述双麦远场带噪数据的滤波后傅里叶系数作为输出;根据所述声源方向属于同一目标区域的双麦远场带噪数据的掩蔽值、滤波后傅里叶系数、所述双麦远场纯净语音数据的波形信号和傅里叶系数计算每一个波束形成网络的损失函数;利用每一个波束形成网络的损失函数训练所述掩蔽预测网络和所述波束形成网络的权重系数。
14.优选地,通过以下表达式,根据所述声源方向属于同一目标区域的双麦远场带噪数据的掩蔽值、滤波后傅里叶系数、所述双麦远场纯净语音数据的波形信号和傅里叶系数计算每一个波束形成网络的损失函数:束形成网络的损失函数:束形成网络的损失函数:其中,为通过所述声源方向属于同一目标区域的每一个双麦远场带噪数据的增强后傅里叶系数,其通过每一个双麦远场带噪数据的掩蔽值与其滤波后傅里叶系数点乘得到,为所述声源方向属于同一目标区域的所有双麦远场带噪数据的波形信号,其通过对所有双麦远场带噪数据的增强后傅里叶系数作逆傅里叶变换得到,和分别为所述声源方向属于同一目标区域的所有双麦远场纯净语音数据的波形信号和傅里叶系数。
15.优选地,所述利用每一个波束形成网络的损失函数训练所述掩蔽预测网络和所述波束形成网络的权重系数,包括:
利用每一个波束形成网络的损失函数分别对与其对应的波束形成网络的权重系数进行训练;利用每一个波束形成网络的损失函数值的总和对掩蔽预测网络的权重系数进行训练。
16.第二方面,本技术的实施例提供了一种麦克风阵列语音增强的装置,包括:获取模块,其用于通过麦克风阵列获取已知声源方向的待增强语音信号;提取模块,其用于提取所述待增强语音信号的频谱特征和方向相干特征;输入模块,其用于将所述待增强语音信号的频谱特征和方向相干特征输入预先训练好的语音增强网络中,得到所述待增强语音信号的增强后傅里叶系数;处理模块,其用于对所述待增强语音信号的增强后傅里叶系数进行逆傅里叶变换,得到增强后语音信号。
17.第三方面,本技术的实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现权利要求1

9任一项所述的麦克风阵列语音增强的方法的步骤。
18.第四方面,本技术的实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1

9任一项所述的麦克风阵列语音增强的方法的步骤。
19.本技术实施例提供的上述技术方案与现有技术相比具有如下优点:本技术实施例提供的该方法,通过麦克风阵列获取已知声源方向的待增强语音信号;提取所述待增强语音信号的频谱特征和方向相干特征;将所述待增强语音信号的频谱特征和方向相干特征输入预先训练好的语音增强网络中,得到所述待增强语音信号的增强后傅里叶系数;对所述待增强语音信号的增强后傅里叶系数进行逆傅里叶变换,得到增强后语音信号,本技术通过语音增强网络实现了波束形成的滤波操作,并且波束形成的权重系数基于数据驱动的监督性学习方法训练得到,更接近实际应用场景,以提高语音增强效果。
附图说明
20.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
21.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
22.图1示意性示出了本技术实施例提供的一种麦克风阵列语音增强的方法的流程示意图;图2示意性示出了本技术又一实施例提供的一种麦克风阵列语音增强的方法流程示意图;图3示意性示出了本技术又一实施例提供的一种麦克风阵列语音增强的方法流程
示意图;图4示意性示出了本技术又一实施例提供的一种麦克风阵列语音增强的方法流程示意图;图5示意性示出了本技术又一实施例提供的一种麦克风阵列语音增强的方法流程示意图;图5示意性示出了本技术又一实施例提供的一种麦克风阵列语音增强的方法流程示意图;图6示意性示出了本技术又一实施例提供的一种麦克风阵列语音增强的方法的应用流程示意图;图7示意性示出了本技术实施例提供的数据仿真流程示意图;图8示意性示出了本技术实施例提供的线性麦克风阵列空间划分结构示意图;图9示意性示出了本技术实施例提供的特征提取流程示意图;图10示意性示出了本技术实施例提供的语音增强网络的模型框架示意图;以及图11示意性示出了本技术又一实施例提供的一种麦克风阵列语音增强的装置结构示意图;图12示意性示出了本技术又一实施例提供的一种电子设备结构示意图。
具体实施方式
23.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术的一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本技术保护的范围。
24.图1为本技术实施例提供的一种麦克风阵列语音增强的方法的流程示意图。如图1所示,本技术的麦克风阵列语音增强的方法,以下步骤:s1,通过麦克风阵列获取已知声源方向的待增强语音信号;s2,提取所述待增强语音信号的频谱特征和方向相干特征;s3,将所述待增强语音信号的频谱特征和方向相干特征输入预先训练好的语音增强网络中,得到所述待增强语音信号的增强后傅里叶系数;s4,对所述待增强语音信号的增强后傅里叶系数进行逆傅里叶变换,得到增强后语音信号。
25.如图2所示,步骤s2中,所述提取所述待增强语音信号的频谱特征和方向相干特征,包括:s21,对所述待增强语音信号进行分帧、加窗和傅里叶变换,得到所述待增强语音信号的傅里叶系数;s22,根据所述待增强语音信号的傅里叶系数和与所述声源方向对应的预设的波束形成器系数,计算所述待增强语音信号的频谱特征;s23,根据所述待增强语音信号的傅里叶系数、与所述声源方向对应的预设的波束形成器系数和与所述待增强语音信号的声源方向和陷波方向对应的预设的波束形成器系数,计算所述待增强语音信号的方向相干特征,其中,所述陷波方向与所述声源方向对应。
26.本实施例中,步骤s22中,通过以下表达式,根据所述待增强语音信号的傅里叶系数和与所述声源方向对应的预设的波束形成器系数,计算所述待增强语音信号的频谱特征:其中,为所述待增强语音信号的频谱特征,为所述声源方向对应的预设的波束形成器系数,为所述待增强语音信号的傅里叶系数。
27.本实施例中,步骤s23中,通过以下表达式,根据所述待增强语音信号的傅里叶系数、与所述声源方向对应的预设的波束形成器系数和与所述待增强语音信号的声源方向和陷波方向对应的预设的波束形成器系数,计算所述待增强语音信号的方向相干特征:计算所述待增强语音信号的方向相干特征:计算所述待增强语音信号的方向相干特征:计算所述待增强语音信号的方向相干特征:计算所述待增强语音信号的方向相干特征:计算所述待增强语音信号的方向相干特征:其中,其中,其中,为与所述声源方向对应的预设的波束形成器系数,为均匀散射场的归一化的相关矩阵,为所述声源方向的导向矢量,为第一白噪声增益控制系数,为与所述待增强语音信号的声源方向和陷波方向对应的预设的波束形成器系数,为通过所述声源方向的冯米塞斯分布得到的归一化的相关矩阵,为的柯西分解,为第二白噪声增益控制系数,为所述待增强语音信号的当前帧的傅里叶系数,为一个陷波方向对应的方向相干特征,为从至少两个陷波方向中选出的方向相干特征,为声源方向,为陷波方向,
为所述待增强语音信号在声源方向滤波后傅里叶系数,为所述待增强语音信号在声源方向和陷波方向滤波后傅里叶系数,为共轭转置运算,为共轭运算。
28.如图3所示,步骤s3中,所述预先训练好的语音增强网络包括预先训练好的掩蔽预测网络和波束形成网络,所述将所述待增强语音信号的频谱特征和方向相干特征输入预先训练好的语音增强网络中,得到所述待增强语音信号的增强后傅里叶系数,包括:s31,对所述待增强语音信号的频谱特征和方向相干特征进行拼接,得到拼接特征;s32,以所述拼接特征作为预先训练好的掩蔽预测网络的输入,以所述待增强语音信号的掩蔽值作为输出;s33,以所述待增强语音信号的当前帧的傅里叶系数和上一帧的傅里叶系数作为预先训练好的波束形成网络的输入,以所述待增强语音信号的滤波后傅里叶系数作为输出;s34,根据所述待增强语音信号的掩蔽值和滤波后傅里叶系数得到增强后傅里叶系数。
29.本实施例中,步骤s33中,所述波束形成网络的激活函数为:其中,为所述待增强语音信号的滤波后傅里叶系数,为当前帧语音信号与所述声源方向对应的预设的波束形成器系数,为上一帧语音信号与所述声源方向对应的预设的波束形成器系数,为所述待增强语音信号的当前帧的傅里叶系数,为所述待增强语音信号的上一帧的傅里叶系数。
30.本实施例中,步骤s34中,通过以下表达式,根据所述待增强语音信号的掩蔽值和滤波后傅里叶系数得到增强后傅里叶系数:其中,为所述待增强语音信号的滤波后傅里叶系数,为所述待增强语音信号的掩蔽值,为所述待增强语音信号的滤波后傅里叶系数,为点乘运算。
31.如图4所示,步骤s32和步骤s33中,所述波束形成网络的数量为多个,各所述波束形成网络与预先对麦克风阵列空间划分的目标区域对应,所述掩蔽预测网络和波束形成网络通过以下步骤训练得到:s41,采集类散射噪声数据,并利用类散射噪声数据生成双麦散射噪声;在实际应用中,利用收集和整理的类散射噪声集,利用散射噪声仿真工具anf

generator产生双麦散射噪声。
32.s42,利用双麦散射噪声、采集的纯净语音数据和纯净噪声数据生成双麦远场带噪
数据训练集,并预存与所述双麦远场带噪数据训练集对应的双麦远场纯净语音数据;在实际应用中,收集纯净语音数据和纯净噪声数据,随机选择纯净语音、纯净噪声和散射噪声按照一定信噪比和信干比,利用仿真工具pyroomacoustics产生双麦远场带噪数据,保留加噪前的远场纯净双麦语音数据,用以为后续步骤产生目标语音,保留目标语音的方位用以提取该方位的频谱特征和空间特征。
33.s43,提取所述双麦远场带噪数据集中,已知声源方向的双麦远场带噪数据的频谱特征和方向相干特征;在实际应用中,可以将麦克风阵列的空间方位均匀地划分为多个目标区域,例如以5个目标方向{0,45,90,135,180}为中心轴的5个目标区域{

22.5~+22.5,22.5~ 67.5,67.5~ 112.5,112.5~ 157.5,157.5~ 202.5},针对每一个目标方向,可以选择2个干扰源候选区域,根据麦克风阵列的阵型和几何参数,对每个方向设计超定向固定波束和带有陷波的固定波束(陷波方向为该目标方向所对应的干扰源候选方向),以根据超定向固定波束和带有陷波的固定波束提取已知声源方向的双麦远场带噪数据的频谱特征和方向相干特征;s44,以所述双麦远场带噪数据的频谱特征和方向相干特征作为掩蔽预测网络的输入,以所述双麦远场带噪数据的掩蔽值作为输出;s45,根据所述声源方向所属的目标区域确定与所述双麦远场带噪数据对应的波束形成网络;s46,以所述双麦远场带噪数据的当前帧的傅里叶系数和上一帧的傅里叶系数作为对应的波束形成网络的输入,以所述双麦远场带噪数据的滤波后傅里叶系数作为输出;s47,根据所述声源方向属于同一目标区域的双麦远场带噪数据的掩蔽值、滤波后傅里叶系数、所述双麦远场纯净语音数据的波形信号和傅里叶系数计算每一个波束形成网络的损失函数;s48,利用每一个波束形成网络的损失函数训练所述掩蔽预测网络和所述波束形成网络的权重系数。
34.本实施例中,步骤s47中,通过以下表达式,根据所述声源方向属于同一目标区域的双麦远场带噪数据的掩蔽值、滤波后傅里叶系数、所述双麦远场纯净语音数据的波形信号和傅里叶系数计算每一个波束形成网络的损失函数:束形成网络的损失函数:束形成网络的损失函数:其中,为通过所述声源方向属于同一目标区域的每一个双麦远场带噪数据的增强后傅里叶系数,其通过每一个双麦远场带噪数据的掩蔽值与其滤波后傅里叶系数点乘得到,为所述声源方向属于同一目标区域的所有双麦远场带噪数据的波形信号,其
通过对所有双麦远场带噪数据的增强后傅里叶系数作逆傅里叶变换得到,和分别为所述声源方向属于同一目标区域的所有双麦远场纯净语音数据的波形信号和傅里叶系数。
35.如图5所示,步骤s47中,所述利用每一个波束形成网络的损失函数训练所述掩蔽预测网络和所述波束形成网络的权重系数,包括:s51,利用每一个波束形成网络的损失函数分别对与其对应的波束形成网络的权重系数进行训练;s52,利用每一个波束形成网络的损失函数值的总和对掩蔽预测网络的权重系数进行训练。
36.如图6所示,下面解释在将麦克风阵列空间划分为5个目标区域的应用场景下,本技术的麦克风阵列语音增强的方法。
37.步骤a1:数据准备

按照如图7所示的数据仿真流程仿真双麦数据(1)收集和整理开源纯净语音数据集“863

1中文语音数据”、“aishell

1”、“aishell

2”;收集和整理网上开源纯净噪声数据集“google audioset”;收集和整理类散射噪声集“noisex

92”、空调噪声、风噪、咖啡厅噪声、广场噪声等;(2)利用收集和整理的类散射噪声集,通过散射噪声仿真工具anf

generator产生20,000句双麦散射噪声,麦克风间距为4厘米;(3)从纯净语音数据集中随机选择语音,从纯净噪声数据集中随机选择噪声,从仿真的散射噪声中随机选择散射噪声,根据下表1所示的仿真参数,利用仿真工具pyroomacoustics随机产生10,000,000句远场带噪双麦数据,作为训练集、另外分别产生10,000句远场带噪双麦数据作为测试集和开发集。仿真过程中,除保存远场带噪双麦数据外,还需要保存加噪前的远场纯净双麦语音数据以及记录目标语音的方位。
38.表1仿真参数最小值最大值房间长度3.0米9.0米房间宽度2.5米6.5米房间高度2.5米4.0米混响时间0.2秒0.6秒目标声源距离0.5米5.5米干扰源距离1.0米7.0米干扰源个数13与干扰源角度差30度330度信噪比0db20db信干比

5db15db音频幅度36722937步骤a2:固定波束设计如图8所示,对于线性麦克风阵列,其方向区分度为0~180度,首先均匀地将整个空间划分为以5个目标方向{0,45,90,135,180}为中心轴的5个目标区域{

22.5~+22.5,22.5~ 67.5,67.5~ 112.5,112.5~ 157.5,157.5~ 202.5},针对每个空间区域设计一个超定向波
束形成器,目标方向分别指向0,45,90,135,180度。该波束形成器在保证目标方向不失真的同时,尽可能压制散射噪声。其波束形成器系数可通过求解如下优化问题得到:其中,为采样的目标方位,为方向的波束形成器系数,为均匀散射场的归一化的相关矩阵,为方向的导向矢量,为白噪声增益控制系数,其中,保证来自方向的声源不失真,而最小化空间散射噪声的能量。
39.针对每一个目标方向,可以选择但不限于2个干扰源候选区域(陷波方向),针对每个目标设计带有陷波的固定波束形成器,该波束形成器在保证目标方向不失真的同时,尽可能压制来自陷波方向的声源。陷波方向为该目标方向对应的干扰源候选方向,具体如下:具体如下:具体如下:具体如下:具体如下:波束形成器系数可通过求解如下带有约束的优化问题得到:其中,为采样的目标方位,为对应的陷波方向,为目标方向为,陷波方向为的波束形成器系数,为通过方向为的冯米塞斯分布(von mises distribution)得到的归一化的相关矩阵,为的柯西分解(cholesky factorization),为方向的导向矢量,为白噪声增益控制系数,其中,保证来自方向的声源不失真,尽可能压制来自方向的声源。
40.需要说明的是,麦克风阵列的形式包括但不限于线性,例如环形和矩形等,而且当麦克风阵列的形式为环形或矩形时,其方向区分度可以为0~360度。
41.步骤a3:特征提取

按照图9所示的特征提取流程提取频谱特征和空间特征
首先,对双麦数据进行分帧,帧长为512,帧移为256,然后对其加汉明窗,再利用傅里叶变换得到双麦数据的傅里叶系数。
42.根据给定的目标语音方向,选择对应的固定波束形成器,按照如下公式执行波形形成操作,并计算其频谱特征

对数能量谱特征。
43.其中,为双麦数据的傅里叶系数,为共轭转置运算。
44.根据给定的目标语音方向,选择对应的固定波束形成器,按照如下计算步骤计算其空间特征

方向性相干特征dcf。
45.算法1 dcf提取步骤其中,是共轭转置运算,是共轭运算。
46.将提取的和dcf按照特征维度进行拼接,得到最终的输入特征步骤a4:搭建和训练基于掩蔽神经波束的语音增强网络图10为本实施例中所提出的基于掩蔽神经波束的语音增强网络的模型框架,本发明中采用的模型框架有两部分组成:掩蔽预测网络和神经波束形成网络。掩蔽预测网络由3层lstm(long short

term memory,长短期记忆网络)层和1层全连接层组成,每个lstm层有512个结点,全连接层(fully connected layers,fc)有257个结点,全连接层的激活函数为sigmoid,因此掩蔽预测网络的输出为[0,1]的掩蔽值。分别针对0,45,90,135,180度5个方向设计了5个独立的神经波束形成网络,神经波束形成网络的计算方式和波束形成的计算方式一样,但考虑到现存的波束形成没有利用历史信号,引入了一个额外的滤波器对历
史信号进行建模,具体如下式所示:其中,和是方向为的神经波束形成网络的复数权重系数,复数向量的乘法运算可以转化为实数向量乘法进行计算,如下所示:如下所示:如下所示:如下所示:其中,为取复数的实部,为取复数的虚部,因此,神经波束形成网络的权重系数是可以优化的。
[0047]
当给定目标语音的方位时,根据步骤a3从双麦观测信号中提取该方向的频谱特征和空间特征,拼接频谱特征和空间特征,输入到掩蔽预测网络中得到预测的掩蔽。同时利用方向的神经波束对双麦观测信号进行滤波得到波束形成滤波后的信号,最后利用掩蔽技术得到最终增强的目标语音傅里叶系数:其中,为点乘运算,对作逆傅立叶变换可得到增强后的波形信号。
[0048]
在训练掩蔽预测网络和神经波束形成网络的过程中,使用指数压制的能量谱最小均方误差(mse)损失和尺度不变的信号失真比(scale

invariant signal

to

distortion, si

sdr)作为优化目标来联合优化掩蔽预测网络和神经波束形成网络。需要注意的是我们使用加噪前的远场纯净双麦语音数据波束形成后的信号作为目标语音,用以计算优化目标。标。标。
[0049]
其中,为通过所述声源方向属于同一目标区域的每一个双麦远场带噪数据的增强后傅里叶系数,其通过每一个双麦远场带噪数据的掩蔽值与其滤波后傅里叶系数点乘得到,为所述声源方向属于同一目标区域的所有双麦远场带噪数据的波形信号,其
通过对所有双麦远场带噪数据的增强后傅里叶系数作逆傅里叶变换得到,和分别为所述声源方向属于同一目标区域的所有双麦远场纯净语音数据的波形信号和傅里叶系数。
[0050]
需要说明的是,掩蔽预测网络和神经波束的权重系数都是随机设置的,利用仿真的训练数据,通过频谱损失和波形损失的联合优化目标,来优化整个网络,直到收敛,采用adam优化器,使用warmup的学习率调整策略,总共训练24轮,批处理的尺寸为16,输入特征的每个维度根据训练集的统计信息规范化到0均值和1方差。
[0051]
步骤a5:测试和验证本发明所提出的掩蔽神经波束语音增强网络当掩蔽神经波束语音增强网络完成训练之后,得到训练好的语音增强网络,该网络便能实现对真实采集数据的增强。根据给定的目标声源方位,按照步骤a3提取实际采集的双麦音频数据的频谱特征和空间特征,然后对其进行0均值1方差规范化,输入到步骤a4训练好的掩蔽神经波束形成器中,分别得到掩蔽和神经波束滤波输出,最后通过掩蔽运算得到最终增强的目标语音,通过逆傅里叶变化便得到增强后的语音波形信号。
[0052]
本技术的麦克风阵列语音增强的方法,波束形成网络不仅对当前时刻的信号进行滤波,还考虑对历史信号进行建模,并通过数据驱动的监督性训练,对掩蔽预测网络和神经波束形成网络进行联合优化,实现了使用神经网络进行波束形成的滤波操作,掩蔽预测网络和神经波束形成网络的权重系数能够基于数据驱动的监督性学习方法训练得到,使得掩蔽预测网络和神经波束形成网络输出的信号更接近实际情况,能够提高语音增强的精确性。
[0053]
本技术的麦克风阵列语音增强的方法,以待增强语音的频谱特征和方向相干特征作为掩蔽预测网络的输入训练掩蔽预测网络,考虑了具有方向指示性并且抗混响抗散射噪声的空间特征,能够提高空间特征的方向区分性和抗混响抗散射噪声的能力,从而提高掩蔽预测的准确性。
[0054]
本技术的麦克风阵列语音增强的方法,在训练掩蔽预测网络和波束形成网络时,使用加噪前的远场纯净双麦语音数据的波束形成后的信号作为语音增强网络的目标,能够确保从训练好的掩蔽预测网络和波束形成网络中输出的语音增强信号更精确。
[0055]
本技术的麦克风阵列语音增强的方法,在构建波束形成网络时,对空间方位划分得到的每个区域独立地设计神经波束形成网络,且每个神经波束形成网络的优化基于目标语音在其所负责的区域的音频数据训练得到,能够得到针对不同声源方向的波束形成网络,进一步提高语音增强信号的精确性。
[0056]
本技术的麦克风阵列语音增强的方法,没有基于理想浮值掩蔽直接优化掩蔽神经网络,而是基于神经波束形成网络的输出,同时考虑频谱损失和波形损失来优化,进一步提高掩蔽预测的准确性。
[0057]
本技术的麦克风阵列语音增强的方法,利用两种波束形成器系数提出了方向性的方向相干特征,其中,一种波束形成器系数保持目标方位信号不失真,尽可能压制散射噪声,另一种波束形成器系数带有陷波,保持目标方位信号不失真,尽可能压制来自陷波方向的噪声,能够尽最大可能的提高语音增强的效果。
[0058]
基于同一发明构思,如图11所示,本发明实施例提供了一种麦克风阵列语音增强的装置,所述装置包括:获取模块11、提取模块12、输入模块13和处理模块14。
[0059]
在本实施例中,获取模块11,其用于通过麦克风阵列获取已知声源方向的待增强语音信号;在本实施例中,提取模块12,其用于提取所述待增强语音信号的频谱特征和方向相干特征;在本实施例中,输入模块13,其用于将所述待增强语音信号的频谱特征和方向相干特征输入预先训练好的语音增强网络中,得到所述待增强语音信号的增强后傅里叶系数;在本实施例中,处理模块14,其用于对所述待增强语音信号的增强后傅里叶系数进行逆傅里叶变换,得到增强后语音信号。
[0060]
在一些实施例中,所述提取模块12,还用于:对所述待增强语音信号进行分帧、加窗和傅里叶变换,得到所述待增强语音信号的傅里叶系数;根据所述待增强语音信号的傅里叶系数和与所述声源方向对应的预设的波束形成器系数,计算所述待增强语音信号的频谱特征;根据所述待增强语音信号的傅里叶系数、与所述声源方向对应的预设的波束形成器系数和与所述待增强语音信号的声源方向和陷波方向对应的预设的波束形成器系数,计算所述待增强语音信号的方向相干特征,其中,所述陷波方向与所述声源方向对应。
[0061]
在一些实施例中,所述提取模块12中,通过以下表达式,根据所述待增强语音信号的傅里叶系数和与所述声源方向对应的预设的波束形成器系数,计算所述待增强语音信号的频谱特征:其中,为所述待增强语音信号的频谱特征,为所述声源方向对应的预设的波束形成器系数,为所述待增强语音信号的傅里叶系数。
[0062]
在一些实施例中,所述提取模块12中,通过以下表达式,根据所述待增强语音信号的傅里叶系数、与所述声源方向对应的预设的波束形成器系数和与所述待增强语音信号的声源方向和陷波方向对应的预设的波束形成器系数,计算所述待增强语音信号的方向相干特征:特征:特征:特征:特征:特征:其中,
其中,其中,为与所述声源方向对应的预设的波束形成器系数,为均匀散射场的归一化的相关矩阵,为所述声源方向的导向矢量,为第一白噪声增益控制系数,为与所述待增强语音信号的声源方向和陷波方向对应的预设的波束形成器系数,为通过所述声源方向的冯米塞斯分布得到的归一化的相关矩阵,为的柯西分解,为第二白噪声增益控制系数,为所述待增强语音信号的当前帧的傅里叶系数,为一个陷波方向对应的方向相干特征,为从至少两个陷波方向中选出的方向相干特征,为声源方向,为陷波方向,为所述待增强语音信号在声源方向滤波后傅里叶系数,为所述待增强语音信号在声源方向和陷波方向滤波后傅里叶系数,为共轭转置运算,为共轭运算。
[0063]
在一些实施例中,所述输入模块13,还用于:对所述待增强语音信号的频谱特征和方向相干特征进行拼接,得到拼接特征;以所述拼接特征作为预先训练好的掩蔽预测网络的输入,以所述待增强语音信号的掩蔽值作为输出;以所述待增强语音信号的当前帧的傅里叶系数和上一帧的傅里叶系数作为预先训练好的波束形成网络的输入,以所述待增强语音信号的滤波后傅里叶系数作为输出;根据所述待增强语音信号的掩蔽值和滤波后傅里叶系数得到增强后傅里叶系数。
[0064]
在一些实施例中,所述输入模块13中,所述波束形成网络的激活函数为:其中,为所述待增强语音信号的滤波后傅里叶系数,为当前帧语音信号与所述声源方向对应的预设的波束形成器系数,为上一帧语音信号与所述声源方向对应的预设的波束形成器系数,为所述待增强语音信号的当前帧的傅里叶系数,为所述待增强语音信号的上一帧的傅里叶系数。
[0065]
在一些实施例中,所述输入模块13中,通过以下表达式,根据所述待增强语音信号的掩蔽值和滤波后傅里叶系数得到增强后傅里叶系数:
其中,为所述待增强语音信号的滤波后傅里叶系数,为所述待增强语音信号的掩蔽值,为所述待增强语音信号的滤波后傅里叶系数,为点乘运算。
[0066]
在一些实施例中,所述输入模块13中,所述波束形成网络的数量为多个,各所述波束形成网络与预先对麦克风阵列空间划分的目标区域对应,所述掩蔽预测网络和波束形成网络通过以下步骤训练得到:采集类散射噪声数据,并利用类散射噪声数据生成双麦散射噪声;利用双麦散射噪声、采集的纯净语音数据和纯净噪声数据生成双麦远场带噪数据训练集,并预存与所述双麦远场带噪数据训练集对应的双麦远场纯净语音数据;提取所述双麦远场带噪数据集中,已知声源方向的双麦远场带噪数据的频谱特征和方向相干特征;以所述双麦远场带噪数据的频谱特征和方向相干特征作为掩蔽预测网络的输入,以所述双麦远场带噪数据的掩蔽值作为输出;根据所述声源方向所属的目标区域确定与所述双麦远场带噪数据对应的波束形成网络;以所述双麦远场带噪数据的当前帧的傅里叶系数和上一帧的傅里叶系数作为对应的波束形成网络的输入,以所述双麦远场带噪数据的滤波后傅里叶系数作为输出;根据所述声源方向属于同一目标区域的双麦远场带噪数据的掩蔽值、滤波后傅里叶系数、所述双麦远场纯净语音数据的波形信号和傅里叶系数计算每一个波束形成网络的损失函数;利用每一个波束形成网络的损失函数训练所述掩蔽预测网络和所述波束形成网络的权重系数。
[0067]
在一些实施例中,所述输入模块13中,通过以下表达式,根据所述声源方向属于同一目标区域的双麦远场带噪数据的掩蔽值、滤波后傅里叶系数、所述双麦远场纯净语音数据的波形信号和傅里叶系数计算每一个波束形成网络的损失函数:据的波形信号和傅里叶系数计算每一个波束形成网络的损失函数:据的波形信号和傅里叶系数计算每一个波束形成网络的损失函数:其中,为通过所述声源方向属于同一目标区域的每一个双麦远场带噪数据的增强后傅里叶系数,其通过每一个双麦远场带噪数据的掩蔽值与其滤波后傅里叶系数点乘得到,为所述声源方向属于同一目标区域的所有双麦远场带噪数据的波形信号,其
integrated circuit,简称asic)、现场可编程门阵列(field

programmable gate array,简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
[0076]
基于同一发明构思,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述任意可能的实现方式中的麦克风阵列语音增强的方法。
[0077]
可选地,存储介质可以是非临时性计算机可读存储介质,例如,所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd

rom、磁带、软盘和光数据存储设备等。
[0078]
基于同一发明构思,本发明实施例还提供了一种计算机可读存储介质,包括计算机程序,所述程序被处理器执行时实现上述任意可能的实现方式中的麦克风阵列语音增强的方法。
[0079]
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本发明实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘solid state disk(ssd))等。
[0080]
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。