1.本公开涉及回声抑制技术领域,尤其是一种残留回声抑制模型的训练方法和训练装置。
背景技术:2.在通信系统中,远端信号由扬声器系统转换为声信号后,经回声声学路径被传声器系统采集后将产生回声信号。回声信号将严重干扰语音通信的质量,并降低语音识别系统的准确性。抑制回声信号,提取近端说话人语音信号的技术称为回声抑制。
3.相关技术中,使用基于线性的回声抑制方法,其通过匹配回声传递路径对应的传递函数进行回声抑制。但是,当回声路径存在不可忽视的非线性效应时,则该回声抑制方式的性能将大幅下降,因此需要针对残留回声进行抑制。
4.相关技术中使用远端信号和自适应滤波器系数对残留回声的幅度进行估计,并依此对残留回声信号进行抑制,但是难以在残留回声抑制和近端语音失真方面取得很好的平衡。
技术实现要素:5.为了解决上述技术问题,提出了本公开。本公开的实施例提供了一种残留回声抑制模型的训练方法和训练装置。
6.根据本公开实施例的第一方面,提供了一种残留回声抑制模型的训练方法,包括:
7.基于多个残留回声信号、多个背景噪音信号和多个近端语音信号生成多个混合音频信号,其中,每个混合音频信号包括一个残留回声信号、一个背景噪音信号和一个近端语音信号;
8.基于所述多个混合音频信号,确定与所述多个混合音频信号对应的多个辅助信号,其中,基于每个混合音频信号中的残留回声信号对应的远端信号,确定每个混合音频信号对应的辅助信号;
9.基于所述多个混合音频信号和所述多个辅助信号训练残留回声抑制模型。
10.根据本公开实施例的第二方面,提供了一种残留回声抑制模型的训练装置,包括:
11.混合音频信号生成模块,用于基于多个残留回声信号、多个背景噪音信号和多个纯净的近端语音信号生成多个混合音频信号,其中,每个混合音频信号包括一个残留回声信号、一个背景噪音信号和一个纯净的近端语音信号;
12.辅助信号确定模块,用于基于所述多个混合音频信号,确定与所述多个混合音频信号对应的多个辅助信号,其中,基于每个混合音频信号中的残留回声信号对应的远端信号,确定每个混合音频信号对应的辅助信号;
13.模型训练模块,用于基于所述多个混合音频信号和多个辅助信号训练残留回声抑制模型。
14.根据本公开实施例的第三方面,提供了一种计算机可读存储介质,所述存储介质
存储有计算机程序,所述计算机程序用于执行上述第一方面所述的残留回声抑制模型的训练方法。
15.根据本公开实施例的第四方面,提供了一种电子设备,所述电子设备包括:
16.处理器;
17.用于存储所述处理器可执行指令的存储器;
18.所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述第一方面所述的残留回声抑制模型的训练方法。
19.基于本公开上述实施例提供的残留回声抑制模型的训练方法和训练装置,基于包括残留回声信号、背景噪音信号和纯净的近端语音信号的混合音频信号,以及辅助信号训练的残留回声抑制模型,可以对非线性的残留回声信号进行有效抑制,进而可以提升通话质量,增强了用户体验。
20.下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。
附图说明
21.通过结合附图对本公开实施例进行更详细的描述,本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解,并且构成说明书的一部分,与本公开实施例一起用于解释本公开,并不构成对本公开的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
22.图1是本公开实施例的残留回声抑制模型的训练方法的流程示意图。
23.图2是本公开一个示例中残留回声抑制模型的训练方法的原理图。
24.图3是本公开一个示例中残留回声抑制模型220的结构框图。
25.图4是本公开一个示例中残留回声抑制模型中编码器的工作原理图。
26.图5是与图4对应示例中残留回声抑制模型中解码器的工作原理图。
27.图6是本公开另一个示例中残留回声抑制模型中编码器的工作原理图。
28.图7是与图6对应示例中残留回声抑制模型中解码器的工作原理图。
29.图8是本公开一个示例中双路递归神经网络中一个网络层的工作原理图。
30.图9是本公开一个示例中在仿真回声场景下不同方法在远端信号为语音和音乐时的增强语音的pesq值的柱状图。
31.图10是本公开一个示例中在实录回声场景下不同方法在远端信号为语音和音乐时的增强语音的pesq值的柱状图。
32.图11是本公开一个示例中不同模型的参数量图。
33.图12是本公开一个示例中仿真回声场景下预训练模型和精调后模型在远端信号为语音和音乐时的增强语音的pesq值柱状图。
34.图13是本公开一个示例中实录回声场景下预训练模型和精调后模型在远端信号为语音和音乐时的增强语音的pesq值柱状图。
35.图14是本公开实施例的残留回声抑制模型的训练装置的结构框图。
36.图15是本公开一个实施例中模型训练模块143的结构框图。
37.图16是本公开一示例性实施例提供的电子设备的结构图。
具体实施方式
38.下面,将参考附图详细地描述根据本公开的示例实施例。显然,所描述的实施例仅仅是本公开的一部分实施例,而不是本公开的全部实施例,应理解,本公开不受这里描述的示例实施例的限制。
39.应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
40.本领域技术人员可以理解,本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
41.还应理解,在本公开实施例中,“多个”可以指两个或两个以上,“至少一个”可以指一个、两个或两个以上。
42.还应理解,对于本公开实施例中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。
43.还应理解,本公开对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。
44.以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
45.对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
46.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
47.本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备,其可与众多其它通用或专用计算系统环境或配置一起操作。
48.终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
49.示例性方法
50.图1是本公开实施例提供的残留回声抑制模型的训练方法的流程示意图。本实施例可应用在电子设备上,如图1所示,包括如下步骤:
51.s1:基于多个残留回声信号、多个背景噪音信号和多个近端语音信号生成多个混合音频信号。其中,每个混合音频信号包括一个残留回声信号、一个背景噪音信号和一个近端语音信号。
52.图2是本公开一个示例中残留回声抑制模型的训练方法的原理图。如图2所示,将每个远端信号与对应的回声信号通过自适应滤波器210进行滤波后,可以得到线性回声信号和残留回声信号。其中,线性回声信号为与远端信号线性相关的回声信号,残留回声信号为除线性回声信号以外,剩余的不具有线性特征的回声信号。
53.在本公开的实施例中,自适应滤波器210是指根据环境的改变,使用自适应算法来改变滤波器的参数和结构的滤波器。其中自适应滤波器的系数是由自适应算法更新的时变系数。即其系数自动连续地适应于给定信号,以获得期望响应。具体而言,本公开的实施例通过自适应滤波器基于远端信号和回声信号,对回声信号中具有线性特征的线性回声信号和不具有线性特征的残留回声信号进行分离。
54.在将一个回声信号中的线性回声信号和残留回声信号分离后,将残留回声信号与一个预先设置好的背景噪音信号和近端语音信号进行音频信号混合,生成一个混合音频信号。其中,该近端语音信号与该远端信号相对应,且该近端语音信号为纯净语音信号。例如,近端语音信号为说话者通过近端说出的,不带有噪音的语音信号。
55.基于上述生成混合音频信号同样的方式,可以对多个残留回声信号、多个背景噪音信号和多个近端语音信号生成多个混合音频信号。
56.s2:基于多个混合音频信号,确定与多个混合音频信号对应的多个辅助信号,其中,基于每个混合音频信号中的残留回声信号对应的远端信号,确定每个混合音频信号对应的辅助信号。
57.具体地,可以将每个混合音频信号中残留回声信号对应的远端信号作为与每个混合音信品号对应的辅助信号,也可以将每个混合音频信号中残留回声信号对应的远端信号与回声信号通过自适应滤波器得到的线性回声信号作为每个混合音频信号对应的辅助信号。
58.s3:基于多个混合音频信号和多个辅助信号训练残留回声抑制模型。
59.具体地,将每个混合音频信号和对应的辅助信号输入到初始的残留回声抑制模型220中进行训练,在满足预设条件时,即可得到最终的残留回声抑制模型。其中,预设条件为模型迭代次数达到预设迭代次数,或模型输出结果的准确率达到预设准确率。
60.在本公开的实施例中,基于包括残留回声信号、背景噪音信号和纯净的近端语音信号的混合音频信号,以及辅助信号训练的残留回声抑制模型,可以对非线性的残留回声信号进行有效抑制,进而可以提升通话质量,增强了用户体验。
61.图3是本公开一个示例中残留回声抑制模型220的结构框图。如图3所示,步骤s3包括:
62.s3
‑
1:每次从多个混合音频信号中获取一个混合音频信号,并从多个辅助信号中获取一个辅助信号。其中,每次获取的混合音频信号与每次获取的辅助信号相对应。
63.s3
‑
2:通过残留回声抑制模型的编码器2201/编码器2202分别对当前获取的混合音频信号和当前获取的辅助信号进行特征提取,得到第一特征张量和第二特征张量。其中,第一特征张量为当前获取的混合音频信号的特征张量,第二特征张量为当前获取的辅助信号的特征张量。
64.在实施例中,残留回声抑制模型220采用两个编码器,其中一个编码器2201用于对混合音频信号提取第一特征张量,另外一个编码器2202用于对辅助信号提取第二特征张量。
65.s3
‑
3:通过残留回声抑制模型的双路递归神经网络2203对第一特征张量和第二特征张量进行处理,得到第三特征张量。
66.在本实施例中,双路递归神经网络2203是一种端到端的时域语音分离网络,双路
递归神经网络2203对于语音分离任务具有较好的性能。在本实施例中,通过双路递归神经网络2203一方面接收对混合音频信号处理得到的第一特征张量,另一方面接收对辅助信号处理得到的第二特征张量,通过对第一特征张量和第二特征张量进行模型处理,最终可以输出第三特征张量。
67.s3
‑
4:通过残留回声抑制模型的解码器2204对第一特征张量和第三特征张量进行纯净语音信号的特征谱估计,基于特征谱估计结果调整残留回声抑制模型的参数,以训练残留回声网络模型220。
68.具体地,通过残留回声抑制模型的解码器2204对第三特征张量进行解码变换后与混合音频信号的特征谱逐点相乘,从而得到纯净语音信号的特征谱估计结果。基于特征谱估计结果与近端语音信号的特征谱进行对比,基于对比结果通过反向传播的方式更新残留回声抑制模型220的参数,以训练残留回声网络模型220。
69.在本实施例中,基于双路递归神经网络可以提升语音分离任务的性能,进而提升对混合音频信号中残留回声信号的分离效果,从而可以提升残留回声抑制模型对残留回声信号的抑制效果。
70.在本公开的一个实施例中,步骤s3
‑
2包括:
71.s3
‑2‑
a
‑
1:通过残留回声抑制模型的编码器2201对当前获取的混合音频信号进行一维卷积得到当前获取的混合音频信号的二维特征谱。并通过残留回声抑制模型的编码器2202对当前获取的辅助信号进行一维卷积得到当前获取的辅助信号的二维特征谱,其中,二维特征谱的两个维度分别是时间维度和特征维度。一维卷积具有预设重叠率。
72.图4是本公开一个示例中残留回声抑制模型中编码器的工作原理图。如图4所示,将一个信号(例如当前获取的混合音频信号或当前获取的辅助信号)u通过一维卷积conv1d后得到二维特征谱。
73.s3
‑2‑
a
‑
2:将当前获取的混合音频信号的二维特征谱通过全连接层降维后,划分为多个具有预设重叠率的第一特征块,并将当前获取的辅助信号的二维特征谱通过全连接层降维后,划分为多个具有预设重叠率的第二特征块。
74.请参考图4,将二维特征谱通过线性整流函数(rectified linear unit,relu)进行激活后,通过全连接层降维至c后,再划分为t个长度为k的带有预设重叠率的子块,其中,fc0为全连接层。在本示例中,一维卷积层的输出维度为n,卷积核为l,重叠率为50%。
75.s3
‑2‑
a
‑
3:将多个具有预设重叠率的第一特征块进行特征拼接得到第一特征张量,并将多个具有预设重叠率的第二特征块进行特征拼接得到第二特征张量。
76.请再次参考图4,将t个长度为k的带有预设重叠率的子块拼接在一起,从而得到三维特征张量
77.在本实施例中,通过时域处理方法可以将当前获取的混合音频信号提取出三维特征张量,并通过同样的时域处理方法将当前获取的辅助信号提取出对应的三维特征张量,配合解码器使用编码器的时域处理方法对应的解码方法和双路递归神经网络可以实现对音频信号的时域波形处理和波形还原,保证了残留回声抑制模型的准确率和针对性。
78.在本公开的一个实施例中,步骤s3
‑
4包括:将第三特征张量按照预设重叠率进行重叠相加操作,得到目标二维特征;通过带有激活函数的全连接层对目标二维特征进行特征维度升维,得到时域特征的掩模估计特征,将掩模估计特征与混合音频信号的二维特征
谱的逐点相乘结果作为特征谱估计结果。
79.图5是与图4对应示例中残留回声抑制模型中解码器的工作原理图。如图5所示,对双路递归神经网络的最后一层输出的三维特征张量应用重叠率为50%的重叠相加操作将其变换为二维特征q,对二维特征q应用带有relu激活函数的全连接层升维至n,得到时域特征的掩模估计特征,将掩模估计特征与混合音频信号二维特征谱的逐点相乘结果作为特征谱估计结果。
80.在本实施例中,通过解码器的时域处理方法中解码部分,配合编码器的编码部分和双路递归神经网络可以实现对音频信号的时域波形处理和波形还原,保证了残留回声抑制模型的准确率。
81.在本公开的另一个实施例中,步骤s3
‑
2包括:
82.s3
‑2‑
b
‑
1:通过残留回声抑制模型220的编码器2201对当前获取的混合音频信号的一维波形进行短时傅里叶变换得到第一复数时频谱特征,并通过残留回声抑制模型220的编码器2202对辅助信号的一维波形进行短时傅里叶变换得到第二复数时频谱特征。
83.图6是本公开另一个示例中残留回声抑制模型中编码器的工作原理图。如图6所示,对于一个信号(例如当前获取的混合音频信号或当前获取的辅助信号)u进行短时傅里叶变换stft得到第一复数时频谱特征z,其中,短时傅里叶变换的窗函数为q点的海明窗,重叠率为50%。其中,t’为帧数,f=q/2+1为有效的频域维度。
84.s3
‑2‑
b
‑
2:将第一复数时频谱特征的实数部分和虚数部分进行特征拼接得到第一特征张量,并将第二复数时频谱特征的实数部分和虚数部分进行特征拼接得到第二特征张量。
85.对于复数时频谱特征(例如第一复数时频谱特征或第二复数时频谱特征)的实数部分和虚数部分进行特征拼接得到三维特征张量通过一个内核为5
×
5,步长为1
×
2的二维卷积核对三维特征张量进行处理,得到三维特征张量其中
86.在本公开实施例中,时频域处理方法中编码器的输出张量维度的t’,k’,c’分别与时域处理方法中编码器输出张量维度的t,k,c相对应。
87.在本实施例中,通过时频域处理方法可以将当前获取的混合音频信号提取出三维特征张量,并通过同样的时频域处理方法将当前获取的辅助信号提取出对应的三维特征张量,配合解码器使用编码器的时频域处理方法对应的解码方法和双路递归神经网络可以实现对音频信号的时域波形处理和波形还原,保证了残留回声抑制模型的准确率和针对性。
88.在本公开的一个实施例中,步骤s3
‑
4包括:对第三特征张量分别采用两个全连接层进行处理后,再通过两个与残留回声抑制模型220的编码器2201/编码器2202的卷积层对应的反卷积层分别进行反卷积得到第一输出特征和第二输出特征,其中,第一输出特征为一维特征,第二输出特征为二维特征。将第一输出特征、第二输出特征与第一复数时频谱特征的时频谱幅值相乘,得到纯净语音信号的特征谱估计结果。
89.图7是与图6对应示例中残留回声抑制模型中解码器的工作原理图。如图7所示,对
双路递归神经网络的最后一层输出的三维特征张量使用两个全连接层进行处理,再应用两个内核为1
×
5,步长为1
×
2的反卷积层trans conv_a和trans conv_p进行反卷积操作。其中,trans conv_a的输出维度为1,激活函数为relu,用于对幅度掩模进行估计;trans conv_p的输出维度为2,用于对相位信息进行估计。对trans conv_p的输出进行归一化操作从而满足相位信息的实部和虚部满足幅值为1的约束。最后,将幅度掩模以及相位信息与残差信号的时频谱幅值相乘,从而得到纯净语音信号的特征谱估计结果,再通过逆短时傅里叶变换操作还原为时域波形。
90.在本实施例中,通过解码器的时频域处理方法中解码部分,配合编码器的编码部分和双路递归神经网络可以实现对音频信号的时域波形处理和波形还原,保证了残留回声抑制模型的准确率。
91.在本实施例中,双路递归神经网络采用6个网络层。图8是本公开一个示例中双路递归神经网络中一个网络层的工作原理图。如图8所示,在本实施例中,时域处理方法和时频域处理方法中每个网络层的处理方式完全相同,因此对于双路递归神经网络中一个网络层的处理部分的描述中不进行区分。双路递归神经网络中每个网络层包含两组rnn层,全连接层和归一化层,用于处理stream a和stream b两个特征张量。其中,stream a为混合音频信号的特征张量,stream b为辅助信号的特征张量。将stream a和stream b的输入特征分别表示为块内模块中的rnn为双向rnn,其中每个方向的rnn的输出维度为输入维度的一半,应用于块内维度(第二维);块间模块中的rnn为单向rnn,输出维度与输入维度相同,应用于时间维度(第一维)。
[0092][0093]
其中,为rnn层的输出,f
r
代表了rnn层。为了有效地综合不同特征流中的信息,两组rnn的输出随后通过加权的方式进行混合。
[0094][0095][0096]
其中,为可学习参数,
⊙
为逐元素乘法。经过混合后的特征分别与对应特征流的原始输入拼接后,再通过全连接层将拼接的维度映射回原始维度并与对应特征流的原始输入特征相加。
[0097][0098]
其中,f
fc
代表了全连接层,[
·
,
·
]代表了维度拼接操作。块内模块中拼接维度和仿射变换维度为块内维度;块间模块中拼接维度和仿射变换维度为通道维度(第三维)。对应用归一化层得到输出。
[0099][0100]
其中,f
n
代表了归一化层。使用的归一化方式为group数量为2的group normalization。在该归一化函数中,首先将归一化函数的输入沿通道维分为两组分组再分别进行逐帧的归一化操作。
[0101][0102][0103][0104][0105][0106]
其中,代表了第l帧的特征,γ,β为可学习参数。总体而言,stream a和stream b两个特征流的信息在单个网络层内先后通过块内模块和块间模块进行处理,从而得到该单个网络层的输出。除了最后一层网络层外,该输出作为下一个网络层的输入。
[0107]
在本实施例中,通过双路递归神经网络中多个网络层可以对编码器输入的两个特征张量按照网络层的顺序逐层进行处理,最终生成与音频信号和辅助信号特征相匹配的特征张量,处理速度快,精度高。
[0108]
在本公开的一个实施例中,残留回声抑制模型的训练方法还包括:在训练残留回声网络模型时,使用目标信噪比作为残留回声网络模型的训练目标,其中,目标信噪比为缩放不变的信噪比。
[0109]
具体地,使用最大化缩放不变的信噪比(sisnr)作为模型的训练目标。sisnr定义如下:
[0110][0111][0112][0113]
其中,分别为估计的和原始的纯净语音,||s||代表s的2范数。
[0114]
在本实施例中,使用缩放不变的信噪比作为模型训练的目标,可以保证模型精度,且可以提升模型训练速度。
[0115]
本公开通过以下仿真案例说明本公开的技术效果。
[0116]
训练及测试样本和客观评价指标。在构造仿真训练数据时,考虑到智能音箱的实际使用场景,使用librispeech语料库作为近端语音,使用musan语料库中的音乐库和librispeech语料库作为远端信号。对于语音数据,在训练集,验证集和测试集中,随机选择了225位,25和40位不同的话者数据,并分别分割得到26556段,1083段和920段4s的16khz采样的音频。对于音乐数据,在训练集,验证集和测试集中,随机选择了497首,48首和115首音乐,并分别分割为101956段,1083段和920段4s的16khz采样的音频。
[0117]
为了构造回声数据,首先对远端信号施加软剪切或硬剪切变换,定义如下
[0118][0119][0120]
其中,x
max
=θ
·
max(abs(x(n)))决定了x(n)的最大值。软剪切和硬剪切函数的参数θ从集合{0.6,0.8,0.9}中随机选择。接着对经过软剪切之后的信号施加sigmoidal函数,以模拟扬声器的非线性失真,定义如下
[0121][0122][0123][0124]
其中参数(a
p
,a
n
)从集合{(4,3),(4,1),(2,3),(1,3),(3,3),(1,1)}中随机选择。
[0125]
为了模拟真实的房间混响环境,随机构造了50个长和宽在3m至8m之间随机分布,高在2.5m和4.5m间随机分布,混响时间t
60
在200ms至400ms之间随机分布的虚拟小房间,并在各房间内设置虚拟的扬声器和传声器单元。使用虚源法的方式在每个房间分别构造了10段房间冲激响应。训练集,验证集和测试集内分别有400段,30段和70段不同的房间冲激响应。将经过sigmoidal变换后的信号与房间冲激响应相卷积,即得到仿真的回声信号。
[0126]
使用基于kalman算法的频域线性自适应滤波器,通过对应的远端信号对上述构造的回声信号进行自适应滤波,得到残留回声信号和自适应滤波器的输出信号。本实施例中,线性自适应滤波器对人造回声信号能量的抑制约为17.0db。为了构造近端语音信号,将残留回声以及颜色噪声与纯净的近端语音相混合。在训练集和验证集中,信号与自适应滤波器处理前回声的能量比值(signal
‑
to
‑
echo ratio,ser)从集合{
‑
14.2,
‑
16.2,
‑
18.2,
‑
20.2}db中随机选取,信号与颜色噪声的能量比值从集合{30,20,10}db中随机选择。在测试集中,信号与回声的能量比值为
‑
18.2db,信号与颜色噪声的能量比值为20db。
[0127]
为了评估模型在实际场景中的性能,使用了扬声器录制了回声音频。使用该扬声器录制了920段4s的语音回声和920段4s的音乐回声用于测试,并使用同型号的不同扬声器录制了6小时的语音回声和6小时的音乐回声用于精调阶段的训练。基于kalman算法的频域线性自适应滤波器对实际录制的回声能量的抑制约为24db。构造实录回声测试集时,信号与回声的能量比值为
‑
22.2db,信号与颜色噪声的能量比值为20db。
[0128]
本实施例采用语音质量的感知评估(pesq)指标作为残留回声抑制性能的客观评价指标。
[0129]
参数设置。本实施例中时域网络编码器的一维卷积层输出维度n设为256,kernel size l设为8,子块长度k为100,全连接层输出维度c设为128。时频域编码器的短时傅里叶变换的帧长设为400,帧移为200,卷积层输出维度c’设为128。据此,时域和时频域的编码器的输出维度分别为t
×
100
×
128和t
×
99
×
128。选择门控循环单元(gate recurrent unit,
gru)层作为双路递归神经网络中每个递归神经网络的函数。
[0130]
在训练过程中,每次使用8组4s的16khz采样数据,共训练120个周期。模型训练使用adam优化器,初始的学习率设为1e
‑
3,并借助了2范数为5的梯度剪裁方式稳定训练过程。如果连续2个训练周期的验证集损失都没有下降,就将学习率降为一半。
[0131]
训练阶段人为录制或构造回声信号,并使用对应的远端信号通过自适应滤波,构造残留回声信号,并与近端语音,背景噪声相叠加,构造混合音频信号。使用自适应滤波器输出的线性回声信号作为辅助信号。使用混合音频信号和辅助信号作为模型输入,纯净的近端语音作为模型的目标输出进行训练。
[0132]
在增强阶段,将对传声器采集信号进行自适应滤波后得到的信号,以及由自适应滤波器的输出信号或远端信号组成的辅助信号输入该模型,即可得到对纯净近端语音的估计。
[0133]
图9和图10分别给出了在仿真回声场景和实录回声场景下,不同方法在远端信号为语音和音乐时的增强语音的客观语音质量评估(perceptual evaluation of speech quality,pesq)值的柱状图。图中深色块代表了远端信号为语音的情况下的pesq分数,浅色块代表了远端信号为音乐情况下的pesq分数。
[0134]
图11是本公开一个示例中不同模型的参数量图。图11中给出了各对比模型的参数量大小。可以发现,本公开实施例的方法在多种回声情况下与相关的基于深度神经网络的残留回声抑制方法的近端语音增强性能都有明显提升,并且在参数数量上也具有优势。综合对比本发明提出的算法在不同情况下的性能,使用自适应滤波器输出信号作为辅助信号的时频域算法更能兼顾仿真和实录回声场景。
[0135]
考虑到人为构造的非线性回声信号与实际扬声器的非线性回声信号有较大的区别,本公开实施例采用精调策略来提高模型在实际回声场景上性能的方法。将在人造数据集上训练完成的模型视为预训练模型,将其在实录回声数据集上重新训练进行精调。在精调阶段,只对该模型的解码器和最后一层网络层的参数进行训练。在本公开实施例中,测试了使用自适应滤波器输出信号作为远端信号的情况,并使用time和tf分别表示时域算法和时频域算法,使用后缀n和r分别表示预训练模型和精调后模型。
[0136]
图12和图13分别给出了在仿真回声场景和实录回声场景下,预训练模型和精调后模型在远端信号为语音和音乐时的增强语音的pesq值柱状图。可以发现,精调后的模型在人造回声数据集上的性能存在一定的下降,但是在实录回声测试集上的性能有了明显的提升,这说明了该精调策略的有效性。进一步考虑到精调阶段中只需要很少的训练数据,因此该精调策略能够有效地在实际场景中进行应用。
[0137]
本公开实施例提供的任一种残留回声抑制模型的训练方法可以由任意适当的具有数据处理能力的设备执行,包括但不限于:终端设备和服务器等。或者,本公开实施例提供的任一种残留回声抑制模型的训练方法可以由处理器执行,如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种残留回声抑制模型的训练方法。下文不再赘述。
[0138]
示例性装置
[0139]
图14是本公开实施例的残留回声抑制模型的训练装置的结构框图。如图14所示,残留回声抑制模型的训练装置,包括:混合音频信号生成模块141、辅助信号确定模块142和
模型训练模块143。
[0140]
其中,混合音频信号生成模块141用于基于多个残留回声信号、多个背景噪音信号和多个纯净的近端语音信号生成多个混合音频信号。其中,每个混合音频信号包括一个残留回声信号、一个背景噪音信号和一个纯净的近端语音信号。辅助信号确定模块142用于基于所述多个混合音频信号,确定与所述多个混合音频信号对应的多个辅助信号,其中,基于每个混合音频信号中的残留回声信号对应的远端信号,确定每个混合音频信号对应的辅助信号。模型训练模块143用于基于所述多个混合音频信号和多个辅助信号训练残留回声抑制模型。
[0141]
图15是本公开一个示例中模型训练模块143的结构框图。在本公开的一个实施例中,模型训练模块143包括:
[0142]
信号获取单元1431,用于每次从所述多个混合音频信号中获取一个混合音频信号,并从所述多个辅助信号中获取一个辅助信号;
[0143]
编码器单元1432,用于通过所述残留回声抑制模型的编码器分别对当前获取的混合音频信号和当前获取的辅助信号进行特征提取,得到第一特征张量和第二特征张量,其中,所述第一特征张量为所述当前获取的混合音频信号的特征张量,所述第二特征张量为所述当前获取的辅助信号的特征张量;
[0144]
双路递归神经网络单元1433,用于通过所述残留回声抑制模型的双路递归神经网络对所述第一特征张量和所述第二特征张量进行处理,得到第三特征张量;
[0145]
估计调参单元1434,用于通过所述残留回声抑制模型的解码器对所述第一特征张量和所述第三特征张量进行纯净语音信号的特征谱估计,基于特征谱估计结果调整所述残留回声抑制模型的参数,以训练所述残留回声网络模型。
[0146]
在本公开的一个实施例中,编码器单元1432用于通过所述残留回声抑制模型的编码器对所述当前获取的混合音频信号进行一维卷积得到所述当前获取的混合音频信号的二维特征谱,并通过所述残留回声抑制模型的编码器对所述当前获取的辅助信号进行一维卷积得到所述当前获取的辅助信号的二维特征谱。其中,所述一维卷积具有预设重叠率。编码器单元1432还用于将所述当前获取的混合音频信号的二维特征谱通过全连接层降维后,划分为多个具有所述预设重叠率的第一特征块,并将所述当前获取的辅助信号的二维特征谱通过全连接层降维后,划分为多个具有所述预设重叠率的第二特征块。编码器单元1432还用于将所述多个具有所述预设重叠率的第一特征块进行特征拼接得到所述第一特征张量,并将所述多个具有所述预设重叠率的第二特征块进行特征拼接得到所述第二特征张量。
[0147]
在本公开的一个实施例中,解码器单元1434用于将所述第三特征张量按照所述预设重叠率进行重叠相加操作,得到目标二维特征;通过带有激活函数的全连接层对所述目标二维特征进行特征维度升维,得到时域特征的掩模估计特征,将所述掩模估计特征与混合音频信号二维特征谱的逐点相乘结果作为所述特征谱估计结果。
[0148]
在本公开的另一个实施例中,编码器单元1432用于通过所述残留回声抑制模型的编码器对所述当前获取的混合音频信号的一维波形进行短时傅里叶变换得到第一复数时频谱特征,并通过所述残留回声抑制模型的编码器对所述辅助信号的一维波形进行短时傅里叶变换得到第二复数时频谱特征。编码器单元1432还用于将所述第一复数时频谱特征的
实数部分和虚数部分进行特征拼接得到所述第一特征张量,并将所述第二复数时频谱特征的实数部分和虚数部分进行特征拼接得到所述第二特征张量。
[0149]
在本公开的另一个实施例中,解码器单元1434用于对所述第三特征张量分别采用两个全连接层进行处理后,再通过与所述两个与所述残留回声抑制模型的编码器的卷积层对应的反卷积层分别进行反卷积得到第一输出特征和第二输出特征。其中,所述第一输出特征为一维特征,所述第二输出特征为二维特征。解码器单元1434还用于将所述第一输出特征、所述第二输出特征与所述第一复数时频谱特征的时频谱幅值相乘,得到所述纯净语音信号的特征谱估计结果。
[0150]
请参考图15,在本公开的一个实施例中,模型训练模块143还包括训练目标确定单元1435,用于在训练所述残留回声网络模型时,使用目标信噪比作为所述残留回声网络模型的训练目标,其中,所述目标信噪比为缩放不变的信噪比。
[0151]
需要说明的是,本公开实施例的残留回声抑制模型的训练装置的具体实施方式与本公开实施例的残留回声抑制方法的具体实施方式类似,具体参见残留回声抑制方法部分,为了减少冗余,不作赘述。
[0152]
示例性电子设备
[0153]
下面,参考图16来描述根据本公开实施例的电子设备。如图16所示,电子设备包括一个或多个处理器161和存储器162。
[0154]
处理器161可以是中央处理单元(cpu)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备中的其他组件以执行期望的功能。
[0155]
存储器162可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(ram)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(rom)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器161可以运行所述程序指令,以实现上文所述的本公开的各个实施例的残留回声抑制模型的训练方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
[0156]
在一个示例中,电子设备还可以包括:输入装置163和输出装置164,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。输入装置163可以包括键盘、鼠标等等。输出装置164可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
[0157]
当然,为了简化,图16中仅示出了该电子设备中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备还可以包括任何其他适当的组件。
[0158]
示例性计算机可读存储介质
[0159]
计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只
读存储器(cd
‑
rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
[0160]
以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
[0161]
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于装置实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0162]
可能以许多方式来实现本公开的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
[0163]
还需要指出的是,在本公开的装置和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。
[0164]
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
[0165]
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。