混响与噪声抑制方法、装置、电子设备及存储介质与流程

1.本发明涉及人工智能技术领域，尤其涉及一种混响与噪声抑制方法、装置、电子设备及存储介质。

背景技术：

2.远场任务中，麦克风接收到的信号存在较大的混响，混响成分会对语音可懂度产生影响，造成语音识别率下降。此外，由于目标声源和麦克风距离较远，导致信噪比很低。
3.为了去除噪声和混响，传统增强方法通常先估计出混响和噪声的幅度谱，并通过维纳滤波的方式将其抑制掉。但是传统基于统计的方法估计出的混响和噪声，对于突变的信号难以及时追踪，导致其对非平稳噪声几乎没有抑制效果。此外，在低信噪比的情况下，传统信号处理造成的语音失真尤为严重；虽然也存在通过神经网络对回声和噪声进行抑制的系统，但是现有的神经网络增强系统通常将混响和噪声糅合在一起进行抑制，忽略了混响和噪声本身的特质，导致语音失真，噪声混响残留等问题。

技术实现要素：

4.本发明提供一种混响与噪声抑制方法、装置、电子设备及存储介质，用以解决现有技术中混响和噪声难以区分，导致语音失真和噪声混响残留的缺陷。
5.本发明提供一种混响与噪声抑制方法，包括：
6.确定待抑制的麦克信号；
7.对所述麦克信号进行直达信号分离和噪声信号分离，得到所述麦克信号的直达分离结果和噪声分离结果；
8.基于所述直达分离结果和所述噪声分离结果，确定所述麦克信号中的混响信号；
9.基于所述混响信号和所述噪声分离结果，对所述麦克信号进行混响与噪声抑制。
10.根据本发明提供的一种混响与噪声抑制方法，所述对所述麦克信号进行直达信号分离和噪声信号分离，得到所述麦克信号的直达分离结果和噪声分离结果，包括：
11.基于直达分离模型，对所述麦克信号进行直达信号分离，得到所述麦克信号的直达分离结果；
12.基于噪声分离模型，对所述麦克信号进行噪声信号分离，得到所述麦克信号的噪声分离结果；
13.所述直达分离模型基于样本麦克信号，以及所述样本麦克信号的样本直达信号训练得到，所述噪声分离模型基于所述样本麦克信号，以及所述样本麦克信号的样本噪声信号训练得到。
14.根据本发明提供的一种混响与噪声抑制方法，所述直达分离模型和所述噪声分离模型基于所述样本麦克信号、所述样本直达信号、所述样本噪声信号，以及所述样本麦克信号的样本混响信号联合训练得到。
15.根据本发明提供的一种混响与噪声抑制方法，所述直达分离模型和所述噪声分离
模型是基于如下步骤确定的：
16.基于所述样本麦克信号和所述样本直达信号，训练得到初始直达模型；
17.基于所述样本麦克信号和所述样本噪声信号，训练得到初始噪声模型；
18.基于所述样本麦克信号和所述样本混响信号，或基于所述样本麦克信号、所述样本混响信号、所述样本直达信号和所述样本噪声信号，对所述初始直达模型和所述初始噪声模型进行联合训练，得到所述直达分离模型和所述噪声分离模型。
19.根据本发明提供的一种混响与噪声抑制方法，所述样本麦克信号是基于样本语音信号、所述样本噪声信号和样本混响信号合成的。
20.根据本发明提供的一种混响与噪声抑制方法，所述基于所述直达分离结果和所述噪声分离结果，确定所述麦克信号中的混响信号，包括：
21.基于所述直达分离结果中的非直达信号和所述噪声分离结果中的噪声信号，确定第一混响信号；
22.和/或，基于所述直达分离结果中的直达信号和所述噪声分离结果中的非噪声信号，确定第二混响信号；
23.基于所述第一混响信号和/或所述第二混响信号，确定所述麦克信号中的混响信号。
24.根据本发明提供的一种混响与噪声抑制方法，所述基于所述混响信号和所述噪声分离结果，对所述麦克信号进行混响与噪声抑制，包括：
25.基于所述噪声分离结果，对所述麦克信号进行降噪，得到降噪信号；
26.基于所述混响信号，对所述降噪信号进行去混响，得到语音信号。
27.本发明还提供一种混响与噪声抑制装置，包括：确定模块，用于确定待抑制的麦克信号；
28.分离模块，用于对所述麦克信号进行直达信号分离和噪声信号分离，得到所述麦克信号的直达分离结果和噪声分离结果；
29.混响模块，用于基于所述直达分离结果和所述噪声分离结果，确定所述麦克信号中的混响信号；
30.抑制模块，用于基于所述混响信号和所述噪声分离结果，对所述麦克信号进行混响与噪声抑制。
31.本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述混响与噪声抑制方法的步骤。
32.本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述混响与噪声抑制方法的步骤。
33.本发明提供一种混响与噪声抑制方法、装置、电子设备及存储介质，通过将对待抑制的麦克信号进行直达信号、噪声信号进行分离，并基于分离得到的直达分离结果和噪声分离结果进行二次处理得到该麦克信号的混响信号，在充分考虑了混响信号和噪声信号本身所具备的特征的前提下，简单可靠地实现了噪声信号和混响信号从麦克信号中的分离，由此进行混响和噪声的抑制，缓解了语音失真的问题，提高了语音质量。
附图说明
34.为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
35.图1是本发明提供的混响与噪声抑制方法的流程示意图之一；
36.图2是本发明提供的直达分离模型和噪声分离模型的训练流程示意图；
37.图3是本发明提供的获取混响信号的方法的流程示意图；
38.图4是本发明提供的对麦克信号进行混响与噪声抑制的方法的流程示意图；
39.图5是本发明提供的混响与噪声抑制方法的流程示意图之二；
40.图6是本发明提供的混响与噪声抑制装置的结构示意图；
41.图7是本发明提供的电子设备的结构示意图。
具体实施方式
42.为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
43.麦克风接收到的信号存在较大的混响，并且使用环境中存在噪声，会出现语音失真，语音强度低以及识别度差的问题。
44.传统增强方法通常先估计出混响和噪声的幅度谱，并通过维纳滤波的方式将其抑制掉。但是传统基于统计的方法估计出的混响和噪声，对于突变的信号难以及时追踪，导致其对非平稳噪声几乎没有抑制效果。
45.针对上述问题，目前采用的解决方式是通过神经网络的多层结构和非线性函数的特性，以数据驱动的方式对复杂场景进行建模，对于低信噪比和突变噪声都有很好的效果。但由于现有的神经网络增强系统通常将混响和噪声糅合在一起进行抑制，并没有很好的机制将其分开，导致语音失真，噪声混响残留等问题。
46.对此，本发明实施例提供一种混响与噪声抑制方法，图1是本发明提供的混响与噪声抑制方法的流程示意图之一，如图1所示，该方法包括：
47.步骤110，确定待抑制的麦克信号。
48.此处麦克信号是通过麦克风拾取的音频信号，受到语音拾取时的混响，以及拾取环境中存在的噪声影响，通常拾取所得的麦克信号可以理解为混合有语音信号、噪声信号和混响信号的音频。
49.步骤120，对麦克信号进行直达信号分离和噪声信号分离，得到麦克信号的直达分离结果和噪声分离结果。
50.步骤130，基于直达分离结果和噪声分离结果，确定麦克信号中的混响信号。
51.具体地，考虑到混响信号和噪声信号本身具备不同的特质，传统方案中将此两者糅合起来进行抑制，会导致语音失真、噪声混响残留，因此，本发明实施例中考虑将混响信号和噪声信号分别进行估计，以便于更好地利用混响信号和噪声信号本身具备的不同特
质。
52.然而，直接估计混响信号的难度很大，采用常见的mask(掩码/掩膜)等混响估计方式，会因其中包含的非线性操作，产生语音失真，因此本发明实施例中在独立估计混响信号时，并未采用直接估计的方式，而是转而对麦克信号分别进行直达信号分离和噪声信号分离，再结合直达分离结果和噪声分离结果，确定混响信号，从而实现混响信号的间接估计。
53.此处，直达信号是麦克信号中直达部分，考虑到直达信号在麦克信号中的信号特征比较明显、分离的难度小、可实现性强，本发明实施例中优先对麦克信号进行直达信号的分离。此外，可以结合噪声信号本身的特征，针对麦克信号进行噪声信号分离。
54.进一步地，在分别对麦克信号进行直达信号分离和噪声信号分离时，可以通过数理统计的方式预先获取各种麦克信号与直达信号之间的映射关系，以及各种麦克信号与噪声信号之间的映射关系，从而可以直接应用映射关系确定麦克信号中的直达信号和噪声信号，还可以预先由语音样本和噪声样本组合成的麦克信号样本，分别使用语音样本和麦克信号样本训练直达分离模型，使用噪声样本和麦克信号样本训练噪声分离模型，通过将麦克信号输入到预先训练的直达分离模型中，应用直达分离模型直接分离麦克信号中的直达分离结果，通过将麦克信号输入到预先训练的噪声分离模型中，应用噪声分离模型直接分离麦克信号中的噪声分离结果，本发明实施例对此不作限制。
55.需要说明的是，直达分离结果可以包括非直达信号和/或直达信号，其中直达信号和非直达信号可直接构成麦克信号，当直达分离结果仅体现为直达信号或者非直达信号时，另一部分可以通过对麦克信号作减法得到，非直达信号具体包括噪声信号和混响信号；噪声分离结果包括噪声信号和/或非噪声信号，噪声信号和非噪声信号可直接构成麦克信号，当噪声分离结果仅体现为噪声信号或者非噪声信号时，另一部分可以通过对麦克信号作减法得到，非噪声信号具体包括直达信号和混响信号。
56.在步骤120通过分别对麦克信号进行直达信号分离和噪声信号分离，得到麦克信号的直达分离结果和噪声分离结果之后，步骤130中即可基于麦克信号本身的构成特点(麦克信号＝直达信号+噪声信号+混响信号)，以及步骤120中得到的直达分离结果和噪声分离结果，确定麦克信号中的混响信号。
57.例如，可以通过直达分离结果中非直达信号和噪声分离结果中的噪声信号相减，得到混响信号，还可以通过噪声分离结果中的非噪声信号与直达分离结果中的直达信号相减，得到混响信号，或者可以通过直达分离结果中非直达信号和噪声分离结果中的噪声信号相减，确定得到第一混响信号，通过噪声分离结果中的非噪声信号和直达分离结果中的直达信号相减，确定得到第二混响信号，将第一混响信号和第二混响信号基于加权的方式融合得到混响信号，本发明实施例对此不作限制。此处，基于直达分离结果和噪声分离结果确定混响信号的方式，均属于纯线性操作，相较于直接估计混响信号的方式中包含的非线性操作，结合步骤120和步骤130所得的混响信号更加可靠，更能够缓解语音失真的问题。
58.步骤140，基于混响信号和噪声分离结果，对麦克信号进行混响与噪声抑制。
59.具体地，在得到噪声分离结果中的噪声信号后，即可以对该麦克信号进行噪声的消除操作，在得到混响信号后，即可以对该麦克信号进行混响的消除操作，得到混响与噪声抑制完成后的麦克信号。需要说明的是以上两种消除操作可以是线性的方法进行消除，也可以是非线性的方式进行消除，譬如滤波的方式，本发明实施例对此不作限制。
60.本发明实施例提供的混响与噪声抑制方法，通过将对待抑制的麦克信号进行直达信号、噪声信号进行分离，并基于分离得到的直达分离结果和噪声分离结果进行二次处理得到该麦克信号的混响信号，在充分考虑了混响信号和噪声信号本身所具备的特征的前提下，简单可靠地实现了噪声信号和混响信号从麦克信号中的分离，由此进行混响和噪声的抑制，缓解了语音失真的问题，提高了语音质量。
61.考虑到传统的滤波的方式对麦克信号进行分离是基于先估计直达信号和噪声信号的幅度谱，再根据幅度谱进行滤波分离，对于突变的信号难以及时追踪，导致在突变信号的情况下难以对麦克信号进行直达信号分离和噪声信号分离。对此，基于上述实施例，步骤120包括：
62.基于直达分离模型，对麦克信号进行直达信号分离，得到麦克信号的直达分离结果；
63.基于噪声分离模型，对麦克信号进行噪声信号分离，得到麦克信号的噪声分离结果；
64.直达分离模型基于样本麦克信号，以及样本麦克信号的样本直达信号训练得到，噪声分离模型基于样本麦克信号，以及样本麦克信号的样本噪声信号训练得到。
65.具体地，本发明实施例通过深度学习算法的方式来对麦克信号进行直达信号分离和噪声信号分离。此处，直达信号分离和噪声信号分离分别基于直达分离模型和噪声分离模型实现，此两个模型在实际预测时相互独立，可以先进行直达信号分离再进行噪声信号分离，也可以先进行噪声信号分离再进行直达信号分离，也可以两者并行，本发明实施例对此不作具体限定。
66.在应用过程中，仅需将待麦克信号分别输入到直达分离模型和噪声分离模型中，便可由直达分离模型针对输入的麦克信号进行编码，并针对编码所得的直达特征进行直达分离，从而得到直达分离结果并输出；由噪声分离模型针对输入的麦克信号进行编码，并针对编码所得的噪声特征进行噪声分离，从而得到噪声分离结果并输出。在此过程中，特征编码可以通过直达分离模型或者噪声分离模型中用于实现音频信号编码的神经网络结构实现，例如长短时记忆网络(long short
‑
term memory，lstm)、循环神经网络(recurrent neural network,rnn)等。
67.进一步地，直达分离模型是基于样本麦克信号以及其中的样本直达信号训练得到的，噪声分离模型是基于样本麦克信号以及其中的噪声样本训练得到的；直达分离模型和噪声分离模型可以是相互独立地训练得到的，例如直达分离模型可以在训练过程中学习到样本麦克信号以及其中的样本直达信号之间的映射关系，从而在预测阶段，可以根据学习到的映射关系对输入的麦克信号进行直达信号分离，又例如噪声分离模型可以在训练过程中学习到样本麦克信号以及其中的样本噪声信号之间的映射关系，从而在预测阶段，可以根据学习到的映射关系对输入的麦克信号进行噪声信号分离。此外，直达分离模型和噪声分离模型还可以是联合训练得到的，联合训练时输入直达分离模型和噪声分离模型的是相同的样本麦克信号，样本麦克信号除了已知样本直达信号和样本噪声信号，样本混响信号也是已知的，因此在联合训练时，直达分离模型和噪声分离模型除了要监控输出的预测直达信号和预测噪声信号与样本直达信号和样本噪声信号之间的差异，还需要监控基于预测直达信号和预测噪声信号计算所得的预测混响信号与样本混响信号之间的差异，并由此进
行直达分离模型和噪声分离模型的更新迭代。
68.基于上述实施例，直达分离模型和噪声分离模型基于样本麦克信号、样本直达信号、样本噪声信号，以及样本麦克信号的样本混响信号联合训练得到。
69.考虑到本发明实施例中获取直达分离结果和噪声分离结果的目的在于获取混响信号，而混响信号的获取需要直达分离模型和噪声分离模型两个模型相互配合实现，如果完全独立地分别训练直达分离模型和噪声分离模型，其训练输出的直达信号或者噪声信号都可能存在残留，残留信号会影响后续获取混响信号的可靠性。
70.为了提高获取到混响信号的可靠性，本发明实施例基于样本麦克信号，以及样本麦克信号中的样本直达信号、样本噪声信号和样本混响信号，对直达分离模型和噪声分离模型进行联合训练。
71.联合训练时，输入直达分离模型和噪声分离模型的是相同的样本麦克信号，由直达分离模型输出基于样本麦克信号预测的预测直达信号，由噪声分离模型输出基于样本麦克信号预测的预测噪声信号，在基于预测直达信号和预测噪声信号获取预测混响信号。在此基础上，可以获取到样本麦克信号的样本直达信号和预测直达信号的直达差异，样本麦克信号的样本噪声信号和预测噪声信号的噪声差异，以及样本麦克信号的样本混响信号和预测混响信号的混响差异，随后结合直达差异、噪声差异和混响差异，对直达分离模型和噪声分离模型进行联合迭代更新，从而得到训练好的直达分离模型和噪声分离模型。
72.此处，直达差异、噪声差异和混响差异，可以表示为一个损失函数，也可以表示为多个独立的损失函数，在存在多个损失函数时，可以对多个损失函数进行加权求和以得到最终的差异作为损失值进行更新迭代。损失函数的形式可以是mse(均方方差)损失函数、sse(和方差)损失函数等。
73.需要说明的是，直达分离模型和噪声分离模型可以直接基于输入的样本麦克信号、样本直达信号、样本噪声信号，以及样本麦克信号的样本混响信号联合训练得到，还可以先基于样本麦克信号、样本直达信号训练得到初始直达模型，基于样本麦克信号、样本噪声信号训练得到初始噪声模型，然后再基于样本麦克信号、样本直达信号、样本噪声信号，以及样本混响信号，对初始直达模型和初始噪声模型进行联合训练，得到直达分离模型和噪声分离模型，本发明实施例对此不作限制。
74.基于上述实施例，图2是本发明提供的直达分离模型和噪声分离模型的训练流程示意图，如图2所示，用于直达分离模型和噪声分离模型训练的方法，包括：
75.步骤210，基于样本麦克信号和样本直达信号，训练得到初始直达模型；
76.步骤220，基于样本麦克信号和样本噪声信号，训练得到初始噪声模型；
77.步骤230，基于样本麦克信号和样本混响信号，或基于样本麦克信号、样本混响信号、样本直达信号和样本噪声信号，对初始直达模型和初始噪声模型进行联合训练，得到直达分离模型和噪声分离模型。
78.具体地，本发明实施例首先通过样本麦克信号和样本直达信号，训练得到初始直达模型，并且通过样本麦克信号和样本噪声信号，训练得到初始噪声模型。此处，步骤210和步骤220可以是顺序执行的，也可以是并行执行的，本发明实施例对此不作具体限定。具体在步骤210中，训练初始直达模型可以通过损失函数实现，其中
m
d
是样本直达信号在样本麦克信号中的掩膜，是预测所得的预测直达信号在样本麦克信号中的掩膜；具体在步骤220中，训练初始噪声模型可以是通过损失函数实现，其中m
n
是样本噪声信号在样本麦克信号中的掩膜，是预测所得的预测噪声信号在样本麦克信号中的掩膜。
79.在此基础上，可以样本麦克信号和样本混响信号对初始直达模型和初始噪声模型进行联合训练，或着基于样本麦克信号、样本混响信号、样本直达信号和样本噪声信号对初始直达模型和初始噪声模型进行联合训练，从而得到直达分离模型和噪声分离模型。需要说明的是对初始直达模型和初始噪声模型的联合训练，是在初始直达模型和初始噪声模型的输出结果收敛后，此时初始直达模型和初始噪声模型已经具备直达分离和噪声分离的能力，可以基于样本麦克信号和样本混响信号对初始直达模型和初始噪声模型进行联合训练，此时，联合训练所应用的损失函数可以是式中s
r
是样本混响信号在样本麦克信号中的掩膜，是预测所得的预测混响信号在样本麦克信号中的掩膜，预测混响信号是基于预测直达信号和预测噪声信号得到的。
80.此外，联合训练还可以是基于样本麦克信号、样本混响信号、样本直达信号和样本噪声信号执行的，此时联合训练所应用的损失函数可以是loss＝loss
d
+loss
n
+loss
r
，即联合训练时不仅监控初始直达模型和初始噪声模型本身的输出，还监控联合此两者输出所得的混响信号。
81.基于上述实施例，样本麦克信号是基于样本语音信号、样本噪声信号和样本混响信号合成的。
82.具体地，为了降低有监督的模型训练样本的标注工作量，确保标签的可靠性和准确性，训练直达分离模型和噪声分离模型所需的样本可以通过仿真制作得到。
83.具体在合成过程中，可以先生成房间冲激响应，此处包括语音和噪声等不同位置的冲激响应，具体地语音的冲激响应可以记为i
s
，噪声的冲激响应可以记为i
n
。确定样本语音信号s和样本噪声源n，此处的样本噪声源n可以是音乐、噪声等。将样本语音信号s和样本噪声源n分别同预先生成的冲激响应i
s
,i
n
进行卷积，得到麦克风接收到的信号y＝s*i
s
+n*i
n
。其中，冲激响应i
s
包括直达i
d
和混响成分i
r
。由此合成的样本麦克信号如下：
84.y＝s*i
d
+s*i
r
+n*i
n
85.式中，样本噪声信号即n*i
n
，样本混响信号即s*i
r
。
86.需要说明的是，在基于样本语音信号、样本噪声信号和样本混响信号进行信号合成时，样本语音信号和样本噪声源可以通过不同的信噪比进行合成，从而得到不同的样本麦克信号。例如，本发明实施例最终可以合成数万条
‑
10db到20db的10s左右的带噪带混响的样本麦克信号。
87.基于上述任一实施例，图3是本发明实施例提供的获取混响信号的方法的流程示意图，如图3所示，步骤130包括：
88.步骤131，基于直达分离结果中的非直达信号和噪声分离结果中的噪声信号，确定第一混响信号；
89.和/或，基于直达分离结果中的直达信号和噪声分离结果中的非噪声信号，确定第二混响信号；
90.具体地，考虑到直达分离结果中的非直达信号包括混响信号和噪声信号，以及噪声分离结果中非噪声信号中包括直达信号和混响信号，此处通过直达分离结果中的非直达信号和噪声分离结果中的噪声信号来确定第一混响信号，通过噪声分离结果中的非噪声信号和直达分离结果中的直达信号来确定第二混响信号。需要说明的是确定第一混响信号和确定第二混响信号均使用信号相减的方式计算得到，例如：s
r
＝s
d
‑
s
n
，其中s
r
为第一混响信号，s
d
为直达分离结果中的非直达信号，s
n
为噪声分离结果中的噪声信号。
91.步骤132，基于第一混响信号和/或第二混响信号，确定麦克信号中的混响信号。
92.具体地，在单独执行步骤131中的一种方式的情况，仅得到第一混响信号或者第二混响信号，此时可以直接将第一混响信号或者第二混响信号确定为麦克信号中的混响信号。在步骤131中的两种方式均执行的情况下，为了得到更为可靠的混响信号，可以将步骤131中得到的第一混响信号和第二混响信号进行处理以得到麦克信号中的混响信号，具体可以是对第一混响信号和第二混响信号进行加权求和，或者对第一混响信号和第二混响信号求平均，本发明实施例对此不作限制。
93.基于上述实施例，步骤140中，图4是本发明实施例提供的对麦克信号进行混响与噪声抑制的方法的流程示意图，如图4所示，步骤140包括：
94.步骤141，基于噪声分离结果，对麦克信号进行降噪，得到降噪信号；
95.步骤142，基于混响信号，对降噪信号进行去混响，得到语音信号。
96.具体地，在得到噪声分离结噪声及根据直达分离结果和噪声分离结果确认的混响信号后，便可以根据噪声分离结果中的噪声信号对麦克信号进行降噪，然后对该降噪信号进行去混响信号的操作，其中降噪的方法和去混响信号的方法可以是维纳滤波进行线性滤波降噪，还可以是深度残差收缩网络进行非线性降噪，本发明实施例对此不作限制。
97.基于上述任一实施例，图5是本发明实施例提供的混响与噪声抑制方法的流程示意图之二，如图5所示，该方法包括：
98.步骤510，确定待抑制的麦克信号；
99.步骤520，将该麦克信号分别输入直达分离模型和噪声分离模型中；
100.步骤530，得到直达分离模型输出的直达分离结果，其中直达分离结果包括直达信号和非直达信号非直达信号包括第一混响信号和噪声信号得到噪声分离模型输出的噪声分离结果，其中噪声分离结果包括噪声信号和非噪声信号非噪声信号包括第二混响信号和直达信号此处直达分离结果中的非直达信号包括的噪声信号与噪声分离结果中的噪声信号为相同的信号，因此均用表示；噪声分离结果中的非噪声信号包括的直达信号与直达分离结果中的直达信号位相同的信号，因此均用表示；
101.步骤540，非直达信号包括混响信号和噪声信号，换成数学公式表示为：在通过噪声分离模型得到噪声信号的基础上，第一混响信号的计算公式表示为非噪声信号包括混响信号和直达信号，换成数学公式表示为：在通过直达分离模型得到直达信号的基础上，第二混响信号的计算公
式为
102.步骤550，根据步骤540得到的第一混响信号和第二混响信号通过求平均的方式得到待抑制的混响信号，计算公式为
103.步骤560，根据前面步骤得到的噪声信号和混响信号以滤波的方式，得到线性去混响和非线性降噪的结果，并以该结果作为抑制后输出的麦克信号。
104.本发明实施例提供的混响与噪声抑制方法，通过将对待抑制的麦克信号进行直达信号、噪声信号进行分离，并基于分离得到的直达分离结果和噪声分离结果进行二次处理得到该麦克信号的混响信号，在充分考虑了混响信号和噪声信号本身所具备的特征的前提下，简单可靠地实现了噪声信号和混响信号从麦克信号中的分离，由此进行混响和噪声的抑制，缓解了语音失真的问题，提高了语音质量。
105.下面对本发明提供的混响与噪声抑制装置进行描述，下文描述的混响与噪声抑制装置与上文描述的混响与噪声抑制方法可相互对应参照。
106.图6是本发明提供的混响与噪声抑制装置的结构示意图，如图6所示，该装置包括：确定模块610，分离模块620，混响模块630，抑制模块640。
107.其中，确定模块610，用于确定待抑制的麦克信号；
108.分离模块620，用于对麦克信号进行直达信号分离和噪声信号分离，得到麦克信号的直达分离结果和噪声分离结果；
109.混响模块630，用于基于直达分离结果和噪声分离结果，确定麦克信号中的混响信号；
110.抑制模块640，用于基于混响信号和噪声分离结果，对麦克信号进行混响与噪声抑制。
111.在本发明实施例中，通过确定模块610，用于确定待抑制的麦克信号；分离模块620，用于对麦克信号进行直达信号分离和噪声信号分离，得到麦克信号的直达分离结果和噪声分离结果；混响模块630，用于基于直达分离结果和噪声分离结果，确定麦克信号中的混响信号；抑制模块640，用于基于混响信号和噪声分离结果，对麦克信号进行混响与噪声抑制，实现了通过将对待抑制的麦克信号进行直达信号、噪声信号进行分离，并基于分离得到的直达分离结果和噪声分离结果进行二次处理得到该麦克信号的混响信号，在充分考虑了混响信号和噪声信号本身所具备的特征的前提下，简单可靠地实现了噪声信号和混响信号从麦克信号中的分离，由此进行混响和噪声的抑制，缓解了语音失真的问题，提高了语音质量。
112.基于上述任一实施例，分离模块620中包括分离子单元用于基于直达分离模型，对麦克信号进行直达信号分离，得到麦克信号的直达分离结果以及基于噪声分离模型，对麦克信号进行噪声信号分离，得到麦克信号的噪声分离结果。
113.其中，分离子单元还包括模型训练子单元，用于训练得到直达分离模型和噪声分离模型，直达分离模型是基于样本麦克信号，以及样本麦克信号的样本直达信号训练得到，噪声分离模型基于样本麦克信号，以及样本麦克信号的样本噪声信号训练得到。
114.基于上述任一实施例，模型训练子单元中直达分离模型和噪声分离模型是基于样
本直达信号、样本噪声信号，以及样本麦克信号的样本混响信号联合训练得到。
115.基于上述任一实施例，模型训练子单元包括：初始直达模型训练子单元，用于基于样本麦克信号和样本直达信号，训练得到初始直达模型；初始噪声模型训练子单元，用于基于样本麦克信号和样本噪声信号，训练得到初始噪声模型；联合训练子单元，用于基于样本麦克信号和样本混响信号，或基于样本麦克信号、样本混响信号、样本直达信号和样本噪声信号，对初始直达模型和初始噪声模型进行联合训练，得到直达分离模型和噪声分离模型。
116.基于上述任一实施例，直达分离模型训练子单元和噪声分离模型训练子单元中的样本麦克信号是基于样本语音信号、样本噪声信号和样本混响信号合成的。
117.基于上述任一实施例，混响模块630包括第一混响子模块，用于基于直达分离结果中的非直达信号和噪声分离结果中的噪声信号，确定第一混响信号；第二混响子模块，用于基于直达分离结果中的直达信号和噪声分离结果中的非噪声信号，确定第二混响信号；计算子模块，用于基于第一混响信号和/或第二混响信号，确定麦克信号中的混响信号。
118.基于上述任一实施例，抑制模块640包括降噪子模块，用于基于噪声分离结果，对麦克信号进行降噪，得到降噪信号；去混响子模块，用于基于混响信号，对降噪信号进行去混响，得到语音信号。
119.图7示例了一种电子设备的实体结构示意图，如图7所示，该电子设备可以包括：处理器(processor)710、通信接口(communications interface)720、存储器(memory)730和通信总线740，其中，处理器710，通信接口720，存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令，以执行混响与噪声抑制方法，该方法包括：确定待抑制的麦克信号；对麦克信号进行直达信号分离和噪声信号分离，得到麦克信号的直达分离结果和噪声分离结果；基于直达分离结果和噪声分离结果，确定麦克信号中的混响信号；基于混响信号和噪声分离结果，对麦克信号进行混响与噪声抑制。
120.此外，上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read
‑
only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
121.另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的混响与噪声抑制方法，该方法包括：确定待抑制的麦克信号；对麦克信号进行直达信号分离和噪声信号分离，得到麦克信号的直达分离结果和噪声分离结果；基于直达分离结果和噪声分离结果，确定麦克信号中的混响信号；基于混响信号和噪声分离结果，对麦克信号进行混响与噪声抑制。
122.又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的混响与噪声抑制方法，该方法包括：确定待抑制的麦克信号；对麦克信号进行直达信号分离和噪声信号分离，得到麦克信
号的直达分离结果和噪声分离结果；基于直达分离结果和噪声分离结果，确定麦克信号中的混响信号；基于混响信号和噪声分离结果，对麦克信号进行混响与噪声抑制。
123.以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。
124.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
125.最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。