1.本技术实施例涉及音频处理领域,尤其涉及一种估计声源波达方向的方法、电子设备及芯片系统。
背景技术:2.波达方向(direction of arrival,doa)估计是阵列信号处理的研究热点,通过doa估计能够确定声源所在的方向,从而能够更好的拾取目标声音。因此,doa估计成为手机、智能音箱、远程会议大屏等人机交互设备的关键技术。
3.由于,设备采集到的音频信号通常由声源信号和噪声混合而成,在进行doa估计时,首先,将噪声作为干扰信号,从音频信号中筛选出不包含噪声或噪声影响较小的频点数据。然后,对这些筛选出的频点数据进行doa估计。然而,这种doa估计的方法在应用时,无法应用在包含多个声源的场景中,并且在复杂的声学环境中筛除出的频点数据较少且筛选出的频点数据可能包含了其他干扰成分,使得doa估计时的精度较低。
技术实现要素:4.本技术实施例提供一种估计声源波达方向的方法、电子设备及芯片系统,可以应用于多声源的声学环境中,且能够提高复杂声学环境中doa估计的精度。
5.为达到上述目的,本技术采用如下技术方案:
6.第一方面,本技术实施例提供一种估计声源波达方向的方法,包括:电子设备获取音频信号,音频信号包括:噪声、一个或多个目标声源的声源信号、混响信号;电子设备对音频信号进行第n次去混响处理,得到第n预测矩阵和第n去混响信号,第n去混响信号包括音频信号中除第n混响信号以外的信号,第n混响信号为第n次去混响处理中去除的混响信号;电子设备对第n去混响信号进行第n次盲源分离处理,得到第n解混矩阵和第n去噪声信号,第n去噪声信号为音频信号中去除了第n次盲源分离处理得到的噪声的信号;电子设备继续对第n去噪声信号执行去混响处理和盲源分离处理;在n为预设值或者第n预测矩阵收敛且第n解混矩阵收敛时,电子设备根据第n解混矩阵和第n去混响信号,得到一个或多个目标声源的声源信号;其中,n为从1开始的正整数;电子设备确定一个或多个目标声源的声源信号的波达方向。
7.电子设备对获取的音频信号执行去混响和盲源分离的联合迭代处理后,可以将噪声、混响信号和声源信号分离开。即当音频信号中包含一个或多个目标声源的声源信号时,在电子设备对音频信号执行去混响和盲源分离的联合迭代处理后,可以获得每个目标声源的声源信号。因此,电子设备可以估计每个目标声源的声源信号的波达方向,使得可以应用在多声源的声学环境中;混响信号是目标声源的声源信号经过反射后被麦克风延时采集的信号,所以混响信号的方向已经改变了;噪声的方向是四面八方的,因此,联合迭代处理后获得的每个目标声源的声源信号几乎不包含影响doa估计精度的噪声和混响信号,或者包含了很少量的影响doa估计精度的噪声和混响信号。因此,电子设备在估计目标声源的声源
信号的波达方向时,具有较高的doa估计精度;并且即使音频信号的采集环境为高噪声高混响的声学环境,依然具有较高的doa估计精度。
8.在第一方面的一种可能的实施方式中,对于第一目标声源,第一目标声源为一个或多个目标声源中的任一个,第一目标声源的声源信号的波达方向包括:第一目标声源的声源信号在不同频点上的第一方向信息。
9.为了便于描述,可以将一个或多个目标声源中的任一个目标声源记为第一目标声源。
10.在第一方面的一种可能的实现方式中,电子设备根据第一目标声源的声源信号在不同频点上的第一方向信息,对第一目标声源的声源信号执行声源分离和波达方向估计的联合处理,得到第一目标声源的声源信号在不同频点上的第二方向信息,其中,声源分离处理包括:去混响和盲源分离的联合迭代处理。
11.去混响和盲源分离都是一种估计算法,音频信号经过去混响和盲源分离的联合迭代处理后获得的目标声源的声源信号中可能还会包含噪声和/或混响信号,而电子设备基于包含噪声和/或混响信号的声源信号获得的第一方向信息可能不太精确;因此,电子设备可以基于当前获得的第一目标声源的声源信号在不同频点上的第一方向信息继续对第一目标声源执行声源分离处理和doa估计处理,由于再次进行声源分离处理时通过第一目标声源的声源信号在不同频点上的第一方向信息约束声源分离处理的过程,因此电子设备执行声源分离后能够获得更精确的第一目标声源的声源信号、解混矩阵以及混合矩阵,电子设备根据更精确的第一目标声源的声源信号、解混矩阵或混合矩阵能够获得更精确的第一目标声源的声源信号在不同频点上的第二方向信息。当然,获得的第一目标声源的声源信号在不同频点上的第二方向信息比第一目标声源的声源信号在不同频点上的第一方向信息更精确。
12.在第一方面的一种可能的实现方式中,电子设备对第一目标声源的声源信号在不同频点上的第一方向信息执行平滑滤波处理或核密度估计处理,得到第一目标声源在不同频点上的第三方向信息;电子设备将第一目标声源在不同频点上的第三方向信息融合,获得第一目标声源的方向。
13.本技术实施例中,平滑滤波处理和核密度估计处理是为了将第一目标声源的声源信号中的一些干扰去除,从而能够根据去除一些干扰后的第三方向信息获得第一目标声源的声源信号的方向。
14.在第一方面的一种可能的实现方式中,电子设备继续对第n去噪声信号执行去混响处理和盲源分离处理包括:
15.若第p次去混响处理得到的第p预测矩阵收敛且第p次盲源分离处理得到的第p解混矩阵不收敛,则电子设备执行第p+i次盲源分离处理,直到第p+i解混矩阵收敛,或,电子设备交替执行第p+i次去混响处理和第p+i次盲源分离处理,直到第p+i预测矩阵和第p+i解混矩阵同时收敛,其中,p为正整数,i为从1开始的正整数;
16.若第q次去混响处理得到的第q预测矩阵不收敛且第q次盲源分离处理得到的第q解混矩阵收敛,则电子设备执行第q+i次去混响处理,直到第q+i预测矩阵收敛,或,电子设备交替执行第q+i次去混响处理和第q+i次盲源分离处理,直到第q+i预测矩阵和第q+i解混矩阵同时收敛,其中,q为正整数,i为从1开始的正整数。
17.在实施例中,电子设备在执行去混响处理和盲源分离处理时,除了可以循环执行去混响处理和盲源分离处理直到预测矩阵和解混矩阵均收敛,也可以在其中一个矩阵收敛时,独立迭代不收敛的矩阵,直到预测矩阵和解混矩阵均收敛,从而避免了收敛的矩阵重复运算的过程,提高处理效率。
18.在第一方面的一种可能的实现方式中,电子设备执行第j次去混响处理包括m次更新预测矩阵的过程,电子设备执行第j次盲源分离处理包括n次更新解混矩阵的过程,其中,j、m和n均为正整数。
19.电子设备在每一次执行去混响处理和盲源分离处理过程中可以包括独立迭代矩阵的过程,降低运算量,提高处理效率。
20.在第一方面的一种可能的实现方式中,采用上次去混响处理获得的去混响信号作为盲源分离的处理信号,采用音频信号作为去混响的处理信号;或者,采用上次盲源分离处理获得的去噪声信号作为去混响的处理信号,采用音频信号作为盲源分离的处理信号。
21.在第一方面的一种可能的实现方式中,采用历史任一次获得的去混响信号作为本次盲源分离的处理信号,采用历史任一次获得的去噪声信号作为本次去混响的处理信号。
22.电子设备执行去混响处理和盲源分离处理的联合迭代时,可以将去混响处理过程的参数影响盲源分离处理,也可以将盲源分离处理过程的参数影响去混响处理。并且,该参数可以是之前任一次获得的去混响信号和/或去噪声信号。
23.在第一方面的一种可能的实现方式中,电子设备获取音频信号包括:电子设备通过电子设备上的声学矢量传感器采集音频信号;或,电子设备接收其他电子设备上的声学矢量传感器采集的音频信号。
24.在第一方面的一种可能的实现方式中,电子设备确定一个或多个目标声源的声源信号的波达方向包括:电子设备根据第二目标声源的声源信号在多个通道上的幅值、一个或多个目标声源的声源信号的解混矩阵或混合矩阵中的一个或多个,得到第二目标声源的声源信号的波达方向,第二目标声源为一个或多个目标声源中的任一个;其中,解混矩阵表示音频信号分离为一个或多个目标声源的声源信号时的转换关系,混合矩阵表示音频信号中的一个或多个目标声源的声源信号混合为音频信号时的转换关系。
25.本技术实施例中,结合声矢量麦克风的各通道共点的特性,认为单纯的一个目标声源的声源信号,被声矢量麦克风采集后,各个通道方向上的幅值和该目标声源的方向有关,因为,电子设备可以根据第一目标声源的声源信号在多个通道上的幅值获得第一目标声源的声源信号的波达方向;结合声矢量麦克风的各通道共点的特性,以及多个目标声源的第二混合模型,可以认为目标声源的声源信号以及噪声混合为音频信号时的转换关系中也蕴含了目标声源的声源信号的方向,因此,电子设备可以根据一个或多个目标声源的声源信号的混合矩阵或解混矩阵,获得任一个目标声源的波达方向。
26.在第一方面的一种可能的实现方式中,电子设备根据一个或多个目标声源的声源信号的混合矩阵,得到第二目标声源的声源信号的波达方向包括:电子设备确定混合矩阵中的目标列、以及目标列中的第一目标行和第二目标行,其中,目标列为表示第二目标声源的声源信号的列,第一目标行和第二目标行为与第二目标声源的声源信号的角度相关的行;电子设备根据目标列中的第一目标行的元素和第二目标行的元素,得到第二目标声源的声源信号的波达方向。
27.由于声学矢量传感器共点的特性,混合矩阵中隐含了每个目标声源的声源信号在各通道上的幅值之间的比值,或者理解为混合矩阵中隐含了角度的关系,可以通过混合矩阵中表示目标声源的声源信号的列中与角度相关的第一目标行和第二目标行上的元素确定角度。
28.在第一方面的一种可能的实现方式中,第一目标行表示声学矢量传感器的第一通道的行、第二目标行为表示声学矢量传感器的第二通道的行时,第二目标声源的声源信号的波达方向包括第二目标声源的声源信号的水平角,水平角为声学矢量传感器所在的坐标系中的角度;和/或,第一目标行为表示声学矢量传感器的第三通道的行、第二目标行为表示声学矢量传感器的全向通道的行时,第二目标声源的声源信号的波达方向包括第二目标声源的声源信号的俯仰角,俯仰角为声学矢量传感器所在的坐标系中的角度。
29.在本实现方式中,混合矩阵中第1列表示第一个目标声源的声源信号所在的列,混合矩阵中第2列表示第二个目标声源的声源信号所在的列,
……
。混合矩阵中各个行分别表示全向通道、x通道、y通道、z通道(三维四通道声矢量麦克风)。电子设备根据表示第一目标声源的目标列中,表示声学矢量传感器的x通道的行的元素、表示声学矢量传感器的y通道的行的元素可以得到第一目标声源的声源信号的水平角,水平角为声学矢量传感器所在的坐标系中的角度;电子设备根据表示第一目标声源的目标列中,表示声学矢量传感器的z通道的行的元素、表示声学矢量传感器的全向通道的行的元素可以得到第一目标声源的声源信号的俯仰角,俯仰角为声学矢量传感器所在的坐标系中的角度。
30.在第一方面的一种可能的实现方式中,电子设备根据第n解混矩阵和第n去噪声信号,得到一个或多个目标声源的声源信号之后,电子设备对一个或多个目标声源的声源信号执行第一增强处理,其中,第一增强处理包括:干扰频谱滤除处理和/或谐波增强处理,第一目标声源为一个或多个目标声源的声源信号中的任一个;干扰频谱滤除处理,用于基于一个或多个目标声源的声源信号中任一个目标声源的声源信号的频谱能量,滤除任一个目标声源的声源信号中混杂的干扰成分;谐波增强处理,用于获得一个或多个目标声源的谐波增强信号,谐波增强信号为包含谐波成分的声源信号。
31.在本实现方式中,干扰频谱滤除处理可以是电子设备基于第一目标声源的声源信号的频谱能量,将第一目标声源的声源信号中混杂的干扰成分滤除,从而获得的更纯净的声源信号;谐波增强处理可以丰富我们听到的声音或者还原乐器等发出的真实声音。
32.在第一方面的一种可能的实现方式中,电子设备基于第一目标声源的声源信号在不同频点上的第一方向信息,对第一目标声源的声源信号执行第二增强处理,其中,第二增强处理包括干扰方向滤除处理和/或波束形成定向增强处理;干扰方向滤除处理,用于将第一目标声源的声源信号中方向角不在期望角度范围内的频点滤除;波束形成定向增强处理,用于增强第一目标声源的声源信号在期望方向的功率。
33.在本实现方式中,干扰方向滤除处理用于将第一目标声源的声源信号中方向角不在期望角度范围内的频点滤除,可以抑制除了第一目标声源所在方向以外的其他方向的声音;波束形成定向增强处理用于增强期望方向的声源信号的功率。
34.在第一方面的一种可能的实现方式中,在n为预设值或者第n预测矩阵收敛且第n解混矩阵收敛时,还包括:电子设备从音频信号中得到噪声和一个或多个目标声源的混响信号;电子设备调整噪声、第一目标声源的声源信号、以及第一目标声源的混响信号之间的
比例关系,第一目标声源为一个或多个目标声源中的任一个。
35.本技术实施例中,电子设备执行调整第一目标声源的声源信号、第一目标声源的混响信号、噪声之间的比例关系的步骤,可以获得不同场景效果的声音,例如ktv效果、音乐厅效果、空旷的田野效果等。
36.第二方面,本技术实施例提供一种电子设备,包括:音频信号获取单元,用于获取音频信号,音频信号包括噪声、一个或多个目标声源的声源信号;
37.音频信号获取单元,用于获取音频信号,音频信号包括噪声、一个或多个目标声源的声源信号、混响信号;
38.去混响处理单元,用于对音频信号进行第n次去混响处理,得到第n预测矩阵和第n去混响信号,第n去混响信号包括音频信号中除第n混响信号以外的信号,第n混响信号为第n次去混响处理中去除的混响信号;
39.盲源分离处理单元,用于对第n去混响信号进行第n次盲源分离处理,得到第n解混矩阵和第n去噪声信号,第n去噪声信号为音频信号中去除了第n次盲源分离处理得到的噪声的信号;
40.声源信号获得单元,用于对第n去噪声信号执行去混响处理和盲源分离处理;在n为预设值或者第n预测矩阵收敛且第n解混矩阵收敛时,根据第n解混矩阵和第n去混响信号,得到一个或多个目标声源的声源信号;其中,n为从1开始的正整数
41.声源方向估计单元,用于确定一个或多个目标声源的声源信号的波达方向。
42.第三方面,提供一种电子设备,包括处理器,处理器用于运行存储器中存储的计算机程序,实现本技术第一方面任一项的方法。
43.第四方面,提供一种芯片系统,包括处理器,处理器与存储器耦合,处理器执行存储器中存储的计算机程序,以实现本技术第一方面任一项的方法。
44.第五方面,提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被一个或多个处理器执行时实现本技术第一方面任一项的方法。
45.第六方面,本技术实施例提供了一种计算机程序产品,当计算机程序产品在电子设备上运行时,使得电子设备执行上述第一方面中任一项方法。
46.可以理解的是,上述第二方面至第六方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。
附图说明
47.图1为本技术实施例提供的估计声源波达方向的方法的一种应用场景示意图;
48.图2为本技术实施例提供的执行估计声源波达方向的方法的一种电子设备的硬件结构示意图;
49.图3为本技术实施例提供的一种估计声源波达方向的方法的流程示意图;
50.图4为本技术实施例提供的另一种估计声源波达方向的方法的流程示意图;
51.图5为本技术实施例中提供的一种多个目标声源的声源信号的第二混合模型示意图;
52.图6为本技术实施例提供的从音频信号中分离出每个目标声源的声源信号时的分离模型示意图;
53.图7为图4所示实施例中去混响和盲源分离的联合迭代处理的一种实施方式的流程示意图;
54.图8为本技术实施例提供的另一种估计声源波达方向的方法的流程示意图;
55.图9为本技术实施例提供的一种三维四通道声学矢量传感器的结构效果图;
56.图10为本技术实施例提供的一种包括声源分离、doa估计和增强处理的联合处理的示意框图;
57.图11为本技术实施例提供的执行估计声源波达方向的方法的一种电子设备的功能架构模块的示意框图。
具体实施方式
58.以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本技术实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本技术。
59.应当理解,当在本技术说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
60.还应当理解,在本技术实施例中,“一个或多个”是指一个、两个或两个以上;“和/或”,描述关联对象的关联关系,表示可以存在三种关系;例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b的情况,其中a、b可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。
61.另外,在本技术说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
62.在本技术说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本技术的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
63.本技术实施例可以应用在存在一个或多个目标声源的声学环境中,参见图1,图1为本技术实施例提供的估计声源波达方向的方法的一种应用场景,如图1所示,可以通过麦克风阵列采集一个或多个用户发出的语音信息,该麦克风阵列可以包括一个或多个麦克风,每个麦克风用于采集一个或多个用户发出的语音信息。图1中以麦克风阵列包括4个麦克风,以用户数量为4个为例,可以理解的是,在实际过程中,麦克风阵列包括的麦克风数量可以多于4个或者少于4个,用户的数量也可以多于4个或者少于4个。
64.举例说明,该4个用户时不时的在进行谈话或唱歌(下述可以将用户发出的声音称为语音信息),可能某个时间段,4个用户中至少两个用户在同时谈话,这时可以认为存在至少两个目标声源。可能另一时间段,只有一个用户在谈话,这时可以认为存在一个目标声源。当然,可能某个时间段,4个用户均在谈话这时可以认为存在至四个目标声源。如果以4个用户均在谈话的声学环境为例,则该声学环境中存在4个目标声源。麦克风阵列中存在4
个麦克风,每个用户发出的语音信息可以被4个麦克风均采集到,同样,每个麦克风也可以采集到每个用户发出的语音信息,麦克风阵列中的每个麦克风采集到的信息中,除了包含每个用户发出的语音信息之外,还可能会包含噪声(例如,混合环境噪声、器件噪声)、混响信号等。
65.由于每个麦克风不仅可以采集到每个用户发出的语音信息,还可以采集到混合环境噪声、器件噪声、混响信号,本技术实施例中可以将麦克风采集到的所有信息称为音频信号。本技术实施例中将混合环境噪声和器件噪声统称为噪声。
66.麦克风阵列中的每个麦克风采集的音频信号称为一个通道的音频信号,当按照图1所示应用场景中的麦克风阵列采集音频信号时,该麦克风阵列采集到的音频信号为4通道的音频信号。一个通道的音频信号可以包括不同用户发出的语音信号。
67.电子设备可以从包含混响信号和噪声的音频信号中分离出每个用户发出的语音信息,每个用户发出的语音信息可以理解为一个目标声源的声源信号。电子设备还可以获得每个目标声源的声源信号的波达方向。
68.应理解,麦克风阵列中的每个麦克风均可以采集到该4个用户分别发出的语音信息。
69.本技术实施例提供一种估计声源波达方向的方法,该方法可以适用于电子设备中,电子设备可以为:手机、平板电脑、可穿戴设备、车载设备、增强现实(augmented reality,ar)/虚拟现实(virtual reality,vr)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,umpc)、上网本、个人数字助理(personal digital assistant,pda)等电子设备。本技术实施例对的具体类型不作限定。
70.图2示出了一种电子设备的结构示意图。电子设备200可以包括处理器210,内部存储器221,天线1,天线2,移动通信模块250,无线通信模块260,音频模块270,扬声器270a,受话器270b,麦克风270c,耳机接口270d。
71.可以理解的是,本技术实施例示意的结构并不构成对电子设备200的具体限定。在本技术另一些实施例中,电子设备200可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
72.处理器210可以包括一个或多个处理单元,例如:处理器210可以包括应用处理器(application processor,ap),调制解调处理器,图形处理器(graphics processing unit,gpu),图像信号处理器(image signal processor,isp),控制器,存储器,视频编解码器,数字信号处理器(digital signal processor,dsp),基带处理器,和/或神经网络处理器(neural-network processing unit,npu)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。例如,处理器210用于执行本技术实施例中的估计声源波达方向的方法,例如,下述步骤301~步骤302。
73.处理器210中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器210中的存储器为高速缓冲存储器。该存储器可以保存处理器210刚用过或循环使用的指令或数据。如果处理器210需要再次使用该指令或数据,可从存储器中直接调用。避免了重复存取,减少了处理器210的等待时间,因而提高了系统的效率。
74.在一些实施例中,处理器210可以包括一个或多个接口。接口可以包括集成电路
navigation satellite system,bds),准天顶卫星系统(quasi-zenith satellite system,qzss)和/或星基增强系统(satellite based augmentation systems,sbas)。
82.内部存储器221可以用于存储计算机可执行程序代码,可执行程序代码包括指令。处理器210通过运行存储在内部存储器221的指令,从而执行电子设备200的各种功能应用以及数据处理。内部存储器221可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统,至少一个功能所需的应用程序(比如声音播放功能,图像播放功能等)。存储数据区可存储电子设备200使用过程中所创建的数据。
83.此外,内部存储器221可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flash storage,ufs)等。
84.电子设备200可以通过音频模块270,扬声器270a,受话器270b,麦克风270c,耳机接口270d,以及应用处理器等实现音频功能。例如音乐播放,录音等。
85.音频模块270用于将数字音频信号转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。音频模块270还可以用于对音频信号编码和解码。在一些实施例中,音频模块270可以设置于处理器210中,或将音频模块270的部分功能模块设置于处理器210中。
86.扬声器270a,也称“喇叭”,用于将音频电信号转换为声音信号。电子设备200可以通过扬声器270a播放本技术实施例中获得的声源信号。
87.受话器270b,也称“听筒”,用于将音频电信号转换成声音信号。当电子设备200接听电话或语音信息时,可以通过将受话器270b靠近人耳接听语音,例如,用户通过助听器中的受话器接收本技术实施例中获得的声源信号。
88.麦克风270c,也称“话筒”,“传声器”,用于将声音信号转换为电信号。当拨打电话或发送语音信息时,用户可以通过人嘴靠近麦克风270c发声,将声音信号输入到麦克风270c。电子设备200可以设置至少一个麦克风270c。在另一些实施例中,电子设备200可以设置两个麦克风270c,除了采集声音信号,还可以实现降噪功能。在另一些实施例中,电子设备200还可以设置三个,四个或更多麦克风270c组成本技术实施例提供的麦克风阵列,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。例如,麦克风270c可以用于采集本技术实施例涉及到的音频信号。
89.需要说明的是,如果电子设备为服务器,则该服务器包括处理器,以及通信接口。
90.在本技术实施例中,一种估计声源波达方向的方法的执行主体的具体结构,本技术实施例并未特别限定,只要可以通过运行记录有本技术实施例的一种估计声源波达方向的方法的代码的程序,以根据本技术实施例的一种估计声源波达方向的方法进行通信即可。例如,本技术实施例提供的一种估计声源波达方向的方法的执行主体可以是电子设备中能够调用程序并执行程序的功能模块,或者为应用于电子设备中的通信装置,例如,芯片。下述实施例以一种估计声源波达方向的方法的执行主体为电子设备为例进行描述。
91.参见图3,图3为本技术实施例提供的一种估计声源波达方向的方法的流程示意图,如图所示,该方法包括:
92.步骤301、电子设备获取音频信号,该音频信号包括:噪声、一个或多个目标声源的声源信号、混响信号。
93.在本技术实施例中,上述音频信号可以是多通道的音频信号,也可以是单通道的音频信号,多通道的音频信号表示该音频信号来自多个通道。
94.由于电子设备是否具有采集音频信号的功能,步骤301的实现存在差异,下述将分别介绍:
95.示例1、电子设备具有采集音频信号的功能。
96.在一种可能的实现方式中,步骤301可以通过以下方式实现:电子设备通过该电子设备内设置的音频采集设备(例如,麦克风阵列)采集音频信号。
97.例如,电子设备可以为图1所示的麦克风阵列所在电子设备。
98.示例2、电子设备不具有采集音频信号的功能。
99.在一种可能的实现方式中,步骤301可以通过以下方式实现:电子设备接收来自其他设备的音频信号。该其他设备设有用于采集音频信号的麦克风阵列。
100.例如,在示例2中电子设备可以为服务器、云平台等设备。
101.应理解,在电子设备具有采集音频信号的功能的情况下,该电子设备也可以接收其他设备发送的音频信号。
102.大部分自然状态下的空间中均存在环境噪声,并且由于发生、检查、测量或记录器件中还可能存在与信号存在与否无关的干扰(简称器件噪声),因此麦克风阵列采集的音频信号中可能包含环境噪声、器件噪声,后续统称为噪声。另外由于空间中的环境噪声事实上也是声源发出的,为了便于区分,可以将空间中发出噪声以外的声源记为目标声源。当然,实际应用中,音频信号中的目标声源的个数可以是一个也可以是多个。
103.由于目标声源在发出声音后,该声音可能经过地面、墙壁等的反射,所以,上述音频信号中除了包含噪声、目标声源发出声源信号外,还可能包括目标声源发出的声音经反射后被麦克风阵列延迟采集到的声音。本技术实施例中可以将目标声源发出声音后被麦克风采集的成分记为声源信号,将目标声源发出声音经反射后被麦克风采集到的成分记为混响信号。
104.本技术实施例中的音频信号为噪声、混响信号、一个或多个目标声源的声源信号得到的混合信号。或者,本技术实施例中的音频信号为噪声、一个或多个目标声源的声源信号得到的混合信号。
105.由于电子设备获取的音频信号可以是时域信号,也可以是频域信号,但是不同情况下,电子设备在执行步骤302之前的动作存在差异,因此,下述将情况介绍:
106.情况1、本技术实施例中的音频信号为时域信号。
107.相应的,本技术实施例提供的方法在步骤302之前还可以包括:电子设备可以将音频信号进行时频变换,获得音频信号的频域信号。可以理解的是,后续步骤中以该音频信号对应的频域信号作为处理对象。
108.例如,上述时频变换可以采用傅里叶变换、快速傅里叶变换、小波变换等,具体采用何种变换方式可以根据实际应用需求确定,傅里叶变换、快速傅里叶变换、小波变换的具体处理过程在此不再赘述。当然,实际应用中也可以采用其他时频变换的方法,在此不做限定。
109.情况2、本技术实施例中的音频信号为频域信号。
110.在该情况2中,电子设备在对音频信号执行联合处理之前,则无需执行将音频信号
进行时频变换的步骤。
111.步骤302、电子设备对音频信号执行联合处理,得到一个或多个目标声源的声源信号和一个或多个目标声源的声源信号的波达方向,联合处理包括:去混响处理、盲源分离处理和波达方向估计处理。
112.在本技术实施例中,去混响处理和盲源分离处理可以并称为声源分离处理,声源分离处理可以是先进行去混响处理,再进行盲源分离处理,也可以是先进行盲源分离处理,再进行去混响处理,还可以是去混响处理和盲源分离处理的联合迭代处理。去混响处理、盲源分离处理、以及去混响处理和盲源分离处理的联合迭代处理参照后续实施例中的描述。
113.电子设备执行联合处理时,可以先进行声源分离处理,再进行波达方向估计处理;也可以循环执行声源分离处理和波达方向估计处理;还可以先进行波达方向估计处理,再进行声源分离处理;还可以循环执行波达方向估计处理和声源分离处理。因此,电子设备对音频信号执行联合处理包括以下至少几种方式:
114.第一种方式,电子设备对音频信号执行去混响处理和盲源分离处理的联合迭代处理,得到一个或多个目标声源的声源信号;
115.电子设备确定一个或多个目标声源的声源信号的波达方向。
116.作为第一种方式的另一种实现方式,电子设备确定一个或多个目标声源的声源信号的波达方向之后,电子设备基于一个或多个目标声源的声源信号的波达方向,对音频信号执行去混响处理和盲源分离处理的联合迭代处理以及波达方向估计处理,得到一个或多个目标声源的更纯净的声源信号以及更精确的波达方向。
117.第二种方式,电子设备对音频信号执行波达方向估计处理,得到一个或多个目标声源的第三信号和一个或多个目标声源的第三信号的波达方向,第三信号为包含噪声的声源信号;
118.电子设备根据一个或多个目标声源的第三信号的波达方向,对一个或多个目标声源的第三信号执行去混响和盲源分离的联合迭代处理,得到一个或多个目标声源的声源信号;
119.电子设备将一个或多个目标声源的第三信号的波达方向作为一个或多个目标声源的声源信号的波达方向。
120.作为第二种方式的另一种实现方式,电子设备根据一个或多个目标声源的第三信号的波达方向,对一个或多个目标声源的第三信号执行去混响和盲源分离的联合迭代处理,得到一个或多个目标声源的声源信号之后,还可以继续确定一个或多个目标声源的声源信号的波达方向,而不是将一个或多个目标声源的第三信号的波达方向作为一个或多个目标声源的声源信号的波达方向。
121.通过上述描述可以理解,电子设备对音频信号执行联合处理的第一种方式和第二种方式的一个区别在于先执行声源分离处理还是先执行波达方向估计处理。
122.本技术以第一种方式作为示例,描述电子设备对音频信号执行联合处理的过程,第二种方式中去混响处理、盲源分离处理和波达方向估计处理可以参照第一种方式中的描述。参见图4,图4为本技术实施例提供的另一种估计声源波达方向的方法的流程示意图,如图所示,该方法包括步骤401至步骤403,其中,步骤401和步骤301内容一致,不再赘述。
123.步骤402,电子设备对音频信号执行去混响处理和盲源分离处理的联合迭代处理,
得到一个或多个目标声源的声源信号。
124.该步骤具体可参照后续实施例的描述,在此不再赘述。
125.步骤403,电子设备确定一个或多个目标声源的声源信号的波达方向。
126.电子设备可以对一个或多个目标声源中每个目标声源的声源信号执行doa估计处理,得到每个目标声源各自的波达方向。
127.以一个或多个目标声源包括第一目标声源为例,电子设备对第一目标声源的声源信号执行doa估计处理,得到该第一目标声源的波达方向。
128.作为一种示例,每个目标声源的波达方向包括该目标声源在不同频点上的第一方向信息。例如,以多个目标声源中包括第一目标声源为例,该第一目标声源的波达方向包括该第一目标声源在不同频点(例如,频点1、频点2以及频点3)上的第一方向信息。作为举例,当音频信号为频域信号时,音频信号的频率值在一定范围(例如,500~3000hz)内,可以将该范围内的每个频率值记为一个频点,例如,第一目标声源在频点1上的第一方向信息(以水平角和俯仰角为例)可能是第一目标声源在频点500hz上的角度值(30
°
,60
°
)。第一目标声源在频点2上的第一方向信息可能是第一目标声源在频点501hz上的角度值(31
°
,59
°
)。第一目标声源在频点3上的第一方向信息可能是为第一目标声源在频点502hz上的角度值(30
°
,59
°
)。实际应用中,也可以将音频信号的频率范围内的频率值划分为等间隔的频率段(例如,每间隔5hz形成一个频率段),每个频率段记为一个频点,具体不再举例。
129.需要说明的是,上述第一目标声源为多个目标声源中的任一个,并不具有指示性含义。此外,不同目标声源对应的频点可以相同,也可以不同。例如,第一目标声源对应的不同频点为第一频率值(例如,500~2500hz)范围内的多个频点,而多个目标声源中的第二目标声源对应的不同频点可以为第二频率值(例如,600~3000hz)范围内的多个频点。
130.在一种可能的实现方式中,电子设备确定第一目标声源在不同频点上的第一方向信息。电子设备根据第一目标声源在不同频点上的第一方向信息,获得第一目标声源的波达方向。当然,电子设备也可以将第一目标声源在不同频点上的幅值信息融合。然后,电子设备根据融合后的幅值信息计算第一目标声源的方向角。
131.需要说明的是,上述仅以电子设备如何计算第一目标声源的波达方向的为例,对于一个或多个目标声源中其余目标声源的波达方向的计算方式可以参考上述第一目标声源的波达方向的计算过程,此处不再赘述。
132.本技术实施例提供的估计声源波达方向的方法中,由于通常情况下,音频信号中除了包括噪声、一个或多个目标声源的声源信号外,还可能包含混响信号,混响信号是目标声源的声源信号经过反射后被麦克风延时采集的信号,所以混响信号的方向已经改变了,噪声的方向是四面八方的,因此,联合处理后获得的每个目标声源的声源信号几乎不包含影响doa估计精度的噪声和混响信号,或者包含了很少量的影响doa估计精度的噪声和混响信号。因此,电子设备在估计每个目标声源的声源信号的波达方向时,具有较高的doa估计精度。并且即使音频信号的采集环境为高噪声高混响的声学环境,依然具有较高的doa估计精度。
133.需要说明,本技术实施例中的音频信号可以是不包含混响信号的信号,当不包含混响信号的音频信号经过本技术实施例提供的去混响和盲源分离的联合迭代处理的步骤处理后,得到的混响信号可能为0;考虑去混响算法的精度,得到的混响信号还可能是:从音
频信号中得到的很小比例的认为是混响信号的信号。由于即使从不包含混响信号的音频信号中得到很小比例的混响信号,相当于盲源分离时采用的为从音频信号中去处理了很小部分的信号,因此,对最终的doa估计的精度几乎无影响,因此,本技术实施例中的音频信号可以不包含混响信号,也可以包含混响信号,无论包含混响信号和不包含混响信号,均不影响本技术实施例的实施。
134.作为一种可能的实现方式,本技术实施例中的步骤402可以通过以下所示的方式实现:
135.电子设备对音频信号进行第n次去混响处理,得到第n预测矩阵和第n去混响信号,第n去混响信号包括音频信号中除第n混响信号以外的信号,第n混响信号为第n次去混响处理中去除的混响信号;电子设备对第n去混响信号进行第n次盲源分离处理,得到第n解混矩阵和第n去噪声信号,第n去噪声信号为音频信号中去除了第n次盲源分离处理得到的噪声的信号;电子设备继续对第n去噪声信号执行去混响处理和盲源分离处理;在n为预设值或者第n预测矩阵收敛且第n解混矩阵收敛时,电子设备根据第n解混矩阵和第n去混响信号,得到一个或多个目标声源的声源信号;其中,n为从1开始的正整数。
136.在本技术实施例中,电子设备执行去混响处理可以去除音频信号中的混响信号,得到音频信号中去除混响信号的信号,音频信号中去除混响信号的信号可以记为第n去混响信号,也可以记为本次的去混响信号,电子设备执行盲源分离处理可以将每个声源信号和噪声分离开,第n去噪声信号为音频信号中去除了本次得到的噪声的信号,也可以理解为本次的去噪声信号。因此,理论上目标声源的声源信号中不包含混响成分和噪声,然而,考虑去混响和盲源分离的联合迭代处理的精确度,可能获得的每个目标声源的声源信号中还会存在少量的混响信号和/或噪声,因此,本技术实施例描述的目标声源的声源信号并不表示完全不包含混响信号和/或噪声。
137.作为去混响处理的一个示例,去混响处理为wpe(weighted prediction error)算法,wpe算法的思路为:假设当前接收信号(也可以理解为去混响处理时的处理信号)为当前纯净信号(理解为声源信号)与过去若干帧的接收信号(理解为混响信号)线性组合而成,去混响处理的过程中,忽略音频信号中的噪声。
138.作为举例,按照上述wpe算法的思路获得第一混合模型:
[0139][0140]
其中,y
l
(t)表示麦克风的接收信号,表示混响信号,即过去δ帧到δ+k
l-1帧的接收信号对应的混响信号,表示纯净信号,l表示频点,τ表示帧号,称为预测矩阵(也可称为线性系数)的共轭转置矩阵。
[0141]
通过上述描述,可以理解,去混响处理的目的就是估计出预测矩阵,根据预测矩阵得到混响信号,从当前接收信号中减去混响信号,从而恢复当前纯净信号,即恢复去除混响信号的信号。
[0142]
需要说明,当忽略噪声时,去除混响信号的信号为从接收到的信号中得到的声源信号,当存在噪声时,去除混响信号的信号是从接收到的信号中去除了估计出的混响信号
的信号,也可以理解为声源信号和噪声的混合。
[0143]
所以,电子设备执行去混响处理包括计算预测矩阵的过程,电子设备可以采用迭代的方式求解预测矩阵,使得去混响处理的处理信号通过该矩阵,尽量的分开混响信号和去除混响信号的信号。
[0144]
求解预测矩阵的过程可以是通过最大似然函数,最优化问题可以表示为:
[0145]
步骤1,初始化预测矩阵,其中,τ表示帧号,δ≤τ≤δ+k
l-1。
[0146]
步骤2,反混响计算
[0147][0148]
γ为接收信号的帧号组成的集合,其他参数参照第一混合模型中的解释。
[0149]
步骤3,空间关系数估计
[0150][0151]
其中,e()为期望函数,表示处理信号,表示的共轭转置矩阵,δ为预设的正常数。
[0152]
步骤4,计算加权样本相关矩阵,假设纯净信号服从高斯分布,即则有如下表示:
[0153][0154][0155]
其中,为y
l
(t)的共轭转置矩阵,表示ψ
l
(t-δ)的共轭转置矩阵,n为麦克风阵列中麦克风的数量。
[0156]
步骤5,预测矩阵参数更新
[0157]
通过重新排列项得到更新后的预测矩阵
[0158]
步骤6,判断预测矩阵是否收敛,若不收敛则返回步骤2,若收敛则结束。
[0159]
上面描述了电子设备计算预测矩阵的过程,当然,实际应用中,还可以采用其他迭代的方式计算预测矩阵,在此不做限定。
[0160]
本技术实施例通过举例说明电子设备执行去混响处理的迭代过程,可以理解,每次对预测矩阵更新均用到了上一次更新的预测矩阵和处理信号(即y
l
(t))。
[0161]
上述方法是一种基于延时的线性预测的后混响抑制技术,这种方法可以有效的抑
制后混响信号(即晚期混响信号),然而,也损伤了语音的短时相关性,所以一定程度上增大了通道间的独立性。
[0162]
作为盲源分离处理的一个示例,电子设备执行盲源分离处理的方法是从接收信号(也可以理解为盲源分离处理时的处理信号)中分离出每个目标声源的声源信号,盲源分离是指在不知声源信号和传输通道的参数的情况下,根据输入声源信号的统计特性,仅由盲源分离处理时的接收信号恢复出各个独立成分(例如,每个目标声源的声源信号)的过程。
[0163]
参见图5,图5为多个目标声源的声源信号的第二混合模型示意图,如图5所示,环境中可能存在多个目标声源,所以音频信号中可能存在多个目标声源的声源信号,环境中还存在环境噪声,采集音频信号的麦克风阵列还可能由于本身的原因导致音频信号中存在器件噪声,因此,可以设定麦克风阵列采集到的音频信号是由多个目标声源的声源信号和噪声混合而成的,盲源分离处理时忽略音频信号中的混响信号,则第二混合模型可以表示为:
[0164]
x=as+n
s
[0165]
其中,x表示盲源分离处理时的处理信号,a为混合矩阵,s为声源信号,n
s
为噪声。
[0166]
当然,如果采集音频信号的麦克风阵列包含多个麦克风,则接收信号为多通道音频信号,假设处理信号的通道数量为m。
[0167]
盲源分离处理时的处理信号以时域角度表示为:
[0168]
x(t)=[x1(t),x2(t),
…
,x
m
(t)]
t
。
[0169]
假设处理信号对应有n个独立的声源信号,则以时域角度表示有:
[0170]
s(t)=[s1(t),s2(t),
…
,s
n
(t)]
t
。
[0171]
多个声源信号混合系统的第二混合模型为:
[0172]
x(t)=as(t)+n
s
(t)。
[0173]
其中,x(t)为m维观测矢量,s(t)为n维未知声源信号矢量,n
s
(t)为m维噪声,a为m
×
n维混合矩阵。
[0174]
图6为从处理信号中分离出每个目标声源的声源信号时的分离模型示意图,根据分离模型示意图所示,电子设备在对处理信号执行盲源分离处理后,获得的是每个声源信息的估计值,也可以认为是声源信号。可以表示如下:
[0175][0176]
其中,表示声源信号的估计矢量,w为解混矩阵。
[0177]
从上式可以理解,盲源分离处理包括求解解混矩阵的过程,本技术实施例中电子设备可以采用迭代的方式求解解混矩阵,使得盲源分离处理时的处理信号通过该矩阵,尽量的分离出各个组成。
[0178]
电子设备在执行盲源分离处理时,可以采用独立向量分析(independent vector analysis,iva)、独立成分分析(independent component analysis,ica)、独立低秩矩阵分析(independent low-rank matrix analysis,ilrma)等方法进行目标声源信号的分离,在分离过程中还可以基于信号独立性最大化进行分离,分离过程中的代价函数可以是最大似然估计的对数似然函数,对于具体的分离方法、代价函数、优化算法不做限定。
[0179]
作为举例,本技术实施例中,电子设备可以采用独立向量分析法,独立向量分析法
的本质是将独立分量分析技术扩展到多个数据集上,充分利用多数据集之间的统计关联性,同时用高阶统计量和二阶统计量对数据集进行分解。独立向量分析法的目标是每个数据集中的各个源相互独立,且每个数据集中的某个源至多与其他数据集中的一个源相关。
[0180]
为了使得电子设备对处理信号进行盲源分离处理时满足上述描述,本技术实施例中,可以将频域信号中每个频率(频点)下的数据称为一个数据集,则存在多个数据集,每个数据集中均是由多个独立的声源信号线性混合而成。
[0181]
独立向量分析法中定义了源成分向量(source component vector,scv),源成分向量由不同数据集对应位置的声源组成,如果将第二混合模型由上述描述的时域表示方式转换为频域表示方式。
[0182]
独立向量分析法实际上就是确定包含解混矩阵的代价函数和对代价函数中的解混矩阵进行求解的优化算法的确定。采用的代价函数需要基于独立性测度的分离准则,例如非高斯最大化准则,互信息极小化准则,信息极大化、极大似然准则等。下面从频域的角度进行描述。
[0183]
作为举例,代价函数可以是:
[0184][0185]
其中,j(w)表示scv中的互信息量,e[ ]表示期望,s
k
是第k个声源的向量,共有k个声源,g()是对比函数,如果g(s
k
)=-logp(s
k
),则g()为最大熵对比函数,p(s
k
)为scv的边缘密度函数,ω表示频点,共有n
ω
个频点,det()是矩阵的行列式。
[0186]
通过上述代价函数可以看出,实现代价函数最小化时,同时也实现了声源向量之间的熵值最小化,并且scv之间的互信息最小化。
[0187]
对于上述代价函数,最小化代价函数的过程就是迭代求解解混矩阵w的过程。
[0188]
作为举例,最小化代价函数的过程如下:
[0189]
1、更新加权协方差v
k
(ω):
[0190][0191]
其中,e()表示期望函数,对于每个频点ω,r
k
是通用的,表示解混矩阵中的项w
k
(ω)的共轭转置矩阵,x(ω)为接收信号,x
h
(ω)表示x(ω)的共轭转置矩阵。
[0192]
2、更新解混矩阵w:
[0193]
w
k
(ω)
←
(w(ω)v
k
(ω))-1
e
k
[0194][0195]
各参数的解释请参照上述描述。
[0196]
排列w
k
(ω),得到更新后的解混矩阵,循环执行步骤1和步骤2直到解混矩阵收敛。
[0197]
通过上述解混矩阵的更新过程可以理解,解混矩阵每次迭代更新时均需要用到上
一次迭代更新的解混矩阵和处理信号(x(ω))。
[0198]
当然实际应用中,还可以采用批处理算法、自适应算法、逐次提取算法、基于梯度下降法、牛顿-拉弗森迭代算法来估计各个数据集的解混矩阵。
[0199]
如前描述的去混响处理过程,由于电子设备执行去混响处理时,会扩大通道之间的独立性。因此,本技术实施例中,将去混响处理的独立迭代过程和盲源分离处理的独立迭代过程联合起来,使得去混响处理和盲源分离处理的过程是同时进行的。并且,电子设备在执行联合迭代处理时,由于去混响的处理信号是去除了噪声的音频信号,盲源分离的处理信号是去除了混响成分的音频信号,使得去混响处理和盲源分离处理的过程均满足各自的算法模型,从而能够获得更精确的分离结果。
[0200]
作为举例,去混响处理和盲源分离处理的联合迭代处理可以采用“去混响处理、盲源分离处理、去混响处理、盲源分离处理、
……”
的过程或者采用“盲源分离处理、去混响处理、盲源分离处理、去混响处理、
……”
的过程。为了方便描述,本技术实施例将“去混响处理-盲源分离处理”记为一次联合迭代过程,当然,实际应用中也可以认为“盲源分离处理-去混响处理”为一次联合迭代过程。
[0201]
当然,电子设备执行联合迭代处理过程中的一次去混响处理并非表示一次将预测矩阵更新到收敛的过程,而是去混响处理过程中一次或多次迭代更新预测矩阵的过程,即电子设备执行联合迭代处理中的一次去混响处理时得到的预测矩阵可以不收敛。同理,电子设备执行联合迭代处理中的一次盲源分离处理并非表示一次将解混矩阵更新到收敛的过程,而是盲源分离处理时一次或多次迭代更新预测矩阵的过程,即联合迭代处理中的一次盲源分离处理得到的解混矩阵可以不收敛。电子设备每次执行去混响处理时,可以根据当前迭代获得的预测矩阵获得本次迭代的混响信号和去混响信号,随着迭代过程进行,预测矩阵越来越精确,获得的混响信号和去混响信号越来越精确,电子设备每次执行盲源分离处理时,可以根据当前迭代得到的解混矩阵获得本次迭代的每个目标声源的声源信号和噪声,随着迭代过程进行,解混矩阵越来越精确,获得的每个目标声源的声源信号和噪声越来越精确。如此循环,直到满足停止循环的条件,电子设备判断是否满足停止循环的条件可以是判断联合迭代的次数是否达到预设次数,也可以判断获得的预测矩阵、获得的解混矩阵是否均收敛。在满足停止循环的条件后,根据最后一次得到的解混矩阵和最后一次得到的去混响信号,得到一个或多个目标声源的声源信号和噪声。
[0202]
参见图7,图7为电子设备执行去混响和盲源分离的联合迭代处理的过程的示意图,以3次联合迭代过程为例。
[0203]
在第1次联合迭代处理过程中,在去混响处理阶段,电子设备根据音频信号计算获得预测矩阵1。然后,电子设备根据预测矩阵1计算获得混响信号1和去混响信号1(该去混响信号1包括音频信号中除混响信号1之外的信号)。在盲源分离阶段,电子设备将去混响信号1作为处理信号,计算获得解混矩阵1,并根据解混矩阵1获得噪声和去噪声信号1(该去噪声信号1包括音频信号中除噪声信号1之外的信号)。
[0204]
在第2次联合迭代处理过程中,在去混响处理阶段,电子设备根据去噪声信号1更新预测矩阵1得到预测矩阵2。电子设备根据预测矩阵2计算获得混响信号2和去混响信号2(去混响信号2包括音频信号中除混响信号2之外的信号)。在进行盲源分离处理阶段,电子设备将去混响信号2作为处理信号,计算获得解混矩阵2,并根据解混矩阵2获得噪声和去噪
声信号2(该去噪声信号2包括音频信号中除噪声信号2之外的信号)。
[0205]
在第3次联合迭代处理过程中,在去混响处理解阶段,电子设备根据去噪声信号2更新预测矩阵2得到预测矩阵3。电子设备根据预测矩阵3计算获得混响信号3和去混响信号3(该去混响信号3包括音频信号中除混响信号3之外的信号);在盲源分离处理阶段,电子设备将去混响信号3作为处理信号,计算获得解混矩阵3,并根据解混矩阵3获得噪声和去噪声信号3(该去噪声信号3包括音频信号中除噪声信号3之外的信号)。
[0206]
在联合迭代处理结束后,电子设备根据最后一次联合迭代获得的去混响信号和最后一次联合迭代获得的解混矩阵计算获得每个目标声源的声源信号。当然,电子设备也可以根据倒数第2次联合迭代获得的去混响信号与最后一次获得的解混矩阵计算获得每个目标声源的声源信号。这是由于,在联合迭代结束的时候,预测矩阵和解混矩阵是收敛的,即最后若干次的预测矩阵差异较小或者差异在可接受的范围内,最后若干次的解混矩阵差异较小或者差异在可接受的范围内。因此,电子设备可以基于最后若干次联合迭代获得的去混响信号中的任一个与最后若干次联合迭代获得的解混矩阵中的任一个计算每个目标声源的声源信号。
[0207]
作为另一示例,在每次联合迭代处理过程中,去混响处理阶段,电子设备计算本次去混响获得的预测矩阵时,可以独立迭代预测矩阵多次,将最后一次独立迭代获得的预测矩阵作为本次联合迭代去混响获得的预测矩阵;盲源分离处理阶段,电子设备在计算本次盲源分离获得的解混矩阵时,也可以独立迭代解混矩阵多次,将最后一次独立迭代获得的解混矩阵作为本次联合迭代盲源分离获得的解混矩阵。即电子设备执行第j次去混响处理包括m次更新预测矩阵的过程,电子设备执行第j次盲源分离处理包括n次更新解混矩阵的过程,其中,j、m和n均为正整数。
[0208]
作为另一示例,在每次联合迭代过程中,可以采用上次去混响处理获得的去混响信号作为盲源分离的处理信号,采用音频信号作为去混响的处理信号。当然,在每次联合迭代过程中也可以采用上次盲源分离处理获得的去噪声信号作为去混响的处理信号,采用音频信号作为盲源分离的处理信号。
[0209]
作为另一示例,在每次联合迭代过程中,可以采用历史迭代过程中任一次获得的去混响信号作为本次盲源分离的处理信号,也可以采用历史迭代过程中任一次获得的去噪声信号作为本次去混响的处理信号。
[0210]
作为一个示例,若第p次去混响处理得到的第p预测矩阵收敛且第p次盲源分离处理得到的第p解混矩阵不收敛,则电子设备执行第p+i次盲源分离处理,直到第p+i解混矩阵收敛,
[0211]
或,电子设备交替执行第p+i次去混响处理和第p+i次盲源分离处理,直到第p+i预测矩阵和第p+i解混矩阵同时收敛,其中,p为正整数,i为从1开始的正整数。
[0212]
作为另一示例,在联合迭代处理过程中,若第q次去混响处理得到的第q预测矩阵不收敛且第q次盲源分离处理得到的第q解混矩阵收敛,则电子设备执行第q+i次去混响处理,直到第q+i预测矩阵收敛,
[0213]
或,电子设备交替执行第q+i次去混响处理和第q+i次盲源分离处理,直到第q+i预测矩阵和第q+i解混矩阵同时收敛,其中,q为正整数,i为从1开始的正整数。
[0214]
如图8所示,图8示出了本技术提供的估计声源波达方向方法的另一种可能的实施
例,该实施例包括步骤801至步骤804。
[0215]
其中,步骤801~步骤803可参考上述步骤401至步骤403的描述,此处不再赘述。
[0216]
步骤804、电子设备根据第一目标声源的声源信号在不同频点上的第一方向信息,对第一目标声源的声源信号执行声源分离和波达方向估计的联合处理,得到第一目标声源的声源信号在不同频点上的第二方向信息,其中,声源分离处理包括:去混响和盲源分离的联合迭代处理。
[0217]
关于步骤804可以通过以下步骤具体实现:
[0218]
a步骤、电子设备根据第一目标声源的声源信号在不同频点上的第一方向信息,对第一目标声源的声源信号执行声源分离处理,以获得第一目标声源本次联合处理后的声源信号。
[0219]
b步骤、电子设备对第一目标声源本次联合处理后的声源信号执行波达方向估计处理,获得第一目标声源本次联合处理后在不同频点上的第一方向信息。
[0220]
c步骤、电子设备循环执行q次a步骤至b步骤后,将最后一次获得的第一目标声源在不同频点上的第一方向信息记为第一目标声源在不同频点上的第二方向信息,其中,q≥1,且q为正整数。
[0221]
本技术实施例中,去混响和盲源分离都是一种估计算法,音频信号经过去混响和盲源分离的联合迭代处理后,联合迭代处理得到的目标声源的声源信号中可能还会包含噪声和/或混响信号,而电子设备基于包含噪声和/或混响信号的声源信号获得的第一方向信息可能不太精确。因此,电子设备可以基于当前获得的第一目标声源的声源信号在不同频点上的第一方向信息继续对第一目标声源的声源信号执行声源分离处理和doa估计处理,由于再次进行声源分离处理时通过第一目标声源的声源信号在不同频点上的第一方向信息约束声源分离处理的过程,因此电子设备执行声源分离后能够获得更精确的第一目标声源的声源信号、解混矩阵以及混合矩阵,电子设备根据更精确的第一目标声源的声源信号、解混矩阵或混合矩阵能够获得更精确的第一目标声源的声源信号在不同频点上的第二方向信息。当然,获得的第一目标声源的声源信号在不同频点上的第二方向信息比第一目标声源的声源信号在不同频点上的第一方向信息更精确。
[0222]
由于去混响处理、盲源分离处理、doa估计的过程均是建立在模型上的估计过程,所以电子设备执行去混响和盲源分离的联合迭代处理过程中,最后一次获得的去混响信号中可能还会掺杂少量混响信号,获得的目标声源的声源信号中可能还会掺杂一些噪声和/或混响信号,甚至掺杂少量其他目标声源的声源信号。因此,上述步骤704中电子设备基于获得的第一目标声源的第一方向信息对第一目标声源的声源信号再次执行声源分离处理,可以使得获得的第一目标声源的声源信号更纯净,从而提高了后续计算第一目标声源的声源信号的精度。
[0223]
作为一种可能的实施例,本技术实施例提供的估计声源波达方向的方法还包括:
[0224]
电子设备对第一目标声源的声源信号在不同频点上的第一方向信息执行平滑滤波处理或核密度估计处理,得到第一目标声源在不同频点上的第三方向信息;电子设备将第一目标声源在不同频点上的第三方向信息融合,获得第一目标声源的方向。
[0225]
例如,电子设备对第一目标声源的声源信号在频点1、频点2、
……
、频点l(假设共有l个频点)的第一方向信息执行平滑滤波处理或核密度估计处理,得到第一目标声源在频
点1、频点2、
……
、频点l上的第三方向信息。平滑滤波处理或核密度估计处理的目的可以将一些干扰去除,从而获得第一目标声源的声源信号在不同频点上的更精确的第三方向信息。最后电子设备将第一目标声源的声源信号在不同频点上的第三方向信息融合在一起,以确定出第一目标声源的声源信号更精确的方向。
[0226]
当然,实际应用中,电子设备可以对第一目标声源的声源信号在不同频点上的第一方向信息执行平滑滤波处理或核密度估计处理,也可以对第一目标声源的声源信号在不同频点上的第二方向信息执行平滑滤波处理或核密度估计处理,从而获得第一目标声源的声源信号在不同频点上的第三方向信息。通过上述描述可以理解,第一目标声源的声源信号在不同频点上的第二方向信息相比于第一目标声源的声源信号在不同频点上的第一方向信息更精确,第一目标声源的声源信号在不同频点上的第三方向信息相比于第一目标声源的声源信号在不同频点上的第一方向信息或第二方向信息更精确。
[0227]
将第一目标声源的声源信号在每个频点上的第一方向信息(例如每个频点的角度值)组成第一集合,将第一目标声源的声源信号在每个频点上的第二方向信息组成第二集合,将第一目标声源的声源信号在每个频点上的第三方向信息组成第三集合,第一集合中的角度值可能比较散乱,第二集合中的角度值相比于第一集合中的角度值更集中,第三集合中的角度值相比于第二集合中的角度值更集中。
[0228]
作为本技术另一实施例,麦克风阵列可以是声学矢量传感器(acoustic vector sensor,avs),也可称为声矢量麦克风。
[0229]
由于doa估计算法与麦克风阵列的尺寸和排布方式有关,因此电子设备执行doa估计处理时,需要根据采集音频信号的麦克风阵列的尺寸和排布方式调整doa估计的算法。参见图9,为一种声矢量麦克风的结构示意图,avs是由1个全向麦克风和2到3个正交的8字形麦克风组成,可以认为avs中各个麦克风是共点的,且avs的尺寸可以做的较小。对于一个声源而言,每个麦克风通道接收到的该声源的声源信号不会存在相位上的差异,每个麦克风通道接收到的同一声源的声源信号的幅度与声源的方向有关,因此,声矢量麦克风在应用时不需要考虑到阵列尺寸和排布方式,具有更广的应用场景。
[0230]
音频信号经过声源分离处理后得到的声源信号是去除了噪声和混响信号的信号,而麦克风阵列是共点麦克风,所以,对于一个声源信号而言,在各通道接收到的该声源信号的分量不存在相位差。因此,一个声源信号被正交的两个或三个麦克风通道采集到时,声源信号在各个通道上的幅值与方向有关,或者声源信号的波达方向与该声源信号在各通道上的幅值有关。
[0231]
以三维四通道麦克风阵列为例,三维四通道麦克风阵列包括:一个全向麦克风、3个正交的8字形麦克风,即三维麦克风阵列包括4个麦克风,那么麦克风阵列采集的音频信号就是四通道音频信号。假设全向麦克风的通道用w表示,3个正交的8字形麦克风的通道分别用x、y和z表示,则麦克风阵列的幅值和方向有如下表示:
[0232][0233]
其中,w代表全向麦克风通道采集的信号的幅值;x、y和z分别代表笛卡尔坐标系的
三个正交方向上的通道采集的信号的幅值,θ表示声源在笛卡尔坐标系的水平角,表示声源在笛卡尔坐标系的俯仰角,f表示全向通道采集的信号的幅值。
[0234]
对于去除过混响信号和噪声的声源信号,满足上述幅值和方向的关系,因此,电子设备可以根据第二目标声源的声源信号在声学矢量传感器各通道方向上的幅值之间的关系,获得第二目标声源的波达方向,第二目标声源为一个或多个目标声源中的任一个。
[0235]
作为示例,三维四通道声矢量麦克风中,x通道和y通道上的幅值之间的比值可以获得水平角的反正切值,z通道和w通道上的幅值之间的比值可以获得俯仰角的反正弦值。
[0236]
当然,基于声矢量麦克风中各通道上的幅值和方向角之间的关系,还可以演变出的各通道方向上的幅值之间的其他关系,从而获得水平角和俯仰角,不再一一举例。
[0237]
以二维三通麦克风阵列为例,则麦克风阵列的幅值和方向有如下表示:
[0238][0239]
其中,w代表全向麦克风通道采集的信号的幅值;x、y分别代表笛卡尔坐标系的两个水平正交方向上的通道采集的信号的幅值,θ表示声源的水平角,f表示全向通道采集的信号幅值。
[0240]
第二目标声源的声源信号在x通道和y通道上的幅值之间的比值可以获得水平角的反正切值。
[0241]
另外,需要说明,以二维三通声矢量麦克风为例,上述描述的声矢量麦克风中各通道上的幅值和方向角之间的关系是一阶关系,为了更精确的获得doa估计结果,考虑幅值和相位两者和方向角之间的关系时,可能还存在二阶关系,甚至更高阶的关系。当然,麦克风阵列还可以是其他形式,例如球状麦克风阵列、环形麦克风阵列。如果将球状麦克风阵列、环形麦克风阵列认为各通道是共点的情况下,则也可以不考虑各通道上的相位差异,如果需要考虑球形麦克风阵列或环形麦克风阵列各通道上的相位、幅值差异时,各通道上的幅值、相位和方向角之间的关系可能存在更高阶的关系,本技术不对幅值、相位和方向之间的关系的阶数进行限定。
[0242]
上述的计算过程可以是电子设备对第二目标声源的声源信号的每个频点上的数据执行的,即获得的水平角和俯仰角是第二目标声源在每个频点上的水平角和俯仰角。第二目标声源在每个频点上的水平角和俯仰角可以称为第二目标声源的doa信息(例如前面描述的第一方向信息、第二方向信息和第三方向信息)。
[0243]
在一些实施例中,还提供了另一种获得第二目标声源的第一方向信息的方式。
[0244]
在描述上述第二混合模型时,由于第二目标声源的声源信号在每个通道上的幅值是该声源信号通过混合矩阵混合而成的,且认为麦克风阵列中各通道是共点的。即第二目标声源的声源信号在各通道上的分量不存在相位差,因此,混合矩阵中隐含了第二目标声源的声源信号在声学矢量传感器各通道方向上的幅值之间的比值。所以,电子设备可以根据一个或多个目标声源的声源信号的混合矩阵,得到第二目标声源的声源信号的波达方向。
[0245]
以二维麦克风阵列为例,声源信号第二混合模型为:
[0246][0247]
其中,x
w
、x
x
、x
y
分别为二维avs的三通道接收到的音频信号,s1、s2为两个声源信号,n=an',n为噪声。
[0248]
同时,如前,对于一个声源信号而言,各通道的幅值和水平角之间存在以下关系:
[0249][0250]
其中,w代表全向麦克风通道采集的信号的幅值;x、y分别代表笛卡尔坐标系的两个水平正交方向上的通道采集的信号的幅值,θ表示声源的水平角,f表示全向通道采集的信号的幅值。
[0251]
通过上述两个公式可以理解,混合矩阵中第1列表示第一个目标声源的声源信号所在的列,混合矩阵中第2列表示第二个目标声源的声源信号所在的列。混合矩阵中第1行表示全向通道,第2行表示x通道,第3行表示y通道。
[0252]
基于上述描述,电子设备根据一个或多个目标声源的声源信号的混合矩阵,得到第二目标声源的声源信号的波达方向包括:电子设备确定混合矩阵中的目标列、以及目标列中的第一目标行和第二目标行,其中,目标列为表示第二目标声源的声源信号的列,第一目标行和第二目标行为与第二目标声源的声源信号的角度相关的行;电子设备根据目标列中的第一目标行的元素和第二目标行的元素,得到第二目标声源的声源信号的波达方向。其中,第一目标行为表示声学矢量传感器的x通道的行、第二目标行为表示声学矢量传感器的y通道的行时,第二目标声源的声源信号的波达方向包括第二目标声源的声源信号的水平角,水平角为声学矢量传感器所在的坐标系中的角度。
[0253]
作为举例,电子设备采用混合矩阵a计算声源的每个频点上的第一方向信息,在求解第α个目标声源的声源信号在每个频点上的第一方向信息时,采用以下任一个:
[0254][0255]
其中,a
χα
表示第α个声源对应的混合矩阵中第γ行第α列的元素,θ为声源信号在每个频点上的水平角,γ=1,2,3。即在确定目标列后,二维三通道声矢量麦克风的三个通道中的任意两个通道对应的行上的元素均可以计算获得水平角。
[0256]
以三维四通道声矢量麦克风为例,水平角的计算方式参照二维三通道声矢量麦克风中的描述,计算俯仰角时,首先需要确定目标列,然后根据混合矩阵中z通道所在的行上的元素和全向通道所在的行上的元素之间的比值,获得俯仰角。
[0257]
作为举例,在求解第α个目标声源的声源信号在每个频点上的俯仰角时,采用以下任一个:
[0258]
[0259][0260]
其中,a
χα
表示第α个声源对应的混合矩阵中第γ行第α列的元素,θ为声源信号在每个频点上的水平角,γ=1,2,3,4,θ为水平角。
[0261]
如前描述,混合矩阵和解混矩阵是互逆的矩阵,所以电子设备还可以采用解混矩阵w计算目标声源的声源信号在每个频点上的第一方向信息。
[0262]
作为一种可能的实施例,电子设备根据一个或多个目标声源的声源信号的解混矩阵,得到第二目标声源的声源信号的波达方向包括:电子设备根据解混矩阵中表示第二目标声源的目标行中,表示声学矢量传感器的x通道的列的元素、表示声学矢量传感器的y通道的列的元素可以得到第二目标声源的声源信号的水平角,水平角为声学矢量传感器所在的坐标系中的角度;电子设备根据解混矩阵中表示第二目标声源的目标行中,表示声学矢量传感器的z通道的列的元素、表示声学矢量传感器的全向通道的列的元素可以得到第二目标声源的声源信号的俯仰角,俯仰角为声学矢量传感器所在的坐标系中的角度。
[0263]
以二维三通道声矢量麦克风为例,电子设备首先确定目标行,然后利用解混矩阵中目标行上x通道所在的列上的元素和y通道所在的列上的元素w
y
之间的比值,计算获得水平角。
[0264]
作为举例,电子设备在求解第α个声源的每个频点上的第一方向信息时,采用:
[0265][0266]
其中,w
γα
表示第α个声源对应的解混矩阵中第α行第γ列的元素,γ=1,2,3。如前,即在确定目标行后,二维三通道声矢量麦克风的三个通道中的任意两个通道对应的列上的元素均可以计算获得水平角。
[0267]
当麦克风为三维四通道声矢量麦克风阵列时,计算水平角的方式参照上述描述,计算俯仰角的方式可以采用:首先确定目标行,然后根据解混矩阵中目标行上,z通道所在的列上的元素和全向通道所在的列上的元素之间的比值,计算获得俯仰角。当然,实际应用中,还可以演变出更多的计算方式,不再一一举例。
[0268]
通过上述的描述过程,可以理解,实际上去混响处理、盲源分离处理均是一种估计方法,电子设备执行上述估计方法获得的声源信号可能还包含了一些干扰因素,另外,为了应用在不同的应用场景中,电子设备还可以进一步执行其他处理,例如后续描述的第一增强处理,第二增强处理,和声源信号、混响信号和噪声三者比例关系调整的处理。
[0269]
作为一种可能的实施方式,参见图10,图10所示附图中包括去混响处理、盲源分离处理、doa估计和增强处理。其中,去混响处理、盲源分离处理和doa估计可参照上述实施例中的描述,在此不再赘述。增强处理可以包括两种方式:一种是电子设备对声源信号执行第一增强处理;一种是电子设备基于声源信号的第一方向信息、第二方向信息或第三方向信息,对声源信号执行第二增强处理。图10所示附图中的增强处理可以包括第二增强处理,也可以包括第一增强处理。后续以第一目标声源、第一方向信息为例说明,第一目标声源为一个或多个目标声源中的任一个。实际应用中,可以针对每个目标声源执行上述描述的第一增强处理、第二增强处理和比例关系调整处理
[0270]
以第一增强处理和第一目标声源为例,电子设备对第一目标声源的声源信号执行第一增强处理,其中,第一增强处理包括:干扰频谱滤除处理和/或谐波增强处理,第一目标声源为一个或多个目标声源的声源信号中的任一个;干扰频谱滤除处理,用于基于第一目标声源的声源信号的频谱能量,将第一目标声源的声源信号中混杂的干扰成分滤除;谐波增强处理,用于获得第一目标声源的谐波增强信号,谐波增强信号为包含谐波成分的声源信号。
[0271]
在一些实施例中,干扰频谱滤除处理是电子设备基于第一目标声源的声源信号的频谱能量,将第一目标声源的声源信号中混杂的干扰成分滤除的过程。
[0272]
作为举例,电子设备采用高斯混合模型(gaussian mixture model,gmm)对第一目标声源的声源信号的频谱能量进行建模,根据频谱能量确定主声源频谱范围,然后对第一目标声源的声源信号中不在主声源频谱范围内的频谱能量对应的声源信号删除。
[0273]
电子设备执行干扰频谱滤除处理后,可以将第一目标声源的声源信号中与主声源的频谱能量相差较大的其他干扰信号去除,从而获得更加纯净的声源信号。
[0274]
音频信号的采集设备将现场声音转换为音频信号时,一般不会充分记录和转换现场声音的全部质量,导致音频信号不包括许多原始谐波。然而,人们听到的很多具有音调或基础频率的声音通常都包含谐波,例如,谐波能产生像乐器发出的音调质量或声音品质。为了丰富我们听到的声音或者为了还原乐器等发出的真实声音,需要在音频信号中加入谐波成分。谐波增强处理是电子设备将谐波加入到声源信号中的一种技术。当然,谐波增强处理前声源信号中可以存在谐波成分,也可以不存在谐波成分。谐波增强处理的目的是获得包含谐波成分的声源信号。
[0275]
以基于第一目标声源的声源信号的第一方向信息的第二增强处理为例,电子设备基于第一目标声源的声源信号在不同频点上的第一方向信息,对第一目标声源的声源信号执行第二增强处理,其中,第二增强处理包括干扰方向滤除处理和/或波束形成定向增强处理;干扰方向滤除处理,用于将第一目标声源的声源信号中方向角不在期望角度范围内的频点滤除;波束形成定向增强处理,用于增强期望方向的第一目标声源的声源信号的功率。
[0276]
在一些实施例中,干扰方向滤除处理用于将第一目标声源的声源信号中方向角不在期望角度范围内的频点滤除,从而抑制除了第一目标声源所在方向以外的其他方向的声音。在具体实施时,可以针对第一目标声源的声源信号的第一方向信息,进行频域的掩膜,即将该声源信号对应的θ角扩大一定范围,将每个频点上的第一方向信息与该范围进行比较,将超过该范围的频点的第一方向信息对应成分去除。
[0277]
作为举例,第一目标声源为第k个目标声源的声源信号时,电子设备在执行掩膜处理时,可以将[θ
k-δ
k
,θ
k
+δ
k
]设置为第k个目标声源的声源信号的掩膜范围。将第k个目标声源的声源信号在每个频点上的第一方向信息与掩膜范围进行比对,将第k个声源信号的第一方向信息中不在掩膜范围内的第一方向信息对应的成分去除,k≥1,k为正整数。
[0278]
电子设备执行干扰方向滤除处理,将第一目标声源的声源信号中与第一目标声源的声源信号的方向相差较远的其他方向的干扰信号去除,从而获得更加纯净的声源信号。
[0279]
波束形成定向增强处理用于增强期望方向的声源信号的功率;在具体实施时,电子设备将与待增强的第一目标声源的声源信号相关的信号相加,不相关的其他目标声源的声源信号和干扰不相加,使得将待增强的第一目标声源的声源信号的功率得到增强。
[0280]
作为举例,电子设备可以采用null steering方法处理声源信号,这种方法没有导向矢量,利用空间中不同声源的角度,定制化的波束形成。假设有四个声源信号,角度分别不同。依据此方法,获得的为只保留第一个声源信号的方向上的信号,而其他方位的信号被压制。
[0281]
本技术实施例中,将声源分离、doa估计和增强处理结合起来,音频信号被电子设备执行去混响处理和盲源分离处理的联合迭代处理后,获得更精确的声源信号、混响信号和噪声。电子设备通过doa估计的方法确定目标声源的方向,通过增强处理将声源信号进一步增强,弱化干扰成分,使得最终获得的声源信号更加纯净,功率更强或者增加谐波成分等,以获得较好的听觉效果。
[0282]
作为本技术另一实施例,电子设备采用去混响和盲源分离的联合迭代处理音频信号,得到一个或多个目标声源的声源信号的过程中,电子设备从音频信号中得到噪声和一个或多个目标声源的混响信号;
[0283]
电子设备调整噪声、第一目标声源的声源信号、以及第一目标声源的混响信号之间的比例关系,第一目标声源为一个或多个目标声源中的任一个。
[0284]
作为举例,在需要获得ktv场景效果的信号时,电子设备可以将声源信号、混响信号、噪声三者之间的响度比例关系设置为,声源信号:混响信号:噪声=β
11
:β
12
:β
13
。在需要获得音乐厅场景效果的信号时,可以将声源信号、混响信号、噪声三者之间的响度比例关系设置为:声源信号:混响信号:噪声=β
21
:β
22
:β
23
。在需要获得田野场景效果的信号时,电子设备可以将声源信号、混响信号、噪声三者之间的响度比例关系设置为:声源信号:混响信号:噪声=β
31
:β
32
:β
33
。
[0285]
电子设备调整三者之间的比例关系时,可以调整三者之间的响度比例关系、功率比例关系等,当然实际应用中,根据具体的场景效果可以设置不同的调整参数。
[0286]
上面提到的第一增强处理、第二增强处理和比例关系调整处理均为后处理方式,在实际应用中,可以选择其中的一个后处理方式,也可以选择多个后处理方式进行组合,具体进行何种的后处理,可根据具体应用场景确定。
[0287]
作为举例,设置了麦克风阵列的手机在进行录音或者录像时,麦克风阵列采集多通道的音频信号,电子设备执行本技术实施例提供的估计声源波达方向的方法,可以将录制现场中的一个或多个目标声源的声源信号分离出来,还可以对分离出来的目标声源的声源信号进行doa估计,然后通过后处理中的一个或多个实现目标声源的自动变焦或者改变目标声源的声源信号的音效。
[0288]
作为另一应用场景,用户可以通过电子设备进行视频通话,以远程会议为例,远程会议采用的大屏上设有麦克风阵列,麦克风阵列采集环境声音获得音频信号,电子设备执行本技术实施例提供的任一估计声源波达方向的方法,可以获得一个或多个目标声源的声源信号以及每个目标声源的声源信号的方向。电子设备还可以通过后处理的方式,将发言人方向的信号的功率增强,或者将发言人方向的干扰信号滤除在发言人均在发言、且位置较近时,可以精确地分离出每个发言人的语音信号,并精确地确定每个发言人的方位。
[0289]
当然,麦克风阵列还可以应用在助听器上,在复杂的声学环境中,麦克风阵列采集环境声音,助听器执行上述任一估计声源波达方向的方法,可以提高声源信号的响度比例,降低混响信号和噪声的响度比例,使得用户在佩戴助听器时能够获得较清晰的声源信号。
[0290]
电子设备执行上述的处理过程均是对频域信号的处理过程,在上述处理过程中的一个或者多个组合处理结束后,电子设备还可以将频域信号转换为时域信号,再将时域信号发出或者播放。电子设备将频域信号转换为时域信号的过程,可以理解为时频转换的逆过程。对于时频转换的逆过程可参照现有的频时转换方法,在此不再赘述。
[0291]
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本技术实施例的实施过程构成任何限定。
[0292]
本技术实施例可以根据上述方法示例对电子设备进行功能模块的划分,例如,可以对应每一个功能划分每一个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本技术实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。下面以采用对应每一个功能划分每一个功能模块为例进行说明:
[0293]
参照图11,该电子设备1100包括:
[0294]
音频信号获取单元1101,用于获取音频信号,音频信号包括噪声、一个或多个目标声源的声源信号、混响信号
[0295]
去混响处理单元1102,用于对音频信号进行第n次去混响处理,得到第n预测矩阵和第n去混响信号,第n去混响信号包括音频信号中除第n混响信号以外的信号,第n混响信号为第n次去混响处理中去除的混响信号;
[0296]
盲源分离处理单元1103,用于对第n去混响信号进行第n次盲源分离处理,得到第n解混矩阵和第n去噪声信号,第n去噪声信号为音频信号中去除了第n次盲源分离处理得到的噪声的信号;
[0297]
声源信号获得单元1104,用于对第n去噪声信号执行去混响处理和盲源分离处理;在n为预设值或者第n预测矩阵收敛且第n解混矩阵收敛时,根据第n解混矩阵和第n去混响信号,得到一个或多个目标声源的声源信号;其中,n为从1开始的正整数;
[0298]
声源方向估计单元1105,用于确定一个或多个目标声源的声源信号的波达方向。
[0299]
作为本技术另一实施例,对于第一目标声源,第一目标声源为一个或多个目标声源中的任一个,
[0300]
第一目标声源的声源信号的波达方向包括:第一目标声源的声源信号在不同频点上的第一方向信息。
[0301]
作为本技术另一实施例,声源方向估计单元1105还用于:
[0302]
根据第一目标声源的声源信号在不同频点上的第一方向信息,对第一目标声源的声源信号执行声源分离和波达方向估计的联合处理,得到第一目标声源的声源信号在不同频点上的第二方向信息,其中,声源分离处理包括:去混响和盲源分离的联合迭代处理。
[0303]
作为本技术另一实施例,声源方向估计单元1105还用于:
[0304]
对第一目标声源的声源信号在不同频点上的第一方向信息执行平滑滤波处理或核密度估计处理,得到第一目标声源在不同频点上的第三方向信息;将第一目标声源在不同频点上的第三方向信息融合,获得第一目标声源的方向。
[0305]
作为本技术另一实施例,声源信号获得单元1104还用于:
[0306]
若第p次去混响处理得到的第p预测矩阵收敛且第p次盲源分离处理得到的第p解混矩阵不收敛,则电子设备执行第p+i次盲源分离处理,直到第p+i解混矩阵收敛,或,电子设备交替执行第p+i次去混响处理和第p+i次盲源分离处理,直到第p+i预测矩阵和第p+i解混矩阵同时收敛,其中,p为正整数,i为从1开始的正整数;
[0307]
若第q次去混响处理得到的第q预测矩阵不收敛且第q次盲源分离处理得到的第q解混矩阵收敛,则电子设备执行第q+i次去混响处理,直到第q+i预测矩阵收敛,或,电子设备交替执行第q+i次去混响处理和第q+i次盲源分离处理,直到第q+i预测矩阵和第q+i解混矩阵同时收敛,其中,q为正整数,i为从1开始的正整数。
[0308]
作为本技术另一实施例,声源信号获得单元1104执行第j次去混响处理包括m次更新预测矩阵的过程,执行第j次盲源分离处理包括n次更新解混矩阵的过程,其中,j、m和n均为正整数。
[0309]
作为本技术另一实施例,音频信号获取单元1101还用于:
[0310]
通过电子设备上的声学矢量传感器采集音频信号;
[0311]
接收其他电子设备上的声学矢量传感器采集的音频信号。
[0312]
作为本技术另一实施例,声源方向估计单元1105还用于:
[0313]
根据第二目标声源的声源信号在多个通道上的幅值、一个或多个目标声源的声源信号的解混矩阵或混合矩阵中的一个或多个,得到第二目标声源的声源信号的波达方向,第二目标声源为一个或多个目标声源中的任一个;其中,解混矩阵表示音频信号分离为一个或多个目标声源的声源信号时的转换关系,混合矩阵表示音频信号中的一个或多个目标声源的声源信号混合为音频信号时的转换关系。
[0314]
作为本技术另一实施例,声源方向估计单元1105还用于:
[0315]
确定混合矩阵中的目标列、以及目标列中的第一目标行和第二目标行,其中,目标列为表示第二目标声源的声源信号的列,第一目标行和第二目标行为与第二目标声源的声源信号的角度相关的行;根据目标列中的第一目标行的元素和第二目标行的元素,得到第二目标声源的声源信号的波达方向。
[0316]
作为本技术另一实施例,电子设备1100还包括:
[0317]
后处理单元1106,用于对一个或多个目标声源的声源信号执行第一增强处理,其中,第一增强处理包括:干扰频谱滤除处理和/或谐波增强处第一目标声源为一个或多个目标声源的声源信号中的任一个;干扰频谱滤除处理,用于基于一个或多个目标声源的声源信号中任一个目标声源的声源信号的频谱能量,滤除任一个目标声源的声源信号中混杂的干扰成分;谐波增强处理,用于获得一个或多个目标声源的谐波增强信号,谐波增强信号为包含谐波成分的声源信号。
[0318]
作为本技术另一实施例,后处理单元1106还用于:
[0319]
基于第一目标声源的声源信号在不同频点上的第一方向信息,对第一目标声源的声源信号执行第二增强处理,其中,第二增强处理包括干扰方向滤除处理和/或波束形成定向增强处理;干扰方向滤除处理,用于将第一目标声源的声源信号中方向角不在期望角度范围内的频点滤除;波束形成定向增强处理,用于增强第一目标声源的声源信号在期望方向的功率。
[0320]
作为本技术另一实施例,声源信号获得单元1104还可以获得:噪声和一个或多个
目标声源的混响信号;
[0321]
电子设备1100还包括:
[0322]
场景效果处理单元1107,用于调整噪声、第一目标声源的声源信号、以及第一目标声源的混响信号之间的比例关系,第一目标声源为一个或多个目标声源中的任一个。
[0323]
需要说明的是,上述电子设备/单元之间的信息交互、执行过程等内容,由于与本技术方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
[0324]
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将电子设备的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本技术的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0325]
本技术实施例还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时可实现上述各个方法实施例中的步骤。
[0326]
本技术实施例还提供了一种计算机程序产品,当计算机程序产品在电子设备上运行时,使得电子设备可实现上述各个方法实施例中的步骤。
[0327]
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质至少可以包括:能够将计算机程序代码携带到电子设备的任何实体或装置、记录介质、计算机存储器、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、电载波信号、电信信号以及软件分发介质。例如u盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
[0328]
本技术实施例还提供了一种芯片系统,芯片系统包括处理器,处理器与存储器耦合,处理器执行存储器中存储的计算机程序,以实现本技术任一方法实施例的步骤。芯片系统可以为单个芯片,或者多个芯片组成的芯片模组。
[0329]
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
[0330]
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
[0331]
以上实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围,均应包含在本技术的保护范围之内。