首页 > 乐器声学 专利正文
麦克风拾音方法及系统与流程

时间:2022-02-13 阅读: 作者:专利查询

麦克风拾音方法及系统与流程

1.本发明涉及智能语音领域,尤其涉及一种麦克风拾音方法及系统。


背景技术:

2.随着智能语音的发展,近场拾音的功能逐渐出现在用户的生活中,例如,语音地铁售票机、笔记本电脑的语音交互都使用了近场拾音,滤除远场的噪声。例如,
3.对多路麦克风信号进行近场波束形成,然后使用盲源分离等技术进行目标分离,技术上不仅能够抑制旁边方向上的干扰,对于同向噪声也能够进行很好的抑制。
4.在实现本发明过程中,发明人发现相关技术中至少存在如下问题:
5.上述方式虽然能够抑制方向噪声,对于同向,能够抑制远场的噪声,但是在同向情况下,能够做到的拾音距离却是有限的。以一般阵列孔径30厘米来看,拾音距离大概在50厘米左右。对于13英寸的笔记本电脑,屏幕宽度大概在30厘米,孔径最大能够做到30厘米。然而交互距离为50厘米在实际的使用过程中对于嘈杂的环境中,例如地铁售票机或者咨询机而言,这个交互距离不足。当用户与地铁售票机或者咨询机的距离超过交互距离时,近场波束的效果会大幅度下降。


技术实现要素:

6.为了至少解决现有技术中近场波束在距离上没有很好的分布能力,在阵列孔径一定的情况下,超过交互距离时,效果会很快下降的问题。
7.第一方面,本发明实施例提供一种麦克风拾音方法,包括:
8.将麦克风采集后预处理后的第一音频进行近场方位估计,估计各声源的频点的方位信息;
9.至少对所述各声源的频点的方位信息以及所述第一音频进行目标信号分离;
10.基于分离后得到的信号确定目标音频。
11.第二方面,本发明实施例提供一种麦克风拾音方法,包括:
12.将麦克风在第一拾音距离采集后预处理后的第一音频进行近场方位估计,估计各声源的频点的方位信息;
13.利用近场波束滤除所述第一音频中第二拾音距离内非目标方向的干扰信号,得到第二音频,其中,所述第一拾音距离大于所述第二拾音距离;
14.至少对所述各声源的频点的方位信息、所述第一音频以及所述第二音频进行目标信号分离;
15.基于分离后得到的信号确定目标音频。
16.第三方面,本发明实施例提供一种麦克风拾音系统,包括:
17.方位确定程序模块,用于将麦克风采集后预处理后的第一音频进行近场方位估计,估计各声源的频点的方位信息;
18.分离程序模块,用于至少对所述各声源的频点的方位信息以及所述第一音频进行
目标信号分离;
19.目标音频确定程序模块,用于基于分离后得到的信号确定目标音频。
20.第四方面,本发明实施例提供一种麦克风拾音系统,包括:
21.方位确定程序模块,用于将麦克风在第一拾音距离采集后预处理后的第一音频进行近场方位估计,估计各声源的频点的方位信息;
22.近场波束程序模块,用于利用近场波束滤除所述第一音频中第二拾音距离内非目标方向的干扰信号,得到第二音频,其中,所述第一拾音距离大于所述第二拾音距离;
23.分离程序模块,用于至少对所述各声源的频点的方位信息、所述第一音频以及所述第二音频进行目标信号分离;
24.目标音频确定程序模块,用于基于分离后得到的信号确定目标音频。
25.第五方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的麦克风拾音方法的步骤。
26.第六方面,本发明实施例提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现本发明任一实施例的麦克风拾音方法的步骤。
27.本发明实施例的有益效果在于:使用了新的方案,在实现了近场拾音的同时,在麦克风孔径相同的情况下能够做到更远的近场拾音。
附图说明
28.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
29.图1是本发明一实施例提供的一种麦克风拾音方法的流程图;
30.图2是本发明另一实施例提供的一种麦克风拾音方法的流程图;
31.图3是本发明一实施例提供的一种麦克风拾音方法的框架流程图;
32.图4是本发明一实施例提供的一种麦克风拾音方法的音频分离示意图;
33.图5是本发明一实施例提供的一种麦克风拾音系统的结构示意图;
34.图6是本发明另一实施例提供的一种麦克风拾音系统的结构示意图;
35.图7是本发明一实施例提供的一种麦克风拾音方法的电子设备的实施例的结构示意图。
具体实施方式
36.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
37.如图1所示为本发明一实施例提供的一种麦克风拾音方法的流程图,包括如下步
骤:
38.s11:将麦克风采集后预处理后的第一音频进行近场方位估计,估计各声源的频点的方位信息;
39.s12:至少对所述各声源的频点的方位信息以及所述第一音频进行目标信号分离;
40.s13:基于分离后得到的信号确定目标音频。
41.在本实施方式中,考虑到麦克风相同的孔径,在此麦克风阵列采用非均匀8麦,坐标表示为[

0.16
ꢀ‑
0.13
ꢀ‑
0.08
ꢀ‑
0.01 0.01 0.08 0.13 0.16],单位为米。
[0042]
对于步骤s11,考虑到使用环境,例如,在周围噪声嘈杂的情况下,智能语音的地铁售票机(或者火车票售卖机),地铁售票机使用时,通常多台地铁售票机整齐排列,背对墙或背对其他物体,每台地铁售票机呈扇形(180
°
)发散的为用户提供语音服务。这种环境下,人流量通常较大,使用地铁售票机的人也会很多,一位用户使用时,其他用户会在其后面排队等待。
[0043]
地铁售票机的麦克风会采集多路音频信号,将范围内的语音进行采集,得到原始音频。对原始音频进行预处理,提升音频质量,便于后续处理的准确度。对原始音频预处理后得到第一音频进行近场方位估计,估计出各声源频点的方位信息,具体的,可以使用gcc

phat、srp

phat、music、esprit等。其中,gcc

phat(generalized cross correlation phase transformation,广义互相关

相位变换)具有一定的抗噪声和抗混响能力;srp

phat(steering response power

phase transform,基于可控功率响应和相位变换)在强噪声和回响条件下具有较高的鲁棒性和准确性;music也叫做多信号分类算法(multiple signal classification),其将任意阵列输出数据的协方差矩阵进行特征分解,从而得到与信号分量相对应的信号子空间和信号分量正相交的噪声子空间,然后利用这两个子空间的正交性来估计信号的参数。esprit(estimating signal parameters via rotational invariance techniques,借助旋转不变技术估计信号参数),利用子空间旋转方法估计噪声中复正弦信号的频率和幅度,其利用了两个时间上相互位移的数据集的信号子空间的旋转不变性,通过广义特征估计复正弦信号的频率。
[0044]
作为一种实施方式,在本实施例中,所述估计各声源的频点的方位信息包括:
[0045]
对所述各声源的频点进行聚类,得到多个频带;
[0046]
确定所述多个频带中选择的频带所对应在目标范围中各频点的方位信息。
[0047]
在本实施方式中,对所述各声源的频点进行聚类,例如得到两个频带,例如频带[s1,s2],
[0048]
分别计算该频带目标范围内声源每个频点的加权因子。假设估计出来的声源数为k,估计的幅值分别为a1,a2,

,ak。该频点估计出范围内的声源数为p(p≤k),幅值分别为b1,b2,

,bp(其中,集合b在集合a中),则该频点对应的加权因子w=(b1+b2+

+bp)/(a1+a2+

+ak)。
[0049]
利用得到的加权因子对多路的第一音频做加权,假设固定目标路音频在第一路,则将第一路的对应频点乘以加权因子w,剩下的非目标路对应频点乘以(1

w)得到加权后的多路音频,这样可以将目标路音频在固定路输出,明确方位信息。
[0050]
例如,用户位于地铁售票机麦克风90度70厘米,确定用户的方位信息,以将用户的声源确定在固定路中。
[0051]
对于步骤s12,为了进行信号分离,可以使用bss(blind signal separation,盲源分离)、mvdr(minimum variance distortionless response,最小方差无畸变响应)、mpdr(minimum power distortionless response,最小能量无畸变响应)等方式。考虑到上述方法对多路音频进行分离,但是直接做信号分离,其输出的音频顺序是不确定的,这样会产生通道选择的问题,基于帧级别的通道选择是不鲁棒的,因此步骤s11的目的为本步骤进行铺垫,根据方位信息使得目标音频在固定路输出。使用加权后的多路音频对应频带[s1,s2]的2范数加权协方差矩阵做盲源分离,具体的,如ica(independent component analysis,独立成分分析)、iva(independent vector analysis,独立向量分析)、nmf(non

negative matrix factorization,非负矩阵分解),这样目标路的音频总会分离在第一路输出。在广泛180度采集的音频中,分离出90度方向上用户距离地铁售票机70厘米的分离音频。
[0052]
对于步骤s13,将分离出来的频率信号进行快速傅里叶逆变换去除干扰,从而得到最终分离的目标音频。
[0053]
通过该实施方式可以看出,使用了新的方案,将音频在固定路输出,解决了盲源分离输出的音频顺序不确定,避免了通道选择的问题,实现了近场拾音。
[0054]
作为一种实施方式,在本实施例中,所述预处理包括:回声消除和/或傅里叶变换。
[0055]
在本实施方式中,考虑到实际的环境,例如车站,这种环境较为宽敞,但人声嘈杂。回声消除可以去除这种环境中的回声,提升音频质量。短时傅立叶变换(stft)是语音信号处理重要的一步,提升后续识别的效果。
[0056]
作为一种实施方式,在本实施例中,所述选择的频带包括:用户选择的频带或基于预设标准自动选择的频带。
[0057]
在本实施方式中,例如,在客流量多的时候,多个用户都排队进行地铁售票机的使用,例如,第一个用户在语音控制地铁售票机时用户位于地铁售票机麦克风85度55厘米,后面排队等待的第二个用户也在说话,位于地铁售票机麦克风105度80厘米。此时,频点聚类时,会将这两个用户的频带确定出。此时,地铁售票机可以基于预设的标准进行自行判断,或者地铁售票机的界面中可以为用户提供“目标用户”的选择,在界面中选择自己,从而准确的确定出目标路音频。
[0058]
如图2所示为本发明一实施例提供的一种麦克风拾音方法的流程图,包括如下步骤:
[0059]
s21:将麦克风在第一拾音距离采集后预处理后的第一音频进行近场方位估计,估计各声源的频点的方位信息;
[0060]
s22:利用近场波束滤除所述第一音频中第二拾音距离内非目标方向的干扰信号,得到第二音频,其中,所述第一拾音距离大于所述第二拾音距离;
[0061]
s23:至少对所述各声源的频点的方位信息、所述第一音频以及所述第二音频进行目标信号分离;
[0062]
s24:基于分离后得到的信号确定目标音频。
[0063]
在本实施方式中,考虑到麦克风的孔径固定,例如,现有技术的波束形成虽然能够抑制旁边方向上的干扰,也能抑制同向的噪声,但是该方法拾音距离有限,麦克风阵列同样采用非均匀8麦,坐标表示为[

0.16
ꢀ‑
0.13
ꢀ‑
0.08
ꢀ‑
0.01 0.01 0.08 0.13 0.16],单位为米,其通常拾音距离在50厘米左右,再远的话,拾音效果就会下降。本方法为了在不改变孔
径的情况下提升拾音距离。
[0064]
场景如下:用户1的声源a位于地铁售票机麦克风90度1.2米处一直说话,用户2、3、4的声源b分别位于地铁售票机麦克风30度、90度和150度方向说话,并且麦克风中心点距离各用户的距离为70厘米。
[0065]
对于步骤s21,第一拾音距离是本方法能够达到的拾音距离,在上述麦克风配置下,能够达到80厘米范围内的拾音。其余部分与上述步骤s11的步骤相同,在此不再赘述。
[0066]
对于步骤s22,地铁售票机麦克风在安装时,本身也设定了一定的目标方向的范围,例如,180
°
的范围中,目标方向的范围可以设定为60
°
~120
°
(可以根据实际情况进行适应调整,在此不做限定)。在上述麦克风的配置下,近场波束只能拾音的距离为50厘米,抑制同向内50厘米的干扰,同时还滤除了0~60
°
、120~180
°
方向的噪声。
[0067]
对于步骤s23,由于新加入了近场波束处理后的第二音频进一步处理,避免了干扰方向(非目标方向)的噪声泄漏,同时进一步地提升分离效果,从而帮助步骤s24确定麦克风拾音的目标音频,上述整体步骤如图3所示,
[0068]
如图4所示,为上述场景举例的四路原始音频,可以发现最终分离出来的目标音频,不仅能够去除两边30度和150度的噪声,并且在90度两个声源同时说话时,能够做到很好的分离,将同向情况下,远处干扰的噪声(1.2米处)抑制掉20db左右,具有明显的效果。
[0069]
频点的方位信息、预处理、选择的频带与上文中举例相同,在此不再赘述。
[0070]
通过该实施方式可以看出,使用了新的方案,实现了近场拾音的同时,在麦克风孔径相同的情况下能够做到更远的近场拾音,例如上述举例中,可以保持麦克风孔径的不变,将50厘米的拾音距离提升至80厘米。
[0071]
如图5所示为本发明一实施例提供的一种麦克风拾音系统的结构示意图,该系统可执行上述任意实施例所述的麦克风拾音方法,并配置在终端中。
[0072]
本实施例提供的一种麦克风拾音系统10包括:方位确定程序模块11,分离程序模块12和目标音频确定程序模块13。
[0073]
其中,方位确定程序模块11用于将麦克风采集后预处理后的第一音频进行近场方位估计,估计各声源的频点的方位信息;分离程序模块12用于至少对所述各声源的频点的方位信息以及所述第一音频进行目标信号分离;目标音频确定程序模块13用于基于分离后得到的信号确定目标音频。
[0074]
本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的麦克风拾音方法;
[0075]
作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
[0076]
将麦克风采集后预处理后的第一音频进行近场方位估计,估计各声源的频点的方位信息;
[0077]
至少对所述各声源的频点的方位信息以及所述第一音频进行目标信号分离;
[0078]
基于分离后得到的信号确定目标音频。
[0079]
如图6所示为本发明一实施例提供的一种麦克风拾音系统的结构示意图,该系统可执行上述任意实施例所述的麦克风拾音方法,并配置在终端中。
[0080]
本实施例提供的一种麦克风拾音系统20包括:方位确定程序模块21,近场波束程
序模块22、分离程序模块23和目标音频确定程序模块24。
[0081]
其中,方位确定程序模块21用于将麦克风在第一拾音距离采集后预处理后的第一音频进行近场方位估计,估计各声源的频点的方位信息;近场波束程序模块22用于利用近场波束滤除所述第一音频中第二拾音距离内非目标方向的干扰信号,得到第二音频,其中,所述第一拾音距离大于所述第二拾音距离;分离程序模块23用于至少对所述各声源的频点的方位信息、所述第一音频以及所述第二音频进行目标信号分离;目标音频确定程序模块24用于基于分离后得到的信号确定目标音频。
[0082]
本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的麦克风拾音方法;
[0083]
作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
[0084]
将麦克风在第一拾音距离采集后预处理后的第一音频进行近场方位估计,估计各声源的频点的方位信息;
[0085]
利用近场波束滤除所述第一音频中第二拾音距离内非目标方向的干扰信号,得到第二音频,其中,所述第一拾音距离大于所述第二拾音距离;
[0086]
至少对所述各声源的频点的方位信息、所述第一音频以及所述第二音频进行目标信号分离;
[0087]
基于分离后得到的信号确定目标音频。
[0088]
作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中,当被处理器执行时,执行上述任意方法实施例中的麦克风拾音方法。
[0089]
非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0090]
本发明实施例还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的麦克风拾音方法的步骤。
[0091]
图7是本技术另一实施例提供的麦克风拾音方法的电子设备的硬件结构示意图,如图7所示,该设备包括:
[0092]
一个或多个处理器710以及存储器720,图7中以一个处理器710为例。麦克风拾音方法的设备还可以包括:输入装置730和输出装置740。
[0093]
处理器710、存储器720、输入装置730和输出装置740可以通过总线或者其他方式连接,图7中以通过总线连接为例。
[0094]
存储器720作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本技术实施例中的麦克风拾音方法对应的程序指令/模块。处理器710通过运行存储在存储器720中的非易失性软件程序、指令以及模块,从而执行各种功能应用以及数据处理,即实现上述方法实施例的麦克风拾音方法。
[0095]
存储器720可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储音频信号数据等。此外,存储器720可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器720可选包括相对于处理器710远程设置的存储器,这些远程存储器可以通过网络连接至移动装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0096]
输入装置730可接收输入的数字或字符信息。输出装置740可包括显示屏等显示设备。
[0097]
所述一个或者多个模块存储在所述存储器720中,当被所述一个或者多个处理器710执行时,执行上述任意方法实施例中的麦克风拾音方法。
[0098]
上述产品可执行本技术实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本技术实施例所提供的方法。
[0099]
本技术实施例的电子设备以多种形式存在,包括但不限于:
[0100]
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机,以及低端手机等。
[0101]
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:pda、mid和umpc设备等,例如平板电脑。
[0102]
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器,掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
[0103]
(4)其他具有数据处理功能的电子装置。
[0104]
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0105]
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0106]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指
令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0107]
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。