1.本发明属于语音数据处理技术领域,尤其涉及盲语音信号分离方法、电子设备和存储介质。
背景技术:2.目前在实时传统盲语音信号分离中,在保证分离效果的同时为了满足实时性的要求对计算复杂度要求也较高。相似的技术独立分量分析,自然梯度法,固定点法,辅助函数法。
3.自然梯度法与固定点法的独立分量分析,基本原理是通过非高斯性以及独立性假设建立代价函数,并对代价函数求导得到梯度(一阶导数)来指导代价函数最优解的更新;辅助函数法则是通过建立一个优化函数,使其恒小于或恒大于代价函数来指导代价函数最优解的更新。
4.在实时盲信号处理场景下,自然梯度法与固定点法的独立分量分析能够对信号进行有效分离,但梯度下降法与固定点法的缺陷在于收敛速度慢而且需要进行多次迭代。辅助函数法收敛速度较快但需要设置超参数,该超参数设置较大可以保证算法的稳定收敛但收敛速度较慢,设置较小可提高收敛速度但稳定性差。
技术实现要素:5.本发明实施例提供一种盲语音信号分离方法和装置,用于至少解决上述技术问题之一。
6.第一方面,本发明实施例提供一种盲语音信号分离方法,包括:将采集的多路语音信号加上超参数送入分离器中进行声源分离得到多路分离信号;对所述多路分离信号进行相干性计算得到分离器相干系数;基于所述分离器相干系数和跟踪的当前帧的最小相干系数确定是否需要更新所述超参数以加快收敛速度。
7.第二方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的盲语音信号分离方法的步骤。
8.第三方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行本发明任一实施例的盲语音信号分离方法的步骤。
9.本技术的方法通过将采集的多路语音信号加上超参数送入分离器中进行声源分离得到多路分离信号,之后对多路分离信号进行相干性计算得到分离器相干系数,再基于分离器相干系数和跟踪的当前帧的最小相干系数确定是否需要更新超参数以加快收敛速度,从而可以实现保证了盲语音信号的收敛速度以及分离效果。
附图说明
10.为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
11.图1为本发明一实施例提供的一种盲语音信号分离方法的流程图;
12.图2为本发明一实施例提供的另一种盲语音信号分离方法的流程图;
13.图3为本发明一实施例提供的又一种盲语音信号分离方法的流程图;
14.图4为本发明一实施例提供的再一种盲语音信号分离方法的流程图;
15.图5为本发明一实施例提供的盲语音信号分离方法的一个具体示例的两路方案框图;
16.图6为本发明一实施例提供的盲语音信号分离方法的一个具体示例的多路方案框图;
17.图7为本发明一实施例提供的盲语音信号分离方法的一个具体示例的实验分离效果图;
18.图8是本发明一实施例提供的电子设备的结构示意图。
具体实施方式
19.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
20.请参考图1,其示出了本技术的盲语音信号分离方法一实施例的流程图。
21.如图1所示,在步骤101中,将采集的多路语音信号加上超参数送入分离器中进行声源分离得到多路分离信号;
22.在步骤102中,对所述多路分离信号进行相干性计算得到分离器相干系数;
23.在步骤103中,基于所述分离器相干系数和跟踪的当前帧的最小相干系数确定是否需要更新所述超参数以加快收敛速度。
24.在本实施例中,对于步骤101,盲语音信号分离装置将采集的多路语音信号加上超参数送入分离器中进行声源分离得到多路分离信号,例如,将采集的多路语音信号做短时傅里叶变换,之后将多路语音信号的频域数据加上超参数送入分离器进行声源分离。
25.对于步骤102,盲语音信号分离装置对多路分离信号进行相干性计算得到分离器相干系数,其中,振动频率相同、相差恒定的叫做相干性,例如,两个波彼此相互干涉时,因为相位的差异,会造成相长干涉或相消干涉。假若两个正弦波的相位差为常数,则这两个波的频率必定相同,称这两个波“完全相干”。两个“完全不相干”的波,例如白炽灯或太阳所发射出的光波,由于产生的干涉图样不稳定,无法被明显地观察到。在这两种极端之间,存在着“部分相干”的波。
26.对于步骤103,盲语音信号分离装置基于分离器相干系数和跟踪的当前帧的最小相干系数确定是否需要更新超参数以加快收敛速度,例如,计算得到的相干系数与跟踪的
当前帧的最小相干系数做对比,若当前帧的相干系数较大,则更新超参数以加快收敛速度,例如,使用辅助函数法收敛速度较快但需要设置超参数,该超参数设置较大可以保证算法的稳定收敛但收敛速度较慢,设置较小可提高收敛速度但稳定性差,利用语音信号的相干性对超参数进行控制,从而可以在保证算法的情况下加快收敛速度。
27.本实施例的方法通过将采集的多路语音信号加上超参数送入分离器中进行声源分离得到多路分离信号,之后对多路分离信号进行相干性计算得到分离器相干系数,再基于分离器相干系数和跟踪的当前帧的最小相干系数确定是否需要更新超参数以加快收敛速度,从而可以实现保证了盲语音信号的收敛速度以及分离效果。
28.进一步参考图2,其示出了本技术一实施例提供的另一种盲语音信号分离方法的流程图。该流程图主要是对流程图1“基于所述分离器相干系数和跟踪的当前帧的最小相干系数确定是否需要更新所述超参数以加快收敛速度”的流程进一步限定的步骤的流程图。
29.如图2所示,在步骤201中,将所述分离器相干系数与跟踪的当前帧最小相干系数对比;
30.在步骤202中,若所述当前帧最小相干系数大于所述分离器相干系数,更新所述超参数以加快收敛速度。
31.在本实施例中,对于步骤201,盲语音信号分离装置将分离器相干系数与跟踪的当前帧最小相干系数做对比,判断当前帧最小相干系数是否大于分离器相干系数。
32.对于步骤202,若当前帧最小相干系数大于所述分离器相干系数,说明收敛速度慢,这种情况下更新超参数以加快收敛速度。
33.本实施例的方法通过将分离器相干系数与跟踪的当前帧最小相干系数对比,从而可以实现保证了盲语音信号的收敛速度以及分离效果。
34.在上述实施例所述的方法中,在所述将所述分离器相干系数与跟踪的当前帧最小相干系数对比之后,所述方法还包括:
35.若当前帧最小相干系数小于等于分离器相干系数,保持超参数。
36.本实施例的方法通过在当前帧最小相干系数小于等于分离器相干系数时保持超参数,从而可以实现保证了盲语音信号的收敛速度以及分离效果,
37.进一步参考图3,其示出了本技术一实施例提供的又一种盲语音信号分离方法的流程图。该流程图主要是对流程图1“将采集的多路语音信号送入加上超参数的分离器中”的流程进一步限定的步骤的流程图。
38.如图3所示,在步骤301中,对采集的多路语音信号进行短时傅里叶变换得到多路语音信号的频域数据;
39.在步骤302中,将所述多路语音信号的频域数据加上超参数送入分离器中进行声源分离得到多路分离信号。
40.在本实施例中,对于步骤301,盲语音信号分离装置对采集的多路语音信号进行短时傅里叶变换得到多路语音信号的频域数据,其中,短时傅里叶变换是和傅里叶变换相关的一种数学变换,用以确定时变信号其局部区域正弦波的频率与相位。
41.对于步骤302,盲语音信号分离装置将多路语音信号的频域数据加上超参数送入分离器中进行声源分离得到多路分离信号。
42.本实施例的方法通过对采集的多路语音信号进行短时傅里叶变换得到多路语音
信号的频域数据并将将多路语音信号的频域数据加上超参数送入分离器中进行声源分离得到多路分离信号,从而可以实现得到多路分离音频进行相干性计算。
43.进一步参考图4,其示出了本技术一实施例提供的再一种盲语音信号分离方法的流程图。该流程图主要是对流程图3“基于所述分离器相干系数和跟踪的当前帧的最小相干系数确定是否需要更新所述超参数以加快收敛速度”之后的流程进一步限定的步骤的流程图。
44.如图4所示,在步骤401中,输出分离后的多路语音信号的频域数据;
45.在步骤402中,对所述分离出的多路语音信号的频域数据进行短时傅里叶逆变换得到目标语音信号。
46.在本实施例中,对于步骤401,盲语音信号分离装置输出分离后的多路语音信号的频域数据;然后,对于步骤402,盲语音信号分离装置对分离出的多路语音信号的频域数据进行短时傅里叶逆变换得到目标语音信号。
47.本实施例的方法通过输出分离后的多路语音信号的频域数据后,对分离出的多路语音信号的频域数据进行短时傅里叶逆变换得到目标语音信号,从而可以实现分离盲语音信号。
48.在上述实施例所述的方法中,在所述基于所述分离器相干系数和跟踪的当前帧的最小相干系数确定是否需要更新所述超参数以加快收敛速度之后,所述方法还包括:
49.更新跟踪的当前帧的最小相干系数,将更新后的超参数送入下一帧计算。
50.在上述任一实施例所述的方法中,所述超参数为辅助函数法的超参数,所述方法采用辅助函数法进行实时盲语音信号分离。
51.本实施例的方法通过使用辅助函数法的超参数,从而可以保证算法的稳定。
52.在一些可选的实施例中,所述多路语音信号为两路语音信号。
53.本实施例的方法通过采集两路语音信号,从而可以实现基于不同语音信号之间的相干性来可控制超参数的更新。
54.需要说明的是,上述方法步骤并不用于限制各步骤的执行顺序,实际上,某些步骤可能会同时执行或者以与步骤限定的相反的顺序执行,本技术在此没有限制。
55.下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明,以使本领域技术人员更好地理解本技术的方案。
56.发明人在实现本技术的过程中发现现有技术中存在的缺陷主要是由以下原因导致的:
57.现有技术主要在于自然梯度法与固定点法主要由于存在自适应步长使得收敛速度与稳定性不能同时保证,辅助函数法再去掉自适应步长后加快了收敛速度与稳定性,但引入遗忘因子这个超参数使得在复杂场景下,限制了算法的性能。
58.发明人还发现,最大的难点在于超参数的更新控制,因为它不仅影响到算法收敛速度,还影响到算法的稳定性以及对复杂场景的应变能力。
59.本技术的方案主要从以下几个方面入手进行设计和优化:
60.在通过设置超参数时,发现较大的超参数能带来较快收敛速度,但稳定性和分离效果不佳,较小的超参数在实时处理初期收敛速度慢,有时甚至十几秒才开始收敛,但收敛之后稳定性好。
61.方案考量:在保证稳定性和分离效果的情况下,加快在实时处理初期收敛速度。
62.构思和原理:实时处理初期收敛速度慢,导致分离效果不佳,所以分离的不同通道之间残留的其他原始信号成分较多,中后期稳定性和分离效果好,所以两个通道分离较为干净,所以可以根据不同通道之间的相干性来控制超参数的更新。
63.和现有技术相比,本技术提供了一个超参数可自适应更新的方案,来保证收敛速度以及分离效果。
64.请参考图5,其示出了本发明一实施例提供的盲语音信号分离方法的一个具体示例的两路方案框图。
65.如图5所示,步骤1:采集两路麦克风音频信号,并做短时傅里叶变换;
66.步骤2:两路音频频域数据加上超参数α送入分离器进行声源分离;
67.步骤3:得到两路分离音频进行相干性计算;
68.步骤4:计算得到的相干系数与跟踪的最小相干系数对比,如果当前帧相干系数较大,则更新超参数α以加快收敛速度,如果当前帧相干系数较小,说明分离效果较好则保持当前超参数α,保持稳定性和分离效果;
69.步骤5:更新跟踪的最小相干系数;
70.步骤6:将分离出的语音频域信号经过短时傅里叶逆变换得到目标音频,更新的超参数送入下一帧进行计算。
71.请参考图6,其示出了本发明一实施例提供的盲语音信号分离方法的一个具体示例的多路方案框图,图中以三路麦克风音频信号为例,本领域技术人员可以理解,其同样可用于多于三路的麦克风音频信号中,本技术在此没有限制。
72.如图6所示,步骤1:采集两路麦克风音频信号,并做短时傅里叶变换;
73.步骤2:两路音频频域数据加上超参数α送入分离器进行声源分离;
74.步骤3:将分离得到的音频按每两路之间分别做相干计算并取最大值作为当前帧的相干系数;
75.步骤4:计算得到的相干系数与跟踪的最小相干系数对比,如果当前帧相干系数较大,则更新超参数α以加快收敛速度,如果当前帧相干系数较小,说明分离效果较好则保持当前超参数α,保持稳定性和分离效果;
76.步骤5:更新跟踪的最小相干系数;
77.步骤6:将分离出的语音频域信号经过短时傅里叶逆变换得到目标音频,更新的超参数送入下一帧进行计算。
78.请参考图7,其示出了本发明一实施例提供的盲语音信号分离方法的一个具体示例的实验分离效果图。
79.如图7所示,上面两通道为固定超参数情况下,红框部分分离效果较差,下面两通道为相干性控制超参数更新方法下的分离效果,明显好于前者,最终分离出来的音频,后者的信号干扰比高于前者6~8db,具有明显的效果,不仅在收敛速度上保证了优势性,可以看到在后半段相干性控制超参数更新方法下的分离效果依然保持很好。
80.在另一些实施例中,本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的盲语音信号分离方法;
81.作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
82.将采集的多路语音信号加上超参数送入分离器中进行声源分离得到多路分离信号;
83.对所述多路分离信号进行相干性计算得到分离器相干系数;
84.基于所述分离器相干系数和跟踪的当前帧的最小相干系数确定是否需要更新所述超参数以加快收敛速度。
85.非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据盲语音信号分离装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至盲语音信号分离装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
86.本发明实施例还提供一种计算机程序产品,计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,使计算机执行上述任一项盲语音信号分离方法。
87.图8是本发明实施例提供的电子设备的结构示意图,如图8所示,该设备包括:一个或多个处理器810以及存储器820,图8中以一个处理器810为例。盲语音信号分离方法的设备还可以包括:输入装置830和输出装置840。处理器810、存储器820、输入装置830和输出装置840可以通过总线或者其他方式连接,图8中以通过总线连接为例。存储器820为上述的非易失性计算机可读存储介质。处理器810通过运行存储在存储器820中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例盲语音信号分离方法。输入装置830可接收输入的数字或字符信息,以及产生与通讯补偿装置的用户设置以及功能控制有关的键信号输入。输出装置840可包括显示屏等显示设备。
88.上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。
89.作为一种实施方式,上述电子设备应用于盲语音信号分离装置中,用于客户端,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:
90.将采集的多路语音信号加上超参数送入分离器中进行声源分离得到多路分离信号;
91.对所述多路分离信号进行相干性计算得到分离器相干系数;
92.基于所述分离器相干系数和跟踪的当前帧的最小相干系数确定是否需要更新所述超参数以加快收敛速度。
93.本技术实施例的电子设备以多种形式存在,包括但不限于:
94.(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iphone)、多媒体手机、功能性手机,以及低端手机等。
95.(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:pda、mid和umpc设备等,例如ipad。
96.(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如ipod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
97.(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
98.(5)其他具有数据交互功能的电子装置。
99.以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
100.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分的方法。
101.最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。