1.本发明涉及音频数据处理技术领域,特别是涉及一种多通道音频数据处理方法、装置、计算机设备和存储介质。
背景技术:2.目前,语音增强技术主要是去除语音数据中噪声以及噪声对语音的干扰,提高语音识别系统的性能。按照采集语音的麦克风数量分类,语音增强可以分为单通道语音增强方法和多通道语音增强方法。传统的多通道语音增强方法通常对基于能量对噪声进行提取处理,然而在实际应用环境下,多通道麦克风阵列采集到的音频数据中噪声和干扰的情况往往比较复杂,噪声对于音频数据的影响难以估计,导致语音增强的效果不佳。
技术实现要素:3.基于此,有必要针对现有多通道语音增强技术对于音频数据的语音增强效果不佳的问题,提供一种多通道音频数据处理方法、装置、计算机设备和存储介质。
4.一种多通道音频数据处理方法,包括获取多通道麦克风阵列采集到的采样音频数据;所述采样音频数据包括纯噪声数据和混合声音数据;计算所述采样音频数据的第一协方差矩阵;基于高斯混合模型获取纯噪声数据的第二协方差矩阵;根据所述第一协方差矩阵与所述第二协方差矩阵作差得到的矩阵差,获取纯语音数据的第三协方差矩阵;获取所述第三协方差矩阵的目标特征向量;根据所述目标特征向量和所述采样音频数据,合成目标音频数据。
5.上述多通道音频数据处理方法,对多通道麦克风阵列采集到的采样音频数据进行数据处理,将其转换成第一协方差矩阵。利用高斯混合模型对采样音频数据中纯噪声数据的分布进行模拟估计,获取纯噪声数据的第二协方差矩阵。将第二协方差矩阵与第一协方差矩阵作差,并将计算得到的矩阵差作为纯语音数据的第三协方差矩阵,根据第三协方差矩阵的特征向量和采样音频数据合成目标音频数据。本公开提供的多通道音频数据处理方法利用了聚类思想对噪声与语音进行分类提取,通过最大似然方法估计纯噪声数据和混合声音数据在采样音频数据中的分布,提高采样音频数据中噪声的鲁棒性。通过提高音频数据中噪声数据的鲁棒性,可以更好地对采样音频数据中噪声数据与语音数据进行分离。进一步地,针对不同环境下采集到的音频数据中包含的噪声都有较好的处理效果。
6.在其中一个实施例中,所述计算所述采样音频数据的第一协方差矩阵包括对所述采样音频数据进行分帧加窗,获得多帧音频数据;对多帧所述音频数据进行快速傅里叶变换,获取时频域的所述采样音频数据;将时频域的所述采样音频数据代入混合声音数据的协方差计算式中,获取所述第一协方差矩阵。
7.在其中一个实施例中,时频域的所述采样音频数据包括:
[0008][0009]
式中,y
f,t
表示所述采样音频数据在t时刻第f个快速傅里叶变换后的值,v表示为
纯噪声数据n或混合声音数据(x+n)中的任意一种数据,s
f,t
表示真实声源产生的音频数据,r
f,t
表示从真实声源到麦克风之间的传播函数;
[0010]
所述混合声音数据的协方差计算式包括:
[0011][0012]
式中,表示所述第一协方差矩阵,y
f,t
表示所述采样音频数据在t时刻第f个快速傅里叶变换后的值,表示y
f,t
的共轭矩阵,t表示所述采样音频数据的音频时间长度。
[0013]
在其中一个实施例中,所述基于高斯混合模型获取纯噪声数据的第二协方差矩阵包括获取所述纯噪声数据的语音到达向量的初始设定值;根据所述初始设定值计算所述纯噪声数据的高斯混合分布系数;根据所述高斯混合分布系数计算所述纯噪声数据的所述高斯混合模型中的参数概率;根据所述高斯混合分布系数和所述参数概率计算所述纯噪声数据的新的语音到达向量;重复利用新的语音到达向量计算新的高斯混合分布系数和新的参数概率的迭代过程,直至迭代收敛;将迭代收敛时的所述纯噪声数据的所述参数概率代入纯噪声数据的协方差计算式中,获取第二协方差矩阵。
[0014]
在其中一个实施例中,在重复利用新的语音到达向量计算新的高斯混合分布系数和新的参数概率的迭代过程,直至迭代收敛时,所述方法还包括基于所述高斯混合模型获取混合声音数据的第四协方差矩阵;将每次迭代中获取的所述第二协方差矩阵的特征参数与每次迭代中获取的所述第四协方差矩阵的特征参数进行比较;根据比较结果对所述第二协方差矩阵和所述第四协方差矩阵进行纠正。
[0015]
在其中一个实施例中,所述高斯混合分布系数的计算方法包括:
[0016][0017]
式中,表示所述高斯混合分布系数,m表示多通道麦克风阵列中麦克风的通道数,tr()表示求矩阵的迹,y
f,t
表示所述采样音频数据在t时刻第f个快速傅里叶变换后的值,表示y
f,t
的共轭矩阵,表示语音到达向量;
[0018]
所述参数概率的计算方法包括:
[0019][0020]
式中,表示所述参数概率,p(y
f,t
|d
f,t
=v,θ)表示y
f,t
为纯噪声数据n的概率密度函数或y
f,t
为混合声音数据(x+n)的概率密度函数,∑vp(y
f,t
|d
f,t
=v,θ)表示对y
f,t
为纯噪声数据n的概率密度函数或y
f,t
为混合声音数据(x+n)的概率密度函数求和;
[0021]
所述语音到达向量的计算方法包括:
[0022][0023]
式中,表示所述语音到达向量,表示所述参数概率,表示对所有时刻的所述参数概率求和,表示所述高斯混合分布系数,y
f,t
表示所述采样音频数据在t时刻第f个快速傅里叶变换后的值,表示y
f,t
的共轭矩阵;
[0024]
所述纯噪声数据的协方差计算式包括:
[0025][0026]
式中,表示所述纯噪声数据的协方差,y
f,t
表示所述采样音频数据在t时刻第f个快速傅里叶变换后的值,表示y
f,t
的共轭矩阵,t表示所述采样音频数据的音频时间长度;表示纯噪声数据的所述参数概率。
[0027]
在其中一个实施例中,所述获取所述第三协方差矩阵的目标特征向量包括对所述第三协方差矩阵进行特征分解,获取多个特征值和多个特征向量,一个所述特征值对应一个特征向量;将符合预设条件的特征值对应的所述特征向量定义为目标特征向量。
[0028]
在其中一个实施例中,将所述目标特征向量和所述采样音频数据作为波束成形算法的输入,获取目标音频数据。
[0029]
一种音频数据处理装置,包括数据采集模块,用于获取多通道麦克风阵列采集到的采样音频数据;所述采样音频数据包括纯噪声数据和混合声音数据;数据处理模块,用于计算所述采样音频数据的第一协方差矩阵;模型生成模块,用于基于高斯混合模型和所述第一协方差矩阵,获取纯噪声数据的第二协方差矩阵,还用于根据所述第二协方差矩阵与所述第一协方差矩阵作差得到的矩阵差,获取纯语音数据的第三协方差矩阵;音频处理模块,用于获取所述第三协方差矩阵的目标特征向量,还用于根据所述目标特征向量和所述采样音频数据,合成目标音频数据。
[0030]
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任意一项实施例所述的多通道音频数据处理方法的步骤。
[0031]
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项实施例所述的多通道音频数据处理方法的步骤。
[0032]
一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述任意一项实施例所述的多通道音频数据处理方法的步骤。
附图说明
[0033]
为了更清楚地说明本说明书实施方式或现有技术中的技术方案,下面将对实施方
式或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0034]
图1为本公开其中一实施例的多通道音频数据处理方法的方法流程示意图;
[0035]
图2为本公开其中一实施例的获取第一协方差矩阵的方法流程示意图;
[0036]
图3为本公开其中一实施例的获取第二协方差矩阵的方法流程示意图;
[0037]
图4为本公开其中一实施例的对第二协方差矩阵和第四协方差矩阵进行纠正的方法流程示意图;
[0038]
图5为本公开其中一实施例的获取第三协方差矩阵的目标特征向量的方法流程示意图;
[0039]
图6为本公开其中一实施例的多通道音频数据处理装置的结构框图;
[0040]
图7为本公开其中一实施例的音频数据处理装置或系统的框图。
具体实施方式
[0041]
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的优选实施方式。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施方式。相反的,提供这些实施方式的目的是为了对本发明的公开内容理解得更加透彻全面。
[0042]
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
[0043]
图1为本公开其中一实施例的多通道音频数据处理方法的方法流程示意图,在其中一个实施例中,多通道音频数据处理方法包括如下步骤s100至步骤s600。
[0044]
步骤s100:获取多通道麦克风阵列采集到的采样音频数据,采样音频数据包括纯噪声数据和混合声音数据。
[0045]
多通道麦克风阵列用于采集音频数据,将每个通道采集到的音频数据整合成采样音频数据。由于在任意应用场景中噪声都是时刻存在的,当前的音频采集技术还无法直接采集到无噪声干扰的纯语音数据,因此可以假设采样音频数据中包括两类数据,一种是仅采集到了噪声的纯噪声数据,另一种则是采集到了语音中夹杂有噪声的混合声音数据。
[0046]
步骤s200:计算采样音频数据的第一协方差矩阵。
[0047]
协方差可以用于度量各个维度偏离其均值的程度,当协方差的值为正时两者正相关,当协方差的值为负时两者负相关。对采样音频数据中任意两个时刻的音频数据进行计算,可以得到该音频数据的协方差,相应地,对采样音频数据中的所有数据进行计算,可以得到该采样音频数据对应的第一协方差矩阵。
[0048]
步骤s300:基于高斯混合模型获取纯噪声数据的第二协方差矩阵。
[0049]
高斯混合模型(gmm,gaussian mixture model)是由多个单高斯模型组合在一起的混合模型,是一种概率式的聚类方法,属于生成式模型。高斯混合模型假设所有的数据样本都是由某一个给定参数的多元高斯分布所生成的,一个高斯混合模型的概率密度函数可
以由k个多元高斯分布组合成的混合分布表示。每一个分布被称为高斯混合模型中的一个成分,相应成分产生的样本占总样本的比例,选择出一个混合成分,根据该混合成分的概率密度函数,采样产生出相应的样本。利用gmm进行聚类的过程是利用gmm生成数据样本的逆过程,给定聚类簇数k,通过给定的数据集推导出每一个混合成分的参数。
[0050]
高斯混合模型不常应用于音频处理方法中,而在本实施例中,对高斯混合模型进行了创新性应用。通过利用高斯混合模型对采样音频数据中的纯噪声数据进行聚类,获取采样音频数据中纯噪声数据的混合成分的参数,从而获取纯噪声数据的第二协方差矩阵。
[0051]
步骤s400:根据第一协方差矩阵与第二协方差矩阵作差得到的矩阵差,获取纯语音数据的第三协方差矩阵。
[0052]
在本实施例中,多通道麦克风阵列采集到的采样音频数据整体可以视为一个混合声音数据,它既采集到了语音数据又采集到了噪声数据。同时,采样音频数据中可能也包括了纯噪声数据。因此,通过将第一协方差矩阵与仿真模拟的纯噪声数据的第二协方差矩阵作差,可以得到纯语音数据的第三协方差矩阵,即将采样音频数据中的语音数据分离出来,进而可以实现针对音频数据中语音数据部分的优化处理。
[0053]
在其中一个实施例中,第二协方差矩阵为r(n),第一协方差矩阵为r(x+n)。即纯语音数据的第三协方差矩阵通过将第一协方差矩阵r(x+n)与第二协方差矩阵r(n)作差得到,纯语音数据的第三协方差矩阵为r(x)=r(x+n)-r(n)。
[0054]
步骤s500:获取第三协方差矩阵的目标特征向量。
[0055]
步骤s600:根据目标特征向量和采样音频数据,合成目标音频数据。
[0056]
对第三协方差矩阵进行特征分解,将符合预设目标条件的特征向量定义为目标特征向量。第三协方差矩阵的目标特征向量可以用于作为纯语音数据的到达角度向量。将目标特征向量和采样音频数据作为相关的音频处理算法的输入,以合成目标音频数据。
[0057]
现有技术中,在对麦克风采集到的音频数据进行处理时,通常需要获取麦克风的性能参数,才能对采集到的音频数据进行进一步的处理。由于高斯混合模型可以利用已知的数据求未知的数据,因此在应用于音频数据处理方法中,可以通过给定假设值,通过迭代优化的方式来令仿真值逼近真实值。可见,利用本公开提供的多通道音频数据处理方法对采样音频数据进行处理时,即使麦克风的性能参数未知,也能对采样音频数据中的噪音具有较好的处理效果,进而实现对采样音频数据的语音部分的增强。
[0058]
上述多通道音频数据处理方法利用了高斯混合模型这一聚类思想,对噪声与语音进行分类提取,通过最大似然方法估计纯噪声数据和混合声音数据在采样音频数据中的分布,提高采样音频数据中噪声的鲁棒性。通过提高音频数据中噪声数据的鲁棒性,可以更好地对采样音频数据中噪声数据与语音数据进行分离。进一步地,针对不同环境下采集到的音频数据中包含的噪声都有较好的处理效果。
[0059]
图2为本公开其中一实施例的获取第一协方差矩阵的方法流程示意图,在其中一个实施例中,计算采样音频数据的第一协方差矩阵包括如下步骤s210至步骤s230。
[0060]
步骤s210:对采样音频数据进行分帧加窗,获得多帧音频数据。
[0061]
由于在进行快速傅里叶变换时,要求输入信号是平稳的,而音频数据在宏观上是不平稳的,在微观上是平稳的,具有短时平稳性(通常在10-30ms内可以认为音频数据近似不变),因此可以通过对采样音频数据进行分帧来将采样音频数据划分为许多具有平稳性
的短段,每一个短段可以被称为一帧(chunk)。分帧后获得的每一帧采样音频数据都具有平稳性,因此可以作为快速傅里叶变换的输入。
[0062]
在本公开一些其他的实施例中,还可以在分帧时,不进行背靠背地截取,而是可以令相邻的两帧之间有部分相互重叠。相邻两帧的起始位置的时间差叫做帧移。
[0063]
在数字处理时,还可以利用加窗操作将长时间的信号序列截断。加窗操作是指将分帧后的采样音频数据与一个窗函数相乘,借助加窗操作可以使全局更加连续,避免出现吉布斯效应。加窗后,采样音频数据中一些原本没有周期性的语音信号将呈现出周期函数的部分特征,从而可以更好地对采样音频数据进行傅里叶展开。
[0064]
在本公开一些其他的实施例中,还可以对采样音频数据进行语音信号的预加重,目的是为了对语音的高频部分进行加重,去除口唇辐射的影响,增加语音的高频分辨率。可以通过传递函数为一阶fir(finite impulse response,有限冲激响应)的高通数字滤波器来实现预加重。
[0065]
步骤s220:对多帧音频数据进行快速傅里叶变换,获取时频域的采样音频数据。
[0066]
对步骤s210中获取的多帧音频数据进行快速傅里叶变换(fft,)。
[0067]
在其中一个实施例中,若采样音频数据中仅包括纯噪声数据和混合声音数据的分类假设成立,那么任意一个观察时刻下时频域的采样音频数据用以下表达式来进行描述,任意一个观察时刻下时频域的采样音频数据为:
[0068][0069]
式中,y
f,t
表示采样音频数据在t时刻第f个快速傅里叶变换后的值,v表示为纯噪声数据n或混合声音数据(x+n)中的任意一种数据,s
f,t
表示真实声源产生的音频数据,r
f,t
表示从真实声源到麦克风之间的传播函数。
[0070]
步骤s230:将时频域的采样音频数据代入混合声音数据的协方差计算式中,获取第一协方差矩阵。
[0071]
在其中一个实施例中,混合声音数据的协方差计算式包括:
[0072][0073]
式中,表示混合声音数据的协方差,y
f,t
表示采样音频数据在t时刻第f个快速傅里叶变换后的值,表示y
f,t
的共轭矩阵,t表示采样音频数据的音频时间长度。
[0074]
在本实施例中,由于多通道麦克风阵列采集到的采样音频数据中通常既采集到了语音数据又采集到了噪声数据,因此可以将采样音频数据整体视为一个混合声音数据。将步骤s220中通过快速傅里叶变换后获取的时频域的采样音频数据代入上述混合声音数据的协方差计算式中,可以获取采样音频数据的第一协方差矩阵。在后续的数据处理过程中,可以将第一协方差矩阵作为校准数据。
[0075]
图3为本公开其中一实施例的获取第二协方差矩阵的方法流程示意图,在其中一个实施例中,基于高斯混合模型获取纯噪声数据的第二协方差矩阵包括如下步骤s310至步骤s360。
[0076]
步骤s310:获取纯噪声数据的语音到达向量的初始设定值。
[0077]
在本公开的一些实施例中,利用最大似然方法估计纯噪声数据在采样音频数据中的分布。由于高斯混合模型可以利用已知的数据求未知的数据,因此在模拟纯噪声数据的仿真值时,可以通过对纯噪声数据的语音到达向量的初始设定值进行预先设定,从而通过迭代优化的方式来令纯噪声数据的仿真值逼近真实值。在本实施例中,初始设定值可以设定为单位矩阵的特征向量。
[0078]
步骤s320:根据初始设定值计算纯噪声数据的高斯混合分布系数。
[0079]
在其中一个实施例中,高斯混合分布系数的计算方法包括:
[0080][0081]
式中,表示高斯混合分布系数,m表示多通道麦克风阵列中麦克风的通道数,tr()表示求矩阵的迹,y
f,t
表示采样音频数据在t时刻第f个快速傅里叶变换后的值,表示y
f,t
的共轭矩阵,表示语音到达向量;
[0082]
由于本实施例是用于对纯噪声数据的仿真模拟,因此纯噪声数据的高斯混合分布系数的计算式应为:
[0083][0084]
获取纯噪声数据的语音到达向量的初始设定值后,将语音到达向量的初始设定值代入上述高斯混合分布系数的计算式中,即令上式中的值为纯噪声数据的语音到达向量的初始设定值。同时,多通道麦克风阵列中麦克风的通道数m,采样音频数据在t时刻第f个快速傅里叶变换后的值y
f,t
以及y
f,t
的共轭矩阵均为已知值,因此可以计算获取纯噪声数据的高斯混合分布系数
[0085]
步骤s330:根据高斯混合分布系数计算纯噪声数据的高斯混合模型中的参数概率。
[0086]
在其中一个实施例中,参数概率的计算方法包括:
[0087][0088]
式中,表示参数概率,p(y
f,t
|d
f,t
=v,θ)表示y
f,t
为纯噪声数据n的概率密度函数或y
f,t
为混合声音数据(x+n)的概率密度函数,∑vp(y
f,t
|d
f,t
=v,θ)表示对y
f,t
为纯噪声数据n的概率密度函数或y
f,t
为混合声音数据(x+n)的概率密度函数求和。
[0089]
由于本实施例是用于对纯噪声数据的仿真模拟,因此纯噪声数据的参数概率的计算式应为:
[0090][0091]
将纯噪声数据的高斯混合分布系数代入上式中高斯混合分布的概率密度函数p(y
f,t
|d
f,t
=n,θ),以求y
f,t
为纯噪声数据n时的概率值,对所有y
f,t
为纯噪声数据n时的概率值求和,进而可以计算获取纯噪声数据的参数概率
[0092]
步骤s340:根据高斯混合分布系数和参数概率计算纯噪声数据的新的语音到达向量。
[0093]
在其中一个实施例中,语音到达向量的计算方法包括:
[0094][0095]
式中,表示语音到达向量,表示参数概率,表示对所有时刻的参数概率求和,表示高斯混合分布系数,y
f,t
表示采样音频数据在t时刻第f个快速傅里叶变换后的值,表示y
f,t
的共轭矩阵。
[0096]
由于本实施例是用于对纯噪声数据的仿真模拟,因此纯噪声数据的语音到达向量的计算式应为:
[0097][0098]
将步骤s320中获取的纯噪声数据的高斯混合分布系数和步骤s330中获取的纯噪声数据的参数概率代入上式中。同时,采样音频数据在t时刻第f个快速傅里叶变换后的值y
f,t
以及y
f,t
的共轭矩阵均为已知值,因此可以计算获取纯噪声数据的语音到达向量
[0099]
步骤s350:重复利用新的语音到达向量计算新的高斯混合分布系数和新的参数概率的迭代过程,直至迭代收敛。
[0100]
将步骤s350计算得到的语音到达向量作为新的语音到达向量利用新的语音到达向量计算新的高斯混合分布系数和新的参数概率
[0101]
em算法(expectation-maximization algorithm)的基本思想是根据已经给出的观测数据,估计出模型参数的值,然后再依据上一步估计出的参数值估计缺失数据的值,再根据估计出的缺失数据加上之前已经观测到的数据重新再对参数值进行估计,然后反复迭代,直至最后收敛,迭代结束。
[0102]
在本公开的一些实施例中,利用了em算法来逼近纯噪声数据在采用音频数据中的最大似然高斯混合分布。通过预先设定语音到达向量的初始值,根据语音到达向量
的初始值,估计出高斯混合分布系数的值,再依据高斯混合分布系数的值估计参数概率的值,根据高斯混合分布系数的值和参数概率的值估计新的语音到达向量再根据估计的新的语音到达向量重新再对高斯混合分布系数参数概率进行估计,然后反复迭代,直至最后收敛,迭代结束。
[0103]
步骤s360:将迭代收敛时的纯噪声数据的参数概率代入纯噪声数据的协方差计算式中,获取第二协方差矩阵。
[0104]
假设声源信号s
(n)
和s
(x+n)
,分别表示纯噪声信号与混合声音信号,且纯噪声信号与混合声音信号服从圆对称分布,如下表示:
[0105][0106]
那么根据上述实施例中时频域的采样音频数据的表达式可以推导出:
[0107][0108]
其中,因此,可以根据估计的纯噪声数据的语音到达向量r从而求出音频传输函数r。
[0109]
假设表示时频点(f,t)仅为噪声的概率,并简单地假设语音与噪声线性无关,那么根据上述实施例中混合声音数据的协方差计算式可以推导出:
[0110][0111]
式中,表示纯噪声数据的协方差,y
f,t
表示采样音频数据在t时刻第f个快速傅里叶变换后的值,表示y
f,t
的共轭矩阵,t表示采样音频数据的音频时间长度;表示纯噪声数据的参数概率。
[0112]
将步骤s350中迭代收敛时,获取的纯噪声数据的参数概率代入上述纯噪声数据的协方差计算式中。同时,采样音频数据在t时刻第f个快速傅里叶变换后的值y
f,t
以及y
f,t
的共轭矩阵均为已知值,因此可以获取纯噪声数据的第二协方差计算式。由于纯噪声数据的参数概率是通过算法估计得到的,因此纯噪声数据的第二协方差计算式是一种算法估计值。
[0113]
图4为本公开其中一实施例的对第二协方差矩阵和第三协方差矩阵进行纠正的方法流程示意图,在其中一个实施例中,在重复利用新的语音到达向量计算新的高斯混合分布系数和新的参数概率的迭代过程,直至迭代收敛时,所述方法还包括如下步骤s370至步骤s390。
[0114]
步骤s370:基于高斯混合模型获取混合声音数据的第四协方差矩阵。
[0115]
同样地,还可以基于高斯混合模型获取混合声音数据的第四协方差矩阵。混合声音数据的第四协方差矩阵的模拟过程与上述实施例中,纯噪声数据的第二协方差矩阵的模拟过程相似。通过对混合声音数据的语音到达向量的初始设定值进行预先设定,从而通过迭代优化的方式来令混合声音数据的仿真值逼近真实值。
[0116]
由于本实施例是用于对混合声音数据的仿真模拟,因此混合声音数据的高斯混合分布系数的计算式应为:
[0117][0118]
获取混合声音数据的语音到达向量的初始设定值,将混合声音数据的语音到达向量的初始设定值代入上述高斯混合分布系数的计算式中,即令上式中的值为混合声音数据的语音到达向量的初始设定值。同时,多通道麦克风阵列中麦克风的通道数m,采样音频数据在t时刻第f个快速傅里叶变换后的值y
f,t
以及y
f,t
的共轭矩阵均为已知值,因此可以计算获取混合声音数据的高斯混合分布系数
[0119]
由于本实施例是用于对混合声音数据的仿真模拟,因此混合声音数据的参数概率的计算式应为:
[0120][0121]
将混合声音数据的高斯混合分布系数代入上式中高斯混合分布的概率密度函数p(y
f,t
|d
f,t
=n,θ),以求y
f,t
为混合声音数据(x+n)时的概率值,对所有y
f,t
为混合声音数据(x+n)时的概率值求和,进而可以计算获取混合声音数据的参数概率
[0122]
由于本实施例是用于对混合声音数据的仿真模拟,因此混合声音数据的语音到达向量的计算式应为:
[0123][0124]
将步骤s320中获取的混合声音数据的高斯混合分布系数和步骤s330中获取的混合声音数据的参数概率代入上式中。同时,采样音频数据在t时刻第f个快速傅里叶变换后的值y
f,t
以及y
f,t
的共轭矩阵均为已知值,因此可以计算获取混合声音数据的语音到达向量
[0125]
在本公开的一些实施例中,利用了em算法(expectation-maximization algorithm)来逼近混合声音数据在采用音频数据中的最大似然高斯混合分布。通过预先设定语音到达向量的初始值,根据语音到达向量的初始值,估计出高斯混合分布系数的值,再依据高斯混合分布系数的值估计参数概率的值,根据高
斯混合分布系数的值和参数概率的值估计新的语音到达向量再根据估计的新的语音到达向量重新再对高斯混合分布系数参数概率进行估计,然后反复迭代,直至最后收敛,迭代结束。
[0126]
将迭代收敛时,获取的混合声音数据的参数概率代入上述混合声音数据的协方差计算式中。同时,采样音频数据在t时刻第f个快速傅里叶变换后的值y
f,t
以及y
f,t
的共轭矩阵均为已知值,因此可以获取混合声音数据的第二协方差计算式。由于在本实施例中混合声音数据的参数概率是也通过算法估计得到的,因此混合声音数据的第四协方差计算式也是一种算法估计值。
[0127]
步骤s380:将每次迭代中获取的第二协方差矩阵的特征参数与每次迭代中获取的第四协方差矩阵的特征参数进行比较。
[0128]
步骤s390:根据比较结果对第二协方差矩阵和第四协方差矩阵进行纠正。
[0129]
在每次计算获取纯噪声数据的参数概率和混合声音数据的参数概率后,将纯噪声数据的参数概率代入上述纯噪声数据的协方差计算式中获取此时的第二协方差矩阵,将混合声音数据的参数概率代入上述混合声音数据的协方差计算式中获取此时的第四协方差矩阵。
[0130]
由于在迭代过程中,纯噪声数据和混合声音数据可能会出现混杂的情况,因此在每一次对纯噪声数据n和混合声音数据(x+n)的迭代过程后,都需要对纯噪声数据n和混合声音数据(x+n)分别对应的协方差矩阵进行纠正。
[0131]
对此时的第二协方差矩阵进行特征分解,可以获得此时的第二协方差矩阵对应的多个特征值。令此时的第二协方差矩阵对应的多个特征值彼此相乘,将获得的乘积作为此时第二协方差矩阵的特征参数。同样地,对此时的第四协方差矩阵进行特征分解,可以获得此时的第四协方差矩阵对应的多个特征值。令此时的第四协方差矩阵对应的多个特征值彼此相乘,将获得的乘积作为此时第四协方差矩阵的特征参数。
[0132]
将每次迭代中获取的第二协方差矩阵的特征参数与每次迭代中获取的第四协方差矩阵的特征参数进行比较。在本实施例中,将两个特征参数中特征乘积值较大的特征参数对应的协方差矩阵定义为混合声音数据(x+n)的第四协方差矩阵r(x+n),将两个特征参数中特征乘积值小的特征参数对应的协方差矩阵定义为纯噪声数据n的第二协方差矩阵r(n),从而实现根据比较结果对第二协方差矩阵和第四协方差矩阵的纠正,以提高分类结果的准确度,增强噪声的鲁棒性。
[0133]
图5为本公开其中一实施例的获取第四协方差矩阵的目标特征向量的方法流程示意图,在其中一个实施例中,获取第三协方差矩阵的目标特征向量包括如下步骤s510至步骤s520。
[0134]
步骤s510:对第三协方差矩阵进行特征分解,获取多个特征值和多个特征向量,一个特征值对应一个特征向量。
[0135]
通过em算法求得纯语音数据的第三协方差矩阵后,对第三协方差矩阵进行特征分解。特征分解是指将矩阵分解为由其特征值和特征向量表示的矩阵之积的方法。特征分解后将获取第三协方差矩阵的多个特征值,一个特征值对应一个特征向量。
[0136]
步骤s520:将符合预设条件的特征值对应的特征向量定义为目标特征向量。
[0137]
在本实施例中,通过对比各个特征值的大小,可以将最大特征值对应的特征向量定义为纯语音数据的目标特征向量,即预设条件为选择数值最大的特征值作为目标特征向量。本公开提供的多通道音频数据处理方法假设纯噪声数据和混合声音数据服从复高斯分布,更贴近随机状态下噪声与语音的分布状态。采用em算法的迭代方式求解高斯混合分布模型的参数概率,使得本方法更具有普适性,能够更好地处理不同环境下的噪声。
[0138]
在其中一个实施例中,将目标特征向量和采样音频数据作为波束成形算法的输入,获取目标音频数据。mvdr是一种基于最大信噪比(sinr)准则的自适应波束形成算法,按照波束形成的思想,可以增强声源方向(即声强最强方向)的声音,而抑制其他方向的声音。mvdr算法可以自适应地使阵列输出在期望方向上功率最小同时信噪比最大。
[0139]
将最大特征值对应的目标特征向量定义为纯语音数据的到达角度向量,将目标特征向量和采样音频数据作为波束成形算法的输入,可以利用mvdr算法根据纯语音数据的到达角度向量对采样音频数据中纯语音数据进行增强,合成一个单通道的音频数据,即目标音频数据,从而实现对采样音频数据中纯语音数据的定位与增强。
[0140]
在其中一个实施例中,在获取目标音频数据后,还可以将目标音频数据代入到单通道语音增强后处理算法中,以对目标音频数据实现进一步的语音增强优化。在本实施例中,单通道语音增强后处理算法可以为omlsa(optimally-modified log-spectral amplitude)算法。
[0141]
应该理解的是,虽然图1-图5的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1-图5中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
[0142]
基于上述多通道音频数据处理方法实施例的描述,本公开还提供了一种多通道音频数据处理装置。所述装置可以包括使用了本说明书实施例所述方法的系统(包括分布式系统)、软件(应用)、模块、组件、服务器、客户端等并结合必要的实施硬件的装置。基于同一创新构思,本公开实施例提供的一个或多个实施例中的装置如下面的实施例所述。由于装置解决问题的实现方案与方法相似,因此本说明书实施例具体的装置的实施可以参见前述方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
[0143]
图6为本公开其中一实施例的多通道音频数据处理装置的结构框图,在其中一个实施例中,多通道音频数据处理装置可以为终端,也可以为服务器,或者集成于所述终端的模块、组件、器件、单元等。多通道音频数据处理装置可以包括数据采集模块100、数据处理模块200、模型生成模块300和音频处理模块400。
[0144]
数据采集模块100用于获取多通道麦克风阵列采集到的采样音频数据;采样音频数据包括纯噪声数据和混合声音数据。数据处理模块200,用于计算采样音频数据的第一协
方差矩阵。模型生成模块300,用于基于高斯混合模型和第一协方差矩阵,获取纯噪声数据的第二协方差矩阵,还用于根据第二协方差矩阵与第一协方差矩阵作差得到的矩阵差,获取纯语音数据的第三协方差矩阵。音频处理模块400,用于获取第三协方差矩阵的目标特征向量,还用于根据目标特征向量和采样音频数据,合成目标音频数据。
[0145]
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
[0146]
可以理解的是,本说明书中上述方法、装置等的各个实施例均采用递进的方式描述,各个实施例之间相同/相似的部分互相参见即可,每个实施例重点说明的都是与其它实施例的不同之处。相关之处参见其他方法实施例的描述说明即可。
[0147]
图7为本公开其中一实施例的多通道音频数据处理装置或系统的框图。参照图7,多通道音频数据处理装置或系统s00包括处理组件s20,其进一步包括一个或多个处理器,以及由存储器s22所代表的存储器资源,用于存储可由处理组件s20的执行的指令,例如应用程序。存储器s22中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件s20被配置为执行指令,以执行上述方法。
[0148]
多通道音频数据处理装置或系统s00还可以包括:电源组件s24被配置为执行多通道音频数据处理装置或系统s00的电源管理,有线或无线网络接口s26被配置为将多通道音频数据处理装置或系统s00连接到网络,和输入输出(i/o)接口s28。多通道音频数据处理装置或系统s00可以操作基于存储在存储器s22的操作系统,例如windows server,mac os x,unix,linux,freebsd或类似。
[0149]
在示例性实施例中,还提供了一种包括指令的计算机可读存储介质,例如包括指令的存储器s22,上述指令可由多通道音频数据处理装置或系统s00的处理器执行以完成上述方法。存储介质可以是计算机可读存储介质,例如,所述计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。
[0150]
在示例性实施例中,还提供一种计算机程序产品,所述计算机程序产品中包括指令,上述指令可由多通道音频数据处理装置或系统s00的处理器执行以完成上述方法。
[0151]
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其它实施例的不同之处。尤其,对于硬件+程序类实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0152]
需要说明的,上述所述的装置、电子设备、服务器等根据方法实施例的描述还可以包括其它的实施方式,具体的实现方式可以参照相关方法实施例的描述。同时各个方法以及装置、设备、服务器实施例之间特征的相互组合组成的新的实施例仍然属于本公开所涵盖的实施范围之内,在此不作一一赘述。
[0153]
在本说明书的描述中,参考术语“有些实施例”、“其他实施例”、“理想实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特征包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性描述不一定指的是相同的实施例或示例。
[0154]
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存
在矛盾,都应当认为是本说明书记载的范围。
[0155]
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以作出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。