首页 > 乐器声学 专利正文
一种针对位置靠近声源的语音信号分离方法与流程

时间:2022-02-17 阅读: 作者:专利查询

1.本发明涉及语音处理的
技术领域
:,尤其是涉及一种语音信号分离技术。
背景技术
::2.语音分离技术可以从多个声源的混合信号中分离出原始的声源信号,是语音信号处理领域的一项重要任务,在智能家居系统、视频会议系统以及语音识别系统等多种应用场景下都发挥了重要作用。3.在多通道的语音信号处理方案中,独立矢量分析(iva)通过联合概率分布模型建立源信号各个频率成分的关联,进而构建整体代价函数。auxiliaryfunctionbasediva(auxiva)和independentlow‑rankmatrixanalysis(ilrma)被认为是目前最先进的卷积混合音频信号的分离方法。auxiva算法利用了majorization‑minimization(mm)的优化技巧,推导出了iterativeprojection(ip)迭代规则,能够对分离矩阵进行快速又稳定的优化。auxiva的优化方式也可以与其他更加灵活的信号模型相结合。ilrma则是融合了auxiva的优化策略和mnmf的信号模型,在利用mnmf强大表示能力的同时也保证了每一次迭代后的代价都是非增的。4.理想情况下iva的分离效果与声源位置无关,然而实际情况下,由于有噪声的存在,当声源位置靠近的时候,算法的分离效果显著下降,这在很大程度上限制了分离算法在实际中的应用。如何提高位置靠近声源的分离效果是一个值得关注的技术问题。技术实现要素:5.为了解决上述技术问题,本发明提出了一种针对位置靠近声源的语音信号分离方法,该方法能显著提高语音信号的分离效果。6.本发明采用的技术方案为:7.一种针对位置靠近声源的语音信号分离方法,包括如下步骤:8.步骤1,获取待处理的混合语音时频域信号;9.步骤2,对混合语音时频域信号初始化各频带的分离矩阵;10.步骤3,对所有频带的分离矩阵进行联合优化以解决排序不确定性;11.步骤4,对优化后的分离矩阵进行幅度规整;12.步骤5,根据步骤4处理后的分离矩阵估计出时频域语音信号;13.步骤6,由步骤5估计的时频域语音信号恢复出时域语音信号。14.进一步地,所述步骤1的具体步骤为:利用信号采集系统获取待处理混合语音的时域信号,对该时域信号做短时傅里叶变换,得到待处理混合语音的时频域信号。15.进一步地,所述步骤2中,初始化各频带的分离矩阵采用的是单位矩阵,矩阵的对角元素是1,其余元素是0。16.进一步地,所述步骤3中,对所有频带的分离矩阵进行联合优化的具体步骤为:(1)选取源信号分布模型,获得代价函数;(2)对所述代价函数选取优化方法,得到分离矩阵的更新规则;(3)使用所述更新规则对分离矩阵进行迭代直到收敛,得到各频带优化后的分离矩阵。17.进一步地,所述步骤4中,根据最小失真准则对分离矩阵进行幅度规整。18.进一步地,所述步骤5的具体步骤为:将步骤4得到的分离矩阵与待处理的混合语音时频域信号相乘,估计出分离后的时频域语音信号。19.进一步地,所述步骤6的具体步骤为:对步骤5估计的时频域语音信号做短时傅里叶逆变换,得到分离后的时域语音信号。20.本发明针对位置靠近的声源,实现了一种改进的语音信号分离方法。该方法对声源位置靠近场景的分离效果有明显提升,同时缓解了iva在某些情况下存在的块排序问题,在声源远离的场景下的分离效果也有改善。附图说明21.图1为本发明的语音信号分离方法的流程示意图;22.图2为本发明所适用的一个声源靠近场景的示意图;23.图3是原始的auxiva方法、本发明改进的auxiva方法、原始的ilrma方法与本发明改进的ilrma方法在不同混响时间下的sdr提升值对比图。24.图4是原始的auxiva方法、本发明改进的auxiva方法、原始的ilrma方法与本发明改进的ilrma方法在不同混响时间下的sir提升值对比图。具体实施方式25.本发明针对位置靠近声源的语音分离方法主要包括以下几个部分:26.1、信号获取27.1)将纯净的源信号与房间冲激响应卷积混合,再加入扩散噪声,得到混合信号。28.2)对信号做短时傅里叶变换29.若第m个传声器采集到的混合信号为xm(t),对其进行短时傅里叶变换,变换到时频域,忽略时间帧指标t,第k个频带的信号表示为总共m个传声器采集到的信号构成混合信号向量上标t表示转置操作。30.2、迭代算法31.第n个源信号矢量表示为sn,n是源信号指标且n=1,2,…,n,n是源信号的总个数。分离矩阵用w表示,分离矩阵的第n行用表示,上标h表示共轭转置,上标k表示第k个频带,k=1,2,…,k,k是总的频带个数。表示所有频带分离矩阵的集合,detwk是第k个频带内的分离矩阵的行列式。源信号矢量sn相应的估计信号表示为yn,表示第k个频带内的第n个估计信号的第t帧。忽略时间帧指标,为了达到分离的目的,就要使得各估计信号之间尽可能地独立,采用互信息作为独立性的度量构造代价函数。32.1)若选用拉普拉斯源信号分布模型,对互信息代价函数进行恰当的修改以适用于声源位置靠近的场景,最终代价函数可以写为如下形式:[0033][0034]其中表示取样本平均,是以||yn||2为自变量的函数,f表示源信号的概率密度分布函数。采用majorization‑minimization(mm)的优化技巧,构造辅助函数:[0035][0036]其中是辅助变量。令得到解的最优性条件[0037][0038]其中q是另一个源信号指标。于是迭代规则为:[0039][0040][0041][0042][0043]g'(·)表示g(·)的一阶导数,en表示单位向量,第n个元素是1,其余元素是0。对于拉普拉斯分布,g(||yn||2)=||yn||2,g'(||yn||2)=1。将分离矩阵初始化为单位矩阵,然后按照公式(4)‑(7)的规则一直进行迭代直到收敛,得到优化后的分离矩阵。[0044]2)若选用mnmf作为源信号分布模型,融合iva与mnmf的代价函数,并对代价函数进行恰当的修改以适用于声源位置靠近的场景,最终代价函数可以写为如下形式:[0045][0046]其中,tkl,n和vlt,n分别是不同声源的基和激活参数,l是基的指标。采用majorization‑minimization(mm)的优化技巧,得到如下迭代规则:[0047][0048][0049][0050][0051]其中模型参数tkl,n和vlt,n的更新规则分别为:[0052][0053][0054]其中表示取样本平均,l’是基的新指标。将分离矩阵初始化为单位矩阵,然后按照公式(9)‑(14)的规则一直进行迭代直到收敛,得到优化后的分离矩阵。[0055]3、幅度规整[0056]为了解决恢复出的信号幅度不确定性,需要对收敛后得到的分离矩阵进行幅度规整。根据mdp,对优化后的分离矩阵再进行以下的处理:[0057]wk←(wk(wk)h)‑1/2wkꢀꢀꢀ(15)[0058]4、重建目标信号[0059]1)估计时‑频域目标信号[0060]由公式(15)得到的最终的分离矩阵,各个频带分离后的语音信号可以通过如下的式子来估计:[0061]yk=wkxkꢀꢀꢀ(16)[0062]2)重建时域目标信号[0063]最终,将分离后的时频域语音信号通过短时傅里叶逆变换,变换到时域,恢复出时域的信号。[0064]实施例[0065]下面结合附图,对本发明实施例中的技术方案进行清楚、完整地描述。[0066]1、测试样本及客观评价标准[0067]本实施例中干净的语音信号选取自timit数据集(经过剪切和拼接构成10s长每段的语音信号),采样率为16khz。用imagemodel(j.b.allenandd.a.berkley,“imagemethodforefficientlysimulatingsmall‑roomacoustics,”j.acoust.soc.am.,vol.65,pp.943–950,1979.)来生成房间冲激响应,房间的尺寸为7m×5m×2.75m,混响时间分别设置为0ms、100ms、300ms、500ms、700ms。如附图2所示,本实施例中用2个传声器来接收2个声源发出的信号。两个传声器之间间距2.5cm,中心的位置在[4,1,1.5](m)处。声源与传声器处于同一水平面,两个声源分别位于45°和60°,距离阵列中心都为1m。将干净的语音信号与房间冲激响应卷积混合,并按照文献(e.a.habetsands.gannot,“generatingsensorsignalsinisotropicnoisefields,”jasa,vol.122,no.6,pp.3464‑3470,2007.)中的方法添加signaltonoiseratio(snr)为30db的扩散噪声,生成100段不同的混合信号。所有的算法都在时频域进行处理,短时傅里叶变换采用2048点的汉宁窗和3/4的重叠率。[0068]本实施例采用signaltodistortionratio(sdr)和signaltointerferenceratio(sir)作为客观评价标准,将算法处理后的输出sdr值(sdr_out)/sir值(sir_out)与输入的混合信号的sdr值(sdr_in)/sir值(sir_in)相减,得到经过算法处理后的sdr提升值(sdrimp)/sir提升值(sirimp),即sdrimp=sdr_out‑sdr_in,sirimp=sir_out‑sir_in。[0069]2、方法的具体实现流程[0070]参见附图1,输入时域混合语音信号并对其做短时傅里叶变换得到时频谱,将各频带的分离矩阵初始化为单位矩阵。在改进的auxiva算法(记为auxiva‑imp)中,使用公式(4)‑(7)进行迭代优化;在改进的ilrma算法(记为ilrma‑imp)中,使用公式(9)‑(14)进行迭代优化。迭代收敛之后采用公式(15)进行幅度规整得到最终的分离矩阵wk,代入公式(16)得到分离后的语音时频谱估计,最后将估计出的语音时频谱做短时傅里叶逆变换即可得到分离后的时域语音信号。[0071]为了体现本发明方法的性能,本实施例将原始的auxiva算法(记为auxiva‑ori)(n.ono,“stableandfastupdaterulesforindependentvectoranalysisbasedonauxiliaryfunctiontechnique,”inproc.ieeewaspaa,pp.189–192,2011.)和ilrma算法(记为ilrma‑ori)(d.kitamura,n.ono,h.sawada,h.kameoka,andh.saruwatari,“determinedblindsourceseparationunifyingindependentvectoranalysisandnonnegativematrixfactorization,”ieeetrans.audio,speech,lang.process.,vol.24,no.9,pp.1626–1641,2016.)与本发明改进后的方法auxiva‑imp、ilrma‑imp进行对比。图3给出了在不同的混响时间下,100次测试得到的平均sdrimp的结果;图4给出了在不同的混响时间下,100次测试得到的平均sirimp的结果。[0072]可以发现,在声源位置靠近的场景下,本发明的方法相比于原始的算法在含噪条件下能更有效地进行分离,并且在中低混响的情况下优势更为明显。当前第1页12当前第1页12