首页 > 乐器声学 专利正文
一种音频中节拍器噪声抑制方法及系统与流程

时间:2022-02-17 阅读: 作者:专利查询

一种音频中节拍器噪声抑制方法及系统与流程

1.本发明涉及音频信号处理技术领域,更具体地,涉及一种音频中节拍器噪声抑制方法及系统。


背景技术:

2.近年来越来越多的信息技术应用于音乐教育领域,给人们在音乐学习的过程中带来了很大的便利,例如:远程视频上课、旋律检索、练琴时长统计、乐器智能陪练等。
3.在学习/练习乐器的过程中节拍器扮演着非常重要的角色,它能帮助人们很好地建立节奏感提升演奏效果,几乎所有学习过乐器的人都使用过它。节拍器的种类主要包含电子节拍器和机械节拍器,节拍器的音色千差万别,例如:带重拍的机械节拍器、人声节拍器、带音高的电子节拍器等等。
4.然而在基于信号处理或深度学习算法的智能评测或其他场景中,节拍器是一种噪声,它的存在会严重影响这些算法的性能,例如:乐谱跟随算法、音高估计算法、音视频通话的回声消除/降噪算法等,受到强节拍器噪声的影响会导致乐谱跟随的光标在乐谱上乱跳,音高估计不准,音视频通话中音质失真等严重问题。尤其在开启同一部终端设备自带的节拍器进行智能评测的时候,由于固体传声能量远大于空气传声,导致终端设备的麦克风收到的节拍器噪声更大,通常比乐器演奏音频的能量高出几十db;而人们通常喜欢把节拍器开到最大音量,这又会在节拍器信号通过扬声器播放的时候由于超出功率放大器的线性工作区间或麦克风扬声器声学腔体设计缺陷等原因引入非线性失真。因此节拍器噪声具有非线性、高功率、非平稳等特性,这表明基于传统信号处理的自适应滤波和各类降噪方法并不适用于此场景;同时由于节拍器噪声种类五花八门,加上各式各样的房间冲击响应、麦克风的频率响应和使用环境下的背景噪声,导致很难获得如此多的节拍器数据,因此通过数据驱动方式训练的深度神经网络模型的声源分离方法在此场景的应用效果并不理想,模型泛化能力有限。
5.现有技术中,公开号为:cn111370019a中国发明专利于2020年7月3日公开了一种声源分离方法及装置、神经网络的模型训练方法及装置,方法包括:获取混合音频;确定与混合音频对应的声源标签组;根据声源标签组,确定条件向量组;将条件向量组和混合音频输入至第一神经网络进行声源分离处理以得到目标声源组,其中,目标声源组中的目标声源与条件向量组的条件向量一一对应。该方案利用神经网络进行声源分离,模型泛化能力有限。


技术实现要素:

6.本发明为克服上述现有的在音频中去除节拍器噪声方法效果不理想的缺陷,提供一种音频中节拍器噪声抑制方法及系统。
7.本发明的首要目的是为解决上述技术问题,本发明的技术方案如下:
8.本发明第一方面提供了一种音频中节拍器噪声抑制方法,包括以下步骤:
9.s1:获取节拍器空响音频,对获取的所述音频进行短时傅里叶变换和时频谱矩阵处理得到节拍器词典和节拍器词典的激活权重;
10.s2:获取待处理的音频信号并进行短时傅里叶变换,得到第t帧信号的幅度谱和相位谱并对幅度谱进行归一化;
11.s3:对待处理的音频信号进行声源分离,利用得到的幅度谱和相位谱分别重建得到节拍器时域信号和乐器音频时域信号。
12.进一步地,步骤s1的具体过程为:
13.s101,获取节拍器空响音频,将节拍器的空响音频分帧加窗处理并进行短时傅里叶变换;
14.s102,将傅里叶变换得到的信号序列归一化处理得到时频谱矩阵;
15.s103,对时频谱矩阵利用em算法进行非负矩阵分解得到节拍器词典w
m
和节拍器词典的激活权重h
m

16.进一步地,节拍器信号的幅度谱为:
17.m=w
m
*h
m
18.乐器信号的幅度谱为:
19.i=w
i
*h
i
20.其中,w
m
表示节拍器词典,h
m
表示节拍器词典的激活权重,w
i
表示乐器词典,h
i
表示乐器词典的激活权重。
21.进一步地,所述待处理的音频信号为实时信号时其处理过程为:
22.a1:获取待处理的实时信号并进行短时傅里叶变换,得到第t帧信号的幅度谱和相位谱,归一化当前帧的幅度谱,利用幅度谱判断第t帧信号是否为静音帧,若为静音帧则对第t帧信号重建,若为非静音帧则转至步骤a2;
23.a2:判断非静音帧包括节拍器还是仅包括乐器帧,若包括节拍器则对该非静音帧进行节拍器分离;若仅包括乐器帧则将该帧存入乐器帧缓冲器中同时学习乐器词典,并将存入的乐器帧替代最老的乐器帧,同时重建该非静音帧的时域信号;
24.a3:将包括节拍器的非静音帧进行节拍器和乐器声源分离,分别得到声源分离后的乐器音频的幅度谱;
25.a4:将步骤a3得到的乐器音频的d幅度谱进行归一化并结合步骤a1中得到的相位谱进行逆傅里叶变换,重建得到步骤a3所述的非静音帧的乐器音频的时域信号。
26.进一步地,步骤a1的具体过程为:
27.a101,获取待处理的实时信号进行分帧加窗后并进行短时傅里叶变换,得到第t帧信号的幅度谱和相位谱;
28.a102,对幅度谱进行归一化,计算第t帧信号的能量;
29.a103,若第t帧信号的能量小于预设的阈值则判断第t帧信号为静音帧,并利用该帧的相位谱和逆傅里叶变换进行信号重建;
30.a104,若第t帧信号的能量大于预设的阈值,则判断第t帧信号为非静音帧并转至步骤a2进行非静音帧处理。
31.进一步地,步骤a2的具体过程为:
32.a201,利用节拍器字典重建非静音帧的幅度谱记为计算与真实幅度谱之间的
散度;
33.a202,若散度小于预设的散度阈值则该非静音帧包含有节拍器并转至步骤a3进行节拍器和声源分离;
34.a203,若散度大于预设的散度阈值则该非静音帧仅包含乐器帧将该帧存入乐器帧缓冲器中用于学习乐器词典,并将存入的乐器帧替代最老的乐器帧,同时利用该帧的真实幅度谱和相位谱重建该非静音帧的时域信号。
35.进一步地,所述乐器帧缓冲器的长度范围为0.5

2秒。
36.进一步地,步骤a3的具体过程为:
37.固定上一帧的节拍器词典w
m
和乐器词典w
i
对包含有节拍器的非静音帧进行全监督分离,对该帧信号的幅度谱s进行非负矩阵分解,得到激活权重h
s
,即
38.s=w
s
*h
s
39.其中,w
s
=[w
m
w
i
],h
s
=[h
m
h
i
],非负矩阵分解通过期望最大算法实现,具体过程如下:
[0040]
期望步:
[0041]
p
tf
=[w
m
w
i
]*h
s
[0042][0043]
其中,p
tf
表示通过节拍器词典和乐器词典重建的音频信号幅度谱,r表示该帧信号的真实幅度谱s与重建幅度谱p
tf
的相似程度;
[0044]
最大步:
[0045]
n_h=h
s
*[w
m
w
i
]
t
*r
[0046][0047]
其中,n_h是最大步的中间变量,w
m
是帧长n*m大小的矩阵,w
i
是帧长n*i大小的矩阵,h
s
是个列向量,共有m+i个元素;
[0048]
将上述期望步和最大步循环迭代n次即可得到h
s
,取h
s
的上面m个元素得到的列向量就是节拍器声源的激活权重h
m
,取h
s
中下面i个元素得到的列向量就是乐器声源的激活权重h
i

[0049]
则声源分离后的节拍器信号的幅度谱为:
[0050]
m=w
m
*h
m
[0051]
声源分离后的乐器信号的幅度谱为:
[0052]
i=w
i
*h
i

[0053]
进一步地,所述待处理的音频信号为离线音频信号时,其具体的处理过程为:
[0054]
b1:获取离线音频信号,并进行短时傅里叶变换后分别计算得到幅度谱s和相位谱p,对幅度谱的每一帧进行归一化处理,固定节拍器词典对归一化后的幅度谱进行非负矩阵分解;
[0055]
b2:分别学习乐器词典、乐器词典的激活权重、节拍器词典的激活权重,并计算节拍器信号的幅度谱和乐器信号的幅度谱;
[0056]
b3:用逆短时傅里叶变换结合相位谱p对乐器信号幅度谱和节拍器信号幅度谱进
行时域信号重建,分别得到声源分离后的乐器音频的时域信号和节拍器时域信号。
[0057]
本发明第二方面提供了一种音频中节拍器噪声抑制系统,该系统包括:存储器、处理器,所述存储器中包括音频中节拍器噪声抑制方法程序,所述音频中节拍器噪声抑制方法程序被所述处理器执行时实现如下步骤:
[0058]
s1:获取节拍器空响音频,对获取的所述音频进行短时傅里叶变换和时频谱矩阵处理得到节拍器词典和节拍器词典的激活权重;
[0059]
s2:获取待处理的音频信号并进行短时傅里叶变换,得到第t帧信号的幅度谱和相位谱并对幅度谱进行归一化;
[0060]
s3:对待处理的音频信号进行声源分离,利用得到的幅度谱和相位谱分别重建得到节拍器时域信号和乐器音频时域信号。
[0061]
与现有技术相比,本发明技术方案的有益效果是:
[0062]
本发明基于词典学习的算法思想,对时频谱矩阵处理得到节拍器词典,将音频信号进行傅里叶变换利用节拍器字典检测出非静音帧,进行声源分离,最后重建乐器声源的时域信号,实现对节拍器噪声的抑制,提高了降噪的效果,在降噪的同时保证乐器演奏音频的音质,从而提升各类算法在包含节拍器噪声下的运行效果。
附图说明
[0063]
图1为本发明一种音频中节拍器噪声抑制方法流程图。
[0064]
图2为本发明实施例实时音频信号中节拍器噪声抑制过程流程图。
[0065]
图3为本发明实施例离线音频信号中节拍器噪声抑制过程流程图。
[0066]
图4为本发明一种音频中节拍器噪声抑制系统框程图。
具体实施方式
[0067]
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本技术的实施例及实施例中的特征可以相互组合。
[0068]
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
[0069]
实施例1
[0070]
如图1所示,一种音频中节拍器噪声抑制方法,包括以下步骤:
[0071]
s1:获取节拍器空响音频,对获取的所述音频进行短时傅里叶变换和时频谱矩阵处理得到节拍器词典w
m

[0072]
在一个具体的实施例中,节拍器空响音频可以在演奏录音的开头处获取或者选择安静的环境在每次演奏的开头处留出2

3拍的节拍器空响后再进行演奏,获取到质量较高的节拍器空响音频了。
[0073]
步骤s1的具体过程为:
[0074]
s101,获取节拍器空响音频,将节拍器的空响音频分帧加窗处理并进行短时傅里叶变换;
[0075]
s102,将傅里叶变换得到的信号矩阵归一化处理得到时频谱矩阵;
[0076]
s103,对时频谱矩阵利用em算法进行非负矩阵分解得到节拍器词典w
m
和节拍器词典的激活权重h
m

[0077]
其中,时频谱矩阵可以记为m,则其非负矩阵分解可以表示为:
[0078]
m=w
m
*h
m
[0079]
w
m
表示节拍器词典、h
m
表示节拍器词典的激活权重。
[0080]
s2:获取待处理的音频信号并进行短时傅里叶变换,得到第t帧信号的幅度谱和相位谱并对幅度谱进行归一化;
[0081]
需要说明的是,本发明中待处理的音频信号可以为实时信号或者离线信号,如图2所示,当待处理的音频信号为实时信号时其处理过程为:
[0082]
a1:获取待处理的实时信号并进行短时傅里叶变换,得到第t帧信号的幅度谱和相位谱,归一化当前帧的幅度谱,利用幅度谱判断第t帧信号是否为静音帧,若为静音帧则对第t帧信号重建,若为非静音帧则转至步骤a2;
[0083]
其中,a1的具体过程为:
[0084]
a101,获取待处理的实时信号进行分帧加窗后并进行短时傅里叶变换,得到第t帧信号的幅度谱和相位谱;
[0085]
a102,对幅度谱进行归一化,计算第t帧信号的能量;
[0086]
a103,若第t帧信号的能量小于预设的阈值则判断第t帧信号为静音帧,并利用该帧的相位谱和逆傅里叶变换进行信号重建;
[0087]
a104,若第t帧信号的能量大于预设的阈值,则判断第t帧信号为非静音帧并转至步骤a2进行非静音帧处理。
[0088]
需要说明的是,所述非静音帧即该帧信号中包括节拍器和乐器演奏音频,若第t帧为非静音帧则进行非静音帧处理。
[0089]
a2:判断非静音帧包括节拍器还是仅包括乐器帧,若包括节拍器则对该非静音帧进行节拍器分离;若仅包括乐器帧则将该帧存入乐器帧缓冲器中同时学习乐器词典,并将存入的乐器帧替代最老的乐器帧,同时重建该非静音帧的时域信号;
[0090]
其中,a2的具体过程为:
[0091]
a201,利用节拍器字典重建非静音帧的幅度谱记为计算与真实幅度谱之间的散度;
[0092]
a202,若散度小于预设的散度阈值则该非静音帧包含有节拍器并转至步骤a3进行节拍器和声源分离;
[0093]
a203,若散度大于预设的散度阈值则该非静音帧仅包含乐器帧将该帧存入乐器帧缓冲器中用于学习乐器词典,并将存入的乐器帧替代最老的乐器帧,同时利用该帧的真实幅度谱和相位谱重建该非静音帧的时域信号。
[0094]
需要说明的是,所述乐器帧缓冲器的长度范围为0.5

2秒。
[0095]
a3:将包括节拍器的非静音帧进行节拍器和乐器声源分离,分别得到声源分离后的乐器音频的幅度谱;
[0096]
具体过程为:
[0097]
固定上一帧的节拍器词典w
m
和乐器词典w
i
对包含有节拍器的非静音帧进行全监督
分离,对该帧信号的幅度谱s进行非负矩阵分解,得到激活权重h
s
,即
[0098]
s=w
s
*h
s
[0099]
其中,w
s
=[w
m
w
i
],h
s
=[h
m
h
i
],非负矩阵分解通过期望最大算法实现,具体过程如下:
[0100]
期望步(e

step):
[0101]
p
tf
=[w
m
w
i
]*h
s
[0102][0103]
其中,p
tf
表示通过节拍器词典和乐器词典重建的音频信号幅度谱,r表示该帧信号的真实幅度谱s与重建幅度谱p
tf
的相似程度;
[0104]
最大步(m

step):
[0105]
n_h=h
s
*[w
m
w
i
]
t
*r
[0106][0107]
其中,n_h是最大步的中间变量,w
m
是帧长n*m大小的矩阵,w
i
是帧长n*i大小的矩阵,h
s
是个列向量,共有m+i个元素;
[0108]
将上述期望步和最大步循环迭代n次即可得到h
s
,取h
s
的上面m个元素得到的列向量就是节拍器声源的激活权重h
m
,取h
s
中下面i个元素得到的列向量就是乐器声源的激活权重h
i

[0109]
则声源分离后的节拍器信号的幅度谱为:
[0110]
m=w
m
*h
m
[0111]
声源分离后的乐器信号的幅度谱为:
[0112]
i=w
i
*h
i

[0113]
a4:将步骤a3得到的乐器音频的幅度谱进行归一化并结合步骤a1中得到的相位谱(即带噪信号的原始相位谱)进行逆傅里叶变换,重建得到步骤a3所述的非静音帧的乐器音频的时域信号。
[0114]
如图3所示,当待处理的音频信号为离线音频信号时,其具体的处理过程为:
[0115]
b1:获取离线音频信号,并进行短时傅里叶变换后分别计算得到幅度谱s和相位谱p,对幅度谱的每一帧进行归一化处理,固定节拍器词典对归一化后的幅度谱进行非负矩阵分解;
[0116]
b2:分别学习乐器词典、乐器词典的激活权重、节拍器词典的激活权重,并计算节拍器信号的幅度谱和乐器信号的幅度谱;
[0117]
其中,所述节拍器信号的幅度谱计算公式为:
[0118]
m=w
m
*h
m
[0119]
乐器信号的幅度谱计算公式为:
[0120]
i=w
i
*h
i
[0121]
b3:用逆短时傅里叶变换结合相位谱p对乐器信号幅度谱和节拍器信号幅度谱进行时域信号重建,分别得到声源分离后的乐器音频的时域信号和节拍器时域信号。
[0122]
如图4所示,本发明第二方面提供了一种音频中节拍器噪声抑制系统,该系统包
括:存储器、处理器,所述存储器中包括音频中节拍器噪声抑制方法程序,所述音频中节拍器噪声抑制方法程序被所述处理器执行时实现如下步骤:
[0123]
s1:获取节拍器空响音频,对获取的所述音频进行短时傅里叶变换和时频谱矩阵处理得到节拍器词典w
m

[0124]
s2:获取待处理的音频信号并进行短时傅里叶变换,得到第t帧信号的幅度谱和相位谱并对幅度谱进行归一化;
[0125]
s3:对待处理的音频信号进行声源分离,利用得到的幅度谱和相位谱分别重建得到节拍器时域信号和乐器音频时域信号。
[0126]
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。