首页 > 乐器声学 专利正文
一种乐音数据的采集和特征识别方法与流程

时间:2022-02-06 阅读: 作者:专利查询

一种乐音数据的采集和特征识别方法与流程

1.本发明涉及乐音的识别,特别是指一种乐音数据的采集和特征识别方法。


背景技术:

2.音乐是人类最古老、最具普遍性和感染力的艺术形式之一,至今仍在人类的生活中占有不可或缺的地位。对音乐的创造、表现、理解、欣赏,是人类最基本的精神活动之一。音乐的创造、传播和利用,被信息时代赋予新的丰富内涵和特征。网络空间里音频以及多媒体文件数量成指数形态激增,而各类以网络为传输媒介的海量音频数据库也蓬勃发展。其中,数字音乐与人们日常生活最为贴近,也是目前互联网上总体被访问及使用频度最多的资源之一。另一方面音乐正逐步走出纯文艺的范畴,向着工业、农业和医疗方面渗透和发展,诞生了大量多学科交叉崭新的研究方向和应用领域,例如音乐喷泉、音乐辅助养殖、音乐心理治疗等等。
3.但是,在如此巨大且不断发展的市场中,一个问题却逐渐凸现,即数字音乐资源的识别、鉴赏和利用,很大程度上依然依靠相关从业人员的人工劳动:数字音乐的特征提取和精确检索依据依然是后期追加的音频文件、数据库的标签关键字,而不是音乐本身。用户可以指派机器按照若干个标签的组合(如歌名、演唱者、年代、风格等)筛选音乐;但当用户想获得具有某类特殊属性(如具有同一调式,使用同一种乐器等)的音乐,甚至用户自己无法提供除目标歌曲旋律片断外的任何信息时,机器就显得无能力了。


技术实现要素:

4.本发明为解决现有技术中存在的问题,提出一种乐音数据的采集和特征识别方法。
5.本发明的技术方案是这样实现的:一种乐音数据的采集和特征识别方法,包括以下步骤:步骤一:基于已有的高品质数字音乐文件库,提取时频域信号特征,评估并确定已知乐音识别的关键采集信息元,自动分割乐音数据并分解时频域乐音信息,构建声学

统计学

效应的分层映射模型,对电子乐音数据的旋律特征进行统计构建已知特征矢量矩阵,建立特征矢量空间;步骤二:构建评价指标体系,确立乐音识别的关键信息元;步骤三:对目标乐音进行预处理和时频域分解,提取目标乐音的关键信息并与步骤二中的关键信息元组成关键信息集;步骤四:通过确立乐音识别的关键信息集构建乐音的目标特征矢量矩阵;步骤五:将构建乐音的目标特征矢量矩阵,置于已知数字音乐库的特征矢量空间中进行距离计算和匹配得出特征矢量空间距离和匹配结果。
6.优选的,在步骤一中,电子乐音数据的所述旋律特征的波形函数为:令y(jω)为离散时间信号y(n)的dft变换,则有:
y(jω)=s
i
(jω)
·
f
i
(jω)其中,ω
i
为指定音的基频或倍频,a
i
为基频点或倍频点的振幅,α
i
用来调节基频或者倍频附近波形宽度,f
i
为关于正弦和余弦的函数;对此建立矩阵,记录乐音各倍频点的相对振幅比例关系,把振动总能量按相对振幅的比例分配到各倍频点上,频率的记录矩阵就作为一种特征矢量,成为组成特征矢量空间的一个维度。
6.优选的,在步骤二中针对基音、泛音、响度、速度等乐音的关键信息进行系统分析,构建评价指标体系,建立乐音识别的关键信息元。
8.优选的,在步骤三中,对目标乐音进行预处理和时频域分解,采用分析时间轴的乐音信号,包括波形归一处理、端点检测、单音符分隔,其中将乐音进行分割离散化得到音符,在cqt频谱上构造有效的检测函数,利用检测函数的峰值来确定音符起始点的位置,检测函数的构造应用了幅度与相位联合判别的思想,在复数域进行构建:cqt频谱在时间t和谱线k处的谱值x[t,k]可以写作复数:其中,ψ(t,k)在(

π,π)区间,是x[t,k]的相位;构造检测函数df(t)满足:其中,n
b
为频率谱线分量数。此检测函数联合能量与相位属性来考察候选起始点,配合自适应函数阈值δ[t],利用一定范围内的加权中值来筛选出真正的峰值作为音符起始点。
[0009]
δ[t]=δ0+λ
·
median(df(t

t1),...,df(t+t2)),其中t1,t2,δ0,λ为可变常数,median()为取中值;在进行复数域构建后,乐音信号的频域特征的处理方式采用滤波去噪、频带限制、频率检测,利用快速傅里叶变换fft消除高频噪声,利用高通滤波器h(ω)构造多辨分析mra,将时变信号分解为j个尺度的分量的正交和,以daubechies

4阶小波进行采样分解。
[0010]
优选的,在步骤四中,通过步骤二得到乐音的诸个关键信息元结合步骤三中对目标乐音进行预处理和时频域分解后提取目标乐音的关键信息,运用模糊综合评价技术和ahp分析法,对乐音信息的关键性进行定权排序,基于定权排序的结论,构建关键信息元的遴选和关键信息集。
[0011]
优选的,在步骤四中,利用目标乐音的旋律特征的波形函数建立目标矢量矩阵。
[0012]
优选的,在步骤五中,在进行距离计算和匹配时,是基于听觉显著度特征开展旋律流的检测、提取和识别,对于t时刻的各个子带,经过cqt变换、各子带数据建模、时序贝叶斯推断、子带as特征分量计算后利用tann网络识别出听觉显著度明显的多个子带作为候选半音,形成一个显著的半音复合结构;半音复合结构随着时间的变化组成了时间序列,形成了候选旋律流,在得到初步的旋律流后,衍生广义和弦结构的先验知识可规范候选旋律流中每一时刻的类和弦结构,所以先验知识与tann网络输出的候选旋律流作融合,提取得到最
终旋律流。
[0013]
本发明的有益效果是:本发明基于已有的高品质数字音乐文件库,采用时频域信号特征提取的最新技术,评估并确定乐音识别的关键采集信息元,自动分割乐音数据并分解时频域乐音信息,构建声学

统计学

效应的分层映射模型,对电子乐音数据的旋律特性进行统计,建立特征矢量空间,实现乐音数据的旋律可量化描述,并开展旋律提取、匹配和应用。
附图说明
[0014]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本发明的结构框架图;图2为daubechies

4阶小波函数图;图3为乐音旋律的检测、提取和识别流程图。
具体实施方式
[0016]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0017]
如图1~图3所示一种乐音数据的采集和特征识别方法,包括以下步骤:步骤一:基于已有的高品质数字音乐文件库,提取时频域信号特征,评估并确定已知乐音识别的关键采集信息元,自动分割乐音数据并分解时频域乐音信息,构建声学

统计学

效应的分层映射模型,对电子乐音数据的旋律特征进行统计构建已知特征矢量矩阵,建立特征矢量空间;步骤二:构建评价指标体系,确立乐音识别的关键信息元;步骤三:对目标乐音进行预处理和时频域分解,提取目标乐音的关键信息并与步骤二中的关键信息元组成关键信息集;步骤四:通过确立乐音识别的关键信息集构建乐音的目标特征矢量矩阵;步骤五:将构建乐音的目标特征矢量矩阵,置于已知数字音乐库的特征矢量空间中进行距离计算和匹配得出特征矢量空间距离和匹配结果。
[0018]
在步骤一中,电子乐音数据的所述旋律特征的波形函数为:令y(jω)为离散时间信号y(n)的dft变换,则有:y(jω)=s
i
(jω)
·
f
i
(jω)
其中,ω
i
为指定音的基频或倍频,a
i
为基频点或倍频点的振幅,α
i
用来调节基频或者倍频附近波形宽度,f
i
为关于正弦和余弦的函数;对此建立矩阵,记录乐音各倍频点的相对振幅比例关系,把振动总能量按相对振幅的比例分配到各倍频点上,频率的记录矩阵就作为一种特征矢量,成为组成特征矢量空间的一个维度。
[0019]
在步骤二中针对基音、泛音、响度、速度等乐音的关键信息进行系统分析,构建评价指标体系,建立乐音识别的关键信息元。
[0020]
在步骤三中,对目标乐音进行预处理和时频域分解,采用分析时间轴的乐音信号,包括波形归一处理、端点检测、单音符分隔,其中将乐音进行分割离散化得到音符,在cqt频谱上构造有效的检测函数,利用检测函数的峰值来确定音符起始点的位置,检测函数的构造应用了幅度与相位联合判别的思想,在复数域进行构建:cqt频谱在时间t和谱线k处的谱值x[t,k]可以写作复数:其中,ψ(t,k)在(

π,π)区间,是x[t,k]的相位;构造检测函数df(t)满足:其中,n
b
为频率谱线分量数。此检测函数联合能量与相位属性来考察候选起始点,配合自适应函数阈值δ[t],利用一定范围内的加权中值来筛选出真正的峰值作为音符起始点。
[0021]
δ[t]=δ0+λ
·
median(df(t

t1),...,df(t+t2)),其中t1,t2,δ0,λ为可变常数,median()为取中值;在进行复数域构建后,乐音信号的频域特征的处理方式采用滤波去噪、频带限制、频率检测,利用快速傅里叶变换fft消除高频噪声,利用高通滤波器h(ω)构造多辨分析mra,将时变信号分解为j个尺度的分量的正交和,以daubechies

4阶小波进行采样分解。
[0022]
在步骤四中,通过步骤二得到乐音的诸个关键信息元结合步骤三中对目标乐音进行预处理和时频域分解后提取目标乐音的关键信息,运用模糊综合评价技术和ahp分析法,对乐音信息的关键性进行定权排序,基于定权排序的结论,构建关键信息元的遴选和关键信息集。
[0023]
在步骤四中,利用目标乐音的旋律特征的波形函数建立目标矢量矩阵。
[0024]
在步骤五中,在进行距离计算和匹配时,是基于听觉显著度特征开展旋律流的检测、提取和识别,对于t时刻的各个子带,经过cqt变换、各子带数据建模、时序贝叶斯推断、子带as特征分量计算后利用tann网络识别出听觉显著度明显的多个子带作为候选半音,形成一个显著的半音复合结构;半音复合结构随着时间的变化组成了时间序列,形成了候选旋律流,在得到初步的旋律流后,衍生广义和弦结构的先验知识可规范候选旋律流中每一时刻的类和弦结构,所以先验知识与tann网络输出的候选旋律流作融合,提取得到最终旋律流。
[0025]
本方法可以应用到多种场景,如:音乐心理治疗和音乐喷泉中。
[0026]
在音乐心里治疗时,建立一个适用于心理治疗环境下的音乐检索系统,当系统记录到对病患生理特征有积极影响的音乐片段时,则检索出具有相似情感特征的音乐,并推送用户试听,再通过分析多用户的验证反馈,最终筛选出对多个用户具有疗效的音乐,建立一个具有医疗功能的音乐资源数据库。
[0027]
应用到音乐喷泉时,建立一套音乐喷泉模拟控制系统,该系统是在简单的喷泉控制的基础上加入了音乐控制系统,计算机通过对音频及midi信号的特征识别,进行译码和编码,最终将信号输出到控制系统,使喷泉的造型及灯光的变化与音乐保持同步,从而达到喷泉水型、灯光及色彩的变化与音乐情绪的完美结合,使喷泉表演更加生动更加富有内涵。可以根据音乐的高低起伏变化,播放系统可以实现音乐、水、灯光气氛统一,播放同步,从而达到最佳的心灵和艺术感染效果。
[0028]
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。