首页 > 乐器声学 专利正文
音频合成方法、装置、设备及计算机可读存储介质与流程

时间:2022-01-17 阅读: 作者:专利查询

音频合成方法、装置、设备及计算机可读存储介质与流程

1.本技术实施例涉及计算机技术领域,特别涉及一种音频合成方法、装置、设备及计算机可读存储介质。


背景技术:

2.随着音频资源(如音乐)的不断丰富,人们可以随时随地听想听的音乐。但是,听障患者由于对声音高频分量的敏感程度不够,在收听音频时容易出现听不到的问题。因此,亟需一种音频合成方法来合成听障患者能够听到的音频。
3.相关技术中,以音频资源为音乐为例。听障患者在收听音乐时,如果没有佩戴助听器,只能听到音乐中的低频分量的声音,无法听到音乐中的高频分量的声音,使得听障患者听到的音乐断断续续,不够流畅。进而导致听障患者听到的音乐较为失真,音质较差,使得听障患者的音乐收听效果较差。


技术实现要素:

4.本技术实施例提供了一种音频合成方法、装置、设备及计算机可读存储介质,可用于解决相关技术中的问题。所述技术方案如下:
5.一方面,本技术实施例提供了一种音频合成方法,所述方法包括:
6.获取目标音乐的曲谱数据,其中,所述曲谱数据包括多个子音频对应的音频数据标识和演奏时间信息,每个子音频对应的乐器音色与听障听力音色相匹配;
7.基于每个音频数据标识获取对应的子音频;
8.基于所述每个子音频对应的演奏时间信息,对所述每个子音频进行融合处理,生成所述目标音乐的合成音频。
9.可选地,在所述每个子音频对应的乐器的频谱中,低频频段的能量与高频频段的能量的比值大于比值阈值,所述低频频段为低于频率阈值的频段,所述高频频段为高于所述频率阈值的频段,其中,所述比值阈值用于指示能够供听障患者听到的音频的频谱中所述低频频段的能量与所述高频频段的能量的比值需要满足的条件。
10.可选地,所述获取目标音乐的曲谱数据,包括:
11.基于所述目标音乐的曲速、拍号和和弦列表,确定所述多个子音频对应的音频数据标识和演奏时间信息。
12.可选地,所述多个子音频包括鼓点子音频和和弦子音频;
13.所述基于所述目标音乐的曲速、拍号和和弦列表,确定所述多个子音频对应的音频数据标识和演奏时间信息,包括:
14.基于所述目标音乐的曲速和拍号,确定所述鼓点子音频对应的音频数据标识和演奏时间信息;
15.基于所述目标音乐的曲速、拍号和和弦列表,确定所述和弦子音频对应的音频数据标识和演奏时间信息;
16.所述鼓点子音频对应的音频数据标识和演奏时间信息、以及所述和弦子音频对应的音频数据标识和演奏时间信息,组成所述多个子音频对应的音频数据标识和演奏时间信息。
17.可选地,所述基于所述目标音乐的曲速和拍号,确定所述鼓点子音频对应的音频数据标识和演奏时间信息,包括:
18.确定所述目标音乐的拍号和曲速对应的音频数据标识,将所述目标音乐的拍号和曲速对应的音频数据标识作为所述鼓点子音频对应的音频数据标识;
19.基于所述目标音乐的拍号和曲速,确定所述鼓点子音频对应的演奏时间信息。
20.可选地,所述和弦列表包括和弦标识和所述和弦标识对应的演奏时间信息;
21.所述基于所述目标音乐的曲速、拍号和和弦列表,确定所述和弦子音频对应的音频数据标识和演奏时间信息,包括:
22.基于所述目标音乐的曲速和拍号,确定所述和弦标识对应的音频数据标识;
23.将所述和弦标识对应的演奏时间信息和音频数据标识,确定为所述和弦子音频对应的演奏时间信息和音频数据标识。
24.可选地,所述基于所述每个子音频对应的演奏时间信息,对所述每个子音频进行融合处理,生成所述目标音乐的合成音频,包括:
25.基于所述每个子音频对应的演奏时间信息,对所述每个子音频进行融合处理,得到所述目标音乐的中间音频;
26.对所述目标音乐的中间音频进行频域压缩处理,得到所述目标音乐的合成音频。
27.可选地,所述对所述目标音乐的中间音频进行频域压缩处理,得到所述目标音乐的合成音频,包括:
28.获取所述中间音频对应的第一频率区间的第一子音频和第二频率区间的第二子音频,其中,所述第一频率区间的频率小于第二频率区间的频率;
29.基于第一增益系数,对所述第一子音频进行增益补偿,得到第三子音频,基于第二增益系数,对第二子音频进行增益补偿,得到第四子音频;
30.对所述第四子音频进行压缩移频处理,得到第五子音频,其中,所述第五子音频对应的第三频率区间的下限与所述第二频率区间的下限相等;
31.对所述第三子音频和所述第五子音频进行融合处理,得到所述目标音乐的合成音频。
32.可选地,所述对所述第四子音频进行压缩移频处理,得到第五子音频,包括:
33.对所述第四子音频进行目标比例的频率压缩,得到第六子音频;
34.对所述第六子音频进行目标数值的频率上移,得到所述第五子音频,其中,所述目标数值等于所述第二频率区间的下限与所述第六子音频对应的第四频率区间的下限的差值。
35.另一方面,本技术实施例提供了一种音频合成装置,所述装置包括:
36.获取模块,用于获取目标音乐的曲谱数据,其中,所述曲谱数据包括多个子音频对应的音频数据标识和演奏时间信息,每个子音频对应的乐器音色与听障听力音色相匹配;
37.所述获取模块,用于基于每个音频数据标识获取对应的子音频;
38.生成模块,用于基于所述每个子音频对应的演奏时间信息,对所述每个子音频进
行融合处理,生成所述目标音乐的合成音频。
39.可选地,在所述每个子音频对应的乐器的频谱中,低频频段的能量与高频频段的能量的比值大于比值阈值,所述低频频段为低于频率阈值的频段,所述高频频段为高于所述频率阈值的频段,其中,所述比值阈值用于指示能够供听障患者听到的音频的频谱中所述低频频段的能量与所述高频频段的能量的比值需要满足的条件。
40.可选地,所述获取模块,用于基于所述目标音乐的曲速、拍号和和弦列表,确定所述多个子音频对应的音频数据标识和演奏时间信息。
41.可选地,所述多个子音频包括鼓点子音频和和弦子音频;
42.所述获取模块,用于基于所述目标音乐的曲速和拍号,确定所述鼓点子音频对应的音频数据标识和演奏时间信息;
43.基于所述目标音乐的曲速、拍号和和弦列表,确定所述和弦子音频对应的音频数据标识和演奏时间信息;
44.所述鼓点子音频对应的音频数据标识和演奏时间信息、以及所述和弦子音频对应的音频数据标识和演奏时间信息,组成所述多个子音频对应的音频数据标识和演奏时间信息。
45.可选地,所述获取模块,用于确定所述目标音乐的拍号和曲速对应的音频数据标识,将所述目标音乐的拍号和曲速对应的音频数据标识作为所述鼓点子音频对应的音频数据标识;
46.基于所述目标音乐的拍号和曲速,确定所述鼓点子音频对应的演奏时间信息。
47.可选地,所述和弦列表包括和弦标识和所述和弦标识对应的演奏时间信息;
48.所述获取模块,用于基于所述目标音乐的曲速和拍号,确定所述和弦标识对应的音频数据标识;
49.将所述和弦标识对应的演奏时间信息和音频数据标识,确定为所述和弦子音频对应的演奏时间信息和音频数据标识。
50.可选地,所述生成模块,用于基于所述每个子音频对应的演奏时间信息,对所述每个子音频进行融合处理,得到所述目标音乐的中间音频;
51.对所述目标音乐的中间音频进行频域压缩处理,得到所述目标音乐的合成音频。
52.可选地,所述合成模块,用于获取所述中间音频对应的第一频率区间的第一子音频和第二频率区间的第二子音频,其中,所述第一频率区间的频率小于第二频率区间的频率;
53.基于第一增益系数,对所述第一子音频进行增益补偿,得到第三子音频,基于第二增益系数,对第二子音频进行增益补偿,得到第四子音频;
54.对所述第四子音频进行压缩移频处理,得到第五子音频,其中,所述第五子音频对应的第三频率区间的下限与所述第二频率区间的下限相等;
55.对所述第三子音频和所述第五子音频进行融合处理,得到所述目标音乐的合成音频。
56.可选地,所述生成模块,用于对所述第四子音频进行目标比例的频率压缩,得到第六子音频;
57.对所述第六子音频进行目标数值的频率上移,得到所述第五子音频,其中,所述目
标数值等于所述第二频率区间的下限与所述第六子音频对应的第四频率区间的下限的差值。
58.另一方面,本技术实施例提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条程序代码,所述至少一条程序代码由所述处理器加载并执行,以使所述计算机设备实现上述任一所述的音频合成方法。
59.另一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行,以使计算机实现上述任一所述的音频合成方法。
60.另一方面,还提供了一种计算机程序或计算机程序产品,所述计算机程序或计算机程序产品中存储有至少一条计算机指令,所述至少一条计算机指令由处理器加载并执行,以使计算机实现上述任一种音频合成方法。
61.本技术实施例提供的技术方案至少带来如下有益效果:
62.本技术实施例提供的技术方案对目标音乐进行重新谱曲,谱曲的时候使用的子音频的乐器音色与听障听力音色相匹配,使得听障患者能够听到谱曲中使用的子音频,进而基于子音频得到目标音乐的合成音频,使得听障患者在收听目标音乐的合成音频时,不会出现断断续续,偶尔听不到的问题,而且,也不会有失真的情况,使得听障患者能够听到流程的音乐,听障患者的收听体验较好,能够从根源上解决听障患者收听音乐时音质差,收听效果差的问题。
附图说明
63.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
64.图1是本技术实施例提供的一种音频合成方法的实施环境示意图;
65.图2是本技术实施例提供的一种音频合成方法的流程图;
66.图3是本技术实施例提供的歌曲《天堂》的第四、五、六个音乐小节的简谱图;
67.图4是本技术实施例提供的歌曲《天堂》的第四、五、六个音乐小节的合成音频对应的简谱图;
68.图5是本技术实施例提供的一种音频合成方法的流程图;
69.图6是本技术实施例提供的一种音频合成装置的结构示意图;
70.图7是本技术实施例提供的一种终端设备的结构示意图;
71.图8是本技术实施例提供的一种服务器的结构示意图。
具体实施方式
72.为使本技术的目的、技术方案和优点更加清楚,下面将结合附图对本技术实施方式作进一步地详细描述。
73.下面对本技术实施例所涉及的术语做详细介绍。
74.wdrc(wide dynamic range compressor,宽动态范围压缩器),一种动态范围控制
算法,特点是低压缩比/低压缩阈,同时支持动态调节压缩指标。
75.cross-fade(交叉淡化):两个音频片段首尾重叠部分通过交织淡入淡出后拼接成完整音频片段。
76.非线性压缩移频:针对听觉受损高频分量进行压缩后平移到听障患者残留听力的低频区域的方法。
77.图1是本技术实施例提供的一种音频合成方法的实施环境示意图,如图1所示,该实施环境包括:计算机设备101。本技术实施例提供的音频合成方法可以由计算机设备101执行。示例性地,计算机设备101可以是终端设备,也可以是服务器,本技术实施例对此不加以限定。
78.终端设备可以是智能手机、游戏主机、台式计算机、平板电脑、电子书阅读器、mp3(moving picture experts group audio layer iii,动态影像专家压缩标准音频层面3)播放器、mp4(moving picture experts group audio layer iv,动态影像专家压缩标准音频层面4)播放器和膝上型便携计算机中的至少一种。
79.服务器可以是一台服务器,也可以是多台服务器组成的服务器集群,还可以是云计算平台和虚拟化中心中的任意一种,本技术实施例对此不加以限定。服务器与终端设备通过有线网络或无线网络进行通信连接。服务器可以具有数据收发、数据处理、数据存储的功能。当然,服务器还可以具有其他功能,本技术实施例对此不加以限定。
80.基于上述实施环境,本技术实施例提供了一种音频合成方法,以图2所示的本技术实施例提供的一种音频合成方法的流程图为例,该方法可由图1中的计算机设备101执行。如图2所示,该方法包括下述步骤:
81.在步骤201中,获取目标音乐的曲谱数据,其中,曲谱数据包括多个子音频的音频数据标识和演奏时间信息,每个子音频对应的乐器音色与听障听力音色相匹配。
82.在本技术示例性实施例中,目标音乐为包含有乐器演奏的声音的音乐。目标音乐可以是纯音乐,也可以是轻音乐,还可以是一首歌曲,本技术实施例对此不加以限定。
83.可选地,在每个子音频对应的乐器的频谱中,低频频段的能量与高频频段的能量的比值大于比值阈值,低频频段为低于频率阈值的频段,高频频段为高于频率阈值的频段,其中,比值阈值用于指示能够供听障患者听到的音频的频谱中低频频段的能量与高频频段的能量的比值需要满足的条件。
84.其中,频率阈值可以基于实验获得,本技术实施例对此不加以限定。例如频率阈值为2千赫兹。比值阈值为能够供听障患者听到的音频的频谱中低频频段的能量与高频频段的能量的比值的最小值。
85.示例性地,计算机设备中存储有多个音频,每个音频对应的低频频段的能量与高频频段的能量的比值各不相同,每个音频对应的低频频段的能量与高频频段的能量的比值之间相差一定数值,例如,相差2%。按照低频频段的能量与高频频段的能量的比值从高到低的顺序依次进行播放,以使听障患者进行收听,响应于听障患者能够听到低频频段的能量与高频频段的能量的比值为50%的音频,但是听障患者不能够听到低频频段的能量与高频频段的能量的比值为48%的音频,因此,将比值阈值设为50%。
86.一般来说,正常人所能听到的声音的频率区间大致在2万赫兹之内,听障患者能够听到的频率区间大致在8千赫兹之内。本技术实施例中使用的子音频对应的乐器的发声频
率主要在8千赫兹以内,这是针对听障患者所设计的,对于听障患者来说能够听的更清楚,所以用这些子音频合成得到的合成音频也能够更好的被听障患者收听。
87.可选地,确定哪些乐器音色与听障听力音色相匹配的过程为:获取每个乐器对应的声音,将每个乐器对应的声音进行播放,以使听障患者进行收听。基于听障患者的反馈信息,确定哪些乐器音色与听障听力音色相匹配。
88.如果反馈信息指示听障患者能够听到某一个声音,则确定听障患者能够听到的声音对应的乐器的乐器音色与听障听力音色相匹配。如果反馈信息指示听障患者不能听到某一个声音,则确定听障患者不能够听到的声音对应的乐器的乐器音色与听障听力音色不匹配。
89.示例性地,获取声音一、声音二和声音三,其中,声音一为钢琴对应的声音、声音二为贝斯对应的声音、声音三为小军鼓对应的声音。将这三个声音分别进行播放,以使听障患者分别收听这三个声音。如果听障患者能够听到声音二和声音三,不能听到声音一,则确定贝斯和小军鼓的音色与听障听力音色相匹配,而钢琴的音色与听障听力音色不匹配。
90.需要说明的是,可以获取所有乐器分别对应的声音,由听障患者进行收听,进而确定与听障听力音色相匹配的乐器音色,本技术实施例仅以上述两个乐器音色与听障听力音色相匹配为例进行说明,与听障听力音色相匹配的乐器音色可以更多或更少,本技术实施例对此并不加以限制。
91.可选地,目标音乐的曲谱数据中包括的音频数据标识和演奏时间信息对应的子音频可以是鼓点子音频,也可以是和弦子音频,还可以是鼓点子音频和和弦子音频,本技术实施例对此不加以限定。由于曲谱数据中包括的音频数据标识和演奏时间信息对应的子音频仅为鼓点子音频,或者仅为和弦子音频时,根据曲谱数据所得到的目标音乐的合成音频,虽然听障患者能够听到,但是这样的合成音频较为枯燥、单一,因此,本技术实施例以曲谱数据中包括的音频数据标识和演奏时间信息对应的子音频为鼓点子音频和和弦子音频为例进行说明。曲谱数据中包括鼓点子音频对应的音频数据标识和演奏时间信息,以及和弦子音频对应的音频数据标识和演奏时间信息。
92.需要说明的是,当目标音乐的曲谱数据中包括的音频数据标识和演奏时间信息对应的子音频为鼓点子音频,或者为和弦子音频时,目标音乐的合成音频的获取过程与目标音乐的曲谱数据中包括的音频数据标识和演奏时间信息对应的子音频为鼓点子音频和和弦子音频时,目标音乐的合成音频的获取过程类似。
93.在一种可能的实现方式中,获取目标音乐的曲谱数据的过程可以为:基于目标音乐的曲速、拍号和和弦列表,确定多个子音频对应的音频数据标识和演奏时间信息。
94.其中,在基于目标音乐的曲速、拍号和和弦列表,确定多个子音频对应的音频数据标识和演奏时间信息之前,还需要先确定目标音乐的曲速、拍号和和弦列表。确定目标音乐的曲速、拍号和和弦列表的方式包括但不限于下述三种:第一种:获取目标音乐对应的音频,采用音频分析工具对目标音乐对应的音频进行处理,得到目标音乐的曲速、拍号和和弦列表。第二种:获取目标音乐对应的曲谱,基于目标音乐对应的曲谱,确定目标音乐的曲速、拍号和和弦列表。其中,曲谱可以是五线谱,也可以是简谱,本技术实施例对此不加以限定。第三种:获取目标音乐的电子曲谱,采用曲谱分析工具对目标音乐的电子曲谱进行处理,得到目标音乐的曲速、拍号和和弦列表。其中,电子曲谱由目标音乐包括的每一拍对应的音符
组成,同时电子曲谱中还可以包括曲速和拍号等信息。
95.可选地,采用音频分析工具对目标音乐对应的音频进行处理,得到目标音乐的曲速、拍号和和弦列表的过程为:将目标音乐对应的音频输入音频分析工具,基于音频分析工具的输出结果,得到目标音乐的曲速、拍号和和弦列表。音频分析工具用于对音频进行分析,进而得到音频对应的曲速、拍号和和弦列表。当然,音频分析工具对音频进行分析,还可以得到音频的其他信息,本技术实施例对此不加以限定。音频分析工具可以为机器学习模型,如神经网络模型等。
96.可选地,基于目标音乐对应的曲谱,确定目标音乐的曲速、拍号和和弦列表的过程为:由具有音乐素养的用户基于目标音乐对应的曲谱,确定目标音乐的曲速、拍号和和弦列表。
97.可选地,采用曲谱分析工具对目标音乐的电子曲谱进行处理,得到目标音乐的曲速、拍号和和弦列表的过程为:将目标音乐对应的电子曲谱输入曲谱分析工具,由曲谱分析工具对目标音乐的电子曲谱进行分析,得到目标音乐的曲速、拍号和和弦列表。具体过程如下:
98.计算机设备中存储有和弦库,和弦库中存储有和弦标识与和弦电子曲谱的对应关系。曲谱分析工具对目标音乐的电子曲谱进行分析,得到目标音乐的和弦列表的过程如下:曲谱分析工具获取某一个音乐小节对应的电子曲谱片段,在上述对应关系中查找与该电子曲谱片段相匹配的和弦电子曲谱,将查找到的和弦电子曲谱对应的和弦标识,确定为该音乐小节的和弦标识,进而可以得到该音乐小节的演奏时间信息和该音乐小节对应的和弦标识。按照该方法遍历目标音乐的所有音乐小节,从而得到目标音乐的和弦列表。另外,曲谱分析工具可以直接在目标音乐的电子曲谱中获取曲速和拍号。
99.其中,和弦列表包括和弦标识和和弦标识对应的演奏时间信息。和弦标识可以是和弦名称,也可以是由组成该和弦的音符所组成的字符串,本技术实施例对此不加以限定。示例性地,和弦名称为c和弦,组成c和弦的音符为123,和弦标识可以是c和弦,也可以是123。
100.可选地,演奏时间信息包括开始节拍、结束节拍和持续节拍中的任意两个。例如,演奏时间信息包括开始节拍和结束节拍。示例性地,演奏时间信息为(1,4),也即是,演奏时间信息为从第1拍开始,到第4拍结束。又例如,演奏时间信息包括开始节拍和持续节拍。示例性地,演奏时间信息为【1,4】,也即是,演奏时间信息为从第1拍开始,持续4个节拍。又例如,演奏时间信息包括持续节拍和结束节拍。示例性地,演奏时间信息为[4,4],也即是演奏时间信息为持续4个节拍,到第4拍结束。
[0101]
示例性地,目标音乐的拍号为4/4拍,曲速为60拍/分,和弦列表如下述表一所示。其中,4/4拍是指4分音符为一拍,一个音乐小节有4拍;60拍/分是指一分钟有60拍,每拍之间的时间间隔是1秒。
[0102]
表一
[0103][0104][0105]
如上述表一所示,其中,(1,4)用于指示从第1拍开始,到第4拍结束,n.c用于指示没有和弦,和弦标识以及和弦标识对应的演奏时间信息见上述表一所示,在此不再一一赘述。
[0106]
需要说明的是,上述仅为本技术实施例提供的目标音乐包括的和弦标识以及和弦标识对应的演奏时间信息的一个示例,并不对目标音乐包括的和弦标识以及和弦标识对应的演奏时间信息进行限定。
[0107]
在一种可能的实现方式中,多个子音频包括鼓点子音频和和弦子音频。基于目标音乐的曲速、拍号和和弦列表,确定多个子音频对应的音频数据标识和演奏时间信息的过程为:基于目标音乐的曲速和拍号,确定鼓点子音频对应的音频数据标识和演奏时间信息;基于目标音乐的曲速、拍号和和弦列表,确定和弦子音频对应的音频数据标识和演奏时间信息。鼓点子音频对应的音频数据标识和演奏时间信息,以及和弦子音频对应的音频数据标识和演奏时间信息,组成多个子音频对应的音频数据标识和演奏时间信息。
[0108]
其中,基于目标音乐的曲速和拍号,确定鼓点子音频对应的音频数据标识和演奏时间信息的过程为:确定目标音乐的拍号和曲速对应的音频数据标识,将目标音乐的拍号和曲速对应的音频数据标识作为鼓点子音频对应的音频数据标识;基于目标音乐的拍号和曲速,确定鼓点子音频对应的演奏时间信息。
[0109]
可选地,在获取鼓点子音频对应的音频数据标识和演奏时间信息之前,需要先确定鼓点乐器。确定鼓点乐器的过程可以由人工在多个鼓点乐器中指定一个鼓点乐器,也可以由计算机设备随机确定一个鼓点乐器,本技术实施例对此不加以限定。需要说明的是,无论是人工指定的鼓点乐器,还是计算机设备随机确定的鼓点乐器,确定的鼓点乐器的乐器音色均与听障听力音色相匹配。
[0110]
示例性地,确定的鼓点乐器为小军鼓。
[0111]
在一种可能的实现方式中,确定出鼓点乐器之后,在第一音频库中获取确定的鼓点乐器对应的多个鼓点子音频,进而基于目标音乐的曲速和拍号,在多个鼓点子音频中确定与目标音乐的曲速和拍号对应的鼓点子音频,将与目标音乐的曲速和拍号对应的鼓点子
音频对应的音频数据标识作为曲谱数据中包括的鼓点子音频对应的音频数据标识。
[0112]
可选地,计算机设备中预先存储有第一音频库,第一音频库中存储有多个鼓点子音频,且第一音频库中存储的多个鼓点子音频对应的乐器音色与听障听力音色相匹配。第一音频库中的每个鼓点子音频都对应有一个音频数据标识。
[0113]
其中,第一音频库中存储的鼓点子音频为mp3(动态影像专家压缩标准音频层面3,moving picture experts group audio layer iii)格式的音频片段,或者为其它格式的音频片段,本技术实施例对此不加以限定。
[0114]
如下述表二所示为本技术实施例提供的第一音频库中存储的小军鼓的鼓点子音频对应的音频数据标识以及鼓点子音频对应的曲速、拍号的对应关系的表格。
[0115]
表二
[0116]
拍号曲速音频数据标识4/4拍60拍/分a14/4拍30拍/分a24/4拍80拍/分a33/4拍60拍/分a43/4拍30拍/分a53/4拍80拍/分a6
[0117]
基于上述表二可知,拍号为4/4拍,曲速为60拍/分时,鼓点子音频对应的音频数据标识为a1。拍号和曲速为其它时,鼓点子音频对应的音频数据标识见上述表二所示,在此不再赘述。
[0118]
需要说明的是,不同的音频数据标识对应的鼓点子音频是不一样的。例如,音频数据标识为a1时,对应的鼓点子音频是一段4拍、每拍之间的时间间隔为一秒的音频。音频数据标识为a2时,对应的鼓点子音频是一段4拍、每拍之间的时间间隔为2秒的音频。
[0119]
还需要说明的是,上述表二仅为本技术实施例提供的一种鼓点子音频对应的音频数据标识以及鼓点子音频对应的曲速、拍号的对应关系的示例,并不对第一音频库进行限制。第一音频库中包括各种鼓点乐器,在各种拍号、各种曲速时对应的鼓点子音频。
[0120]
示例性地,确定的鼓点乐器是小军鼓,目标音乐的曲速为60拍/分,拍号为4/4拍。在第一音频库中确定小军鼓对应的多个鼓点子音频。将多个鼓点子音频中与目标音乐的曲速和拍号对应的鼓点子音频的音频数据标识作为曲谱数据中包括的鼓点子音频对应的音频数据标识。也即是将音频数据标识a1确定为目标音乐的曲谱数据包括的鼓点子音频对应的音频数据标识。
[0121]
在一种可能的实现方式中,基于目标音乐的拍号和曲速,确定鼓点子音频对应的演奏时间信息的过程为:基于目标音乐的曲速和目标音乐的时长,确定目标音乐包括的节拍总数。基于目标音乐的拍号和目标音乐包括的节拍总数,确定目标音乐中包括的音乐小节的个数,基于目标音乐中包括的音乐小节的个数以及目标音乐的拍号,确定每个音乐小节对应的演奏时间信息,将每个音乐小节对应的演奏时间信息作为鼓点子音频对应的演奏时间信息。
[0122]
示例性地,目标音乐的曲速为60拍/分钟,时长为1分钟,则目标音乐中包括的节拍总数为60拍,目标音乐的拍号为4/4拍,则基于目标音乐的拍号和目标音乐包括的节拍总
数,确定目标音乐中包括15个音乐小节,由于每个音乐小节包括4拍,一共有15个音乐小节,进而可以确定每个音乐小节对应的演奏时间信息,进而将每个音乐小节对应的演奏时间信息作为鼓点子音频对应的演奏时间信息。
[0123]
示例性地,以目标音乐的曲速为60拍/分,拍号为4/4拍,时长为1分钟,演奏时间信息包括开始节拍和持续节拍为例,目标音乐包括的节拍总数为60拍,包括的音乐小节的个数为15个,每个音乐小节对应的演奏时间信息为:(1,4)、(5,8)、(9,12)、(13,16)、(17,20)、(21,24)、(25,28)、(29,32)、(33,36)、(37,40)、(41,44)、(45,48)、(49,52)、(53,56)、(57,60)。因此,鼓点子音频对应的演奏时间信息也为(1,4)、(5,8)、(9,12)、(13,16)、(17,20)、(21,24)、(25,28)、(29,32)、(33,36)、(37,40)、(41,44)、(45,48)、(49,52)、(53,56)、(57,60)。
[0124]
在一种可能的实现方式中,基于目标音乐的曲速、拍号和和弦列表,确定和弦子音频对应的音频数据标识和演奏时间信息的过程为:基于目标音乐的曲速和拍号,确定和弦标识对应的音频数据标识。将和弦标识对应的演奏时间信息和音频数据标识,确定为和弦子音频对应的演奏时间信息和音频数据标识。
[0125]
可选地,在获取和弦子音频对应的音频数据标识和演奏时间信息之前,需要先确定和弦乐器。确定和弦乐器的过程可以由人工在多个和弦乐器中指定一个和弦乐器,也可以由计算机设备随机确定一个和弦乐器,本技术实施例对此不加以限定。需要说明的是,无论是人工指定的和弦乐器,还是计算机设备随机确定的和弦乐器,确定的和弦乐器的乐器音色与听障听力音色相匹配。
[0126]
示例性地,确定的和弦乐器为贝斯。
[0127]
可选地,计算机设备中预先存储有第二音频库,第二音频库中存储有多个和弦子音频,且第二音频库中存储的多个和弦子音频对应的乐器音色与听障听力音色相匹配。第二音频库中的每个和弦子音频都对应有一个音频数据标识。
[0128]
其中,第二音频库中存储的和弦子音频为mp3格式的音频片段,或者为其它格式的音频片段,本技术实施例对此不加以限定。
[0129]
如下述表三所示为本技术实施例提供的第二音频库中存储的贝斯的和弦子音频对应的音频数据标识以及和弦子音频对应的曲速、拍号、和弦标识的对应关系的表格。
[0130]
表三
[0131][0132]
基于上述表三可知,拍号为4/4拍,曲速为60拍/分时,a和弦的和弦子音频对应的音频数据标识为b1。拍号和曲速为其它时,a和弦的和弦子音频对应的音频数据标识见上述表三所示,在此不再一一赘述。
[0133]
需要说明的是,不同的音频数据标识对应的和弦子音频是不一样的。例如,音频数据标识b1对应的和弦子音频是一段4拍、每拍之间的时间间隔为一秒的a和弦的音频。音频数据标识b2对应的和弦子音频是一段4拍、每拍之间的时间间隔为2秒的a和弦的音频。
[0134]
还需要说明的是,上述表三仅为本技术实施例提供的一种和弦标识、曲速、拍号和音频数据标识的对应关系的示例表,并不对第二音频库进行限制。第二音频库中包括各种和弦乐器,在各种拍号、各种曲速时对应的各种和弦标识的和弦子音频。
[0135]
在一种可能的实现方式中,由于目标音乐的和弦列表中已存在和弦标识对应的演奏时间信息,基于上述表三确定出和弦标识对应的音频数据标识,因此,将和弦标识对应的演奏时间信息和音频数据标识确定为曲谱数据中包括的和弦子音频对应的演奏时间信息和音频数据标识。
[0136]
示例性地,以目标音乐的曲速为60拍/分,拍号为4/4拍,时长为1分钟为例,基于上述过程,得到的目标音乐对应的曲谱数据如下述表四所示。
[0137]
表四
[0138]
子音频对应的演奏时间信息子音频对应的音频数据标识(1,4)a1(5,8)a1(9,12)a1、b1(13,16)a1、e1
(17,20)a1、c1(21,24)a1、b1

a1、e1(57,60)a1、h1
[0139]
由上述表四可知,在第1拍至第4拍时,对应的子音频为音频数据标识a1对应的鼓点子音频,在第5拍至第8拍时,对应的子音频为音频数据标识a1对应的鼓点子音频,在第9拍至第12拍时,对应的子音频为音频数据标识a1对应的鼓点子音频和音频数据标识b1对应的和弦子音频。其他演奏时间信息对应的子音频的音频数据标识见上述表四所示,在此不再一一赘述。
[0140]
可选地,还可以由具有音乐素养的用户基于目标音乐的midi文件,获取目标音乐的曲谱数据。也即是,由用户基于目标音乐的midi文件,确定鼓点子音频对应的音频数据标识和演奏时间信息,和/或,和弦子音频对应的音频数据标识和演奏时间信息。进而基于用户在计算机设备中的输入操作,使得计算机设备获取到目标音乐的曲谱数据。
[0141]
在步骤202中,基于每个音频数据标识获取对应的子音频。
[0142]
在一种可能的实现方式中,基于上述步骤201确定出多个子音频对应的音频数据标识之后,基于每个子音频对应的音频数据标识,在音频库中提取每个音频数据标识对应的子音频。
[0143]
可选地,在第一音频库中提取鼓点子音频的音频数据标识对应的鼓点子音频,例如,在第一音频库中提取音频数据标识a1对应的鼓点子音频。在第二音频库中提取和弦子音频的音频数据标识对应的和弦子音频,例如,在第二音频库中提取音频数据标识b1对应的和弦子音频。
[0144]
在一种可能的实现方式中,当第一音频数据标识对应的演奏时间信息包括的拍数小于一个音乐小节时,则从音频库中获取第一音频数据标识对应的子音频,按照第一音频数据标识对应的演奏时间信息包括的拍数,在第一音频数据标识对应的子音频中进行截取,得到第一音频数据标识对应的演奏时间信息对应的子音频,第一音频数据标识对应的演奏时间信息对应的子音频的拍数与第一音频数据标识对应的演奏时间信息包括的拍数一致。
[0145]
示例性地,第一音频数据标识为b1,第一音频数据标识对应的演奏时间信息为(5,7)拍,包括的拍数为3拍,因此,在音频库中获取音频数据标识为b1的子音频,在音频数据标识为b1的子音频中截取3/4,得到音频数据标识b1在(5,7)拍对应的子音频。
[0146]
在步骤203中,基于每个子音频对应的演奏时间信息,对每个子音频进行融合处理,生成目标音乐的合成音频。
[0147]
在一种可能的实现方式中,基于每个子音频对应的演奏时间信息,对每个子音频进行融合处理,得到目标音乐的中间音频,将目标音乐的中间音频作为目标音乐的合成音频。
[0148]
其中,有下述两种情况基于每个子音频对应的演奏时间信息,对每个子音频进行融合处理,得到目标音乐的中间音频。
[0149]
情况一、响应于多个子音频中不存在演奏时间信息重合的子音频,基于每个子音频对应的演奏时间信息,将多个子音频进行拼接,得到目标音乐的中间音频。
[0150]
由于鼓点子音频需要贯穿整个音乐,当多个子音频中不存在演奏时间信息重合的子音频时,说明目标音乐只包括鼓点子音频,不包括和弦子音频,或者只包括和弦子音频,不包括鼓点子音频,且每个演奏时间信息只对应一个和弦子音频。
[0151]
可选地,将多个子音频进行拼接,得到目标音乐的中间音频时,可以先分别对每个子音频进行淡入淡出处理,得到多个经过淡入淡出处理的子音频,再将多个经过淡入淡出处理的子音频进行拼接,得到目标音乐的中间音频。淡入淡出处理的目的是为了使拼接得到的中间音频不会出现畸变,进而使得中间音频更加连贯。
[0152]
对子音频进行淡入淡出处理的过程为:对子音频的头部进行淡入处理,对子音频的尾部进行淡出处理,得到经过淡入淡出处理的子音频。
[0153]
其中,淡入处理的时长和淡出处理的时长需要相同,淡入处理和淡出处理的时长本技术实施例不加以限定。例如,淡入处理和淡出处理的时长是50毫秒,则对子音频的前50毫秒做淡入处理,对子音频的最后50毫秒做淡出处理。
[0154]
示例性地,目标音乐只包括鼓点子音频,鼓点子音频对应的演奏时间信息分别为(1,4)、(5,8)、(9,12)、(13,16),对鼓点子音频进行淡入淡出处理,得到经过淡入淡出处理的鼓点子音频,将经过淡入淡出处理的鼓点子音频拼接四次,得到目标音乐的中间音频,中间音频中包括四段经过淡入淡出处理的鼓点子音频。
[0155]
可选地,将多个经过淡入淡出处理的子音频进行拼接时,还可以将相邻的两个子音频进行交叉淡化处理,即将位置在前的子音频的尾部与位置在后的子音频的头部交叉混音在一起,进而得到目标音乐的中间音频。其中,相邻的两个子音频的交叉混音部分的时长可以是任意数值,本技术实施例对此不加以限定。例如,相邻的两个子音频的交叉混音部分的时长为200毫秒。也即是将位置在前的子音频的最后200毫秒和位置在后的子音频的前200毫秒交叉混音在一起。
[0156]
情况二、响应于同一个演奏时间信息对应有至少两个子音频一,对至少两个子音频一进行混音处理,得到子音频二,子音频二对应的演奏时间信息与至少两个子音频一对应的演奏时间信息一致。进而分别对子音频二和子音频三进行淡入淡出处理,得到经过淡入淡出处理的子音频二和经过淡入淡出处理的子音频三,其中,子音频三为与子音频二对应的演奏时间信息不同的子音频。按照子音频二对应的演奏时间信息和子音频三对应的演奏时间信息,对经过淡入淡出处理的子音频二和经过淡入淡出处理的子音频三进行拼接处理,得到目标音乐的中间音频。
[0157]
示例性地,目标音乐共有8个节拍,第1节拍到第4节拍、第4节拍到第8节拍均存在鼓点子音频,第5节拍到第8节拍存在一个和弦子音频。因此,将第5节拍到第8节拍的鼓点子音频和第5节拍到第8节拍的和弦子音频进行混音处理,得到子音频二,子音频二对应的演奏时间信息为(5,8)。再将第1节拍到第4节拍的鼓点子音频进行淡入淡出处理,得到第1节拍到第4节拍经过淡入淡出处理的鼓点子音频。将第5节拍到第8节拍的子音频二进行淡入淡出处理,得到第5节拍到第8节拍经过淡入淡出处理的子音频二。进而将第1节拍到第4节拍经过淡入淡出处理的鼓点子音频和第5节拍到第8节拍经过淡入淡出处理的子音频二进行拼接,得到目标音乐的中间音频。
[0158]
可选地,对经过淡入淡出处理的子音频二和经过淡入淡出处理的子音频三进行拼接处理时,还可以对经过淡入淡出处理的子音频二和经过淡入淡出处理的子音频三中任意
相邻的两个子音频进行交叉淡化处理。交叉淡化处理的过程见上述情况一所示,在此不再赘述。
[0159]
可选地,得到目标音乐的中间音频之后,还可以在中间音频中添加环境音,得到添加有环境音的中间音频,将添加有环境音的中间音频作为目标音乐的合成音频。
[0160]
其中,计算机设备中存储有第三音频库,第三音频库中存储有多种类型的环境音,如雨声、知了声、海岸声等等。第三音频库中存储的环境音的时长为任意时长,本技术实施例对此不加以限定。第三音频库中存储的环境音是听障患者能够听到的声音。第三音频库中存储的环境音为mp3格式的音频片段,或者为其它格式的音频片段,本技术实施例对此不加以限定。
[0161]
一般情况下,在一个音乐的开始添加环境音,当然,也可以在音乐作品的其他位置添加环境音,添加的环境音的类型,以及环境音的添加位置均为人工设置的,本技术实施例对此不加以限定。
[0162]
可选地,在目标音乐的目标位置添加目标环境音时,确定目标环境音的时长与目标位置对应的时长是否一致。如果目标环境音的时长与目标位置对应的时长不一致,则先对目标环境音进行插/去帧处理,使得插/去帧之后的目标环境音的时长与目标位置对应的时长一致,进而将插/去帧之后的目标环境音与目标位置的音频进行混音,得到目标位置的目标音频,再将目标位置的目标音频与中间音频中除目标位置的音频之外的音频进行拼接,得到目标音乐的合成音频。
[0163]
如果目标环境音的时长与目标位置对应的时长一致,则将目标环境音与目标位置的音频进行混音,得到目标位置的目标音频,再将目标位置的目标音频与中间音频中除目标位置的音频之外的音频进行拼接,得到目标音乐的合成音频。
[0164]
示例性地,在目标音乐的中间音频的第1到3秒添加一个“雨声”的环境音,“雨声”的环境音的时长为2秒,则先对“雨声”的环境音进行插帧处理,得到插帧处理之后的“雨声”的环境音。插帧处理之后的“雨声”的环境音的时长为3秒。将插帧处理之后的“雨声”的环境音与目标音乐的中间音频的第1到3秒的音频进行混音,得到第1到3秒的目标音频,进而将第1到3秒的目标音频与中间音频中除第1至3秒之外的音频进行拼接,得到目标音乐的合成音频。
[0165]
可选地,还可以对目标音乐的中间音频进行频域压缩处理,得到目标音乐的合成音频。
[0166]
可选地,对目标音乐的中间音频进行频域压缩处理,得到目标音乐的合成音频的过程为:获取中间音频对应的第一频域区间的第一子音频和第二频域区间的第二子音频,其中,第一频域区间的频率小于第二频域区间的频率。基于第一增益系数,对第一子音频进行增益补偿,得到第三子音频。基于第二增益系数,对第二子音频进行增益补偿,得到第四子音频。对第四子音频进行压缩移频处理,得到第五子音频,其中,第五子音频对应的第三频率区间的下限与第二频率区间的下限相等。对第三子音频和第五子音频进行融合处理,得到目标音乐的合成音频。
[0167]
其中,可以基于正交镜像滤波组中的分析滤波器对中间音频进行分析,得到处于第一频率区间的第一子音频和处于第二频率区间的第二子音频。也可以基于分频器对中间音频进行处理,得到处于第一频率区间的第一子音频和处于第二频率区间的第二子音频。
当然,还可以用其他方式得到第一子音频和第二子音频,本技术实施例对此不加以限定。
[0168]
每个频率区间包括一个或多个频段,每个频段对应有一个增益系数,基于每个频段对应的增益系数,确定每个频段对应的分贝补偿值,基于每个频段对应的分贝补偿值,对每个频段对应的音频进行增益补偿,得到该频率区间增益补偿之后的音频。
[0169]
示例性地,第一频率区间为0至1千赫兹,第一频率区间仅包括一个频段,且0至1千赫兹频段对应的增益系数为2,基于0至1千赫兹频段对应的增益系数2,确定0至1千赫兹频段对应的分贝补偿值。基于0至1千赫兹频段对应的分贝补偿值对第一子音频进行增益补偿,得到第三子音频。
[0170]
又例如,第二频率区间为1千到8千赫兹,第二频率区间包括三个频段,分别为:第一频段:1千至2千赫兹,第二频段:2千至4千赫兹,第三频段:4千到8千赫兹。第一频段对应的增益系数为2.5,第二频段对应的增益系数为3,第三频段对应的增益系数为3.5。因此,基于第一频段对应的增益系数,确定第一频段对应的分贝补偿值,基于第二频段对应的增益系数,确定第二频段对应的分贝补偿值,基于第三频段对应的增益系数,确定第三频段对应的分贝补偿值。按照第一频段对应的分贝补偿值对第一频段的音频进行增益补偿,按照第二频段对应的分贝补偿值对第二频段的音频进行增益补偿,按照第三频段对应的分贝补偿值对第三频段的音频进行增益补偿,得到第四子音频。
[0171]
可选地,对第四子音频进行压缩移频处理,得到第五子音频的过程为:对第四子音频进行目标比例的频率压缩,得到第六子音频,对第六子音频进行目标数值的频率上移,得到第五子音频,其中,目标数值等于第二频率区间的下限与第六子音频对应的第四频率区间的下限的差值。
[0172]
由于对第四子音频进行目标比例的频率压缩,得到的第六子音频的频率区间中存在与第三子音频对应的第一频率区间重合的地方,因此,需要对第六子音频进行目标数值的频率上移,得到第五子音频,以使得第五子音频对应的频率区间与第三子音频对应的第一频率区间之间不存在重合,进而使得后续的合成音频的听感更好。
[0173]
其中,目标比例可以任意数值,本技术实施例对此不加以限定。例如,目标比例是50%。
[0174]
示例性地,目标比例为50%,第四子音频对应的第二频率区间为1千到8千赫兹,对第四子音频进行目标比例的频率压缩之后,得到第六子音频,第六子音频对应的第四频率区间为500到4千赫兹。基于第四频率区间的下限和第二频率区间的下限,确定目标数值为500,因此,将第六子音频的频率上移500赫兹,得到第五子音频,第五子音频对应的第三频率区间为1千到4.5千赫兹。
[0175]
可选地,对第三子音频和第五子音频进行融合处理,得到目标音乐的合成音频的方式包括但不限于:通过正交镜像滤波器组的综合滤波器对第三子音频和第五子音频进行处理,得到目标音乐的合成音频。或者,将第三子音频和第五子音频进行混音,得到目标音乐的合成音频。
[0176]
其中,将第三子音频和第五子音频进行混音时,容易出现破音的问题,因此,还可以采用压限器对第三子音频和第五子音频混音之后的音频进行处理,进而得到目标音乐的合成音频。
[0177]
可选地,获取到目标音乐的合成音频之后,还可以播放目标音乐的合成音频,由听
障患者收听目标音乐的合成音频。响应于接收到听障患者对合成音频中的目标子音频的音色的修改指令时,显示交互页面,交互页面上显示有鼓点控件、和弦控件和环境音控件。响应于接收到任一控件的选中指令,显示该控件包括的多个子控件,每个子控件对应于一个子音频。响应于对多个子控件中的任一子控件的选中指令,播放被选中的子控件对应的子音频。响应于接收到被选中的子控件的确认指令,将被选中的子控件对应的子音频替换目标子音频,进而得到修改后的目标音乐的合成音频。
[0178]
例如,响应于对鼓点控件的选中指令,显示鼓点子控件,每个鼓点子控件对应有一个鼓点子音频。响应于对多个鼓点子控件中的任意一个鼓点子控件的选中指令,播放被选中的鼓点子控件对应的鼓点子音频。响应于接收到被选中的鼓点子控件的确认指令时,将被选中的鼓点子控件对应的子音频替换目标子音频,进而得到修改后的目标音乐的合成音频。
[0179]
上述方法对目标音乐进行重新谱曲,谱曲的时候使用的子音频的乐器音色与听障听力音色相匹配,使得听障患者能够听到谱曲中使用的子音频,进而基于子音频得到目标音乐的合成音频,使得听障患者在收听目标音乐的合成音频时,不会出现断断续续,偶尔听不到的问题,而且,也不会有失真的情况,使得听障患者能够听到流畅的音乐,听障患者的收听体验较好,能够从根源上解决听障患者收听音乐时音质差,收听效果差的问题。
[0180]
由于一首歌曲的时长比较长,包含的音乐小节的数目比较多,包含的节拍数目也比较多,这里以《天堂》这首歌曲中的第四、五、六个音乐小节为目标音乐为例,阐述目标音乐的合成音频的获取过程。图3所示为歌曲《天堂》的第四、五、六个音乐小节的简谱图。
[0181]
获取目标音乐的电子曲谱,将该电子曲谱输入曲谱分析工具,进而得到目标音乐的曲速、拍号和和弦列表。其中,目标音乐的曲速为70拍/分,拍号为4/4拍,和弦列表如下述表五所示。
[0182]
表五
[0183]
演奏时间信息和弦标识(13,16)d和弦(17,20)dm和弦(21,24)am和弦
[0184]
预先设置目标音乐的合成音频中使用的鼓点子音频的乐器音色为鼓,和弦子音频的乐器音色为摇滚贝斯。由于目标音乐的曲速为70,拍号为4/4拍,因此,在第一音频库中确定音频数据标识n1,将音频数据标识n1对应的鼓点子音频作为合成音频中的鼓点子音频。基于目标音乐的曲速、拍号和和弦列表,在第二音频库中确定音频数据标识m1、m2、m3,其中,音频数据标识m1对应于d和弦的和弦子音频,音频数据标识m2对应于dm和弦的和弦子音频,音频数据标识m3对应于am和弦的和弦子音频。将音频数据标识m1、m2、m3分别对应的和弦子音频作为合成音频中的和弦子音频。进而得到目标音乐的曲谱数据,曲谱数据如下述表六所示。
[0185]
表六
[0186]
子音频对应的演奏时间信息子音频对应的音频数据标识(13,16)n1、m1(17,20)n1、m2
(21,24)n1、m3
[0187]
接着,在第一音频库中提取音频数据标识为n1的鼓点子音频,在第二音频库中提取音频数据标识为m1、m2、m3的和弦子音频。由于在演奏时间信息(13,16)、(17,20)和(21,24)时均既存在鼓点子音频又存在和弦子音频,因此,需要对每个演奏时间信息对应的鼓点子音频和和弦子音频进行混音处理,得到每个演奏时间信息对应的混音子音频,也即是得到第一混音子音频、第二混音子音频和第三混音子音频。
[0188]
其中,第一混音子音频基于音频数据标识为n1的鼓点子音频和音频数据标识为m1的和弦子音频得到,第一混音子音频的演奏时间信息为(13,16)。第二混音子音频基于音频数据标识为n1的鼓点子音频和音频数据标识为m2的和弦子音频得到,第二混音子音频的演奏时间信息为(17,20)。第三混音子音频基于音频数据标识为n1的鼓点子音频和音频数据标识为m3的和弦子音频得到,第三混音子音频的演奏时间信息为(21,24)。
[0189]
之后,将各个混音子音频进行淡入淡出处理,得到经过淡入淡出处理的混音子音频,紧接着,将经过淡入淡出处理的混音子音频中演奏时间信息相邻的两个混音子音频进行拼接,得到目标音乐的中间音频。
[0190]
可选地,对演奏时间信息相邻的两个混音子音频进行拼接时,可以对待拼接的两个混音子音频进行交叉淡化处理,进而得到目标音乐的中间音频。
[0191]
可选地,将目标音乐的中间音频作为目标音乐的合成音频。如图4所示为经过上述处理生成的歌曲《天堂》的第四、五、六个音乐小节的合成音频对应的简谱图。其中,编号1的标记表示鼓点,每个音乐小节存在一个鼓点,位于音乐小节的第一拍。
[0192]
可选地,对目标音乐的中间音频进行分析,得到第一子音频和第二子音频,对第一子音频进行增益补偿,得到第三子音频,对第二子音频进行增益补偿,得到第四子音频。将第四子音频频率压缩50%,得到第六子音频。将第六子音频的频率上移500赫兹,得到第五子音频。进而基于第三子音频和第五子音频,得到目标音乐的合成音频。
[0193]
图5所示为本技术实施例提供的一种音频合成方法的流程图,在图5中,获取目标音乐,通过对目标音乐进行分析,得到目标音乐的曲谱数据。基于目标音乐的曲谱数据和预先存储的音频库(音频库包括第一音频库、第二音频库和第三音频库,第一音频库中存储有多个鼓点子音频,第二音频库中存储有多个和弦子音频,第三音频库中存储有多个环境音音频),确定目标音乐包括的鼓点子音频、和弦子音频和环境音音频。由于会出现同一演奏时间信息存在至少两个子音频的情况,因此需要对同一演奏时间信息存在的至少两个子音频进行混音处理,例如,图5中第m个演奏时间信息存在音轨1、音轨2

音轨n,其中,音轨1、音轨2、音轨n分别对应一个子音频,基于多通道混频器对音轨1、音轨2、音轨n分别对应一个子音频进行混音,得到混音后的子音频。对混音后的子音频和多个子音频中除演奏时间信息相同的子音频之外的其他子音频做淡入淡出处理,得到经过淡入淡出处理的子音频。进而将经过淡入淡出处理的混音后的子音频和经过淡入淡出处理的其他子音频进行拼接,得到目标音乐的中间音频。
[0194]
此时,可以将目标音乐的中间音频作为目标音乐的合成音频。也可以再对目标音乐的中间音频进行进一步处理,进而得到目标音乐的合成音频。
[0195]
进一步处理的过程为:在正交镜像滤波器组内,得到第一子音频和第二子音频,在双通道的宽动态范围压缩器内对第一子音频进行增益补偿,得到第三子音频,对第二子音
频进行增益补偿,得到第四子音频,对第四子音频进行非线性压缩移频处理,得到第五子音频,基于第三子音频和第五子音频,得到目标音乐的合成音频。
[0196]
图6所示为本技术实施例提供的一种音频合成装置的结构示意图,如图6所示,该装置包括:
[0197]
获取模块601,用于获取目标音乐的曲谱数据,其中,曲谱数据包括多个子音频对应的音频数据标识和演奏时间信息,每个子音频对应的乐器音色与听障听力音色相匹配;
[0198]
获取模块601,用于基于每个音频数据标识获取对应的子音频;
[0199]
生成模块602,用于基于每个子音频对应的演奏时间信息,对每个子音频进行融合处理,生成目标音乐的合成音频。
[0200]
可选地,在每个子音频对应的乐器的频谱中,低频频段的能量与高频频段的能量的比值大于比值阈值,低频频段为低于频率阈值的频段,高频频段为高于频率阈值的频段,其中,比值阈值用于指示能够供听障患者听到的音频的频谱中低频频段的能量与高频频段的能量的比值需要满足的条件。
[0201]
可选地,获取模块601,用于基于目标音乐的曲速、拍号和和弦列表,确定多个子音频对应的音频数据标识和演奏时间信息。
[0202]
可选地,多个子音频包括鼓点子音频和和弦子音频;
[0203]
获取模块601,用于基于目标音乐的曲速和拍号,确定鼓点子音频对应的音频数据标识和演奏时间信息;
[0204]
基于目标音乐的曲速、拍号和和弦列表,确定和弦子音频对应的音频数据标识和演奏时间信息;
[0205]
鼓点子音频对应的音频数据标识和演奏时间信息、以及和弦子音频对应的音频数据标识和演奏时间信息,组成多个子音频对应的音频数据标识和演奏时间信息。
[0206]
可选地,获取模块601,用于确定目标音乐的拍号和曲速对应的音频数据标识,将目标音乐的拍号和曲速对应的音频数据标识作为鼓点子音频对应的音频数据标识;
[0207]
基于目标音乐的拍号和曲速,确定鼓点子音频对应的演奏时间信息。
[0208]
可选地,和弦列表包括和弦标识和和弦标识对应的演奏时间信息;
[0209]
获取模块601,用于基于目标音乐的曲速和拍号,确定和弦标识对应的音频数据标识;
[0210]
将和弦标识对应的演奏时间信息和音频数据标识,确定为和弦子音频对应的演奏时间信息和音频数据标识。
[0211]
可选地,生成模块602,用于基于每个子音频对应的演奏时间信息,对每个子音频进行融合处理,得到目标音乐的中间音频;
[0212]
对目标音乐的中间音频进行频域压缩处理,得到目标音乐的合成音频。
[0213]
可选地,合成模块602,用于获取中间音频对应的第一频率区间的第一子音频和第二频率区间的第二子音频,其中,第一频率区间的频率小于第二频率区间的频率;
[0214]
基于第一增益系数,对第一子音频进行增益补偿,得到第三子音频,基于第二增益系数,对第二子音频进行增益补偿,得到第四子音频;
[0215]
对第四子音频进行压缩移频处理,得到第五子音频,其中,第五子音频对应的第三频率区间的下限与第二频率区间的下限相等;
[0216]
对第三子音频和第五子音频进行融合处理,得到目标音乐的合成音频。
[0217]
可选地,生成模块602,用于对第四子音频进行目标比例的频率压缩,得到第六子音频;
[0218]
对第六子音频进行目标数值的频率上移,得到第五子音频,其中,目标数值等于第二频率区间的下限与第六子音频对应的第四频率区间的下限的差值。
[0219]
上述装置对目标音乐进行重新谱曲,谱曲的时候使用的子音频的乐器音色与听障听力音色相匹配,使得听障患者能够听到谱曲中使用的子音频,进而基于子音频得到目标音乐的合成音频,使得听障患者在收听目标音乐的合成音频时,不会出现断断续续,偶尔听不到的问题,而且,也不会有失真的情况,使得听障患者能够听到流畅的音乐,听障患者的收听体验较好,能够从根源上解决听障患者收听音乐时音质差,收听效果差的问题。
[0220]
应理解的是,上述图6提供的装置在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
[0221]
图7示出了本技术一个示例性实施例提供的终端设备700的结构框图。该终端设备700可以是便携式移动终端,比如:智能手机、平板电脑、mp3播放器(moving picture experts group audio layer iii,动态影像专家压缩标准音频层面3)、mp4(moving picture experts group audio layer iv,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端设备700还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
[0222]
通常,终端设备700包括有:处理器701和存储器702。
[0223]
处理器701可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器701可以采用dsp(digital signal processing,数字信号处理)、fpga(field-programmable gate array,现场可编程门阵列)、pla(programmable logic array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器701也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称cpu(central processing unit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器701可以集成有gpu(graphics processing unit,图像处理器),gpu用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器701还可以包括ai(artificial intelligence,人工智能)处理器,该ai处理器用于处理有关机器学习的计算操作。
[0224]
存储器702可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器702还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器702中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器701所执行以实现本技术中方法实施例提供的音频合成方法。
[0225]
在一些实施例中,终端设备700还可选包括有:外围设备接口703和至少一个外围设备。处理器701、存储器702和外围设备接口703之间可以通过总线或信号线相连。各个外
围设备可以通过总线、信号线或电路板与外围设备接口703相连。具体地,外围设备包括:射频电路704、显示屏705、摄像头组件706、音频电路707、定位组件708和电源709中的至少一种。
[0226]
外围设备接口703可被用于将i/o(input/output,输入/输出)相关的至少一个外围设备连接到处理器701和存储器702。在一些实施例中,处理器701、存储器702和外围设备接口703被集成在同一芯片或电路板上;在一些其他实施例中,处理器701、存储器702和外围设备接口703中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
[0227]
射频电路704用于接收和发射rf(radio frequency,射频)信号,也称电磁信号。射频电路704通过电磁信号与通信网络以及其他通信设备进行通信。射频电路704将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路704包括:天线系统、rf收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路704可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2g、3g、4g及5g)、无线局域网和/或wifi(wireless fidelity,无线保真)网络。在一些实施例中,射频电路704还可以包括nfc(near field communication,近距离无线通信)有关的电路,本技术对此不加以限定。
[0228]
显示屏705用于显示ui(user interface,用户界面)。该ui可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏705是触摸显示屏时,显示屏705还具有采集在显示屏705的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器701进行处理。此时,显示屏705还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏705可以为一个,设置在终端设备700的前面板;在另一些实施例中,显示屏705可以为至少两个,分别设置在终端设备700的不同表面或呈折叠设计;在另一些实施例中,显示屏705可以是柔性显示屏,设置在终端设备700的弯曲表面上或折叠面上。甚至,显示屏705还可以设置成非矩形的不规则图形,也即异形屏。显示屏705可以采用lcd(liquid crystal display,液晶显示屏)、oled(organic light-emitting diode,有机发光二极管)等材质制备。
[0229]
摄像头组件706用于采集图像或视频。可选地,摄像头组件706包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端设备700的前面板,后置摄像头设置在终端设备700的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及vr(virtual reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件706还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
[0230]
音频电路707可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器701进行处理,或者输入至射频电路704以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端设备700的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器701或射频
电路704的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路707还可以包括耳机插孔。
[0231]
定位组件708用于定位终端设备700的当前地理位置,以实现导航或lbs(location based service,基于位置的服务)。定位组件708可以是基于美国的gps(global positioning system,全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。
[0232]
电源709用于为终端设备700中的各个组件进行供电。电源709可以是交流电、直流电、一次性电池或可充电电池。当电源709包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
[0233]
在一些实施例中,终端设备700还包括有一个或多个传感器170。该一个或多个传感器170包括但不限于:加速度传感器711、陀螺仪传感器712、压力传感器713、指纹传感器714、光学传感器715以及接近传感器716。
[0234]
加速度传感器711可以检测以终端设备700建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器711可以用于检测重力加速度在三个坐标轴上的分量。处理器701可以根据加速度传感器711采集的重力加速度信号,控制显示屏705以横向视图或纵向视图进行用户界面的显示。加速度传感器711还可以用于游戏或者用户的运动数据的采集。
[0235]
陀螺仪传感器712可以检测终端设备700的机体方向及转动角度,陀螺仪传感器712可以与加速度传感器711协同采集用户对终端设备700的3d动作。处理器701根据陀螺仪传感器712采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变ui)、拍摄时的图像稳定、游戏控制以及惯性导航。
[0236]
压力传感器713可以设置在终端设备700的侧边框和/或显示屏705的下层。当压力传感器713设置在终端设备700的侧边框时,可以检测用户对终端设备700的握持信号,由处理器701根据压力传感器713采集的握持信号进行左右手识别或快捷操作。当压力传感器713设置在显示屏705的下层时,由处理器701根据用户对显示屏705的压力操作,实现对ui界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
[0237]
指纹传感器714用于采集用户的指纹,由处理器701根据指纹传感器714采集到的指纹识别用户的身份,或者,由指纹传感器714根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器701授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器714可以被设置在终端设备700的正面、背面或侧面。当终端设备700上设置有物理按键或厂商logo时,指纹传感器714可以与物理按键或厂商logo集成在一起。
[0238]
光学传感器715用于采集环境光强度。在一个实施例中,处理器701可以根据光学传感器715采集的环境光强度,控制显示屏705的显示亮度。具体地,当环境光强度较高时,调高显示屏705的显示亮度;当环境光强度较低时,调低显示屏705的显示亮度。在另一个实施例中,处理器701还可以根据光学传感器715采集的环境光强度,动态调整摄像头组件706
的拍摄参数。
[0239]
接近传感器716,也称距离传感器,通常设置在终端设备700的前面板。接近传感器716用于采集用户与终端设备700的正面之间的距离。在一个实施例中,当接近传感器716检测到用户与终端设备700的正面之间的距离逐渐变小时,由处理器701控制显示屏705从亮屏状态切换为息屏状态;当接近传感器716检测到用户与终端设备700的正面之间的距离逐渐变大时,由处理器701控制显示屏705从息屏状态切换为亮屏状态。
[0240]
本领域技术人员可以理解,图7中示出的结构并不构成对终端设备700的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
[0241]
图8为本技术实施例提供的服务器的结构示意图,该服务器800可因配置或性能不同而产生比较大的差异,可以包括一个或多个处理器(central processing units,cpu)801和一个或多个的存储器802,其中,该一个或多个存储器802中存储有至少一条程序代码,该至少一条程序代码由该一个或多个处理器801加载并执行以实现上述各个方法实施例提供的音频合成方法。当然,该服务器800还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器800还可以包括其他用于实现设备功能的部件,在此不做赘述。
[0242]
在示例性实施例中,还提供了一种计算机可读存储介质,该存储介质中存储有至少一条程序代码,该至少一条程序代码由处理器加载并执行,以使计算机实现上述任一种音频合成方法。
[0243]
可选地,上述计算机可读存储介质可以是只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、只读光盘(compact disc read-only memory,cd-rom)、磁带、软盘和光数据存储设备等。
[0244]
在示例性实施例中,还提供了一种计算机程序或计算机程序产品,该计算机程序或计算机程序产品中存储有至少一条计算机指令,该至少一条计算机指令由处理器加载并执行,以使计算机实现上述任一种音频合成方法。
[0245]
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
[0246]
上述本技术实施例序号仅仅为了描述,不代表实施例的优劣。
[0247]
以上所述仅为本技术的示例性实施例,并不用以限制本技术,凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。