1.本发明涉及音频处理技术领域,尤其涉及一种旋律的风格转换方法、装置、终端设备及存储介质。
背景技术:2.近年来音乐生成领域进展飞速,随着深度学习的再次兴起,旋律处理与生成重新进入大众的视野。在音乐领域中,对同一旋律进行不同风格改编具有很大的欣赏价值和商业价值,同时也能为艺术研究提供参考或灵感。如果通过机器学习对旋律的风格进行自动转换是一个亟需解决的问题。
技术实现要素:3.本发明实施例提供一种旋律的风格转换方法、装置、终端设备及存储介质,能够实现旋律风格的自动转换。
4.与现有技术相比,本发明实施例公开的旋律的风格转换方法,所述方法包括:
5.获取待转换旋律的第一波形图;
6.将所述待转换旋律的第一波形图输入至预设旋律风格转换模型中,以使所述预设旋律风格转换模型,根据所述第一波形图生成对应的第一旋律语义图;其中,所述第一旋律语义图包含已转换旋律在各演奏时段上所对应的乐器种类信息、各乐器演奏时的音调信息、各乐器演奏时的响度信息以及各乐器演奏时的音长信息;所述已转换旋律为将所述待转换旋律根据预设旋律风格转换后所形成的旋律;
7.根据所述已转换旋律在各演奏时段上所对应的乐器种类信息、各乐器演奏时的音调信息、各乐器演奏时的响度信息以及各乐器演奏时的音长信息,生成所述已转换旋律。
8.进一步的,所述风格转换模型的构建方法包括:
9.获取至少一所述预设旋律风格的原始旋律的第二波形图以及与所述原始旋律所对应的第二旋律语义图;所述第二旋律语义图包含所述原始旋律在各演奏时段上所对应的乐器种类信息、各乐器演奏时的音调信息、各乐器演奏时的响度信息以及各乐器演奏时的音长信息;
10.将所述第一波形图以及所述第二旋律语义图输入到预设的gan神经网络中,对所述gan神经网络中的生成器和判别器进行交替迭代训练,并将训练完成后的生成器作为所述风格转换模型。
11.进一步的,所述生成器包括:若干层级的隐藏层;
12.在训练所述生成器时,提取所述第二波形图的特征向量,将所述第二波形图的特征向量分别输入至各层级的隐藏层中,对所述生成器中的各隐藏层进行训练;
13.其中,当待训练的隐藏层为第一层隐藏层时,根据所述特征向量以及所述特征向量在第一层隐藏层的影响权重,对所述待训练的隐藏层进行训练;
14.当所述待训练的隐藏层不为第一层隐藏层时,根据所述特征向量、所述特征向量
在所述待训练的隐藏层的影响权重以及上一层隐藏层的输出结果,对所述待训练的隐藏层进行训练。
15.进一步的,提取所述第二波形图的特征向量,具体包括:
16.提取所述第二波形图的颜色像素矩阵,将所述颜色像素矩阵作为所述第二波形图的特征向量。
17.进一步的,所述第二旋律语义图的生成方法包括:
18.获取所述原始旋律的midi文件数据;
19.根据所述midi文件数据提取所述原始旋律在各演奏时段上所对应的乐器种类信息、各乐器演奏时的音调信息、各乐器演奏时的响度信息以及各乐器演奏时的音长信息;
20.根据所述原始旋律在各演奏时段上所对应的乐器种类、各乐器演奏时的音调信息、各乐器演奏时的响度信息以及各乐器演奏时的音长信息,生成所述第二旋律语义图。
21.进一步的,根据所述原始旋律在各演奏时段上所对应的乐器种类信息、各乐器演奏时的音调信息、各乐器演奏时的响度信息以及各乐器演奏时的音长信息,生成所述第二旋律语义图,具体包括:
22.根据所述原始旋律在各演奏时段上所对应的乐器种类信息、各乐器演奏时的音调信息、各乐器演奏时的响度信息以及各乐器演奏时的音长信息,生成具备若干颜色的四边形的彩图,将所述彩图作为所述第二旋律语义图;
23.其中,在所述彩图中,以不同颜色的四边形表征乐器种类信息、以各四边形的宽度表征各乐器演奏时的响度信息、以各四边形的长度表征各乐器演奏时的音长信息、以各四边形在所述第二旋律语义图竖直方向的位置表征各乐器演奏时的音调信息、以各四边形在所述第二旋律语义图水平方向的位置表征各乐器的演奏时段。
24.进一步的,所述根据所述已转换旋律在各演奏时段上所对应的乐器种类信息、各乐器演奏时的音调信息以及各乐器演奏时的响度信息,生成所述已转换旋律,具体包括:
25.根据所述已转换旋律在各演奏时段上所对应的乐器种类信息及各乐器演奏时的音调信息从预设的乐器素材库中,获取各演奏时段上所对应的音频文件;
26.根据所述已转换旋律在各演奏时段上,各乐器演奏时的响度信息以及各乐器演奏时的音长信息,确定播放各所述音频文件时所需控制的时长及音量;
27.根据各所述音频文件、各所述音频文件时所需控制的时长及音量合成所述已转换旋律。
28.本发明另一实施例对应提供了一种旋律的风格转换装置,所述装置包括:
29.获取波形图模块,用于获取待转换旋律的第一波形图;
30.生成语义图模块,用于将所述待转换旋律的第一波形图输入至预设旋律风格转换模型中,以使所述预设旋律风格转换模型,根据所述第一波形图生成对应的第一旋律语义图;其中,所述第一旋律语义图包含已转换旋律在各演奏时段上所对应的乐器种类信息、各乐器演奏时的音调信息、各乐器演奏时的响度信息以及各乐器演奏时的音长信息;所述已转换旋律为将所述待转换旋律根据预设旋律风格转换后所形成的旋律;
31.生成旋律模块,根据所述已转换旋律在各演奏时段上所对应的乐器种类信息、各乐器演奏时的音调信息、各乐器演奏时的响度信息以及各乐器演奏时的音长信息,生成所述已转换旋律。
32.进一步的,所述风格转换模型的构建方法包括:
33.获取至少一所述预设旋律风格的原始旋律的第二波形图以及与所述原始旋律所对应的第二旋律语义图;所述第二旋律语义图包含所述原始旋律在各演奏时段上所对应的乐器种类信息、各乐器演奏时的音调信息、各乐器演奏时的响度信息以及各乐器演奏时的音长信息;
34.将所述第一波形图以及所述第二旋律语义图输入到预设的gan神经网络中,对所述gan神经网络中的生成器和判别器进行交替迭代训练,并将训练完成后的生成器作为所述风格转换模型。
35.进一步的,所述生成器包括:若干层级的隐藏层;
36.在训练所述生成器时,提取所述第二波形图的特征向量,将所述第二波形图的特征向量分别输入至各层级的隐藏层中,对所述生成器中的各隐藏层进行训练;
37.其中,当待训练的隐藏层为第一层隐藏层时,根据所述特征向量以及所述特征向量在第一层隐藏层的影响权重,对所述待训练的隐藏层进行训练;
38.当所述待训练的隐藏层不为第一层隐藏层时,根据所述特征向量、所述特征向量在所述待训练的隐藏层的影响权重以及上一层隐藏层的输出结果,对所述待训练的隐藏层进行训练。
39.进一步的,提取所述第二波形图的特征向量,具体包括:
40.提取所述第二波形图的颜色像素矩阵,将所述颜色像素矩阵作为所述第二波形图的特征向量。
41.进一步的,所述第二旋律语义图的生成方法包括:
42.获取所述原始旋律的midi文件数据;
43.根据所述midi文件数据提取所述原始旋律在各演奏时段上所对应的乐器种类信息、各乐器演奏时的音调信息、各乐器演奏时的响度信息以及各乐器演奏时的音长信息;
44.根据所述原始旋律在各演奏时段上所对应的乐器种类、各乐器演奏时的音调信息、各乐器演奏时的响度信息以及各乐器演奏时的音长信息,生成所述第二旋律语义图。
45.进一步的,所述生成语义图模块还用于:
46.根据所述原始旋律在各演奏时段上所对应的乐器种类信息、各乐器演奏时的音调信息、各乐器演奏时的响度信息以及各乐器演奏时的音长信息,生成具备若干颜色的四边形的彩图,将所述彩图作为所述第二旋律语义图;
47.其中,在所述彩图中,以不同颜色的四边形表征乐器种类信息、以各四边形的宽度表征各乐器演奏时的响度信息、以各四边形的长度表征各乐器演奏时的音长信息、以各四边形在所述第二旋律语义图竖直方向的位置表征各乐器演奏时的音调信息、以各四边形在所述第二旋律语义图水平方向的位置表征各乐器的演奏时段。
48.进一步的,所述生成旋律模块还用于:
49.根据所述已转换旋律在各演奏时段上所对应的乐器种类信息及各乐器演奏时的音调信息从预设的乐器素材库中,获取各演奏时段上所对应的音频文件;
50.根据所述已转换旋律在各演奏时段上,各乐器演奏时的响度信息以及各乐器演奏时的音长信息,确定播放各所述音频文件时所需控制的时长及音量;
51.根据各所述音频文件、各所述音频文件时所需控制的时长及音量合成所述已转换
旋律。
52.相比于现有技术,本发明实施例提供的一种旋律的风格转换方法及装置,其有益效果在于:本发明可以采用已按照特定风格的歌曲进行训练的旋律风格转换模型作旋律风格的转换,不但可以将各种不同的歌曲转换成用户喜爱的旋律风格,同时可以将音乐领域融入人工智能领域中,扩宽人工智能领域的应用范围,而且不同风格的转换与改编可以为艺术研究提供参考或灵感,从而促进音乐领域的发展,以增加音乐的欣赏价值和商业价值。
53.本发明另一实施例提供了一种存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述发明实施例所述的旋律的风格转换方法。
54.本发明另一实施例提供了一种终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现上述发明实施例所述的旋律的风格转换方法。
附图说明
55.图1是本发明一实施例提供的一种旋律的风格转换方法的流程示意图;
56.图2是本发明一实施例提供的旋律的波形图;
57.图3是本发明一实施例提供的旋律语义图;
58.图4是本发明一实施例提供的模型训练方法的流程示意图;
59.图5是本发明一实施例提供的训练生成器的流程示意图;
60.图6是现有技术中生成器的训练示意图;
61.图7是本发明一实施例提供的生成器的训练示意图;
62.图8是本发明一实施例提供的另一生成器的训练示意图;
63.图9是本发明一实施例提供的又一生成器的训练示意图;
64.图10是本发明一实施例提供的旋律语义图的生成流程示意图;
65.图11是本发明一实施例提供的旋律语义图的生成流程示意图;
66.图12是本发明一实施例提供的一种旋律的风格转换方法的流程示意图;
67.图13是本发明一实施例提供的一种旋律的风格转换装置的结构示意图。
具体实施方式
68.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
69.参见图1,是本发明一实施例提供的一种旋律的风格转换方法的流程示意图。
70.其中,作为示例的,所述旋律的风格转换方法包括以下步骤:
71.s11、获取待转换旋律的第一波形图。
72.参照图2,示出了本发明一实施例提供的旋律的波形图。
73.在一实施例中,所述第一波形图为用户需要进行旋律重构的歌曲或音乐的波形图,具体可以如图2所示。
74.s12、将所述待转换旋律的第一波形图输入至预设旋律风格转换模型中,以使所述预设旋律风格转换模型,根据所述第一波形图生成对应的第一旋律语义图;其中,所述第一旋律语义图包含已转换旋律在各演奏时段上所对应的乐器种类信息、各乐器演奏时的音调信息、各乐器演奏时的响度信息以及各乐器演奏时的音长信息;所述已转换旋律为将所述待转换旋律根据预设旋律风格转换后所形成的旋律。
75.在一实施例中,所述预设的旋律风格模型可以是用户预先采用特定风格歌曲或乐曲进行迭代训练生成的模型,该模型按照训练所使用的歌曲进行风格转换。
76.具体地,旋律风格转换模型可以将第一波形图的旋律风格转换成训练时所使用的歌曲风格所对应的第一旋律语义图。
77.可选地,所述第一旋律语义图包含已转换旋律在各演奏时段上所对应的乐器种类信息、各乐器演奏时的音调信息、各乐器演奏时的响度信息以及各乐器演奏时的音长信息;所述已转换旋律为将所述待转换旋律根据预设旋律风格转换后所形成的旋律。其中,各个乐器的种类、音调、响度和时长可以按照模型训练时所使用的特定歌曲的风格进行编辑。
78.s13、根据所述已转换旋律在各演奏时段上所对应的乐器种类信息、各乐器演奏时的音调信息、各乐器演奏时的响度信息以及各乐器演奏时的音长信息,生成所述已转换旋律。
79.参照图3,示出了本发明一实施例提供的旋律语义图。
80.由于各个乐器播放的时间节点、响度、时长或音调等各个信息均不同,为了提高播放的还原度,在本实施例中,当获取转换风格后的第一旋律语义图,可以在第一旋律语义图划分多个时段,并在第一旋律语义图中获取各个时段上所对应的乐器种类信息、各乐器演奏时的音调信息、各乐器演奏时的响度信息以及各乐器演奏时的音长信息。接着按照每个时段所对应的乐器种类信息、各乐器演奏时的音调信息、各乐器演奏时的响度信息以及各乐器演奏时的音长信息生成响应的转换旋律,最后按照时间的先后顺序分别播放每个时段转换旋律。
81.在本实施例中,本发明实施例提供了一种旋律的风格转换方法,其有益效果在于:本发明可以采用已按照特定风格的歌曲进行训练的旋律风格转换模型作旋律风格的转换,不但可以将各种不同的歌曲转换成用户喜爱的旋律风格,同时可以将音乐领域融入人工智能领域中,扩宽人工智能领域的应用范围,而且不同风格的转换与改编可以为艺术研究提供参考或灵感,从而促进音乐领域的发展,以增加音乐的欣赏价值和商业价值。
82.参照图4,示出了本发明一实施例提供的模型训练方法的流程示意图。
83.在一实施例中,为了让模型可以按照用户喜好的特定歌曲进行旋律和风格的转换,所述预设旋律风格转换模型可以通过以下步骤构建生成:
84.s21、获取至少一所述预设旋律风格的原始旋律的第二波形图以及与所述原始旋律所对应的第二旋律语义图;所述第二旋律语义图包含所述原始旋律在各演奏时段上所对应的乐器种类信息、各乐器演奏时的音调信息、各乐器演奏时的响度信息以及各乐器演奏时的音长信息。
85.其中,所述原始旋律为用户设定的特定歌曲、音乐或节奏对应的旋律。例如,可以是流行曲、古典音乐、清唱或合唱等,也可以是不同乐器的二重奏、三重奏、四重奏、五重奏、六重奏、七重奏、八重奏、多重奏或交响乐等。对应地,第二波形图可以为原始旋律的波形
图,如图2所示。
86.接着可以对第二波形图进行声音、音调、音色和响度等识别,确定旋律所使用的乐器、其声调及响度等信息。
87.为了提高操作效率,在一实施例中,可以采用一般的音乐midi文件,该音乐midi文件包含原始旋律,然后按照特定的规则自动生成的第二旋律语义图。生成的第二旋律语义图可以如图3所示。参照图3,该第二旋律语义图可以包括以下各种数据:[{开始时间:0.2,持续时间:0.8,乐器:小提琴,音量:0.5,音调:c4},{开始时间:0.2,持续时间:1.2,乐器:大提琴,音量:0.3,音调:c4}
…
,{开始时间:31.3,持续时间:2.8,乐器:小提琴,音量:0.5,音调:c2}]。
[0088]
需要说明的是,为了区分第二旋律语义图中的各个乐器,第二旋律语义图可以采用彩色,图中不同的颜色可以代表不同的乐器,此外也可以通过不同形状几何图案来代表不同的乐器。
[0089]
s22、将所述第一波形图以及所述第二旋律语义图输入到预设的gan神经网络中,对所述gan神经网络中的生成器和判别器进行交替迭代训练,并将训练完成后的生成器作为所述风格转换模型。
[0090]
可以将第一波形图以及第二旋律语义图输入gan神经网络中,按照gan神经网络的训练方式迭代训练gan神经网络中的生成器和判别器,最后,以训练完成后的生成器作为所述风格转换模型。
[0091]
在训练过程中,由于gan神经网络的训练特征,生成器和判别器相互间可以重复迭代,使得生成器和判别器相互对对方进行参数调整,从而可以提高模型的准确率。
[0092]
在本实施例中,本发明实施例提供了一种旋律的风格转换方法,其有益效果在于:本发明可以将用户设定的原始旋律的第二波形图以及对应的第二旋律语义图输入gan神经网络中,按照gan神经网络的训练方式进行迭代训练,可以提高模型的准确率,从而可以根据用户设定的旋律风格进行旋律转换。
[0093]
参照图5
‑
7,分别示出了本发明一实施例提供的训练生成器的流程示意图、本发明一实施例提供的原有生成器的训练示意图和本发明一实施例提供的现有生成器的训练示意图。
[0094]
由于原有生成器的训练方式是隐藏层相互进行数据传输训练,即第一层隐藏层训练完成后,输出相应的训练样本至第二层隐藏层,当第二层隐藏层训练完成后输出训练样本至第三层如此类推。此一训练方式除了第一层隐藏层可以利用原始样本进行训练外,后续的隐藏层均是采用上一层级隐藏层的输出样本进行训练,在训练样本不足的情况下会出现训练不充分或过拟合问题,降低了生成器的精度,为了提高生成器的性能,参照图7,在一实施例中,所述生成器包括:若干层级的隐藏层;
[0095]
在一实施例中,所述生成器通过以下方式训练得到:
[0096]
s31、在训练所述生成器时,提取所述第二波形图的特征向量,将所述第二波形图的特征向量分别输入至各层级的隐藏层中,对所述生成器中的各隐藏层进行训练。
[0097]
在实际操作中,特征向量输入至各隐藏层后,各隐藏层根据各自的影响权重以及前一隐藏层的输出进行训练;各隐藏层各自所对应的影响权重可以相同也可以不同。
[0098]
在实际情况中,有的生成器网络结构中一各层级的隐藏层可能由多个子网络构
成,如图8所示,第二层隐藏层,包括了第二层隐藏层1、第二层隐藏层2以及第二层隐藏层3;此时同样的输入层会将特征向量输入至第二层级的隐藏层则可以理解为,分别输入至第二层级的隐藏层的各个子网络,即将特征向量分别输入图8所示的第二层隐藏层1、第二层隐藏层2以及第二层隐藏层3,以使第二层级隐藏层1、第二层隐藏层2以及第二层隐藏层3根据特征向量、各自的影响权重以及第一层隐藏层的输出结果进行训练。
[0099]
优选的,为了进一步避免模型的过拟合效果,当本发明的生成器的网络结构以图8所示的网络结构进行构成时,可采用现有的丢弃法(dropouts),随机将上一层隐藏层与下一层隐藏层的某一子网络的连接断开,不将上一上一层隐藏层的输出,输入至所断开的子网络,避免模型的过拟合现象;示意性的如图9所示,将第一层隐藏层与第二层隐藏层中的第二层隐藏层2的连接断开,则第二层隐藏层2在训练时只需根据输入层输入的特征向量以及其对应的影响权重系数进行训练。
[0100]
在一可选的实施例中,提取所述第二波形图的特征向量,具体包括:
[0101]
提取所述第二波形图的颜色像素矩阵,将所述颜色像素矩阵作为所述第二波形图的特征向量。
[0102]
具体地,图像颜色像素矩阵可以包括:rgb像素矩阵或灰度值矩阵。
[0103]
s32、其中,当待训练的隐藏层为第一层隐藏层时,根据所述特征向量以及所述特征向量在第一层隐藏层的影响权重,对所述待训练的隐藏层进行训练。
[0104]
s33、当所述待训练的隐藏层不为第一层隐藏层时,根据所述特征向量、所述特征向量在所述待训练的隐藏层的影响权重以及上一层隐藏层的输出结果,对所述待训练的隐藏层进行训练。
[0105]
在实际操作中,当待训练的隐藏层为第一层隐藏层,可以第一层隐藏层采用输入的原始特征向量以及对应权重或比例的特征向量进行训练,输出训练后的特征向量。
[0106]
当待训练的隐藏层非第一层隐藏层时,可以采用根据特征向量、特征向量在待训练的隐藏层的影响权重以及上一层隐藏层的输出结果进行训练,从而增加后续隐藏层的训练样本数量,以提高生成器的性能。
[0107]
在本实施例中,本发明实施例提供了一种旋律的风格转换方法,其有益效果在于:本发明可以向生成器的每一个隐藏层分配特定权重,并基于特定权重、特征向量以及上一层级输出结果进行训练,以增加每一层隐藏层的训练样本量,以提高生成器的性能,提高生成器的转换旋律风格的准确度。
[0108]
参照图10,示出了本发明一实施例提供的旋律语义图的生成流程示意图。
[0109]
在实际操作中,由于每张旋律语义图均通过旋律的波形图生成,为了与旋转的波形图相匹配,在一实施例中,所述第二旋律语义图的生成方法可以包括:
[0110]
s41、获取所述原始旋律的midi文件数据。
[0111]
具体地,所述midi文件数据可以是用户上传得到,也可以是获取用户的mp3格式的音乐文件,将mp3格式的音乐文件转换成midi格式后得到。
[0112]
s42、根据所述midi文件数据提取所述原始旋律在各演奏时段上所对应的乐器种类信息、各乐器演奏时的音调信息、各乐器演奏时的响度信息以及各乐器演奏时的音长信息。
[0113]
具体地,可以从midi文件数据提取每个演奏时段所对应的midi数据,从而识别得
到在各演奏时段内所使用的若干个不同的乐器种类,得到乐器种类信息,然后分别获取每个乐器在该预设的演奏时段上演奏的音调、演奏的响度以及演奏的时长,从而得到每个乐器对应的音调信息、响度信息以及音长信息。
[0114]
s43、根据所述原始旋律在各演奏时段上所对应的乐器种类、各乐器演奏时的音调信息、各乐器演奏时的响度信息以及各乐器演奏时的音长信息,生成所述第二旋律语义图。
[0115]
最后,按照乐器种类信息、音调信息、响度信息以及音长信息编辑生成具有对应格式的旋律语义图。
[0116]
在一可选的实施例中,编辑的方式和格式可以根据用户的实际需要进行调整,例如,可以是表格形式,可以是树状图或概率图形式。
[0117]
参照图11,示出了本发明一实施例提供的旋律语义图的生成流程示意图。
[0118]
由于原始旋律可能包含多种乐器,而不同的乐器其演奏时长、音调、响度以及起始时间和终止时间均不相同,为了将原始旋律中的各种信息一一对应在旋律语义图中,使得用户可以清楚确定旋律中所包含的各个信息,在一实施例的基础上,所述根据所述原始旋律在各演奏时段上所对应的乐器种类信息、各乐器演奏时的音调信息、各乐器演奏时的响度信息以及各乐器演奏时的音长信息,生成所述第二旋律语义图,具体可以包括:
[0119]
s51、根据所述原始旋律在各演奏时段上所对应的乐器种类信息、各乐器演奏时的音调信息、各乐器演奏时的响度信息以及各乐器演奏时的音长信息,生成具备若干颜色的四边形的彩图,将所述彩图作为所述第二旋律语义图。
[0120]
其中,在所述彩图中,以不同颜色的四边形表征乐器种类信息、以各四边形的宽度表征各乐器演奏时的响度信息、以各四边形的长度表征各乐器演奏时的音长信息、以各四边形在所述第二旋律语义图竖直方向的位置表征各乐器演奏时的音调信息、以各四边形在所述第二旋律语义图水平方向的位置表征各乐器的演奏时段。具体的彩图可以如图3所示。
[0121]
在一可选的操作方式中,也可以设定多个多边形,每个多边形对应一个演奏时段的乐器,多边形的边数等于乐器信息的种类数,然后将每个信息进行量化,基于其量化的数值大小对多边形进行颜色的填充,颜色填充的面积与数值成正比,从而可以根据多边形填充颜色的面积,清晰反应旋律所包含的各种信息。
[0122]
在本实施例中,本发明实施例提供了一种旋律的风格转换方法,其有益效果在于:本发明可以通过以四边形的各种参数信息表征乐器的各种信息,从而将旋律所包含的各种信息与四边形建立关联,最后通过多个四边形绘制成对应的旋律语义图,使得旋律语义图与原始旋律一一对应,既可以提高旋律与旋律语义图的匹配度,也方便用户查看,使得用户可以清楚确定旋律中所包含的各个信息,以提高用户的使用体验。
[0123]
参照图12,示出了本发明一实施例提供的一种旋律的风格转换方法的流程示意图。
[0124]
在实际播放已转换旋律的操作中,由于用户训练所使用的原始旋律所涉及的乐器有多个中,若在播放过程中才逐一选取对应的乐器以及调整其对应音调、声响和时长,会出现播放卡顿的情况,为了流畅播放已转换旋律,在一实施例中,所述旋律的风格转换方法还可以包括:
[0125]
s61、获取待转换旋律的第一波形图。
[0126]
在一实施例中,所述第一波形图为用户需要进行旋律重构的歌曲或音乐的波形
图。
[0127]
s62、将所述待转换旋律的第一波形图输入至预设旋律风格转换模型中,以使所述预设旋律风格转换模型,根据所述第一波形图生成对应的第一旋律语义图;其中,所述第一旋律语义图包含已转换旋律在各演奏时段上所对应的乐器种类信息、各乐器演奏时的音调信息、各乐器演奏时的响度信息以及各乐器演奏时的音长信息;所述已转换旋律为将所述待转换旋律根据预设旋律风格转换后所形成的旋律。
[0128]
在一实施例中,所述预设的旋律风格模型可以是用户预先采用特定风格歌曲或乐曲进行迭代训练生成的模型,该模型按照训练所使用的歌曲进行风格转换。
[0129]
旋律风格转换模型可以将第一波形图的旋律风格转换成训练时所使用的歌曲风格,并按照转换风格后的波形图生成对应的第一旋律语义图。
[0130]
可选地,所述第一旋律语义图包含已转换旋律在各演奏时段上所对应的乐器种类信息、各乐器演奏时的音调信息、各乐器演奏时的响度信息以及各乐器演奏时的音长信息;所述已转换旋律为将所述待转换旋律根据预设旋律风格转换后所形成的旋律。其中,各个乐器的种类、音调、响度和时长可以按照模型训练时所使用的特定歌曲的风格进行编辑。
[0131]
具体地,第一旋律语义图的生成方式可以采用如上述实施例所述的方式编辑生成,具体可以如图3所示。
[0132]
s63、根据所述已转换旋律在各演奏时段上所对应的乐器种类信息及各乐器演奏时的音调信息从预设的乐器素材库中,获取各演奏时段上所对应的音频文件。
[0133]
在一可选的实施例中,用户可以预先设定采集多个乐器的声音信息。通过多个乐器的声音信息构建成预设的乐器素材库。
[0134]
优选地,每个乐器的声音信息可以包含每个乐器在不同音调上的声音信息。例如,其中一种乐器的声音信息是钢琴的声音信息,该声音信息可以包含钢琴在a1b1c1d1e1f1g1至a6b6c6d6e6f6g6等各个音调的声音。
[0135]
在实际操作中,可以根据乐器种类信息选取对应的乐器,并根据其对应的音调信息从乐器的声音信息中选取对应的音调,从而获取得到对应的音频文件。
[0136]
s64、根据所述已转换旋律在各演奏时段上,各乐器演奏时的响度信息以及各乐器演奏时的音长信息,确定播放各所述音频文件时所需控制的时长及音量。
[0137]
具体地,可以按照乐器演奏时的响度信息和音长信息确定并控制播放各所述音频文件时所需控制的音量及时长。
[0138]
s65、根据各所述音频文件、各所述音频文件时所需控制的时长及音量合成所述已转换旋律。
[0139]
具体地,可以将各个所述音频文件、各所述音频文件时所需控制的时长及音量控制播放成已转换旋律。
[0140]
在本实施例中,本发明实施例提供了一种旋律的风格转换方法,其有益效果在于:本发明可以在利用用户预先收集的各个乐器及每个乐器不同音调对应的音频文件构建成对应的乐器素材库,从而可以在确定旋律语义图后从旋律语义图中提取所包含的各个乐器信息,然后快速通过各个乐器信息从乐器素材库中提取对应的音频文件,最后可以通过控制播放音频文件的时长和音量,清晰流畅地播放已转换旋律,避免播放卡顿的情况,以提高用户的使用体验。
[0141]
参见图13,是本发明一实施例提供的一种旋律的风格转换装置的结构示意图,包括:
[0142]
本发明实施例提供的一种旋律的风格转换装置包括:
[0143]
获取波形图模块101,用于获取待转换旋律的第一波形图;
[0144]
生成语义图模块102,用于将所述待转换旋律的第一波形图输入至预设旋律风格转换模型中,以使所述预设旋律风格转换模型,根据所述第一波形图生成对应的第一旋律语义图;其中,所述第一旋律语义图包含已转换旋律在各演奏时段上所对应的乐器种类信息、各乐器演奏时的音调信息、各乐器演奏时的响度信息以及各乐器演奏时的音长信息;所述已转换旋律为将所述待转换旋律根据预设旋律风格转换后所形成的旋律;
[0145]
生成旋律模块103,根据所述已转换旋律在各演奏时段上所对应的乐器种类信息、各乐器演奏时的音调信息、各乐器演奏时的响度信息以及各乐器演奏时的音长信息,生成所述已转换旋律。
[0146]
进一步的,所述风格转换模型的构建方法包括:
[0147]
获取至少一所述预设旋律风格的原始旋律的第二波形图以及与所述原始旋律所对应的第二旋律语义图;所述第二旋律语义图包含所述原始旋律在各演奏时段上所对应的乐器种类信息、各乐器演奏时的音调信息、各乐器演奏时的响度信息以及各乐器演奏时的音长信息;
[0148]
将所述第一波形图以及所述第二旋律语义图输入到预设的gan神经网络中,对所述gan神经网络中的生成器和判别器进行交替迭代训练,并将训练完成后的生成器作为所述风格转换模型。
[0149]
进一步的,所述生成器包括:若干层级的隐藏层;
[0150]
在训练所述生成器时,提取所述第二波形图的特征向量,将所述第二波形图的特征向量分别输入至各层级的隐藏层中,对所述生成器中的各隐藏层进行训练;
[0151]
其中,当待训练的隐藏层为第一层隐藏层时,根据所述特征向量以及所述特征向量在第一层隐藏层的影响权重,对所述待训练的隐藏层进行训练;
[0152]
当所述待训练的隐藏层不为第一层隐藏层时,根据所述特征向量、所述特征向量在所述待训练的隐藏层的影响权重以及上一层隐藏层的输出结果,对所述待训练的隐藏层进行训练。
[0153]
进一步的,提取所述第二波形图的特征向量,具体包括:
[0154]
提取所述第二波形图的颜色像素矩阵,将所述颜色像素矩阵作为所述第二波形图的特征向量。
[0155]
进一步的,所述第二旋律语义图的生成方法包括:
[0156]
获取所述原始旋律的midi文件数据;
[0157]
根据所述midi文件数据提取所述原始旋律在各演奏时段上所对应的乐器种类信息、各乐器演奏时的音调信息、各乐器演奏时的响度信息以及各乐器演奏时的音长信息;
[0158]
根据所述原始旋律在各演奏时段上所对应的乐器种类、各乐器演奏时的音调信息、各乐器演奏时的响度信息以及各乐器演奏时的音长信息,生成所述第二旋律语义图。
[0159]
进一步的,所述生成语义图模块102还用于:
[0160]
根据所述原始旋律在各演奏时段上所对应的乐器种类信息、各乐器演奏时的音调
信息、各乐器演奏时的响度信息以及各乐器演奏时的音长信息,生成具备若干颜色的四边形的彩图,将所述彩图作为所述第二旋律语义图;
[0161]
其中,在所述彩图中,以不同颜色的四边形表征乐器种类信息、以各四边形的宽度表征各乐器演奏时的响度信息、以各四边形的长度表征各乐器演奏时的音长信息、以各四边形在所述第二旋律语义图竖直方向的位置表征各乐器演奏时的音调信息、以各四边形在所述第二旋律语义图水平方向的位置表征各乐器的演奏时段。
[0162]
进一步的,所述生成旋律模块103还用于:
[0163]
根据所述已转换旋律在各演奏时段上所对应的乐器种类信息及各乐器演奏时的音调信息从预设的乐器素材库中,获取各演奏时段上所对应的音频文件;
[0164]
根据所述已转换旋律在各演奏时段上,各乐器演奏时的响度信息以及各乐器演奏时的音长信息,确定播放各所述音频文件时所需控制的时长及音量;
[0165]
根据各所述音频文件、各所述音频文件时所需控制的时长及音量合成所述已转换旋律。
[0166]
本发明一实施例还提供的终端设备。该实施例的终端设备包括:处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,例如旋律的风格转换方法程序。所述处理器执行所述计算机程序时实现上述各个旋律的风格转换方法实施例中的步骤,例如图1所示的步骤旋律的风格转换方法。或者,所述处理器执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能,例如旋律的风格转换方法。
[0167]
示例性的,所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述旋律的风格转换装置/终端设备中的执行过程。
[0168]
所述旋律的风格转换装置/终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述**装置/终端设备可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,所述示意图仅仅是旋律的风格转换装置/终端设备的示例,并不构成对旋律的风格转换装置/终端设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述旋律的风格转换装置/终端设备还可以包括输入输出设备、网络接入设备、总线等。
[0169]
所称处理器可以是中央处理单元(central processing unit,cpu),还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现成可编程门阵列(field
‑
programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述旋律的风格转换装置/终端设备的控制中心,利用各种接口和线路连接整个旋律的风格转换装置/终端设备的各个部分。
[0170]
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述旋律的风格转换装置/终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功
能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
[0171]
其中,所述旋律的风格转换装置/终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read
‑
only memory)、随机存取存储器(ram,random access memory)、电载波信号、电信信号以及软件分发介质等。
[0172]
需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
[0173]
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。