1.本发明涉及人工智能领域,具体涉及一种基于人工智能的音乐线上教育练习系统。
背景技术:2.随着线上教育的快速发展,线上教育产品、教育科目与知识体系越来越多样化,越来越多的人愿意利用手机或电脑等终端设备在网络上学习知识或培养兴趣。音乐线上教育为喜欢音乐的人提供了一种方便快捷的学习平台,能够帮助人们有效利用碎片化的时间,同时为人们提供高质量的教学内容和知识体系。
3.学员可以通过线上教育学习音乐的基础知识和演唱技巧,例如,基础的乐理知识、音乐节奏、气息的运用、发音与和声的技巧等。但是线上教育教师同时教授的学员多,再加上学员的水平差异较大,教师不能针对每一个学员进行一对一教学,教师的教学速度和教学方法不能适应每一个学员,不能让每个学员短时间内学会相关知识。因此学员需要在课后多加练习才能消化和巩固所学知识以及进行更深入的知识理解,特别是对于音乐学习来说,练习是很有必要的。
4.音乐的练习虽然是一个知识巩固的过程,但是独自盲目的练习音乐会使学员因缺乏正确的引导而造成错误更正,音乐水平无法提高,不利于学员的学习以及音乐风格的养成,也不利于教师对学员学习和练习结果的把控。正确的做法是充分利用线上教育平台的数据资源以及终端设备的数据分析能力,通过正确的引导作用,尽可能地让学员短时间内掌握相关能力和知识,形成自己的音乐风格或学习方法,重要的一点是能够让教师对学员的练习成果进行把控,从而更好地辅助教学。
技术实现要素:5.为了解决上述技术问题,本发明的目的在于提供一种基于人工智能的音乐线上教育练习系统,所采用的技术方案具体如下:
6.本发明的实施例提供了一种基于人工智能的音乐线上教育练习系统。
7.学员掌控风格分析模块,用于根据学员跟唱歌曲时的掌控风格、对掌控风格的掌握程度以及目标风格得到学员对掌控风格的适应程度,并获取学员跟唱歌曲时的准确特征;
8.线上教育练习模块,用于对学员掌控风格分析模块确定的所有学员的掌控风格聚类,得到若干类别的掌控风格;根据学员跟唱歌曲时的准确特征,获取所有学员对于每一类别掌控风格的准确特征差异程度;根据每一类别掌控风格的适应程度以及准确特征差异程度,得到参考风格集合并发送给教师。
9.优选的,所述准确特征为学员跟唱歌曲的准确程度满足预设条件时的准确性向量的均值。
10.优选的,所述准确性向量具体为:学员跟唱音频为源音频,被跟唱的音频为目标音
频,确定源音频中与目标音频词汇时间段有交集的词汇,构成词汇集合;获取词汇集合中与目标音频差异最小的词汇,分析学员对该词汇的发音准确程度、节奏准确程度;目标音频所有词汇的发音准确程度的均值和节奏准确程度的均值构成的二维向量作为准确性向量。
11.优选的,所述根据学员跟唱歌曲时的准确特征,获取所有学员对于每一类别掌控风格的准确特征差异程度包括:获取准确特征的两个主成分方向;根据每一类别掌控风格下学员的准确特征与每个主成分方向所在单位向量的内积,得到该类别掌控风格下两个主成分方向上的内积集合;根据两个内积集合的信息熵,得到该类别掌控风格的准确特征差异程度。
12.优选的,所述学员掌控风格分析模块包括风格分析孪生网络,用于对学员跟唱歌曲的音频进行分析得到学员跟唱歌曲时的风格特征。
13.优选的,所述准确性向量的模长为准确程度。
14.优选的,所述学员对跟唱歌曲的掌控风格为:跟唱准确程度满足预设条件时,分析得到的风格特征的均值。
15.优选的,所述掌握程度为:所有满足跟唱准确程度预设条件的准确程度的均值。
16.优选的,所述目标风格的获取方式包括:获取风格分析孪生网络训练数据集上所有音频的风格特征和学员对跟唱歌曲的掌控风格,分别计算学员掌控风格与所有音频的风格特征之间的欧式距离,选取欧式距离最小的风格特征为学员掌控风格对应的目标风格。
17.优选的,所述参考风格集合的获取方式包括:获取每一类别掌控风格下所有学员掌控风格的适应程度之和,得到第一系数;根据每个掌控风格类别的第一系数与准确特征差异程度,选取合适类别的掌控风格为参考风格集合。
18.本发明具有如下有益效果:
19.(1)本发明根据学员跟唱练习时发音和节奏准确性以及学员对不同风格的适应程度,获得参考风格集合,用于辅助教师的教学并对学员进行有效引导,能够让教师掌握大多数学员最适应且发音和节奏差异最大的风格特征,能够辅助教师以适当的教学和引导方法让大多数学员用自己较为擅长的风格来提高发音与节奏的准确性;一方面有助于对学员的发音和节奏感的培养以及风格的养成,另一方面有助于提高教师的教学效率。
20.(2)本发明通过学员跟唱练习时的音频数据,获取学员的发音和节奏准确性,能够让学员准确地知道自己发音和节奏的准确性和掌握程度,避免盲目练习,而是让学员有方向地跟唱练习歌曲。
21.(3)本发明通过学员跟唱的风格特征获取学员对不同风格的适应程度,有助于教师对学员风格的掌控,使得教师掌握学员的学习情况,培养学员的歌唱风格。
附图说明
22.为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
23.图1为本发明一个实施例所提供的一种基于人工智能的线上教育练习系统结构图。
具体实施方式
24.为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种基于人工智能的音乐线上教育练习系统,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构、或特点可由任何合适形式组合。
25.除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
26.下面结合附图具体的说明本发明所提供的一种基于人工智能的音乐线上教育练习系统的具体方案。
27.具体实施例:
28.本实施例提供一种基于人工智能的音乐线上教育练习系统。
29.本实施例针对的具体场景为:
30.(1)本发明所述的音乐练习是歌唱练习。
31.(2)本发明学员的音乐练习方法是跟唱教师教授的歌曲或者教师推荐的需要学员课下跟唱学习的歌曲。本发明将学员的跟唱音频数据称为源音频数据,被跟唱的音频数据称为目标音频数据。
32.(3)本发明在实施时不再考虑歌曲的背景音乐或伴奏,因为歌曲的伴奏是可以去掉的且本发明不对其进行分析。
33.(4)本发明适用于音乐初学者。音乐初学者没有良好的发音技巧和节奏感,也没有固定的风格特征。
34.(5)本发明只是辅助系统,学员的练习以及对学员的教导仍以教师指导为主,本发明所提供的数据和特征用于辅助教学。
35.请参阅图1,其示出了本发明实施例提供的基于人工智能的音乐线上教育练习系统结构图。基于人工智能的音乐线上教育练习系统包括:
36.学员掌控风格分析模块,用于根据学员跟唱歌曲时的掌控风格、对掌控风格的掌握程度以及目标风格得到学员对掌控风格的适应程度,并获取学员跟唱歌曲时的准确特征;
37.线上教育练习模块,用于对学员掌控风格分析模块确定的所有学员的掌控风格聚类,得到若干类别的掌控风格;根据学员跟唱歌曲时的准确特征,获取所有学员对于每一类别掌控风格的准确特征差异程度;根据每一类别掌控风格的适应程度以及准确特征差异程度,得到参考风格集合并发送给教师。
38.具体实施步骤如下:
39.准确性向量提取网络和风格分析孪生网络为该系统下学员掌握风格分析模块的子模块。其中,准确性向量提取网络用于获取学员对每首跟唱歌曲的准确性向量,风格分析孪生网络用于获取学员对每首跟唱歌曲的风格特征。
40.特别地,准确性向量具体为:学员跟唱音频为源音频,被跟唱的音频为目标音频,确定源音频中与目标音频词汇时间段有交集的词汇,构成词汇集合;获取词汇集合中与目标音频差异最小的词汇,分析学员对该词汇的发音准确程度、节奏准确程度;目标音频所有
词汇的发音准确程度的均值和节奏准确程度的均值构成的二维向量作为准确性向量。
41.优选地,准确性向量提取网络使用tcn网络,风格分析孪生网络使用孪生tcn网络。
42.具体地,准确性向量提取网络获取准确性向量的过程为:
43.(1)首先,获取源音频数据和目标音频数据。学员在音乐练习时,跟唱一首歌曲,由终端设备采集学员的源音频数据;被跟唱的歌曲即为目标音频数据;一定时序长度的源音频数据和目标音频数据中包含多个词汇的音频序列。学员跟唱歌曲的目的是让学员模仿歌曲,掌握和巩固基础的发音技巧,保证发音准确,同时锻炼学员的发音节奏,让学员有良好的音乐节奏感。学员通过不断的跟唱不同的歌曲,掌握不同词汇在不同音乐环境下的发音技巧,锻炼不同音乐环境下的节奏感。发音和节奏感是音乐初学者必须学习的基础。
44.(2)其次,获取源音频数据和目标音频数据中每个词汇对应的音频序列。将一定时序长度的源音频数据输入至tcn网络中,该网络输出音频数据中单独每个词汇的音频序列。这些词汇的音频序列表示该段源音频数据中每个词汇的发音结果。每个词汇的音频序列都对应该词汇发音的起始时间和终止时间。学员每跟唱完一首歌曲后就能利用tcn网络获得学员对该歌曲中每个词汇的发音音频序列,以及每个词汇发音的起止时间,起始时间到终止时间的这个时间段就是每个词汇的词汇时间段。利用tcn网络获取目标音频序列中每个词汇的音频序列和每个词汇发音的起止时间。该tcn网络的数据集是大量歌曲的音频数据片段,人为的为每一个音频数据片段中同一个词汇的音频序列标注为同一个标签,不同词汇的音频序列标注的标签不同,本发明将一个词汇的音频序列视为一个实例,该tcn网络的任务是分割出不同词汇的音频序列,从而获得每个词汇对应的音频序列,该tcn网络的任务和常规的实例分割神经网络的任务一致,两者数据的标注方法和网络的训练方法一致。
45.(3)最后,获取准确性向量。对于目标音频数据中的任意一个词汇x,获取该词汇x的词汇时间段m1,获取与该词汇时间段m1有交集的且属于源音频数据上的词汇时间段m2,这样的词汇时间段m2可能有多个,对应的词汇也有多个,这些词汇是源音频数据上的,假设这样的词汇有w个,这w个词汇的集合记为s,获取s中与x差异最小的词汇y,词汇x和词汇y的差异记为a
xy
,词汇x和词汇y的词汇时间段的交并比记为b
xy
。假设目标音频数据中所有的词汇集合为s1,那么学员对这首歌曲的发音准确程度为节奏准确程度为其中,所属的词汇x与词汇y的差异a
xy
的计算方法为:获取两个词汇的音频序列,这两个音频序列可能长度不一致,本发明利用dtw算法将两个长度不一致的视频序列对齐为长度一致的序列,然后对这两个序列求差值,该差值依旧是一个序列,表示的是对应元素的差值,将这个差值序列的l2范数视为词汇x和词汇y的差异a
xy
。发音准确程度和节奏准确程度构成的二维向量作为学员准确性向量。
46.至此,准确性向量提取网络获得学员对跟唱歌曲的准确性向量。
47.特别地,所述学员掌控风格分析模块包括风格分析孪生网络,用于对学员跟唱歌曲的音频进行分析得到学员跟唱歌曲时的风格特征。
48.具体地,风格分析孪生网络获取学员风格特征的具体方式为:
49.(1)训练一个风格特征提取的tcn网络,具体方法是:
50.首先,构建一个孪生tcn网络:该tcn网络的输入是两段音频数据,输出是两个高维向量。所述的孪生tcn网络是由两个tcn网络构成,这两个tcn网络的所有参数是共享的,该
孪生tcn网络中的每个tcn网络对应一个输入,且输出一个特征向量,因此本发明所述的孪生tcn网络具有两个输入和两个高维向量输出,这两个高维向量维度一致。
51.其次,构建数据集:网络上存在大量的歌曲音频数据,这些大量的音频数据构成本发明的数据集。同一个歌手唱的歌曲具有相同的风格特征,反映的是歌手的发音特征、情感特征、音乐技巧特征等。不同歌手具有不同的风格特征,虽然不同歌手风格不同,但是依然存在相似度。本发明为任意两个歌手的歌曲风格标注一个相似等级,该相似等级分为十个等级:0.0,0.1,
……
,0.9。等级越大说明两个歌手风格差异越大。
52.再次,构建孪生tcn网络的损失函数:假设输入孪生tcn网络的数据集中的歌曲片段分别为a、b,网络输出的两个高维向量为v
a
、v
b
。根据输入的歌曲风格相似等级和输出的两个高维向量构建孪生tcn网络的损失函数,该损失函数为:loss=‖v
a
‑
v
b
‖2‑
d
ab
。其中,当a、b来自于同一个歌手时,d
ab
=0,当a、b来自于不同歌手时,d
ab
为两个歌手的相似等级。
53.最后,网络的训练:在已知数据集和损失函数的前提下训练孪生tcn网络,使得网络收敛。
54.(2)获取训练完成之后的孪生tcn网络中的一个tcn网络,获取学员源音频数据中的一个音频片段,将其输入至该tcn网络中,该tcn网络输出的高维特征就是学员跟唱该片段时的风格特征。将源音频数据中所有的音频片段都输入该tcn网络中获得多个风格特征,这些风格特征的均值作为源音频数据的风格特征,表示学员跟唱的风格特征。
55.至此,获取学员跟唱歌曲后的跟唱风格特征。
56.学员掌握风格分析模块,用于根据学员跟唱歌曲时的掌控风格、对掌控风格的掌握程度以及目标风格得到学员对掌控风格的适应程度,并获取学员跟唱歌曲时的准确特征;
57.特别地,所述学员掌控风格分析模块包括风格分析孪生网络,用于对学员跟唱歌曲的音频进行分析得到学员跟唱歌曲时的风格特征。
58.优选地,所述准确特征为学员跟唱歌曲的准确程度满足预设条件时的准确性向量的均值。
59.优选地,所述准确性向量的模长为准确程度。
60.优选地,所述学员对跟唱歌曲的掌控风格为:跟唱准确程度满足预设条件时,分析得到的风格特征的均值。
61.优选地,所述掌握程度为:所有满足跟唱准确程度预设条件的准确程度的均值。
62.优选地,所述目标风格的获取方式包括:获取风格分析孪生网络训练数据集上所有音频的风格特征和学员对跟唱歌曲的掌控风格,分别计算学员掌控风格与所有音频的风格特征之间的欧式距离,选取欧式距离最小的风格特征为学员掌控风格对应的目标风格。
63.具体地,学员掌握风格分析模块获取学员对掌控风格的适应程度与准确特征的过程为:
64.(1)学员不断的重唱跟唱不同的歌曲,将每位学员对不同歌曲的跟唱音频分别输入至系统子模块准确性向量提取网络和风格分析孪生网络中,得到每位学员的准确性向量序列和风格特征序列。其中,准确性向量序列和风格特征序列中的每个准确性向量对应一个风格特征。准确性向量序列表示学员在跟唱过程中发音和节奏的准确性的变化,可用于表示学员通过不断的跟唱是否掌握了发音技巧和节奏感;风格特征序列表示学员在练习歌
曲以及修正自己发音和节奏错误时的风格变化,这个风格变化一方面反映学员在练习歌曲时歌唱技巧,例如气息技巧发音技巧等的变化,另一方面反映学员发音特征(例如音色、音调)的调整以及情感投入等的变化。学员需要找到适合自己的风格特征来提高发音和节奏的准确性。
65.(2)根据准确性向量序列和风格特征序列得到准确程度、掌控风格、掌握程度和准确特征。具体地,计算准确性向量序列中每个准确性向量的模长得到准确程度,每个准确性向量对应一个准确程度,也对应一个风格特征;准确性向量序列也就对应一个准确程度序列;通过准确程度序列获取大于预设阈值的所有准确程度对应的风格特征,获取这些风格特征的均值,该均值作为该学员在练习该歌曲达到一定准确程度时的风格特征,该风格特征作为该学员对该歌曲的掌控风格。获取大于预设阈值的准确程度的均值作为学员对该歌曲的掌握程度。获取大于预设阈值的准确程度对应的准确性向量的均值,该均值称为学员对该歌曲的准确特征。
66.(3)获取每位学员对每首歌曲的目标风格。具体地,获取子模块中风格分析孪生网络的数据集上所有音频数据的风格特征,获取这些风格特征中与该学员对该歌曲的掌控风格欧式距离最近的风格特征,该风格特征称为该学员对该歌曲的目标风格。
67.至此,获得每位学员对每首歌曲存在的准确特征、掌控风格、掌握程度、目标风格,准确特征、掌控风格、掌握程度、目标风格之间是一一对应的。
68.(4)获取每位学员对每首歌曲的掌控风格,据此计算出学员对每种掌控风格的适应程度:假设学员n的所有掌控风格中任意一个掌控风格为v,v之外的其他掌控风格集合记为s2,且s2中的任意一个掌控风格为p。
69.学员n对掌控风格v的适应程度为:
[0070][0071]
其中,f
v
表示与掌控风格v对应的掌握程度;d
vp
表示掌控风格v和掌控风格p的欧式距离;表示掌控风格v对应的目标风格和掌控风格p对应的目标风格的欧式距离;f
p
表示与掌控风格p对应的掌握程度;t
v
表示掌控风格v和对应的目标风格的欧式距离;t
p
表示掌控风格p和对应的目标风格的欧式距离。
[0072]
具体地,f
nv
的具体含义为:
[0073][0074]
其中,f
v
‑
f
p
表示掌控风格v与掌控风格p对应的掌握程度的差异,该值越大表示学员对掌控风格v的掌握程度比对掌控风格p的掌握程度越大;当f
v
‑
f
p
<0时,令f
v
‑
f
p
=0;exp(
‑
d
vp
)(f
v
‑
f
p
)表示掌控风格v和掌控风格p的差异越小就越关注学员对这两个掌控风格对应的掌握程度的差异。越大表示学员的掌控风格v与对应的目标风格的差异要比掌控风格p与对应的目标风格的差异小,表示掌控风格v对应的目标风格和掌控风格p对应的目标风格的差异越小就越关注“学员的掌控风格v与对应的目标风格的
差异与掌控风格p与对应的目标风格的差异”的差异。的差异。越大表示学员掌控风格v的掌控程度比其他任意掌控风格p的掌控程度越大,且掌控风格v距离目标风格比其他任意掌控风格p距离目标风格更近,那么学员n对掌控风格v的适应程度就越大。同时,f
v exp(
‑
t
v
)越大表示学员n对掌控风格v的适应程度就越大。
[0075]
至此,学员掌握风格分析模块获取学员对掌控风格的适应程度与准确特征,学员可以以自己适应或擅长的掌控风格去练习提高自己的发音准确性和节奏感。
[0076]
线上教育练习模块,用于对学员掌控风格分析模块确定的所有学员的掌控风格聚类,得到若干类别的掌控风格;根据学员跟唱歌曲时的准确特征,获取所有学员对于每一类别掌控风格的准确特征差异程度;根据每一类别掌控风格的适应程度以及准确特征差异程度,得到参考风格集合并发送给教师。
[0077]
特别地,所述根据学员跟唱歌曲时的准确特征,获取所有学员对于每一类别掌控风格的准确特征差异程度包括:获取准确特征的两个主成分方向;根据每一类别掌控风格下学员的准确特征与每个主成分方向所在单位向量的内积,得到该类别掌控风格下两个主成分方向上的内积集合;根据两个内积集合的信息熵,得到该类别掌控风格的准确特征差异程度。
[0078]
特别地,所述参考风格集合的获取方式包括:获取每一类别掌控风格下所有学员掌控风格的适应程度之和,得到第一系数;根据每个掌控风格类别的第一系数与准确特征差异程度,选取合适类别的掌控风格为参考风格集合。
[0079]
具体地,线上教育练习模块在学员掌握风格分析模块基础上获取合适类别的参考风格集合的具体过程为:
[0080]
(1)在所有学员练习歌唱之后,由学员掌握风格分析模块获取所有学员的所有掌控风格,输入至线上教育练习模块,这些掌控风格是根据不同学员跟唱不同歌曲计算出来的。不同掌控风格对应不同风格特征,可视为空间中的特征点,所有掌控风格对应的特征点分布有疏有密,本发明使用均值漂移聚类算法,将这些掌控风格分为多个类别,每个类别表示的是密集分布的掌控风格的集合。
[0081]
(2)对于某个类别中的每个掌握风格,其对应一个适应程度,以及一个准确特征。根据学员掌握风格分析模块获取该类别中所有掌控风格对应的准确特征,获取这些准确特征的两个主成分方向,用于表示准确特征的主要分布方向;分别计算所有准确特征与每个主成分方向所在的单位向量的内积,设所有准确特征与一个主成分方向所在的单位向量的内积构成的集合为s3,设所有准确特征与另一个主成分方向所在的单位向量的内积构成的集合为s4。计算s3中元素的信息熵为q3,计算s4中元素的信息熵为q4,那么该掌控风格类别下的准确特征差异程度为
[0082]
(3)通过学员掌握风格分析模块获取该掌控风格类别中所有掌控风格的适应程度之和,称为第一系数;在所有掌控风格类别中计算每个类别的第一系数与准确特征差异程度的乘积,获得该乘积最大值对应的掌控风格类别,这个类别的掌控风格集合称为参考风格集合。
[0083]
(4)将该参考风格集合发送给教师,辅助教师制定合适的音乐教学方案。
[0084]
至此,线上教育练习模块根据所有学员在练习过程中的数据:掌控风格和准确特征,获得了一个参考风格集合,这个集合表示大多数学员对该类型掌控风格适应程度较大,而且学员以这些风格跟唱时准确特征差异程度较大;风格适应程度较大意味着大多学员都能适应这些风格,跟唱时存在较大的准确特征差异程度意味着学员以这些风格特征跟唱练习时发音和节奏与目标音频数据存在着较大的差异,教师有必要通过知识和技巧的传授来减少这些差异。对于教师而言,教师获知了大多学员们擅长的风格以及在这些风格上跟唱的不足之处,有助于教师的教学,避免盲目教导,有针对性的教学,提高教学效率。这个参考风格集合可用于辅助教师制定教学方案,教师根据这个集合中的风格特征进行教学,例如教师教导学员如何利用这些风格特征来正确的跟唱歌曲;对于学员而言,学员可以用自己适应或擅长的风格去提高自己的发音准确性和节奏感。
[0085]
除此之外,本发明获得每个学员跟唱时的准确性向量,可以让每个学员知道自己哪些歌曲或哪些方面存在不足,进而有方向的跟唱练习,避免盲目练习。本发明提供的练习系统不仅辅助学员练习音乐而且辅助教师进行音乐教学,相得益彰,提高学员学习效率,完成由初学者到熟练者的过渡。
[0086]
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
[0087]
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
[0088]
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。