首页 > 乐器声学 专利正文
基于机器学习的音频识别方法及装置、设备、存储介质与流程

时间:2022-02-06 阅读: 作者:专利查询

基于机器学习的音频识别方法及装置、设备、存储介质与流程

1.本技术涉及人工智能领域,具体而言,涉及基于机器学习的音频识别方法及装置、设备、存储介质。


背景技术:

2.现实生活中,会听到生物发出的无语义声音,普通人无法理解其意思,识别其意图。例如,婴幼儿在有诉求的时候,会发出无语义的“啊啊啊”、“哦哦哦”或者哭声,但是普通人无法理解其发出声音的意图,从而无法满足婴幼儿的诉求;又例如,动物在有诉求的时候,也会发出叫声,但是,普通人无法理解其发出叫声的意图。
3.随着人工智能领域以及语音技术的发展,使得无语义声音意图识别成为了可能。但是,现有技术中识别无语义声音意图的方式准确度较低,无法准确识别无语义声音的意图。


技术实现要素:

4.为解决上述技术问题,本技术的实施例提供了一种基于机器学习的音频识别方法及装置、设备、存储介质。
5.根据本技术实施例的一个方面,提供了一种基于机器学习的音频识别方法,所述方法包括:
6.获取生物发出的无语义的第一音频样本;
7.将所述第一音频样本输入意图识别模型,以对所述第一音频样本的意图进行预测,得到第一意图数据;并对所述第一音频样本的音色进行识别,得到第一音色数据;其中,所述意图识别模型为基于机器学习建立的模型;
8.基于所述第一意图数据和所述第一音色数据,确定第一目标音频;
9.基于所述第一目标音频和所述第一音频样本的比对结果对所述意图识别模型进行训练,以得到训练完成的意图识别模型,并基于训练完成的意图识别模型,对待识别音频的意图进行识别。
10.进一步地,所述将所述第一音频样本输入意图识别模型,以对所述第一音频样本的意图进行预测,得到第一意图数据,包括:
11.将所述第一音频样本输入意图识别模型,以使所述意图识别模型对所述第一音频样本的意图进行预测;
12.在所述意图识别模型的预测过程中,获取所述意图识别模型的隐藏层输出的数据;
13.将获取到的数据作为所述第一意图数据。
14.进一步地,所述基于所述第一意图数据和所述第一音色数据,确定第一目标音频,包括:
15.获取第二意图数据和第二音色数据;
16.基于所述第一意图数据和所述第二音色数据生成第一音频,并基于所述第二意图数据和所述第一音色数据生成第二音频;
17.将所述第一音频输入所述意图识别模型,以对所述第一音频的意图进行预测,得到第三意图数据;并对所述第二音频的音色进行识别,得到第三音色数据;
18.基于所述第三意图数据和所述第三音色数据生成所述第一目标音频。
19.进一步地,所述获取第二意图数据和第二音色数据,包括:
20.获取生物发出的无语义的第二音频样本;
21.将所述第二音频样本输入所述意图识别模型,以对所述第二音频样本的意图进行预测,得到第二意图数据;并对所述第二音频样本的音色进行识别,得到第二音色数据;
22.在所述基于所述第一意图数据和所述第二音色数据生成第一音频,并基于所述第二意图数据和所述第一音色数据生成第二音频之后,得到训练完成的意图识别模型之前,所述方法还包括:
23.将所述第二音频输入所述意图识别模型,以对所述第二音频的意图进行预测,得到第四意图数据;并对所述第一音频的音色进行识别,得到第四音色数据;
24.基于所述第四意图数据和所述第四音色数据生成第二目标音频;
25.基于所述第二目标音频和所述第二音频样本的比对结果对所述意图识别模型进行训练。
26.进一步地,所述第一音频由音频生成模型基于所述第一意图数据和所述第二音色数据生成;所述第一音色数据由音色识别模型对第一音频样本进行识别得到;所述音频生成模型和所述音色识别模型为基于机器学习建立的模型;
27.在所述基于所述第三意图数据和所述第三音色数据生成所述第一目标音频之后,所述方法还包括:
28.基于所述第一目标音频和所述第一音频样本的比对结果对所述音频生成模型和所述音色识别模型进行训练。
29.进一步地,在得到训练完成的意图识别模型之前,所述方法还包括:
30.获取生物发出的无语义的第三音频样本和所述第三音频样本的预设意图;
31.将所述第三音频样本输入所述意图识别模型,以对所述第三音频样本的意图进行预测,得到所述第三音频样本对应的意图数据;
32.基于所述第三音频样本对应的意图数据和所述预设意图,对所述意图识别模型进行训练。
33.进一步地,在所述基于所述第一目标音频和所述第一音频样本的比对结果对所述意图识别模型进行训练,以得到训练完成的意图识别模型之后,所述方法还包括:
34.获取待识别音频;
35.将所述待识别音频输入训练完成的意图识别模型,以对所述待识别音频的意图进行识别,得到所述待识别音频的意图;
36.输出所述待识别音频的意图。
37.根据本技术实施例的一个方面,提供了一种基于机器学习的音频识别装置,所述装置包括:
38.获取模块,配置为获取生物发出的无语义的第一音频样本;
39.识别模块,配置为将所述第一音频样本输入意图识别模型,以对所述第一音频样本的意图进行预测,得到第一意图数据;并对所述第一音频样本的音色进行识别,得到第一音色数据;其中,所述意图识别模型为基于机器学习建立的模型;
40.确定模块,配置为基于所述第一意图数据和所述第一音色数据,确定第一目标音频;
41.训练模块,配置为基于所述第一目标音频和所述第一音频样本的比对结果对所述意图识别模型进行训练,以得到训练完成的意图识别模型,并基于训练完成的意图识别模型,对待识别音频的意图进行识别。
42.根据本技术实施例的一个方面,提供了一种电子设备,包括:
43.一个或多个处理器;
44.存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述电子设备实现如上所述的方法。
45.根据本技术实施例的一个方面,提供了一种计算机可读存储介质,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行如上所述的方法。
46.根据本技术实施例的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行如上所述的方法。
47.在本技术的实施例提供的技术方案中,通过获取生物发出的无语义的第一音频样本,将第一音频样本输入意图识别模型,以对第一音频样本的意图进行预测,得到第一意图数据;并对第一音频样本的音色进行识别,得到第一音色数据;基于第一意图数据和第一音色数据,确定第一目标音频;基于第一目标音频和第一音频样本的比对结果对意图识别模型进行训练,以得到训练完成的意图识别模型,并基于训练完成的意图识别模型,对待识别音频的意图进行识别,从而降低音色等参数对意图识别的影响,提升意图识别的准确性。
48.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本技术。
附图说明
49.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理。显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术者来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
50.图1是本技术的一示例性实施例示出的一种基于机器学习的音频识别方法的流程图;
51.图2是采用birnn机制建立的意图识别模型的结构图;
52.图3是图1所示实施例中的步骤s130在一示例性实施例中的流程图;
53.图4是本技术的另一示例性实施例示出的一种基于机器学习的音频识别方法的流程图;
54.图5是本技术的另一示例性实施例示出的一种基于机器学习的音频识别方法的流程图;
55.图6是本技术的一示例性实施例示出的获取第一目标音频和第二目标音频的过程图;
56.图7是本技术的一示例性实施例示出的基于机器学习的音频识别装置的框图;
57.图8是本技术的一示例性实施例示出的电子设备的结构示意图。
具体实施方式
58.这里将详细地对示例性实施例执行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本技术的一些方面相一致的装置和方法的例子。
59.附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
60.附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/ 步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
61.还需要说明的是:在本技术中提及的“多个”是指两个或者两个以上。“和/ 或”描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
62.本技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
63.人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
64.机器学习(machine learning,ml)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。深度学习(deeplearning,dl)是机器学习领域中一个新的研究方向,深度学习的概念源于人工神经网络的研究,含多个隐藏层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。研究深度学习的动机在于建立模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据。
65.本技术实施例提供的方案涉及人工智能的机器学习技术,具体通过如下实施例进行说明。
66.请参阅图1,图1是根据一示例性实施例示出的一种基于机器学习的音频识别方法的流程图。该方法可以包括步骤s110至步骤s140,详细介绍如下:
67.步骤s110,获取生物发出的无语义的第一音频样本。
68.第一音频样本为生物发出的无语义音频,其为对意图识别模型进行训练的样本。对于意图识别模型的相关内容,请参见后续记载。
69.其中,生物发出的无语义音频包括但不限于动物的叫声、婴幼儿的声音、成年人的哭声等。例如,为了理解婴幼儿发出声音的意图,可以预先采集婴幼儿的声音作为第一音频样本;为了理解动物发出叫声的意图,可以预先采集动物的叫声作为第一音频样本。
70.需要说明的是,第一音频样本的数量和类型可以根据实际需要灵活设置。
71.步骤s120,将第一音频样本输入意图识别模型,以对第一音频样本的意图进行预测,得到第一意图数据;并对第一音频样本的音色进行识别,得到第一音色数据。
72.意图识别模型为基于机器学习建立的模型,用于识别生物发出的无语义音频的意图。为了提升识别准确率,可以基于深度学习建立意图识别模型,为了进一步提升识别准确率,可以采用birnn(bidirectional recurrent neural networks,双向循环神经网络)+attention机制来建立意图识别模型,其中, attention机制,即注意力机制,是模仿人类注意力而提出的一种解决问题的办法,简单地说就是从大量信息中快速筛选出高价值信息。当然,也可以采用其他神经网络或其他机器学习算法来建立意图识别模型,例如,采用卷积神经网络来建立意图识别模型,或者采用循环神经网络来建立意图识别模型。
73.意图为希望达到某种目的的打算。可以根据实际需要设置意图,包括但不限于“想吃饭”、“想睡觉”、“需要安慰”等。意图数据为表征意图的数据。
74.本实施例中,将第一音频样本输入意图识别模型,从而使得意图识别模型对第一音频样本的意图进行预测,并将意图识别模型针对第一音频样本输出的数据作为第一音频样本对应的第一意图数据。
75.在一示例中,可以采用第一音频样本的隐式意图作为第一意图数据,即采用意图识别模型的隐藏层针对第一音频样本输出的数据,作为第一意图数据,在这种条件下,步骤s120可以包括步骤s121-s123,详细介绍如下:
76.步骤s121,将第一音频样本输入意图识别模型,以使意图识别模型对第一音频样本的意图进行预测。
77.将第一音频样本输入意图识别模型,意图识别模型会对第一音频样本进行处理,从而对第一音频样本的意图进行预测。
78.步骤s122,在意图识别模型的预测过程中,获取意图识别模型的隐藏层输出的数据。
79.需要说明的是,机器学习模型包括输入层、隐藏层和输出层(即全连接层),其中,输入层用于接收输入机器学习模型的数据,输入层的输出与隐藏层的输入连接,隐藏层的输入与输出层连接,输出层用于输出机器学习模型的识别结果。为了便于后续基于意图数据生成音频,在意图识别模型预测第一音频样本的意图的过程中,可以获取意图识别模型的隐藏层输出的数据,作为第一意图数据。例如,参见图2所示,对于采用birnn建立的意图识别模型,其包括输入层、隐藏层和输出层,其中,输入层接收数据x
1-x
t
,隐藏层包括两层方向相反的循环层,分别和循环层的输出(即a
t,1-a
t,t
) 输入至输出层(即s
t-1
和s
t
所在的层),输出层的输出为y
t-1
和y
t
,则将a
t,1-a
t,t
作为第一意图数据。
80.步骤s123,将获取到的数据作为第一意图数据。
81.在获取意图识别模型的隐藏层针对第一音频样本输出的数据后,将获取到的数据作为第一意图数据。由于意图识别模型的隐藏层输出的数据在一定程度上能够表征音频的意图,并且数据量大,因此,采用意图识别模型隐藏层输出的数据作为第一意图数据,降低了基于第一意图数据生成音频的难度。
82.在另一示例中,也可以采用第一音频样本的显式意图作为第一意图数据,即采用意图识别模型的输出层针对第一音频样本输出的数据,作为第一意图数据。举例来说,参见图2所示,将y
t-1
和y
t
作为第一意图数据。
83.本实施例中,还需对第一音频样本的音色进行识别,得到第一音频样本对应的第一音色数据。其中,音色识别的具体方式,可以根据实际需要灵活设置。例如,在一示例中,可以基于音色识别模型对第一音频样本的音色进行识别,得到第一音色数据,其中,音色识别模型为基于机器学习建立的模型,用于对音频的音色进行识别,其中,为了提升识别准确率,可以基于深度学习建立音色识别模型。音色识别模型可以采用birnn+attention机制来建立,或者,也可以采用其他神经网络或其他机器学习算法来建立。
84.步骤s130,基于第一意图数据和第一音色数据,确定第一目标音频。
85.其中,基于第一意图数据和第一音色数据,确定第一目标音频的方式,可以根据实际需要灵活设置,例如,可以直接基于第一意图数据和第一音色数据生成音频,将生成的音频作为第一目标音频。
86.步骤s140,基于第一目标音频和第一音频样本的比对结果对意图识别模型进行训练,以得到训练完成的意图识别模型,并基于训练完成的意图识别模型,对待识别音频的意图进行识别。
87.需要说明的是,训练完成的意图识别模型为对意图识别模型进行训练后得到的,并且达到预设条件的模型。其中,预设条件可以根据实际需要灵活设置,例如,可以设置为准确率达到预设准确率阈值(例如90%、70%等)。
88.为了得到训练完成的意图识别模型,本实施例中,将第一目标音频和第一音频样本进行比对,以基于第一目标音频和第一音频样本的比对结果,对意图识别模型进行训练。后续,即可基于训练完成的意图识别模型,对待识别音频的意图进行识别。由于第一目标音频为基于第一音频样本对应的第一预测意图和第一音色数据确定出的,因此,若第一目标音频和第一音频样本匹配,则极大程度上表明意图识别模型对第一音频样本的意图识别准确,若第一目标音频和第一音频样本不匹配,则极大程度上表明意图识别模型对第一音频样本的意图识别错误,需要对意图识别模型的参数进行调整。第一目标音频和第一音频样本匹配可以是第一目标音频和第一音频样本的相似度大于预设相似度阈值,预设相似度阈值可以根据实际需要灵活设置,例如,设置为90%、80%等。
89.其中,可以先将第一目标音频和第一音频样本进行比对,将比对结果输入意图识别模型,以使意图识别模型基于比对结果调整内部参数;或者,也可以将第一目标音频输入意图识别模型,意图识别模型将第一目标音频和第一音频样本进行比对,以基于比对结果调整内部参数。
90.本实施例中,通过获取生物发出的无语义的第一音频样本,将第一音频样本输入意图识别模型,以对第一音频样本的意图进行预测,得到第一意图数据;并对第一音频样本的音色进行识别,得到第一音色数据;基于第一意图数据和第一音色数据,确定第一目标音
频;基于第一目标音频和第一音频样本的比对结果对意图识别模型进行训练,以得到训练完成的意图识别模型,并基于训练完成的意图识别模型,对待识别音频的意图进行识别,从而可以识别出生物发出的无语义音频的意图,并且,基于机器学习建立的意图识别模型进行意图识别,可以提升识别准确性,进一步地,在对意图识别模型的训练过程中,降低了音色等参数对意图识别的影响,进一步提升了意图识别的准确性。
91.参见图3,图3为图1所示实施例中的步骤s130在一示例性实施例中的流程图。为了进一步降低音色等因素对于意图识别模型的干扰,如图3所示,基于第一意图数据和第一音色数据,确定第一目标音频的过程,可以包括步骤 s131-s134,详细介绍如下:
92.步骤s131,获取第二意图数据和第二音色数据。
93.其中,第二意图数据和第二音色数据可以是同一音频对应的特征;或者,也可以是不同音频对应的特征。第二意图数据和第二音色数据可以是预先设置的,或者,也可以是在意图识别模型的训练过程中,基于音频样本得到的。
94.在第二意图数据和第二音色数据属于同一音频对应的特征、且第二意图数据和第二音色数据为在意图识别模型的训练过程中,基于音频样本得到的条件下,步骤s131可以包括步骤s210-步骤s220,详细介绍如下:
95.步骤s210,获取生物发出的无语义的第二音频样本。
96.其中,第二音频样本为生物发出的无语义音频,其为对意图识别模型进行训练的样本。第二音频样本的具体释意可以参见第一音频样本,此处不再赘述。
97.第二音频样本可以是输入意图识别模型的样本中,位于第一音频样本前一个的样本;或者,也可以是输入意图识别模型的样本中,位于第一音频样本后一个的样本;当然,还可以是其他输入意图识别模型的样本。
98.步骤s220,将第二音频样本输入意图识别模型,以对第二音频样本的意图进行预测,得到第二意图数据;并对第二音频样本的音色进行识别,得到第二音色数据。
99.本实施例中,将第二音频样本输入意图识别模型,从而使得意图识别模型对第二音频样本的意图进行预测,并将意图识别模型针对第二音频样本输出的数据作为第二音频样本对应的第二意图数据,具体方式与前述步骤s120类似,此处不再赘述。
100.在步骤s220中,还需对第二音频样本的音色进行识别,得到第二音色数据,其中,具体过程可以参见前述第一音色数据的识别过程,此处不再赘述。
101.步骤s132,基于第一意图数据和第二音色数据生成第一音频,并基于第二意图数据和第一音色数据生成第二音频。
102.基于第一意图数据和第二音色数据生成第一音频,基于第二意图数据和第一音色数据生成第二音频的具体方式,可以根据实际需要灵活设置。
103.例如,在一个示例中,可以由音频生成模型基于第一意图数据和第二音色数据生成第一音频,由音频生成模型基于第二意图数据和第一音色数据生成第二音频。其中,音频生成模型为基于机器学习建立的模型,用于基于意图数据和音色数据生成音频,例如,可以是基于深度学习建立的模型。音频生成模型可以采用cnn(convolutional neural networks,卷积神经网络)、rnn(recurrentneural networks,循环神经网络)、bert(bidirectional encoder representationfrom transformers)等模型中一种来建立,其中,bert是一个预训练的语言表征模型。当音频生成模型采用cnn时,其内部卷积方式可以
选择空洞卷积,其中,空洞卷积可以增大感受视野,可以在较小参数的情况下,完成卷积;当然,也可以采用其他卷积方式。
104.步骤s133,将第一音频输入意图识别模型,以对第一音频的意图进行预测,得到第三意图数据;并对第二音频的音色进行识别,得到第三音色数据。
105.其中,步骤s133的具体实现方式与前述步骤s120的具体实现方式类似,此处不再赘述。
106.步骤s134,基于第三意图数据和第三音色数据生成第一目标音频。
107.其中,生成第一目标音频的具体方式可以根据实际需要灵活设置,例如,将第三意图数据和第三音色数据输入音频生成模型,以使音频生成模型基于第三意图数据和第三音色数据生成第一目标音频。
108.本实施例中,获取第二意图数据和第二音色数据,基于第一意图数据和第二音色数据生成第一音频,并基于第二意图数据和第一音色数据生成第二音频;将第一音频输入意图识别模型,以对第一音频的意图进行预测,得到第三意图数据;并对第二音频的音色进行识别,得到第三音色数据;基于第三意图数据和第三音色数据生成第一目标音频,这样,第一目标音频为重构的音频,并且,在第一目标音频的生成过程中,交换了音色和意图,从而使得基于第一目标音频训练得到的意图识别模型,在意图识别的过程中,可以降低音色、音量等对意图识别的影响,提升识别准确性。
109.在一示例性实施例中,在步骤s131包括步骤s210-步骤s220的条件下,图3所示的步骤s132之后,得到训练完成的意图识别模型之前,该方法还可以包括步骤s310-s330,详细介绍如下:
110.步骤s310,将第二音频输入意图识别模型,以对第二音频的意图进行预测,得到第四意图数据;并对第一音频的音色进行识别,得到第四音色数据。
111.其中,步骤s310的具体实现方式与前述步骤s133的具体实现方式类似,此处不再赘述。
112.需要说明的是,第二意图数据、第三意图数据、第四意图数据可以是显式意图,也可以是隐式意图,为了保持一致性,第一意图数据、第二意图数据、第三意图数据和第四意图数据,可以均是显式意图,或者,可以均是隐式意图。
113.步骤s320,基于第四意图数据和第四音色数据生成第二目标音频。
114.其中,步骤s320的具体实现方式与前述步骤s134的具体实现方式类似,此处不再赘述。
115.也就是说,将第一音频样本的意图数据和音色数据以及第二音频样本的意图数据和音色数据进行交叉,从而生成第一音频和第二音频,并将第一音频的意图数据和音色数据以及第二音频的意图数据和音色数据进行交叉,从而生成第一音频样本对应的第一目标音频和第二音频样本对应的第二目标音频,这样,可以降低音色对意图识别的干扰。
116.需要说明的是,在其他实施例中,也可以基于确定第一目标音频的方法,确定第二目标音频。
117.步骤s330,基于第二目标音频和第二音频样本的比对结果对意图识别模型进行训练。
118.需要说明的是,为了得到训练完成的意图识别模型,本实施例中,除了基于第一目
标音频和第一音频样本的比对结果对意图识别模型进行训练外,还可以基于第二目标音频和第二音频样本的比对结果对意图识别模型进行训练,从而提升训练速度。
119.其中,步骤s330的具体实现方式与前述步骤s140的具体实现方式类似,此处不再赘述。
120.在一示例性实施例中,在第一音频由音频生成模型基于第一意图数据和第二音色数据生成,第一音色数据由音色识别模型对第一音频样本进行识别得到的条件下,在图3所示的步骤s134之后,该方法还包括:基于第一目标音频和第一音频样本的比对结果对音频生成模型和音色识别模型进行训练。
121.在其他示例中,还可以基于第二目标音频和第二音频样本的比对结果对音频生成模型和音色识别模型进行训练。
122.在一示例性实施例中,参见图4所示,在得到训练完成意图识别模型之前,该方法还包括:
123.步骤s410,获取生物发出的无语义的第三音频样本和第三音频样本的预设意图。
124.本实施例中,其中,对于第三音频样本的定义,可以参见前述第一音频样本的相关记载。为每个第三音频样本配置了对应的意图,即预设意图,该预设意图可以视为第三音频样本的真实意图。
125.第三音频样本和第一音频样本可以是同一样本,也可以是不同样本;第三音频样本和第二音频样本可以是同一样本,也可以是不同样本。
126.步骤s420,将第三音频样本输入意图识别模型,以对第一音频样本的意图进行预测,得到第三音频样本对应的意图数据。
127.将第三音频样本输入意图识别模型,获取意图识别模型针对第三音频样本输出的数据,得到第三音频样本对应的意图数据。其中,该意图数据可以是显式意图,也可以是隐式意图。为了保持一致性,若预设意图为显式意图,则第三音频样本对应的意图数据为显式意图,若预设意图为隐式意图,则第三音频样本对应的意图数据为隐式意图。
128.步骤s430,基于第三音频样本对应的意图数据和预设意图,对意图识别模型进行训练。
129.需要说明的是,为了得到训练完成的意图识别模型,本实施例中,除了基于第一目标音频和第一音频样本的比对结果对意图识别模型进行训练外,还可以将第三音频样本对应的预设意图也输入意图识别模型,以使意图识别模型基于第三音频样本对应的意图数据和预设意图,调整内部参数。这样,通过两种不同的方式对意图识别模型进行训练,不仅可以提升训练速度,还可以提升意图识别模型的识别精度。
130.需要说明的是,对意图识别模型进行训练的样本(包括前述第一音频样本、第二音频样本和第三音频样本),包括的无语义音频的类型,可以根据实际需要灵活设置。例如,可以包括多种类型的无语义音频样本,这样,基于样本对意图识别模型进行训练后,得到的训练完成的模型可以识别多种类型的无语义音频。或者,由于不同类型的无语义声音,包含不同的特征,识别方式存在差异,为了提升模型识别的准确度,可以只包括一种类型的无语义音频样本,这样,基于样本对意图识别模型进行训练后,得到的训练完成的模型识别准确度高。其中,无语义音频的类型划分方式可以根据实际需要设置,例如,可以根据生物的种类、声音的种类进行划分,举例来说,将狗、猫、牛的叫声分别作为一种无语义音频,将婴幼儿的
哭声、笑声分别作为另一种类型的无语义音频。举例来说,若只需要得到一种能够识别婴幼儿哭声的意图识别模型,则该意图识别模型对应的样本可以只包括婴幼儿哭声。
131.本实施例中,还采用了第三音频样本和第三音频样本对应的预设意图,对意图识别模型进行训练,进一步提升了基于意图识别模型进行意图识别的准确性。
132.在一示例性实施例中,参见图5所示,在图1所示的步骤s140之后,该方法还包括步骤s510-s530,详细介绍如下:
133.步骤s510,获取待识别音频。
134.待识别音频为待识别的音频。
135.其中,待识别音频可以是对环境音进行实时采集得到的音频,例如,在本实施例提出的方法应用于婴幼儿看护时,可以实时获取采集婴幼儿发出的声音,识别其意图,并输出意图,从而便于看护人实时了解婴幼儿的意图。待识别音频也可以是用户选择的音频,当然,还可以是其他音频。
136.步骤s520,将待识别音频输入训练完成的意图识别模型,以对待识别音频的意图进行识别,得到待识别音频的意图。
137.将待识别音频输入意图识别模型,意图识别模型对待识别音频的意图进行识别,并输出待识别音频的意图。
138.步骤s530,输出待识别音频的意图。
139.输出待识别音频的意图的方式可以根据实际需要灵活设置。例如,可以基于待识别音频的意图,生成对应的文字信息,并输出生成的文字信息。其中,可以预先设置语料库,语料库中包括不同意图对应的文本,基于待识别音频的意图从语料库中获取对应的文字信息。
140.输出生成的文字信息包括但不限于以下三种方式:
141.第一种:基于文字信息生成对应的音频,并播放音频。
142.其中,可以采用fastspeech2技术,基于文字信息生成对应的音频,从而具备良好的语音生成效果。
143.第二种:显示文字信息。
144.例如,在显示屏上显示对应的文字信息。
145.第三种:将文字信息发送至预设联系人。
146.其中,可以通过短信、邮件、交互类软件等方式,将文字信息发送至预设联系人,以使预设联系人知晓待识别音频的意图。
147.需要说明的是,上述三种方式还可以同时采用。
148.本实施例中,获取待识别音频的意图后,输出待识别音频的意图,从而使用户知晓待识别音频的意图。
149.在一示例性实施例中,以识别婴幼儿哭声为例,来说明本技术实施例提出的基于机器学习的音频识别方法,该方法包括:
150.步骤s601,获取生物发出的无语义的第一音频样本和第二音频样本。
151.其中,第一音频样本、第二音频样本以及后续的第三音频样本,均为婴幼儿的哭声。
152.步骤s602,将第一音频样本输入意图识别模型,获取意图识别模型的隐藏层针对
第一音频样本输出的数据,作为第一意图数据。
153.步骤s603,将第一音频样本输入音色识别模型,以对第一音频样本的音色进行识别,得到第一音色数据。
154.步骤s604,将第二音频样本输入意图识别模型,获取意图识别模型的隐藏层针对第二音频样本输出的数据,作为第二意图数据。
155.步骤s605,将第二音频样本输入音色识别模型,以对第二音频样本的音色进行识别,得到第二音色数据。
156.步骤s606,将第一意图数据和第二音色数据输入音频生成模型,得到第一音频;将第二意图数据和第一音色数据输入音频生成模型,得到第二音频。
157.步骤s607,将第一音频输入意图识别模型,获取意图识别模型的隐藏层针对第一音频输出的数据,作为第三意图数据。
158.步骤s608,将第一音频输入音色识别模型,以对第一音频的音色进行识别,得到第四音色数据。
159.步骤s609,将第二音频输入意图识别模型,获取意图识别模型的隐藏层针对第二音频输出的数据,作为第四意图数据。
160.步骤s610,将第二音频输入音色识别模型,以对第二音频的音色进行识别,得到第三音色数据。
161.步骤s611,将第三意图数据和第三音色数据输入音频生成模型,得到第一目标音频;将第四意图数据和第四音色数据输入音频生成模型,得到第二目标音频。
162.其中,得到第一目标音频和第二目标音频的具体过程,可以参见图6所示,图6中,为了便于观看,示意了三个意图识别模型,本质上,这三个意图识别模型为同一模型,同理,图6中的3个音频生成模型为同一模型,3个音色识别模型为同一模型。
163.第一意图数据、第二意图数据、第三意图数据、第四意图数据、第一音色数据、第二音色数据、第三音色数据和第四音色数据,可以均是矩阵形式。
164.步骤s612,基于第一目标音频和第一音频样本的比对结果对意图识别模型、音色识别模型和音频生成模型进行训练。
165.其中,可以基于损失函数来比对第一目标音频和第一音频样本。
166.步骤s613,基于第二目标音频和第二音频样本的比对结果对意图识别模型、音色识别模型和音频生成模型进行训练。
167.可以基于损失函数来比对第二目标音频和第二音频样本。
168.步骤s614,获取生物发出的无语义的第三音频样本和第三音频样本的预设意图。
169.步骤s615,将第三音频样本输入意图识别模型,以对第一音频样本的意图进行预测,得到第三音频样本对应的意图数据。
170.步骤s616,基于第三音频样本对应的意图数据和预设意图,对意图识别模型进行训练。
171.需要说明的是,本实施例中,对于步骤s612、s613和s616的先后顺序,可以根据实际需要灵活设置。例如,可以同步进行,或交叉进行(例如,对于意图识别模型的训练,其需要大量的样本,可以先基于一个第一音频样本和一个第二音频样本,执行步骤s612和s613,再基于一个第三音频样本执行步骤 s616;然后,基于下一个第一音频样本和下一个第二音
频样本,执行步骤s612 和s613,再基于下一个第三音频样本执行步骤s616,并依此进行循环)。
172.步骤s617,在意图识别模型达到预设条件时,得到训练完成的意图识别模型。
173.该预设条件可以根据实际需要灵活设置。
174.步骤s618,获取待识别音频。
175.待识别音频为采集的婴幼儿的哭声。
176.步骤s619,将待识别音频输入训练完成的意图识别模型,以对待识别音频的意图进行识别,得到待识别音频的意图。
177.步骤s620,输出待识别音频的意图。
178.其中,可以基于待识别音频的意图,生成对应的文字信息,基于文字信息生成对应的音频,并播放音频。其中,对于婴幼儿而言,其发出哭声通常是饥饿、瞌睡、恐惧、不适等,因此,可以预先在语料库中,设置饥饿类文本、瞌睡类文本、恐惧类文本、不适类文本等,然后,基于待识别音频的意图,从语料库中获取对应的文字信息。
179.需要说明的是,以上步骤s601至步骤s620所涉及的详细过程均在前述的各个实施例中进行了描述,因此本处不再进行赘述。
180.需要说明的是,前述步骤s601-s617为意图识别模型的训练过程;步骤 s618-s620为意图识别模型的应用过程,训练过程和应用过程的执行主体可以不一致;例如,可以基于服务器对意图识别模型进行训练,在训练完成后,客户端(例如手机等设备)可以下载意图识别模型,以基于训练完成的意图识别模型进行意图识别。当然,训练过程和意图识别过程的执行主体可以相同。
181.在一示例性实施例中,为了便于意图识别模型对音频进行处理,在获取音频(包括但不限于第一音频样本、第二音频样本、第三音频样本和待识别的音频)之后,若音频为模拟音频,可以先将模拟音频转换为数字音频(若获取到的音频已经为数字音频,则无需处理),再转换得到的数字音频输入至意图识别模型。其中,将模拟音频转换为数字音频的过程可以为:对模拟音频进行采用、量化、编码,从而得到数字音频,即按照一定的频率在模拟音频的连续时域波形中取点得到离散点,并对离散点进行量化编码(即根据各离散点的振幅将其编码为0或1),从而得到数字音频。
182.请参阅图7,图7是本技术的一示例性实施例示出的基于机器学习的音频识别装置的框图。该装置包括:
183.获取模块701,配置为获取生物发出的无语义的第一音频样本;识别模块 702,配置为将第一音频样本输入意图识别模型,以对第一音频样本的意图进行预测,得到第一意图数据;并对第一音频样本的音色进行识别,得到第一音色数据;其中,意图识别模型为基于机器学习建立的模型;确定模块703,配置为基于第一意图数据和第一音色数据,确定第一目标音频;训练模块704,配置为基于第一目标音频和第一音频样本的比对结果对意图识别模型进行训练,以得到训练完成的意图识别模型,并基于训练完成的意图识别模型,对待识别音频的意图进行识别。
184.在另一示例性实施例中,识别模块702包括:
185.意图预测模块,配置为将第一音频样本输入意图识别模型,以使意图识别模型对第一音频样本的意图进行预测。
186.第一数据获取模块,配置为在意图识别模型的预测过程中,获取意图识别模型的隐藏层输出的数据。
187.意图获取模块,配置为将获取到的数据作为第一意图数据。
188.在另一示例性实施例中,确定模块703包括:
189.第二数据获取模块,配置为获取第二意图数据和第二音色数据。
190.第一生成模块,配置为基于第一意图数据和第二音色数据生成第一音频,并基于第二意图数据和第一音色数据生成第二音频。
191.第一数据识别模块,配置为将第一音频输入意图识别模型,以对第一音频的意图进行预测,得到第三意图数据;并对第二音频的音色进行识别,得到第三音色数据。
192.第二生成模块,配置为基于第三意图数据和第三音色数据生成第一目标音频。
193.在另一示例性实施例中,第二数据获取模块包括:
194.第一样本获取模块,配置为获取生物发出的无语义的第二音频样本。
195.第二数据识别模块,配置为将第二音频样本输入意图识别模型,以对第二音频样本的意图进行预测,得到第二意图数据;并对第二音频样本的音色进行识别,得到第二音色数据。
196.在另一示例性实施例中,该装置还包括:
197.第三数据识别模块,配置为将第二音频输入意图识别模型,以对第二音频的意图进行预测,得到第四意图数据;并对第一音频的音色进行识别,得到第四音色数据。
198.第三生成模块,配置为基于第四意图数据和第四音色数据生成第二目标音频;
199.第一模型训练模块,配置为基于第二目标音频和第二音频样本的比对结果对意图识别模型进行训练。
200.在另一示例性实施例中,在第一音频由音频生成模型基于第一意图数据和第二音色数据生成,第一音色数据由音色识别模型对第一音频样本进行识别得到的条件下,该装置还包括:
201.第二模型训练模块,配置为基于第一目标音频和第一音频样本的比对结果对音频生成模型和音色识别模型进行训练。
202.在另一示例性实施例中,该装置还包括:
203.第三数据获取模块,配置为获取生物发出的无语义的第三音频样本和第三音频样本的预设意图。
204.第四数据识别模块,配置为将第三音频样本输入意图识别模型,以对第三音频样本的意图进行预测,得到第三音频样本对应的意图数据。
205.第三模型训练模块,配置为基于第三音频样本对应的意图数据和预设意图,对意图识别模型进行训练。
206.在另一示例性实施例中,该装置还包括:
207.第四数据获取模块,配置为获取待识别音频。
208.意图识别模块,配置为将待识别音频输入训练完成的意图识别模型,以对待识别音频的意图进行识别,得到待识别音频的意图;
209.输出模块,配置为输出待识别音频的意图。
210.需要说明的是,上述实施例所提供的装置与上述实施例所提供的方法属于同一构
思,其中各个模块和单元执行操作的具体方式已经在方法实施例中进行了详细描述,此处不再赘述。
211.本技术的实施例还提供了一种电子设备,包括存储装置以及一个或多个处理器,其中,存储装置用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行时,使得电子设备实现前述方法。
212.图8是根据一示例性实施例示出的一种电子设备的结构示意图。
213.需要说明的是,该电子设备只是一个适配于本技术的示例,不能认为是提供了对本技术的使用范围的任何限制。该电子设备也不能解释为需要依赖于或者必须具有图8中示出的示例性的电子设备中的一个或者多个组件。
214.如图8所示,在一示例性实施例中,电子设备包括处理组件801、存储器 802、电源组件803、多媒体组件804、音频组件805、传感器组件807和通信组件808。其中,上述组件并不全是必须的,电子设备可以根据自身功能需求增加其他组件或减少某些组件,本实施例不作限定。
215.处理组件801通常控制电子设备的整体操作,诸如与显示、数据通信以及日志数据处理相关联的操作等。处理组件801可以包括一个或多个处理器 809来执行指令,以完成上述操作的全部或部分步骤。此外,处理组件801 可以包括一个或多个模块,便于处理组件801和其他组件之间的交互。例如,处理组件801可以包括多媒体模块,以方便多媒体组件804和处理组件801 之间的交互。
216.存储器802被配置为存储各种类型的数据以支持在电子设备的操作,这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令。存储器802中存储有一个或多个模块,该一个或多个模块被配置成由该一个或多个处理器809执行,以完成上述实施例中所描述的方法中的全部或者部分步骤。
217.电源组件803为电子设备的各种组件提供电力。电源组件803可以包括电源管理系统,一个或多个电源,及其他与为电子设备生成、管理和分配电力相关联的组件。
218.多媒体组件804包括在电子设备和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括tp(touch panel,触摸面板)和lcd(liquidcrystal display,液晶显示器)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与触摸或滑动操作相关的持续时间和压力。
219.音频组件805被配置为输出和/或输入音频信号。例如,音频组件805包括一个麦克风,当电子设备处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。在一些实施例中,音频组件805还包括一个扬声器,用于输出音频信号。
220.传感器组件807包括一个或多个传感器,用于为电子设备提供各个方面的状态评估。例如,传感器组件807可以检测到电子设备的打开/关闭状态,还可以检测电子设备的温度变化。
221.通信组件808被配置为便于电子设备和其他设备之间有线或无线方式的通信。电子设备可以接入基于通信标准的无线网络,例如wi-fi (wireless-fidelity,无线网络)。
222.可以理解,图8所示的结构仅为示意,该电子设备可以包括比图8中所示更多或更
少的组件,或者具有与图8所示不同的组件。图8中所示的各组件均可以采用硬件、软件或者其组合来实现。
223.附图中的流程图和框图,图示了按照本技术各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
224.描述于本技术实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
225.本技术的另一方面还提供了一种计算机可读存储介质,其上存储有计算机可读指令,该计算机可读指令被计算机的处理器执行时,使计算机执行前述方法。该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的,也可以是单独存在,而未装配入该电子设备中。
226.需要说明的是,本技术实施例的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(erasableprogrammable read only memory,eprom)、闪存、光纤、便携式紧凑磁盘只读存储器(compact disc read-only memory,cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本技术中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本技术中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
227.本技术的另一方面还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各个实施例中提供的方法。
228.上述内容,仅为本技术的较佳示例性实施例,并非用于限制本技术的实施方案,本领域普通技术人员根据本技术的主要构思和精神,可以十分方便地进行相应的变通或修
改,故本技术的保护范围应以权利要求书所要求的保护范围为准。