首页 > 乐器声学 专利正文
语音唤醒模型的训练方法、唤醒词的检测方法和相关设备与流程

时间:2022-01-23 阅读: 作者:专利查询

语音唤醒模型的训练方法、唤醒词的检测方法和相关设备与流程

1.本技术涉及语音识别技术领域,特别涉及一种语音唤醒模型的训练方法、唤醒词的检测方法和相关设备。


背景技术:

2.语音唤醒是人机语音交互的第一步,用于启动设备的智能模块。常见的唤醒模型根据模型结构主要可以分两大类,一个是基于分类模型的判断模型,另一个是基于序列预测模型的识别模型。分类模型虽然实现简单但是稳定性差;而序列预测模型需要配合复杂的解码机制才能达到好的识别效果,因此对部署硬件的算力要求较高。


技术实现要素:

3.本技术的主要目的为提供一种语音唤醒模型的训练方法、唤醒词的检测方法和相关设备,旨在解决现有的语音唤醒方法稳定性差或者对硬件性能的要求较高的弊端。
4.为实现上述目的,本技术提供了一种语音唤醒模型的训练方法,包括:获取样本数据和所述样本数据对应的标签数据,所述样本数据包括唤醒词正样本语音数据;将所述样本数据和所述标签数据作为训练样本输入神经网络中进行模型训练,在模型训练过程中,所述标签数据作为所述样本数据的监督学习目标,使用统一多标签交叉熵损失函数计算所述样本数据和所述标签数据之间的loss值,循环迭代直至模型收敛,得到所述语音唤醒模型。
5.本技术还提供了一种唤醒词的检测方法,包括:获取唤醒语音数据;将所述唤醒语音数据输入语音唤醒模型中进行预测,得到所述唤醒语音数据中存在的若干个唤醒词音素,并实时将各所述唤醒词音素按照预测时间顺序进行组合,得到预测音素序列,其中,所述语音唤醒模型为如上所述的语音唤醒模型的训练方法训练所得的模型;判断所述预测音素序列与唤醒词音素序列之间的相似度是否大于相似度阈值;若所述预测音素序列与唤醒词音素序列之间的相似度大于相似度阈值,则判定检测到唤醒词。
6.本技术还提供了一种语音唤醒模型的训练装置,包括:第一获取模块,用于获取样本数据和所述样本数据对应的标签数据,所述样本数据包括唤醒词正样本语音数据;训练模块,用于将所述样本数据和所述标签数据作为训练样本输入神经网络中进行模型训练,在模型训练过程中,所述标签数据作为所述样本数据的监督学习目标,使用统一多标签交叉熵损失函数计算所述样本数据和所述标签数据之间的loss值,循环迭代直至模型收敛,得到所述语音唤醒模型。
7.本技术还提供了一种唤醒词的检测装置,包括:第二获取模块,用于获取唤醒语音数据;识别模块,用于将所述唤醒语音数据输入语音唤醒模型中进行预测,得到所述唤醒语音数据中存在的若干个唤醒词音素,并实时将各所述唤醒词音素按照预测时间顺序进行组合,得到预测音素序列,其中,所述语音唤醒模型为如上所述的语音唤醒模型的训练方法训练所得的模型;判断模块,用于判断所述预测音素序列与唤醒词音素序列之间的相似度是否大于相似度阈值;判定模块,用于若所述预测音素序列与唤醒词音素序列之间的相似度大于相似度阈值,则判定检测到唤醒词。
8.本技术还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
9.本技术还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
10.本技术中提供的一种语音唤醒模型的训练方法、唤醒词的检测方法和相关设备,模型训练时,获取样本数据和样本数据对应的标签数据,其中,样本数据包括唤醒词正样本语音数据。然后将样本数据和标签数据作为训练样本输入神经网络中进行模型训练,在模型训练过程中,标签数据作为样本数据的监督学习目标,使用统一多标签交叉熵损失函数计算样本数据和标签数据之间的loss值,循环迭代直至模型收敛,得到语音唤醒模型。检测唤醒词时,训练所得的语音唤醒模型部署在终端设备上,终端设备获取唤醒语音数据,然后将唤醒语音数据输入语音唤醒模型中进行预测,得到唤醒语音数据中存在的若干个唤醒词音素,并实时将各唤醒词音素按照预测时间顺序进行组合,得到预测音素序列。判断预测音素序列与唤醒词音素序列之间的相似度是否大于相似度阈值,若预测音素序列与唤醒词音素序列之间的相似度大于相似度阈值,则判定检测到唤醒词。本技术中,在进行模型训练时,通过使用统一的多标签交叉熵损失函数结合语音音素的形式,有效优化语音唤醒模型的训练。在进行唤醒词检测时,通过语音唤醒模型执行对音素的多标签分类,将唤醒语音数据中唤醒词是否存在的判断转为唤醒词音素是否存在的判断,实现从更细粒度去检测唤醒词,从而降低误唤醒率,提升模型稳定性。同时,根据唤醒语音数据存在的唤醒词音素组合得到语音音素序列,从而不需要对语音唤醒模型的输出进行解码,将音素序列识别转为序列中的音素是否存在的判断,极大简化了语音唤醒模型输出的后处理形式,有效降低数据运算量以及对终端设备的性能要求。
附图说明
11.图1是本技术一实施例中语音唤醒模型的训练方法的步骤示意图;图2是本技术一实施例中唤醒词的检测方法的步骤示意图图3是本技术一实施例中语音唤醒模型的训练装置的整体结构框图;图4是本技术一实施例中唤醒词的检测装置的整体结构框图图5是本技术一实施例的计算机设备的结构示意框图。
12.本技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
13.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
14.参照图1,本技术一实施例中提供了一种语音唤醒模型的训练方法,包括:s1:获取样本数据和所述样本数据对应的标签数据,所述样本数据包括唤醒词正样本语音数据;s2:将所述样本数据和所述标签数据作为训练样本输入神经网络中进行模型训练,在模型训练过程中,所述标签数据作为所述样本数据的监督学习目标,使用统一多标签交叉熵损失函数计算所述样本数据和所述标签数据之间的loss值,循环迭代直至模型收敛,得到所述语音唤醒模型。
15.本实施例中,训练系统获取预先录入的样本数据,该样本数据包括唤醒词正样本语音数据(即包含有唤醒词的语音数据)、对应的唤醒词文本标签以及负样本语音数据(即不包含唤醒词的语音数据,比如用于训练大规模词表语音识别模型的语音识别数据)、对应的负样本文本标签,负样本语音数据主要用于降低语音唤醒模型的误唤醒率。训练系统首先将唤醒词正样本语音数据转化为音素,从而得到唤醒词正样本语音数据对应的唤醒词音素序列。并且,训练系统将负样本语音数据转化为音素,得到负样本语音数据对应的非目标音素。训练系统综合非目标音素和唤醒词音素序列,构建得到样本数据对应的标签数据。训练系统将样本数据和一一对应的标签数据作为训练样本输入神经网络中进行模型训练,其中,样本数据经特征提取后以特征矩阵形式输入神经网络中进行模型训练,标签数据处理成向量或矩阵形式输入神经网络中进行模型训练。在模型训练过程中,标签数据作为样本数据的监督学习目标,使用统一多标签交叉熵损失函数计算样本数据和标签数据之间的loss值(loss值表征样本数据和标签数据之间的差距),重复循环迭代模型训练步骤,直至模型收敛,得到所需的语音唤醒模型。其中,统一多标签交叉熵损失函数是一种由多分类交叉熵损失函数(softmax cross entropy)在多标签分类任务中更自然、简明的推广形式,它没有类别不均衡现象,因为它不是将多标签分类变成多个二分类问题,而是变成目标类别得分与非目标类别得分的两两比较,并且借助于“logsumexp”函数的良好性质,自动平衡了每一项的权重,此外引入一个额外的0类,希望目标类的分数都大于s0,非目标类的分数都小于s0。当s0=0(即阈值为0)时其损失函数公式为:,si和sj分别为音素的得分。
16.本实施例中,训练系统在进行模型训练时,通过使用统一多标签交叉熵损失函数结合语音音素的形式,将简单的分类判断转化为更细粒度的序列判断,可以有效的提升模型的抗干扰能力,降低误唤醒,并使得模型具有应对不同语速的能力,唤醒效果更好。
17.进一步的,所述样本数据包括语音数据和所述语音数据对应的文本标签,所述获取样本数据和所述样本数据对应的标签数据的步骤,包括:s101:将所述唤醒词正样本语音数据对应的唤醒词文本标签转化为音素,得到所述唤醒词正样本语音数据对应的唤醒词音素序列;
s102:将所述样本数据中除去所述唤醒词正样本语音数据之外的负样本语音数据对应的负样本文本标签转化为音素,得到所述负样本语音数据对应的非目标音素;s103:根据所述非目标音素和所述唤醒词音素序列,构建得到所述标签数据。
18.本实施例中,训练系统首先将唤醒词正样本语音数据对应的唤醒词文本标签转化为音素,得到唤醒词正样本语音数据对应的唤醒词音素序列,即唤醒词的音素序列;比如唤醒词文本标签为“你好小明”,则对应的唤醒词音素序列为[n, i, h, ao, x, i, ao, m, ing ]。并且,训练系统将样本数据中除唤醒词正样本语音数据之外的负样本语音数据对应的负样本文本标签转化为音素,从而得到负样本语音数据对应的非目标音素。由于非目标音素是作为训练样本中的负样本,其作用是降低训练后得到的语音唤醒模型的误唤醒率,因而不需要有各自对应的音素表示,统一用“unk”(即未知内容)表示非目标音素。训练系统根据非目标音素和唤醒词音素序列构建得到样本数据对应的标签数据;比如唤醒词音素序列为[n, i, h, ao, x, i, ao, m, ing ],非目标音素为“unk”,则总的标签数据为:[unk,n, i, h, ao, x, i, ao, m, ing ]。
[0019]
参照图2,本技术一实施例还提供了一种唤醒词的检测方法,包括:a1:获取唤醒语音数据;a2:将所述唤醒语音数据输入语音唤醒模型中进行预测,得到所述唤醒语音数据中存在的若干个唤醒词音素,并实时将各所述唤醒词音素按照预测时间顺序进行组合,得到预测音素序列,其中,所述语音唤醒模型为如上任一所述的语音唤醒模型的训练方法训练所得的模型;a3:判断所述预测音素序列与唤醒词音素序列之间的相似度是否大于相似度阈值;a4:若所述预测音素序列与唤醒词音素序列之间的相似度大于相似度阈值,则判定检测到唤醒词。
[0020]
本实施例中,应用时,上述语音唤醒模型的训练方法训练所得的语音唤醒模型部署在终端设备上,终端设备的检测系统在接收到用户发出的唤醒语音数据后,将唤醒语音数据按照接收时间顺序,逐次输入预设长度的音频数据到语音唤醒模型中进行预测,并逐次输出每次的识别结果(即流式处理)。语音唤醒模型每次的识别结果为输入的预设长度的音频数据中满足唤醒词音素序列的唤醒词音素(比如唤醒词素序列为[n, i, h, ao, x, i, ao, m, ing ],第一次的音频数据中识别到存在n、i、unk三个音素,则第一次的输出结果为唤醒词音素n、i,另外音素unk则舍去)。训练系统实时将各个唤醒词音素按照预测时间顺序(即语音唤醒模型的输出顺序)进行组合,从而得到语音唤醒模型从唤醒语音数据中识别得到的预充音素序列。检测系统间预测音素序列与唤醒词音素序列进行比对,判断两者之间的相似度是否大于相似度阈值;如果预测音素序列与唤醒词音素序列之间的相似度大于相似度阈值,则说明当前接收的唤醒语音数据中包含唤醒词,检测系统判定检测到唤醒词。优选的,检测系统在检测到唤醒词后,根据该唤醒词唤醒终端设备从休眠模式更改为工作模式,执行相应的功能动作(比如终端设备为空调,则唤醒空调后,空调开始制冷)。
[0021]
本实施例中,检测系统在进行唤醒词检测时,通过语音唤醒模型执行对音素的多标签分类,将唤醒语音数据中唤醒词是否存在的判断转为唤醒词音素是否存在的判断,实现从更细粒度去检测唤醒词,从而降低误唤醒率,提升模型稳定性。同时,根据唤醒语音数
据存在的唤醒词音素组合得到语音音素序列,从而不需要对语音唤醒模型的输出进行解码,将音素序列识别转为序列中的音素是否存在的判断,极大简化了语音唤醒模型输出的后处理形式,有效降低数据运算量以及对终端设备的性能要求。
[0022]
进一步的,所述将所述唤醒语音数据输入语音唤醒模型中进行识别,得到所述唤醒语音数据中存在的若干个唤醒词音素的步骤,包括:a201:将所述唤醒语音数据分割为多个具有相同长度的语音子数据;a202:将各所述语音子数据按照所述唤醒语音数据的获取时间顺序,依次输入所述语音唤醒模型中,得到各所述语音子数据包含的所有音素分别对应的存在概率;a203:筛选存在概率大于概率阈值的若干个第一音素作为所述唤醒语音数据中存在的所述唤醒词音素。
[0023]
本实施例中,检测系统将唤醒语音数据分割为多个具有相同长度的语音子数据,然后将各个语音子数据按照唤醒语音数据本身的获取时间顺序(即终端设备接收到唤醒语音数据的时间顺序),依次输入语音唤醒模型中进行识别,逐次得到各个语音子数据中分别存在的所有音素各自对应的存在概率。然后,根据预设的概率阈值对各个音素进行筛选,即从各个语音子数据存在的所有音素中筛选出存在概率大于概率阈值的若干个第一音素作为唤醒词数据中存在的唤醒词音素(单个语音子数据可能存在多个唤醒词音素,也可能一个唤醒词音素都没有)。具体地,语音唤醒模型的单次输出为n*1的向量(n表征唤醒词包含的音素个数,比如唤醒词包含10个音素,则语音唤醒模型的输出为10*1的向量),按照统一多标签交叉熵损失函数的特性,向量中分数(即存在概率)大于0的为唤醒词音素序列中存在的音素,分数小于0的为唤醒词音素序列中不存在的音素。
[0024]
进一步的,所述实时将各所述唤醒词音素按照预测时间顺序进行拼接,得到预测音素序列的步骤,包括:a204:按照各所述语音子数据的预测顺序,实时将各所述语音子数据中存在的唤醒词音素进行编码、组合,得到所述预测音素序列,其中,后一次序的语音子数据存在的唤醒词音素对应的音素序列基于前一次序的语音子数据存在的唤醒词音素对应的音素序列组合得到。
[0025]
本实施例中,检测系统按照各个语音子数据的预测顺序,实时将各个语音子数据中存在的唤醒词音素进行编码、组合,从而得到唤醒语音数据对应的预测音素序列;其中,后一次序的语音子数据存在的唤醒词音素对应的音素序列是基于前一次序的语音子数据存在的唤醒词音素对应的音素序列组合得到。比如,唤醒词音素序列为:[n, i, h, ao, x, i, ao, m, ing ],对应的向量表示为:[1,1,1,1,1,1,1,1,1](独热编码表示,用数值只有0和1 长度等于标签数量的向量对每个标签进行编码);检测系统将唤醒语音数据按照预设长度逐次输入语音唤醒模型中,第一次模型输出存在n、i、unk三个音素,其中音素n、i满足唤醒词音素序列则保存,音素unk不满足唤醒词音素序列则舍去,第一次的语音子数据的模型输出对应唤醒词音素序列编码后的音素序列则为[1,1,0,0,0,0,0,0,0];第二次模型输出存在h、ao、unk、 x、ao五个音素,其中h、ao、x、ao满足唤醒词音素序列,则基于第一次的音素序列,第二次的语音子数据的模型输出对应唤醒词音素序列编码后的音素序列为[1,1,1,1,1,0,1,0,0];第三次模型输出存在i、ao两个音素,其中音素i、ao都符合唤醒词音素序列,则基于第二次的音素序列,第三次的语音子数据的模型输出对应唤醒词音素序列编码
后的音素序列为[1,1,1,1,1,1,1,0,0];第四次模型输出存在unk、m、ing三个音素,其中音素m,ing都符合,其余舍去,则第四次的语音子数据的模型输出对应唤醒词音素序列编码后的预测音素序列为[1,1,1,1,1,1,1,1,1]。此时,预测音素序列与唤醒词音素序列一直,检测系统判定检测到唤醒词。
[0026]
参照图3,本技术一实施例中还提供了一种语音唤醒模型的训练装置,包括:第一获取模块1,用于获取样本数据和所述样本数据对应的标签数据,所述样本数据包括唤醒词正样本语音数据;训练模块2,用于将所述样本数据和所述标签数据作为训练样本输入神经网络中进行模型训练,在模型训练过程中,所述标签数据作为所述样本数据的监督学习目标,使用统一多标签交叉熵损失函数计算所述样本数据和所述标签数据之间的loss值,循环迭代直至模型收敛,得到所述语音唤醒模型。
[0027]
进一步的,所述样本数据包括语音数据和所述语音数据对应的文本标签,所述第一获取模块1,包括:第一转化单元,用于将所述唤醒词正样本语音数据对应的唤醒词文本标签转化为音素,得到所述唤醒词正样本语音数据对应的唤醒词音素序列;第二转化单元,用于将所述样本数据中除去所述唤醒词正样本语音数据之外的负样本语音数据对应的负样本文本标签转化为音素,得到所述负样本语音数据对应的非目标音素;构建单元,用于根据所述非目标音素和所述唤醒词音素序列,构建得到所述标签数据。
[0028]
本实施例中,语音唤醒模型的训练装置中各模块、单元用于对应执行与上述语音唤醒模型的训练方法中的各个步骤,其具体实施过程在此不做详述。
[0029]
参照图4,本技术一实施例还提供了一种唤醒词的检测装置,包括:第二获取模块3,用于获取唤醒语音数据;识别模块4,用于将所述唤醒语音数据输入语音唤醒模型中进行预测,得到所述唤醒语音数据中存在的若干个唤醒词音素,并实时将各所述唤醒词音素按照预测时间顺序进行组合,得到预测音素序列,其中,所述语音唤醒模型为如上所述的语音唤醒模型的训练方法训练所得的模型;判断模块5,用于判断所述预测音素序列与唤醒词音素序列之间的相似度是否大于相似度阈值;判定模块6,用于若所述预测音素序列与唤醒词音素序列之间的相似度大于相似度阈值,则判定检测到唤醒词。
[0030]
进一步的,所述识别模块4,包括:分割单元,用于将所述唤醒语音数据分割为多个具有相同长度的语音子数据;识别单元,用于将各所述语音子数据按照所述唤醒语音数据的获取时间顺序,依次输入所述语音唤醒模型中,得到各所述语音子数据包含的所有音素分别对应的存在概率;筛选单元,用于筛选存在概率大于概率阈值的若干个第一音素作为所述唤醒语音数据中存在的所述唤醒词音素。
[0031]
进一步的,所述识别模块4,还包括:组合单元,用于按照各所述语音子数据的预测顺序,实时将各所述语音子数据中存在的唤醒词音素进行编码、组合,得到所述预测音素序列,其中,后一次序的语音子数据存在的唤醒词音素对应的音素序列基于前一次序的语音子数据存在的唤醒词音素对应的音素序列组合得到。
[0032]
本实施例提供的一种语音唤醒模型的训练装置和唤醒词的检测装置,模型训练时,获取样本数据和样本数据对应的标签数据,其中,样本数据包括唤醒词正样本语音数据。然后将样本数据和标签数据作为训练样本输入神经网络中进行模型训练,在模型训练过程中,标签数据作为样本数据的监督学习目标,使用统一多标签交叉熵损失函数计算样本数据和标签数据之间的loss值,循环迭代直至模型收敛,得到语音唤醒模型。检测唤醒词时,训练所得的语音唤醒模型部署在终端设备上,终端设备获取唤醒语音数据,然后将唤醒语音数据输入语音唤醒模型中进行预测,得到唤醒语音数据中存在的若干个唤醒词音素,并实时将各唤醒词音素按照预测时间顺序进行组合,得到预测音素序列。判断预测音素序列与唤醒词音素序列之间的相似度是否大于相似度阈值,若预测音素序列与唤醒词音素序列之间的相似度大于相似度阈值,则判定检测到唤醒词。本技术中,在进行模型训练时,通过使用统一的多标签交叉熵损失函数结合语音音素的形式,有效优化语音唤醒模型的训练。在进行唤醒词检测时,通过语音唤醒模型执行对音素的多标签分类,将唤醒语音数据中唤醒词是否存在的判断转为唤醒词音素是否存在的判断,实现从更细粒度去检测唤醒词,从而降低误唤醒率,提升模型稳定性。同时,根据唤醒语音数据存在的唤醒词音素组合得到语音音素序列,从而不需要对语音唤醒模型的输出进行解码,将音素序列识别转为序列中的音素是否存在的判断,极大简化了语音唤醒模型输出的后处理形式,有效降低数据运算量以及对终端设备的性能要求。
[0033]
参照图5,本技术实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储样本数据等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音唤醒模型的训练方法和一种唤醒词的检测方法。
[0034]
上述处理器执行上述语音唤醒模型的训练方法的步骤:s1:获取样本数据和所述样本数据对应的标签数据,所述样本数据包括唤醒词正样本语音数据;s2:将所述样本数据和所述标签数据作为训练样本输入神经网络中进行模型训练,在模型训练过程中,所述标签数据作为所述样本数据的监督学习目标,使用统一多标签交叉熵损失函数计算所述样本数据和所述标签数据之间的loss值,循环迭代直至模型收敛,得到所述语音唤醒模型。
[0035]
进一步的,所述样本数据包括语音数据和所述语音数据对应的文本标签,所述获取样本数据和所述样本数据对应的标签数据的步骤,包括:
s101:将所述唤醒词正样本语音数据对应的唤醒词文本标签转化为音素,得到所述唤醒词正样本语音数据对应的唤醒词音素序列;s102:将所述样本数据中除去所述唤醒词正样本语音数据之外的负样本语音数据对应的负样本文本标签转化为音素,得到所述负样本语音数据对应的非目标音素;s103:根据所述非目标音素和所述唤醒词音素序列,构建得到所述标签数据。
[0036]
上述处理器执行上述唤醒词的检测方法的步骤a1:获取唤醒语音数据;a2:将所述唤醒语音数据输入语音唤醒模型中进行预测,得到所述唤醒语音数据中存在的若干个唤醒词音素,并实时将各所述唤醒词音素按照预测时间顺序进行组合,得到预测音素序列,其中,所述语音唤醒模型为如上任一所述的语音唤醒模型的训练方法训练所得的模型;a3:判断所述预测音素序列与唤醒词音素序列之间的相似度是否大于相似度阈值;a4:若所述预测音素序列与唤醒词音素序列之间的相似度大于相似度阈值,则判定检测到唤醒词。
[0037]
进一步的,所述将所述唤醒语音数据输入语音唤醒模型中进行识别,得到所述唤醒语音数据中存在的若干个唤醒词音素的步骤,包括:a201:将所述唤醒语音数据分割为多个具有相同长度的语音子数据;a202:将各所述语音子数据按照所述唤醒语音数据的获取时间顺序,依次输入所述语音唤醒模型中,得到各所述语音子数据包含的所有音素分别对应的存在概率;a203:筛选存在概率大于概率阈值的若干个第一音素作为所述唤醒语音数据中存在的所述唤醒词音素。
[0038]
进一步的,所述实时将各所述唤醒词音素按照预测时间顺序进行拼接,得到预测音素序列的步骤,包括:a204:按照各所述语音子数据的预测顺序,实时将各所述语音子数据中存在的唤醒词音素进行编码、组合,得到所述预测音素序列,其中,后一次序的语音子数据存在的唤醒词音素对应的音素序列基于前一次序的语音子数据存在的唤醒词音素对应的音素序列组合得到。
[0039]
本技术一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种语音唤醒模型的训练方法和一种唤醒词的检测方法,所述语音唤醒模型的训练方法具体为:s1:获取样本数据和所述样本数据对应的标签数据,所述样本数据包括唤醒词正样本语音数据;s2:将所述样本数据和所述标签数据作为训练样本输入神经网络中进行模型训练,在模型训练过程中,所述标签数据作为所述样本数据的监督学习目标,使用统一多标签交叉熵损失函数计算所述样本数据和所述标签数据之间的loss值,循环迭代直至模型收敛,得到所述语音唤醒模型。
[0040]
进一步的,所述样本数据包括语音数据和所述语音数据对应的文本标签,所述获取样本数据和所述样本数据对应的标签数据的步骤,包括:
s101:将所述唤醒词正样本语音数据对应的唤醒词文本标签转化为音素,得到所述唤醒词正样本语音数据对应的唤醒词音素序列;s102:将所述样本数据中除去所述唤醒词正样本语音数据之外的负样本语音数据对应的负样本文本标签转化为音素,得到所述负样本语音数据对应的非目标音素;s103:根据所述非目标音素和所述唤醒词音素序列,构建得到所述标签数据。
[0041]
上述处理器执行上述唤醒词的检测方法的步骤a1:获取唤醒语音数据;a2:将所述唤醒语音数据输入语音唤醒模型中进行预测,得到所述唤醒语音数据中存在的若干个唤醒词音素,并实时将各所述唤醒词音素按照预测时间顺序进行组合,得到预测音素序列,其中,所述语音唤醒模型为如上任一所述的语音唤醒模型的训练方法训练所得的模型;a3:判断所述预测音素序列与唤醒词音素序列之间的相似度是否大于相似度阈值;a4:若所述预测音素序列与唤醒词音素序列之间的相似度大于相似度阈值,则判定检测到唤醒词。
[0042]
进一步的,所述将所述唤醒语音数据输入语音唤醒模型中进行识别,得到所述唤醒语音数据中存在的若干个唤醒词音素的步骤,包括:a201:将所述唤醒语音数据分割为多个具有相同长度的语音子数据;a202:将各所述语音子数据按照所述唤醒语音数据的获取时间顺序,依次输入所述语音唤醒模型中,得到各所述语音子数据包含的所有音素分别对应的存在概率;a203:筛选存在概率大于概率阈值的若干个第一音素作为所述唤醒语音数据中存在的所述唤醒词音素。
[0043]
进一步的,所述实时将各所述唤醒词音素按照预测时间顺序进行拼接,得到预测音素序列的步骤,包括:a204:按照各所述语音子数据的预测顺序,实时将各所述语音子数据中存在的唤醒词音素进行编码、组合,得到所述预测音素序列,其中,后一次序的语音子数据存在的唤醒词音素对应的音素序列基于前一次序的语音子数据存在的唤醒词音素对应的音素序列组合得到。
[0044]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储与一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram通过多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双速据率sdram(ssrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
[0045]
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排
他性的包含,从而使得包括一系列要素的过程、装置、第一物体或者方法不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、装置、第一物体或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、装置、第一物体或者方法中还存在另外的相同要素。
[0046]
以上所述仅为本技术的优选实施例,并非因此限制本技术的专利范围,凡是利用本技术说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本技术的专利保护范围内。