基于语音的年龄识别方法、装置、设备及存储介质与流程

1.本技术涉及人工智能中的语音分类技术领域，尤其涉及一种基于语音的年龄识别方法、装置、设备及存储介质。

背景技术：

2.语音识别是人工智能领域中的一个重要分支，而说话者年龄识别(speakerageestimation)被广泛认为是一个语音属性识别的子问题，其通过收到的音频数据判定发音人的性别(男，女)及年龄范围(小孩，中年，老人)，该技术对语音内容和语种不做限制，即只对声学的自然属性(音高、音强、音长、音色、音素、音节、音位、噪声)数据预处理提取为mfcc(mel
‑
frequency cepstral coefficients，梅尔频率倒谱系数)特征后去实现任务目标。目前常用的说话者年龄识别模型大多注重如何提升模型构建的特征向量的质量，使得学习出来的特征向量能够更好的消除无效信息，但是却忽略了语音数据本身的复杂性和前后关联性，模型很容易把处于不同情绪状态的语音匹配成不同的年龄从而降低预测和分类的精度。

技术实现要素：

3.针对上述问题，本技术提供了一种基于语音的年龄识别方法、装置、设备及存储介质，有利于提升说话者年龄识别的精度。
4.为实现上述目的，本技术实施例第一方面提供了一种基于语音的年龄识别方法，该方法包括：
5.基于用户的样本语音得到待识别语音数据；
6.通过深度学习神经网络对所述待识别语音数据进行特征提取，得到包括话语内容、音调、情感、用户个性、性别和年龄的特征矩阵，并基于所述特征矩阵得到包括用户的年龄的预测分布；
7.根据所述预测分布和所述待识别语音数据的标签分布，计算得到混合损失函数值；
8.根据所述混合损失函数值对所述深度学习神经网络进行迭代更新，得到训练好的年龄识别模型。
9.结合第一方面，在一种可能的实施方式中，所述根据所述预测分布和所述待识别语音数据的标签分布，计算得到混合损失函数值，包括：
10.根据所述预测分布和所述标签分布，计算得到js散度、方差损失和l1损失；
11.根据所述js散度、所述方差损失和所述l1损失及对应的惩罚系数，计算得到所述混合损失函数值。
12.结合第一方面，在一种可能的实施方式中，所述计算得到js散度，包括：
13.根据所述预测分布和所述标签分布，采用如下公式计算得到kl损失：
[0014][0015]
其中，p
i
表示第i条样本语音的标签分布，q
i
表示第i条样本语音的预测分布，l
kl
(p
i
|q
i
)表示所述kl损失，x表示字符集；
[0016]
根据所述kl损失，采用如下公式计算得到所述js散度：
[0017][0018]
其中，l
js
(p
i
|q
i
)表示所述js散度。
[0019]
结合第一方面，在一种可能的实施方式中，在根据所述预测分布和所述待识别语音数据的标签分布，计算得到混合损失函数值之前，所述方法还包括：
[0020]
获取所述待识别语音数据在话语内容维度上的标签概率、音调维度上的标签概率、情感维度上的标签概率、用户个性维度上的标签概率、性别维度上的标签概率和年龄维度上的标签概率；
[0021]
将所述待识别语音数据在话语内容维度上的标签概率、音调维度上的标签概率、情感维度上的标签概率、用户个性维度上的标签概率、性别维度上的标签概率和年龄维度上的标签概率组成所述标签分布。
[0022]
结合第一方面，在一种可能的实施方式中，所述待识别语音数据在情感维度标签上的概率的获取步骤，包括：
[0023]
将所述待识别语音数据转换为待处理文本；
[0024]
对所述待处理文本中的单词进行屏蔽，得到屏蔽后的文本，以及采用词库中的任意单词对所述待处理文本中的单词进行替换，得到替换后的文本；
[0025]
基于所述屏蔽后的文本和所述替换后的文本，计算得到所述待处理文本中的单词对于所述待处理文本情感分类的重要性度量；
[0026]
将所述重要性度量归一化到预设区间，得到所述待识别语音数据在情感维度标签上的概率。
[0027]
结合第一方面，在一种可能的实施方式中，所述基于所述屏蔽后的文本和所述替换后的文本，计算得到所述待处理文本中的单词对于所述待处理文本情感分类的重要性度量，包括：
[0028]
调用掩码语言模型对所述屏蔽后的文本进行处理，得到所述待处理文本中的单词的第一预测结果；
[0029]
调用掩码语言模型对所述替换后的文本进行处理，得到所述待处理文本中的单词的第二预测结果；
[0030]
根据所述第一预测结果和所述第二预测结果，计算得到所述重要性度量。
[0031]
结合第一方面，在一种可能的实施方式中，所述深度学习神经网络包括骨干网络和全连接层；
[0032]
所述通过深度学习神经网络对所述待识别语音数据进行特征提取，得到包括话语内容、音调、情感、用户个性、性别和年龄的特征矩阵，包括：
[0033]
将所述待识别语音数据输入所述深度学习神经网络进行卷积处理，通过所述骨干网络对卷积处理后的所述待识别语音数据进行特征提取，得到待池化特征矩阵；
[0034]
对所述待池化特征矩阵进行平均池化处理，得到平均池化后的特征；
[0035]
通过所述全连接层对所述平均池化后的特征进行分类处理，得到所述特征矩阵。
[0036]
本技术实施例第二方面提供了一种基于语音的年龄识别装置，该装置包括：
[0037]
预处理单元，用于基于用户的样本语音得到待识别语音数据；
[0038]
识别单元，用于通过深度学习神经网络对所述待识别语音数据进行特征提取，得到包括话语内容、音调、情感、用户个性、性别和年龄的特征矩阵，并基于所述特征矩阵得到包括用户的年龄的预测分布；
[0039]
计算单元，用于根据所述预测分布和所述待识别语音数据的标签分布，计算得到混合损失函数值；
[0040]
调整单元，用于根据所述混合损失函数值对所述深度学习神经网络进行迭代更新，得到训练好的年龄识别模型。
[0041]
本技术实施例第三方面提供了一种电子设备，该电子设备包括输入设备和输出设备，还包括处理器，适于实现一条或多条计算机程序；以及，存储器，所述存储器存储有一条或多条计算机程序，所述一条或多条计算机程序适于由所述处理器加载并执行如下步骤：
[0042]
基于用户的样本语音得到待识别语音数据；
[0043]
通过深度学习神经网络对所述待识别语音数据进行特征提取，得到包括话语内容、音调、情感、用户个性、性别和年龄的特征矩阵，并基于所述特征矩阵得到包括用户的年龄的预测分布；
[0044]
根据所述预测分布和所述待识别语音数据的标签分布，计算得到混合损失函数值；
[0045]
根据所述混合损失函数值对所述深度学习神经网络进行迭代更新，得到训练好的年龄识别模型。
[0046]
本技术实施例第四方面提供了一种计算机存储介质，所述计算机存储介质存储有一条或多条计算机程序，所述一条或多条计算机程序适于由处理器加载并执行如下步骤：
[0047]
基于用户的样本语音得到待识别语音数据；
[0048]
通过深度学习神经网络对所述待识别语音数据进行特征提取，得到包括话语内容、音调、情感、用户个性、性别和年龄的特征矩阵，并基于所述特征矩阵得到包括用户的年龄的预测分布；
[0049]
根据所述预测分布和所述待识别语音数据的标签分布，计算得到混合损失函数值；
[0050]
根据所述混合损失函数值对所述深度学习神经网络进行迭代更新，得到训练好的年龄识别模型。
[0051]
本技术的上述方案至少包括以下有益效果：本技术实施例基于用户的样本语音得到待识别语音数据；通过深度学习神经网络对待识别语音数据进行特征提取，得到包括话语内容、音调、情感、用户个性、性别和年龄的特征矩阵，并基于特征矩阵得到包括用户的年龄的预测分布；根据预测分布和待识别语音数据的标签分布，计算得到混合损失函数值；根据混合损失函数值对深度学习神经网络进行迭代更新，得到年龄识别模型。这样通过预先构建好的标签分布和定义的混合损失函数训练深度学习神经网络，以让年龄识别模型学习到包括话语内容、音调、情感、用户个性、性别和年龄等多个维度的特征，以保留样本语音中
信息的复杂性，从而提高模型在实际应用中提取的特征的质量，进而有利于提升说话者年龄识别的精度。
附图说明
[0052]
为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0053]
图1为本技术实施例提供的一种应用环境的示意图；
[0054]
图2为本技术实施例提供的一种基于语音的年龄识别方法的流程示意图；
[0055]
图3为本技术实施例提供的一种特征提取的示意图；
[0056]
图4为本技术实施例提供的一种获取重要性度量的示意图；
[0057]
图5为本技术实施例提供的另一种基于语音的年龄识别方法的流程示意图；
[0058]
图6为本技术实施例提供的一种基于语音的年龄识别装置的结构示意图；
[0059]
图7为本技术实施例提供的一种电子设备的结构示意图。
具体实施方式
[0060]
为了使本技术领域的人员更好地理解本技术方案，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分的实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本技术保护的范围。
[0061]
本技术说明书、权利要求书和附图中出现的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。此外，术语“第一”、“第二”和“第三”等是用于区别不同的对象，而并非用于描述特定的顺序。
[0062]
本技术实施例提供一种基于语音的年龄识别方法，可基于图1所示的应用环境实施，请参见图1，该应用环境中包括电子设备和与电子设备通信连接的至少一个终端设备，其中，终端设备用于接收用户输入的原始语音，比如线上客服或线上业务办理场景中，终端设备用于接收用户通过麦克风输入的语音，或者终端设备可以是研发人员的终端设备，在研发测试中，终端设备用于接收研发人员的程序指令从日志记录中调取用户的历史样本语音，并向电子设备发送该样本语音。电子设备在接收到样本语音(或原始语音)后，对样本语音(或原始语音)进行预处理，得到待识别语音数据，然后通过年龄识别模型提取出包括话语内容、音调、情感、用户个性、性别和年龄的特征矩阵，基于该特征矩阵进行说话者年龄和性别的预测。在一些场景中，坐席或机器人可以基于电子设备的预测结果找到与说话者年龄和性别相符的回答，在另一些场景中电子设备可以基于预测结果和多标签分布学习去训练年龄识别模型，以提升模型提取特征的效果或质量，最终提升模型的预测精度。
[0063]
其中，电子设备可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云
函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(contentdelivery network，cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
[0064]
基于图1所示的应用环境，以下结合其他附图对本技术实施例提供的基于语音的年龄识别方法进行详细阐述。
[0065]
请参见图2，图2为本技术实施例提供的一种基于语音的年龄识别方法的流程示意图，该方法应用于电子设备，如图2所示，包括步骤201
‑
204：
[0066]
201：基于用户的样本语音得到待识别语音数据。
[0067]
本技术实施例中，对于终端设备提供的用户的样本语音，电子设备首先对其进行语音活动检测(voice activity detection，vad)，识别出样本语音中的多个语音段，将该多个语音段中相邻语音段之间的停顿间隔去除，然后针对多个语音段中的每个语音段进行去噪处理，将去噪后的每个语音段按照多个语音段原有的顺序进行拼接，得到拼接后的语音，再对拼接后的语音的拼接处进行平滑处理，得到平滑顺畅的语音，对该平滑顺畅的语音进行采样或将该平滑顺畅的语音提取为mfcc特征，得到待识别语音数据。
[0068]
202：通过深度学习神经网络对所述待识别语音数据进行特征提取，得到包括话语内容、音调、情感、用户个性、性别和年龄的特征矩阵，并基于所述特征矩阵得到包括用户的年龄的预测分布。
[0069]
本技术实施例中，深度学习神经网络采用resnet18网络+分类器的结构，应理解，resnet18网络包括17个卷积层和1个全连接层，而池化层和批处理层是不带权重的，除第一个卷积层外，每两个卷积层构成一个残差块，所有的残差块构成resnet18网络的骨干网络，残差块中采用3*3的卷积。
[0070]
示例性的，所述通过深度学习神经网络对所述待识别语音数据进行特征提取，得到包括话语内容、音调、情感、用户个性、性别和年龄的特征矩阵，包括：
[0071]
将所述待识别语音数据输入所述深度学习神经网络进行卷积处理，通过所述骨干网络对卷积处理后的所述待识别语音数据进行特征提取，得到待池化特征矩阵；
[0072]
对所述待池化特征矩阵进行平均池化处理，得到平均池化后的特征；
[0073]
通过所述全连接层对所述平均池化后的特征进行分类处理，得到所述特征矩阵。
[0074]
如图3所示，待处理数据首先经过resnet18网络第一个卷积层的卷积处理，该第一个卷积层卷积核尺寸为7*7，经过第一个卷积层的处理后，再经过resnet18的骨干网络的特征提取，即经过8个残差块的处理，得到待池化特征矩阵，对待池化特征矩阵进行平均池化，平均池化后的特征经过全连接层的处理，得到包括话语内容、音调、情感、用户个性、性别和年龄的特征矩阵。其中，话语内容通常是指用户想要表达的意图，可以理解为语义信息，需要说明的是，该实施方式中，在7*7的卷积之后并没有采用最大池化，而是只在全连接层分类前采用了平均池化，其目的在于推迟池化操作，尽可能地保留样本语音前后文的顺序信息，而使得年龄识别模型提取出的特征更关注于前后关联，转化成分布后更能贴近真实的语音情况。
[0075]
基于提取出的特征矩阵采用常规年龄识别模型中的分类器，比如softmax分类器、高斯混合模型等，预测出用户在话语内容、音调、情感、用户个性、性别和年龄各个维度上的概率，并将该概率按顺序组成一个预测分布。
[0076]
203：根据所述预测分布和所述待识别语音数据的标签分布，计算得到混合损失函数值。
[0077]
本技术实施例中，根据所述预测分布和所述待识别语音数据的标签分布，计算得到混合损失函数值，包括：
[0078]
根据所述预测分布和所述标签分布，计算得到js散度、方差损失和l1损失；
[0079]
根据所述js散度、所述方差损失和所述l1损失及对应的惩罚系数，计算得到所述混合损失函数值。
[0080]
具体的，根据预测分布和标签分布采用如下公式计算得到kl损失：
[0081][0082]
其中，p
i
表示第i条样本语音(或待识别语音数据)的标签分布，q
i
表示第i条样本语音(或待识别语音数据)的预测分布，l
kl
(p
i
|q
i
)表示所述kl损失，x表示字符集；其中，在多标签分布学习中，通常采用kl损失(或kl散度)表示预测分布和标签分布之间的距离，以训练模型，但是考虑到kl散度的不对称性问题使得在训练过程中可能存在训练速度不稳定，损失无法下降的情况，采用js散度来表示预测分布和标签分布之间的距离。
[0083]
根据kl损失采用如下公式计算得到所述js散度：
[0084][0085]
其中，l
js
(p
i
|q
i
)表示所述js散度。
[0086]
根据预测分布和标签分布采用如下公式计算得到l1损失：
[0087][0088]
其中，n表示样本语音的数量，l1损失表示预测分布和标签分布之间的最小绝对值偏差，用于将预测分布和标签分布之间的绝对差值的总和最小化。
[0089]
根据预测分布和标签分布采用如下公式计算得到方差损失：
[0090][0091][0092][0093]
其中，v
i
表示第i条样本语音(或待识别语音数据)的方差，q表示标签分布中标签类别的数量，j表示标签分布中的第j个标签类别，q
i,j
表示第i条样本语音属于第j个标签类别的预测概率，m
o
表示第i条样本语音(或待识别语音数据)在标签分布上的均值。
[0094]
则混合损失函数定义为：
[0095]
loss＝λ1*l
js
+λ2*l1+λ3*l
v
；
[0096]
其中，loss表示混合损失函数，λ1表示js散度惩罚系数，λ2表示最小绝对值偏差惩罚系数，λ3表示方差惩罚系数。
[0097]
该实施方式中，考虑到kl散度的不对称性问题使得在训练过程中可能存在训练速度不稳定，损失无法下降的情况，将js散度融合到混合损失函数中，以解决kl散度不对称问题和离群点敏感问题，尽可能保证训练过程中模型的稳定性，避免模型坍缩的产生。
[0098]
204：根据所述混合损失函数值对所述深度学习神经网络进行迭代更新，得到训练好的年龄识别模型。
[0099]
本技术实施例中，基于步骤203中计算出的混合损失函数的值，采用反向传播算法对深度神经网络的参数进行迭代更新，直至损失收敛，得到训练好的年龄识别模型。
[0100]
示例性的，在根据所述预测分布和所述待识别语音数据的标签分布，计算得到混合损失函数值之前，所述方法还包括：
[0101]
获取所述待识别语音数据在话语内容维度上的标签概率、音调维度上的标签概率、情感维度上的标签概率、用户个性维度上的标签概率、性别维度上的标签概率和年龄维度上的标签概率；
[0102]
将所述待识别语音数据在话语内容维度上的标签概率、音调维度上的标签概率、情感维度上的标签概率、用户个性维度上的标签概率、性别维度上的标签概率和年龄维度上的标签概率组成所述标签分布。
[0103]
本技术实施例中，采用多标签分布学习的方法，对于上述待识别语音数据(或样本语音)，用q
i,j
来表示其对于某一标签类别(的概率，比如在话语内容这一维度上的标签概率、在音调这一维度上的标签概率、在情感这一维度上的标签概率、在用户个性这一维度上的标签概率、在性别这一维度上的标签概率和在年龄这一维度上的标签概率，其中，待识别语音数据(或样本语音)在某一标签类别上的概率表示其在该标签类别上的真实值，则其在所有的标签类别上的概率即组成有序的样本分布。示例性的，该标签分布可以通过人工对待识别语音数据(或样本语音)进行标记得到，也可通过软聚类算法fuzzy c
‑
means对待识别语音数据(或样本语音)的簇分布进行转化得到，本技术不作限定。该实施方式中，采用多标签的概率组成有序的概率分布，有利于使模型从样本分布中学习到更原始、更复杂多样的特征。
[0104]
示例性的，所述待识别语音数据在情感维度标签上的概率的获取步骤，包括：
[0105]
将所述待识别语音数据转换为待处理文本；
[0106]
对所述待处理文本中的单词进行屏蔽，得到屏蔽后的文本，以及采用词库中的任意单词对所述待处理文本中的单词进行替换，得到替换后的文本；
[0107]
基于所述屏蔽后的文本和所述替换后的文本，计算得到所述待处理文本中的单词对于所述待处理文本情感分类的重要性度量；
[0108]
将所述重要性度量归一化到预设区间，得到所述待识别语音数据在情感维度标签上的概率。
[0109]
本技术实施例中，采用语音转文本技术将待识别语音数据转换为待处理文本，对于待处理文本采用掩码语言模型(masked language model，mlm)对其进行处理，随机选择待处理文本中15％的单词，在80％的时间里采用掩码mask对其令牌token进行屏蔽，得到屏蔽后的文本，该屏蔽后的文本实际上是由token和mask组成的序列，在10％的时间里采用词库中的其他任意单词的token对选择出的单词的token进行替换，得到替换后的文本，该替换后的文本实际上是一个token序列，在10％的时间里保留选择出的单词的原始token。其中，该词库可以是涉及医疗领域的线上问诊词库、涉及医疗设备的操作说明词库，等等。
[0110]
示例性的，所述基于所述屏蔽后的文本和所述替换后的文本，计算得到所述待处理文本中的单词对于所述待处理文本情感分类的重要性度量，包括：
[0111]
调用掩码语言模型对所述屏蔽后的文本进行处理，得到所述待处理文本中的单词的第一预测结果；
[0112]
调用掩码语言模型对所述替换后的文本进行处理，得到所述待处理文本中的单词的第二预测结果；
[0113]
根据所述第一预测结果和所述第二预测结果，计算得到所述重要性度量。
[0114]
其中，如图4所示，mlm模型以屏蔽后的文本为输入对屏蔽的单词进行预测，得到第一预测结果，其中，该第一预测结果表示被屏蔽的单词属于词库中的预设单词的得分(或概率、置信度等)，mlm模型以替换后的文本为输入对替换的单词进行预测，得到第二预测结果，其中，该第二预测结果表示被替换的单词属于词库中的预设单词的得分(或概率、置信度等)，其中，mlm模型的输入还有单词的原始token，即图4中的待处理文本，原始token的预测结果不纳入重要性度量的计算。根据第一预测结果和第二预测结果采用如下公式计算得到待处理文本中的单词对于待处理文本情感分类的重要性度量：
[0115][0116]
其中，表示单词w的重要性度量，比如，“我讨厌这部电影”表达的情感是不喜欢，则表示单词w对这句话被分类为不喜欢这一情感类别的重要性，s
‑
β
表示替换掉单词w后的序列，表示替换掉单词w后mlm模型的第二预测结果，s
‑
β
表示屏蔽掉单词w后的序列，表示屏蔽掉单词w后mlm模型的第一预测结果，表示对待处理文本进行随机采样得到的单词，表示从待处理文本中屏蔽掉短语p的操作。
[0117]
其中，该重要性度量的取值范围预设为[0,100]，对于在该范围外的单词，分类器不进行输出，对于分类器有重要性度量输出的单词，通过计算这些单词的重要性度量的平均值，将该平均值归一化到(0,1)这一预设区间，得到待识别语音数据在情感维度标签上的概率。该实施方式中，通过单词对待处理文本情感分类的重要性度量来确定待识别语音数据在情感维度标签上的概率，有利于使模型学习到待识别语音数据中的每个单词对应的数据对文本情感分类的影响程度，实现了细粒度的特征学习。
[0118]
可以看出，本技术实施例基于用户的样本语音得到待识别语音数据；通过深度学习神经网络对待识别语音数据进行特征提取，得到包括话语内容、音调、情感、用户个性、性别和年龄的特征矩阵，并基于特征矩阵得到包括用户的年龄的预测分布；根据预测分布和待识别语音数据的标签分布，计算得到混合损失函数值；根据混合损失函数值对深度学习神经网络进行迭代更新，得到训练好的年龄识别模型。这样通过预先构建好的标签分布和定义的混合损失函数训练年龄识别模型，以让年龄识别模型学习到包括话语内容、音调、情感、用户个性、性别和年龄等多个维度的特征，以保留样本语音中信息的复杂性，从而提高模型在实际应用中提取的特征的质量，进而有利于提升说话者年龄识别的精度，另外，由于学习到的特征是复杂多样的，包括话语内容、音调、情感、用户个性、性别和年龄等各个维度，采用这样的特征去训练年龄识别模型，有利于提升模型的鲁棒性。
[0119]
请参见图5，图5为本技术实施例提供的另一种基于语音的年龄识别方法的流程示
意图，如图5所示，包括步骤501
‑
505：
[0120]
501：基于用户的样本语音得到待识别语音数据；
[0121]
502：通过深度学习神经网络对所述待识别语音数据进行特征提取，得到包括话语内容、音调、情感、用户个性、性别和年龄的特征矩阵，并基于所述特征矩阵得到包括用户的年龄的预测分布；
[0122]
503：根据所述预测分布和所述待识别语音数据的标签分布，计算得到js散度、方差损失和l1损失；
[0123]
504：根据所述js散度、所述方差损失和所述l1损失及对应的惩罚系数，计算得到混合损失函数值；
[0124]
505：根据所述混合损失函数值对所述深度学习神经网络进行迭代更新，得到训练好的年龄识别模型。
[0125]
其中，步骤501
‑
505的具体实施方式在图2所示的实施例中已有相关说明，且能达到相同或相似的有益效果，为避免重复，此处不再赘述。
[0126]
基于上述基于语音的年龄识别方法实施例的描述，请参见图6，图6为本技术实施例提供的一种基于语音的年龄识别装置的结构示意图，如图6所示，该装置包括预处理单元601、识别单元602、计算单元603和调整单元604；
[0127]
预处理单元601，用于基于用户的样本语音得到待识别语音数据；
[0128]
识别单元602，用于通过深度学习神经网络对所述待识别语音数据进行特征提取，得到包括话语内容、音调、情感、用户个性、性别和年龄的特征矩阵，并基于所述特征矩阵得到包括用户的年龄的预测分布；
[0129]
计算单元603，用于根据所述预测分布和所述待识别语音数据的标签分布，计算得到混合损失函数值；
[0130]
调整单元604，用于根据所述混合损失函数值对所述深度学习神经网络进行迭代更新，得到训练好的年龄识别模型。
[0131]
可以看出，在图6所示的基于语音的年龄识别装置中，基于用户的样本语音得到待识别语音数据；通过深度学习神经网络对待识别语音数据进行特征提取，得到包括话语内容、音调、情感、用户个性、性别和年龄的特征矩阵，并基于特征矩阵得到包括用户的年龄的预测分布；根据预测分布和待识别语音数据的标签分布，计算得到混合损失函数值；根据混合损失函数值对深度学习神经网络进行迭代更新，得到训练好的年龄识别模型。这样通过预先构建好的标签分布和定义的混合损失函数训练深度学习神经网络，以让年龄识别模型学习到包括话语内容、音调、情感、用户个性、性别和年龄等多个维度的特征，以保留样本语音中信息的复杂性，从而提高模型在实际应用中提取的特征的质量，进而有利于提升说话者年龄识别的精度，另外，由于学习到的特征是复杂多样的，包括话语内容、音调、情感、用户个性、性别和年龄等各个维度，采用这样的特征去训练年龄识别模型，有利于提升模型的鲁棒性。
[0132]
在一种可能的实施方式中，在根据所述预测分布和所述待识别语音数据的标签分布，计算得到混合损失函数值方面，计算单元603具体用于：
[0133]
根据所述预测分布和所述标签分布，计算得到js散度、方差损失和l1损失；
[0134]
根据所述js散度、所述方差损失和所述l1损失及对应的惩罚系数，计算得到所述
混合损失函数值。
[0135]
在一种可能的实施方式中，在计算得到js散度方面，计算单元603具体用于：
[0136]
根据所述预测分布和所述标签分布，采用如下公式计算得到kl损失：
[0137][0138]
其中，p
i
表示第i条样本语音的标签分布，q
i
表示第i条样本语音的预测分布，l
kl
(p
i
|q
i
)表示所述kl损失，x表示字符集；
[0139]
根据所述kl损失，采用如下公式计算得到所述js散度：
[0140][0141]
其中，l
js
(p
i
|q
i
)表示所述js散度。
[0142]
在一种可能的实施方式中，识别单元602还用于：
[0143]
获取所述待识别语音数据在话语内容维度上的标签概率、音调维度上的标签概率、情感维度上的标签概率、用户个性维度上的标签概率、性别维度上的标签概率和年龄维度上的标签概率；
[0144]
将所述待识别语音数据在话语内容维度上的标签概率、音调维度上的标签概率、情感维度上的标签概率、用户个性维度上的标签概率、性别维度上的标签概率和年龄维度上的标签概率组成所述标签分布。
[0145]
在一种可能的实施方式中，在获取待识别语音数据在情感维度标签上的概率方面，识别单元602具体用于：
[0146]
将所述待识别语音数据转换为待处理文本；
[0147]
对所述待处理文本中的单词进行屏蔽，得到屏蔽后的文本，以及采用词库中的任意单词对所述待处理文本中的单词进行替换，得到替换后的文本；
[0148]
基于所述屏蔽后的文本和所述替换后的文本，计算得到所述待处理文本中的单词对于所述待处理文本情感分类的重要性度量；
[0149]
将所述重要性度量归一化到预设区间，得到所述待识别语音数据在情感维度标签上的概率。
[0150]
在一种可能的实施方式中，在基于所述屏蔽后的文本和所述替换后的文本，计算得到所述待处理文本中的单词对于所述待处理文本情感分类的重要性度量方面，识别单元602具体用于：
[0151]
调用掩码语言模型对所述屏蔽后的文本进行处理，得到所述待处理文本中的单词的第一预测结果；
[0152]
调用掩码语言模型对所述替换后的文本进行处理，得到所述待处理文本中的单词的第二预测结果；
[0153]
根据所述第一预测结果和所述第二预测结果，计算得到所述重要性度量。
[0154]
在一种可能的实施方式中，所述深度学习神经网络包括骨干网络和全连接层；在通过深度学习神经网络对所述待识别语音数据进行特征提取，得到包括话语内容、音调、情感、用户个性、性别和年龄的特征矩阵方面，识别单元602具体用于：
[0155]
将所述待识别语音数据输入所述深度学习神经网络进行卷积处理，通过所述骨干
网络对卷积处理后的所述待识别语音数据进行特征提取，得到待池化特征矩阵；
[0156]
对所述待池化特征矩阵进行平均池化处理，得到平均池化后的特征；
[0157]
通过所述全连接层对所述平均池化后的特征进行分类处理，得到所述特征矩阵。
[0158]
根据本技术的一个实施例，图6所示的基于语音的年龄识别装置的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本技术的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本技术的其它实施例中，基于语音的年龄识别装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。
[0159]
根据本技术的另一个实施例，可以通过在包括中央处理单元(cpu)、随机存取存储介质(ram)、只读存储介质(rom)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图2或图5中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图6中所示的基于语音的年龄识别装置设备，以及来实现本技术实施例的基于语音的年龄识别方法。所述计算机程序可以记载于例如计算机可读记录介质上，并通过计算机可读记录介质装载于上述计算设备中，并在其中运行。
[0160]
基于上述方法实施例和装置实施例的描述，本技术实施例还提供一种电子设备。请参见图7，该电子设备至少包括处理器701、输入设备702、输出设备703以及存储器704。其中，电子设备内的处理器701、输入设备702、输出设备703以及存储器704可通过总线或其他方式连接。
[0161]
计算机存储介质可以存储在电子设备的存储器704中，所述计算机存储介质用于存储计算机程序，所述计算机程序包括程序指令，所述处理器701用于执行所述计算机存储介质704存储的程序指令。处理器701(或称cpu(central processing unit，中央处理器))是电子设备的计算核心以及控制核心，其适于实现一条或多条计算机程序，具体适于加载并执行一条或多条计算机程序从而实现相应方法流程或相应功能。
[0162]
在一个实施例中，本技术实施例提供的电子设备的处理器701可以用于进行一系列基于自监督的数据增强处理：
[0163]
基于用户的样本语音得到待识别语音数据；
[0164]
通过深度学习神经网络对所述待识别语音数据进行特征提取，得到包括话语内容、音调、情感、用户个性、性别和年龄的特征矩阵，并基于所述特征矩阵得到包括用户的年龄的预测分布；
[0165]
根据所述预测分布和所述待识别语音数据的标签分布，计算得到混合损失函数值；
[0166]
根据所述混合损失函数值对所述深度学习神经网络进行迭代更新，得到训练好的年龄识别模型。
[0167]
可以看出，在图7所示的电子设备中，基于用户的样本语音得到待识别语音数据；通过深度学习神经网络对待识别语音数据进行特征提取，得到包括话语内容、音调、情感、用户个性、性别和年龄的特征矩阵，并基于特征矩阵得到包括用户的年龄的预测分布；根据预测分布和待识别语音数据的标签分布，计算得到混合损失函数值；根据混合损失函数值
对深度学习神经网络进行迭代更新，得到训练好的年龄识别模型。这样通过预先构建好的标签分布和定义的混合损失函数训练深度学习神经网络，以让年龄识别模型学习到包括话语内容、音调、情感、用户个性、性别和年龄等多个维度的特征，以保留样本语音中信息的复杂性，从而提高模型在实际应用中提取的特征的质量，进而有利于提升说话者年龄识别的精度。
[0168]
再一个实施例中，处理器701执行根据所述预测分布和所述待识别语音数据的标签分布，计算得到混合损失函数值，包括：
[0169]
根据所述预测分布和所述标签分布，计算得到js散度、方差损失和l1损失；
[0170]
根据所述js散度、所述方差损失和所述l1损失及对应的惩罚系数，计算得到所述混合损失函数值。
[0171]
再一个实施例中，处理器701执行计算得到js散度，包括：
[0172]
根据所述预测分布和所述标签分布，采用如下公式计算得到kl损失：
[0173][0174]
其中，p
i
表示第i条样本语音的标签分布，q
i
表示第i条样本语音的预测分布，l
kl
(p
i
|q
i
)表示所述kl损失，x表示字符集；
[0175]
根据所述kl损失，采用如下公式计算得到所述js散度：
[0176][0177]
其中，l
js
(p
i
|q
i
)表示所述js散度。
[0178]
再一个实施例中，在根据所述预测分布和所述待识别语音数据的标签分布，计算得到混合损失函数值之前，处理器701还用于执行：
[0179]
获取所述待识别语音数据在话语内容维度上的标签概率、音调维度上的标签概率、情感维度上的标签概率、用户个性维度上的标签概率、性别维度上的标签概率和年龄维度上的标签概率；
[0180]
将所述待识别语音数据在话语内容维度上的标签概率、音调维度上的标签概率、情感维度上的标签概率、用户个性维度上的标签概率、性别维度上的标签概率和年龄维度上的标签概率组成所述标签分布。
[0181]
再一个实施例中，处理器701执行待识别语音数据在情感维度标签上的概率的获取步骤，包括：
[0182]
将所述待识别语音数据转换为待处理文本；
[0183]
对所述待处理文本中的单词进行屏蔽，得到屏蔽后的文本，以及采用词库中的任意单词对所述待处理文本中的单词进行替换，得到替换后的文本；
[0184]
基于所述屏蔽后的文本和所述替换后的文本，计算得到所述待处理文本中的单词对于所述待处理文本情感分类的重要性度量；
[0185]
将所述重要性度量归一化到预设区间，得到所述待识别语音数据在情感维度标签上的概率。
[0186]
再一个实施例中，处理器701执行基于所述屏蔽后的文本和所述替换后的文本，计算得到所述待处理文本中的单词对于所述待处理文本情感分类的重要性度量，包括：
[0187]
调用掩码语言模型对所述屏蔽后的文本进行处理，得到所述待处理文本中的单词的第一预测结果；
[0188]
调用掩码语言模型对所述替换后的文本进行处理，得到所述待处理文本中的单词的第二预测结果；
[0189]
根据所述第一预测结果和所述第二预测结果，计算得到所述重要性度量。
[0190]
再一个实施例中，所述深度学习神经网络包括骨干网络和全连接层；处理器701执行所述通过深度学习神经网络对所述待识别语音数据进行特征提取，得到包括话语内容、音调、情感、用户个性、性别和年龄的特征矩阵，包括：
[0191]
将所述待识别语音数据输入所述深度学习神经网络进行卷积处理，通过所述骨干网络对卷积处理后的所述待识别语音数据进行特征提取，得到待池化特征矩阵；
[0192]
对所述待池化特征矩阵进行平均池化处理，得到平均池化后的特征；
[0193]
通过所述全连接层对所述平均池化后的特征进行分类处理，得到所述特征矩阵。
[0194]
示例性的，电子设备包括但不仅限于处理器701、输入设备702、输出设备703以及存储器704。还可以包括内存、电源、应用客户端模块等。输入设备702可以是键盘、触摸屏、射频接收器等，输出设备703可以是扬声器、显示器、射频发送器等。本领域技术人员可以理解，所述示意图仅仅是电子设备的示例，并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件。
[0195]
需要说明的是，由于电子设备的处理器701执行计算机程序时实现上述的基于语音的年龄识别方法中的步骤，因此上述基于语音的年龄识别方法的实施例均适用于该电子设备，且均能达到相同或相似的有益效果。
[0196]
本技术实施例还提供了一种计算机存储介质(memory)，所述计算机存储介质是电子设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机存储介质既可以包括终端中的内置存储介质，当然也可以包括终端所支持的扩展存储介质。计算机存储介质提供存储空间，该存储空间存储了终端的操作系统。并且，在该存储空间中还存放了适于被处理器701加载并执行的一条或多条的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机存储介质可以是高速ram存储器，也可以是非不稳定的存储器(non
‑
volatile memory)，例如至少一个磁盘存储器；可选的，还可以是至少一个位于远离前述处理器701的计算机存储介质。在一个实施例中，可由处理器701加载并执行计算机存储介质中存放的一条或多条计算机程序，以实现上述有关基于语音的年龄识别方法的相应步骤。
[0197]
示例性的，计算机存储介质的计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom，read
‑
only memory)、随机存取存储器(ram，random access memory)、电载波信号、电信信号以及软件分发介质等。
[0198]
需要说明的是，由于计算机存储介质的计算机程序被处理器执行时实现上述的基于语音的年龄识别方法中的步骤，因此上述基于语音的年龄识别方法的所有实施例均适用于该计算机存储介质，且均能达到相同或相似的有益效果。
[0199]
以上对本技术实施例进行了详细介绍，本文中应用了具体个例对本技术的原理及
实施方式进行了阐述，以上实施例的说明只是用于帮助理解本技术的方法及其核心思想；同时，对于本领域的一般技术人员，依据本技术的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本技术的限制。