一种身份识别方法及智能设备与流程

1.本发明涉及语音识别技术领域，具体涉及一种身份识别方法及智能设备。

背景技术：

2.随着互联网的发展，智能设备逐渐普及使用，智能设备可以通过用户的语音数据对用户进行身份识别。
3.目前智能设备在实现身份识别功能之前，需要用户预先按照固定的文本语料来注册声纹数据，在后续使用过程中将新采集的语音数据与预先注册的声纹数据进行比对来进行身份识别。但是，此种方式必须要求用户先按照固定的文本语料注册声纹数据才能进行后续的身份识别功能，耗费用户的操作时间，进而导致用户使用体验较低。

技术实现要素：

4.有鉴于此，本发明实施例提供一种身份识别方法及智能设备，以解决现有身份识别方式存在的用户使用体验低的问题。
5.为实现上述目的，本发明实施例提供如下技术方案：
6.本发明实施例第一方面公开一种身份识别方法，所述方法包括：
7.从待识别用户的语音数据中提取待处理语音特征；
8.利用预先训练得到的分类器模型对所述待处理语音特征进行处理，得到所述待处理语音特征对应各个身份类别的类别评分，所述分类器模型由基于预先采集的语音样本数据训练得到，所述身份类别与所述语音样本数据标注的预设真实身份具有对应关系；
9.确定所述类别评分最高的所述身份类别对应的预设真实身份为所述待识别用户的最终身份识别结果。
10.优选的，基于预先采集的语音样本数据训练得到所述分类器模型，包括：
11.从预先采集的多个样本用户的语音样本数据中，提取第一样本语音特征；
12.对所述第一样本语音特征进行降维处理，得到第二样本语音特征，所述第二样本语音特征指示所述语音样本数据的特征分布，至少部分语音样本数据的特征分布对应不同的预设真实身份；
13.利用初始分类器对所述第二样本语音特征进行数据拟合，得到由所述初始分类器输出的所述语音样本数据的类别预测结果；
14.根据所述类别预测结果与所述语音样本数据标注的预设真实身份，对所述初始分类器进行训练，得到所述分类器模型。
15.优选的，所述根据所述类别预测结果与所述语音样本数据标注的预设真实身份，对所述初始分类器进行训练，得到所述分类器模型，包括：
16.利用预设损失函数，计算所述类别预测结果与所述语音样本数据标注的预设真实身份之间的误差；
17.若所述误差小于或等于误差阈值，确定完成所述初始分类器的训练，得到所述分
类器模型；
18.若所述误差大于所述误差阈值，根据所述误差调整所述初始分类器的分类器参数，并返回执行所述利用初始分类器对所述第二样本语音特征进行数据拟合的步骤。
19.优选的，所述利用预先训练得到的分类器模型对所述待处理语音特征进行处理，得到所述待处理语音特征对应各个身份类别的类别评分，包括：
20.将所述待处理语音特征输入预先训练得到的分类器模型中进行类别预测，得到由所述分类器模型输出的所述待处理语音特征对应各个身份类别的似然得分；
21.基于各个所述身份类别的似然得分，结合计算得到各个所述身份类别的类别评分，其中，p(m)为第m个所述身份类别的类别评分，a
m
为第m个所述身份类别对应的预设的先验概率，g
m
(qt)为第m个所述身份类别的似然得分，qt为所述待处理语音特征，t为所述待处理语音特征的序列号。
22.优选的，确定所述类别评分最高的所述身份类别对应的所述预设真实身份为所述待识别用户的最终身份识别结果之后，还包括：
23.根据所述最终身份识别结果对应的所述预设真实身份，确定所述待识别用户的用户类别；
24.根据所述待识别用户的用户类别，对所述待识别用户进行信息推荐。
25.优选的，确定所述类别评分最高的所述身份类别对应的所述预设真实身份为所述待识别用户的最终身份识别结果之后，还包括：
26.利用所述最终身份识别结果和所述待处理语音特征，对所述待识别用户进行声纹注册。
27.优选的，确定所述类别评分最高的所述身份类别对应的所述预设真实身份为所述待识别用户的最终身份识别结果之后，还包括：
28.将所述最终身份识别结果和所述语音数据上传至服务器中，使所述服务器从所述语音数据中提取所述待识别用户的用户指令；
29.接收所述服务器下发的针对所述用户指令的响应指令，执行与所述响应指令对应的操作。
30.本发明实施例第二方面公开一种智能设备，其特征在于，所述智能设备包括：
31.提取单元，用于从待识别用户的语音数据中提取待处理语音特征；
32.处理单元，用于利用预先训练得到的分类器模型对所述待处理语音特征进行处理，得到所述待处理语音特征对应各个身份类别的类别评分，所述分类器模型由基于预先采集的语音样本数据训练得到，所述身份类别与所述语音样本数据标注的预设真实身份具有对应关系；
33.确定单元，用于确定所述类别评分最高的所述身份类别对应的预设真实身份为所述待识别用户的最终身份识别结果。
34.本发明实施例第三方面公开一种电子设备，所述电子设备用于运行程序，其中，所述程序运行时执行如本发明实施例第一方面公开的身份识别方法。
35.本发明实施例第四方面公开一种计算机存储介质，所述计算机存储介质包括存储程序，其中，在所述程序运行时控制所述计算机存储介质所在设备执行如本发明实施例第
一方面公开的身份识别方法。
36.基于上述本发明实施例提供的一种身份识别方法及智能设备，该方法为：从待识别用户的语音数据中提取待处理语音特征；利用预先训练得到的分类器模型对待处理语音特征进行处理，得到待处理语音特征对应各个身份类别的类别评分，分类器模型由基于预先采集的语音样本数据训练得到；确定类别评分最高的身份类别对应的预设真实身份为待识别用户的最终身份识别结果。本方案中，在智能设备的使用过程中采集语音样本数据并据此训练得到分类器模型。当获取到待识别用户新进的语音数据时，从所获取的语音数据提取待处理语音特征。利用分类器模型对待处理语音特征进行处理并根据处理结果确定最终身份识别结果。用户不需要注册声纹数据即可进行身份识别，节省了用户的操作时间和操作步骤，提高用户使用体验。
附图说明
37.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。
38.图1为本发明实施例提供的一种身份识别方法的流程图；
39.图2为本发明实施例提供的训练得到分类器模型的流程图；
40.图3为本发明实施例提供的一种智能设备的结构框图。
具体实施方式
41.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
42.在本技术中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
43.由背景技术可知，目前的智能设备在实现身份识别功能之前，要求用户先按照固定的文本语料来注册声纹数据，在进行身份识别时，再将新采集的语音数据与预先注册的声纹数据进行比对来进行身份识别。但是，此种方式需要用户先查看文本语料并据此注册声纹数据，整个注册过程会耗费用户的操作时间，导致用户使用体验较低。
44.因此，本发明实施例提供一种身份识别方法及智能设备，在智能设备的使用过程中采集语音样本数据并据此训练得到分类器模型。当获取到待识别用户新进的语音数据时，从所获取的语音数据提取待处理语音特征。利用分类器模型对待处理语音特征进行处理并根据处理结果确定最终身份识别结果。用户不需要注册声纹数据即可进行身份识别，节省了用户的操作时间和操作步骤，以提高用户使用体验。
45.需要说明的是，本发明实施例中所涉及的身份识别方法，可应用于诸如智能家居等智能设备的身份识别功能。
46.参见图1，示出了本发明实施例提供的一种身份识别方法的流程图，该身份识别方法包括：
47.步骤s101：从待识别用户的语音数据中提取待处理语音特征。
48.在具体实现步骤s101的过程中，待识别用户在使用智能设备时，获取待识别用户的语音数据，从所获取的该语音数据中提取待处理语音特征。
49.需要说明的是，所提取的待处理语音特征为mfcc特征、fbank特征或pcen特征等，在本发明实施例对所提取的待处理语音特征的具体类型不做限定。
50.步骤s102：利用预先训练得到的分类器模型对待处理语音特征进行处理，得到待处理语音特征对应各个身份类别的类别评分。
51.需要说明的是，分类器模型由基于预先采集的多个样本用户的语音样本数据训练得到，身份类别与语音样本数据标注的预设真实身份具有对应关系。也就是说，预先采集语音样本数据，并对语音样本数据标注相应的预设真实身份，利用所采集的语音样本数据训练得到分类器模型，该分类器模型可识别多个身份类别就，每个身份类别与一个样本用户的语音样本数据标注的预设真实身份具有对应关系。
52.进一步需要说明的是，预先设置样本用户的预设真实身份，对样本用户的语音样本数据标注该样本用户的预设真实身份，每个样本用户的预设真实身份可维护在云端服务器中。
53.例如：假设智能设备a在家庭b中使用，家庭b中高频率和智能设备交互的成员有m个，则该m个成员即为上述提及的多个样本用户，利用采集得到的该m个成员的语音样本数据训练得到分类器模型。
54.在具体实现步骤s102的过程中，将所提取的待处理语音特征输入预先训练得到的分类器模型中进行类别预测，得到由分类器模型输出的待处理语音特征对应各个身份类别的似然得分，也就是说，利用分类器模型处理所提取的待处理语音特征，可以计算得到各个身份类别的似然得分。
55.利用计算得到的各个身份类别的似然得分，通过公式(1)计算得到各个身份类别的类别评分。
[0056][0057]
在公式(1)中，p(m)为第m个身份类别的类别评分，a
m
为第m个身份类别对应的预设的先验概率，g
m
(qt)为第m个身份类别的似然得分，qt为待处理语音特征，t为待处理语音特征的序列号，m为大于0小于m的整数，m为样本用户的个数。
[0058]
通过以上方式，计算得到分类器模型能够识别的各个身份类别的类别评分。
[0059]
步骤s103：确定类别评分最高的身份类别对应的预设真实身份为待识别用户的最终身份识别结果。
[0060]
由上述内容可知，分类器模型能识别的每个身份类别对应某一样本用户的预设真实身份，并且已基于待识别用户的待处理语音特征计算得到每个身份类别的类别评分，在具体实现步骤s103的过程中，确定类别评分最高的身份类别对应的预设真实身份为待识别
用户的最终身份识别结果，即可确定待识别用户的最终身份识别结果为类别评分最高的身份类别对应的预设真实身份。
[0061]
具体而言，通过公式(2)确定类别评分最高的身份类别对应的预设真实身份。
[0062]
mq＝argmax
m
p(m)
ꢀꢀꢀ
(2)
[0063]
在公式(2)中，p(m)为第m个身份类别的类别评分，mq为类别评分最高的身份类别。
[0064]
优选的，在确定待识别用户的最终身份识别结果之后，根据该最终身份识别结果对应的预设真实身份，确定待识别用户的用户类别，利用所确定的用户类别对待识别用户进行信息推荐，具体而言，在对待识别用户进行信息推荐的过程中，提高与待识别用户的用户类别对应的信息类别的推荐权重。
[0065]
例如：假设所确定的待识别用户的用户类别指示该待识别用户为老人，在进行音乐推荐时，提高戏曲的推荐权重。
[0066]
又例如：假设所确定的待识别用户的用户类别指示该待识别用户为儿童，在进行音乐推荐时，提高童谣的推荐权重。
[0067]
优选的，在确定待识别用户的最终身份识别结果之后，利用最终身份识别结果和待处理语音特征，对待识别用户进行声纹注册。
[0068]
由前述内容可知，本发明实施例所提供的一种身份识别方法应用于智能设备，优选的，在确定待识别用户的最终身份识别结果之后，将最终身份识别结果和语音数据上传至服务器中，使服务器从语音数据中提取待识别用户的用户指令；接收服务器下发的针对用户指令的响应指令，执行与响应指令对应的操作。
[0069]
在本发明实施例中，在智能设备的使用过程中采集样本用户的语音样本数据并据此训练得到分类器模型。当获取到待识别用户新进的语音数据时，从所获取的语音数据提取待处理语音特征。利用分类器模型对待处理语音特征进行处理并根据处理结果确定最终身份识别结果。用户不需要注册声纹数据即可进行身份识别，节省了用户的操作时间和操作步骤，提高用户使用体验。
[0070]
上述本发明实施例图1步骤s102中涉及的训练得到分类器模型的过程，参见图2，示出了本发明实施例提供的训练得到分类器模型的流程图，包括以下步骤：
[0071]
步骤s201：从预先采集的多个样本用户的语音样本数据中，提取第一样本语音特征。
[0072]
在具体实现步骤s201的过程中，从各个样本用户的语音样本数据中提取第一样本语音特征，得到多个第一样本语音特征，可以理解的是，第一样本语音特征为mfcc特征、fbank特征或pcen特征，在此对第一样本语音特征的类型不做具体限定。
[0073]
需要说明的是，第一样本语音特征为一定维度的特征向量，例如：第一样本语音特征为40维的特征向量。
[0074]
步骤s202：对第一样本语音特征进行降维处理，得到第二样本语音特征。
[0075]
在具体实现步骤s202的过程中，利用预设数据降维算法(例如tsne算法)对所有第一样本语音特征进行降维处理，得到多个第二样本语音特征(也就是降维后的第一样本语音特征)。
[0076]
可以理解的是，对所有第一样本语音特征进行降维处理后，可得到低纬度数据分布表示，即第二样本语音特征指示语音样本数据的特征分布，通过该低纬度数据分布表示
可以观测降维后的所有第一样本语音特征(也就是第二样本语音特征)的分布情况。
[0077]
需要说明的是，每个样本用户对应一个预设真实身份，因此至少部分语音样本数据的特征分布对应不同的预设真实身份。
[0078]
步骤s203：利用初始分类器对第二样本语音特征进行数据拟合，得到由初始分类器输出的语音样本数据的类别预测结果。
[0079]
在具体实现步骤s203的过程中，将第二样本语音特征输入预设的初始分类器中，基于em算法和高斯混合(adaptive background mixture models for real
‑
time tracking，gmm)对第二样本语音特征进行数据拟合，得到由初始分类器输出的语音样本数据的类别预测结果。
[0080]
步骤s204：根据类别预测结果与语音样本数据标注的预设真实身份，对初始分类器进行训练，得到分类器模型。
[0081]
由前述内容可知，语音样本数据标注预设真实身份，因此在具体实现步骤s204的过程中，利用预设损失函数，计算类别预测结果与语音样本数据标注的预设真实身份之间的误差；若误差小于或等于误差阈值，确定完成初始分类器的训练，得到分类器模型；若误差大于误差阈值，根据误差调整初始分类器的分类器参数，并返回执行步骤s203继续对初始分类器进行训练。
[0082]
可以理解的是，若语音样本数据的类别预测结果与预设真实身份之间的误差小于或等于误差阈值，完成初始分类器的训练进而得到分类器模型，即将所有第二样本语音特征拟合成总似然最大的身份类别数目(身份类别的数目)。
[0083]
在本发明实施例中，从样本用户的语音样本数据中提取第一样本语音特征并对其进行降维处理，得到第二样本语音特征。利用第二语音样本特征、gmm模型和em算法进行初始分类器的训练，得到分类器模型。使用训练得到的分类器模型对待识别用户新进的语音数据进行处理，并根据处理结果确定最终身份识别结果。用户不需要注册声纹数据即可进行身份识别，节省了用户的声纹数据注册操作，提高用户使用体验。
[0084]
与上述本发明实施例提供的一种身份识别方法相对应，参见图3，本发明实施例还提供了一种智能设备的结构框图，该智能设备包括：提取单元301、处理单元302和确定单元303；
[0085]
提取单元301，用于从待识别用户的语音数据中提取待处理语音特征。
[0086]
处理单元302，用于利用预先训练得到的分类器模型对待处理语音特征进行处理，得到待处理语音特征对应各个身份类别的类别评分，分类器模型由基于预先采集的语音样本数据训练得到，身份类别与语音样本数据标注的预设真实身份具有对应关系。
[0087]
在具体实现中，用于利用预先训练得到的分类器模型对待处理语音特征进行处理的处理单元302，具体用于：将待处理语音特征输入预先训练得到的分类器模型中进行类别预测，得到由分类器模型输出的待处理语音特征对应各个身份类别的似然得分；基于各个身份类别的似然得分，结合上述公式(1)计算得到各个身份类别的类别评分。
[0088]
确定单元303，用于确定类别评分最高的身份类别对应的预设真实身份为待识别用户的最终身份识别结果。
[0089]
在本发明实施例中，在智能设备的使用过程中采集语音样本数据并据此训练得到分类器模型。当获取到待识别用户新进的语音数据时，从所获取的语音数据提取待处理语
音特征。利用分类器模型对待处理语音特征进行处理并根据处理结果确定最终身份识别结果。用户不需要注册声纹数据即可进行身份识别，节省了用户的操作时间和操作步骤，提高用户使用体验。
[0090]
优选的，结合图3示出的内容，用于训练得到分类器的处理单元302包括：提取模块、降维模块、拟合模块和处理模块，各个模块的执行原理如下：
[0091]
提取模块，用于从预先采集的多个样本用户的语音样本数据中，提取第一样本语音特征。
[0092]
降维模块，用于对第一样本语音特征进行降维处理，得到第二样本语音特征。
[0093]
需要说明的是，第二样本语音特征指示语音样本数据的特征分布，至少部分语音样本数据的特征分布对应不同的预设真实身份。
[0094]
拟合模块，用于利用初始分类器对第二样本语音特征进行数据拟合，得到由初始分类器输出的所述语音样本数据的类别预测结果。
[0095]
处理模块，用于根据类别预测结果与语音样本数据标注的预设真实身份，对初始分类器进行训练，得到分类器模型。
[0096]
在具体实现中，处理模块具体用于：利用预设损失函数，计算类别预测结果与语音样本数据标注的预设真实身份之间的误差；若误差小于或等于误差阈值，确定完成初始分类器的训练，得到分类器模型；若误差大于误差阈值，根据误差调整初始分类器的分类器参数，并返回执行拟合模块。
[0097]
在本发明实施例中，从样本用户的语音样本数据中提取第一样本语音特征并对其进行降维处理，得到第二样本语音特征。利用第二语音样本特征进行初始分类器的训练，得到分类器模型。使用训练得到的分类器模型对待识别用户新进的语音数据进行处理，并根据处理结果确定最终身份识别结果。用户不需要注册声纹数据即可进行身份识别，节省了用户的声纹数据注册操作，提高用户使用体验。
[0098]
优选的，结合图3示出的内容，该智能设备还包括：
[0099]
推荐单元，用于根据最终身份识别结果对应的所述预设真实身份，确定待识别用户的用户类别；根据待识别用户的用户类别，对待识别用户进行信息推荐。
[0100]
优选的，结合图3示出的内容，该智能设备还包括：
[0101]
注册单元，用于利用最终身份识别结果和待处理语音特征，对待识别用户进行声纹注册。
[0102]
优选的，结合图3示出的内容，该智能设备还包括：
[0103]
指令执行单元，用于将最终身份识别结果和语音数据上传至服务器中，使服务器从语音数据中提取待识别用户的用户指令；接收服务器下发的针对用户指令的响应指令，执行与响应指令对应的操作。
[0104]
优选的，本发明实施例还提供一种电子设备，该电子设备用于运行程序，其中，该程序运行时执行上述本发明实施例提及的身份识别方法。
[0105]
优选的，本发明实施例还提供一种计算机存储介质，该计算机存储介质包括存储程序，其中，在该程序运行时控制计算机存储介质所在设备执行如上述本发明实施例提及的身份识别方法。
[0106]
综上所述，本发明实施例提供一种身份识别方法及智能设备，在智能设备的使用
过程中采集语音样本数据并据此训练得到分类器模型。当获取到待识别用户新进的语音数据时，从所获取的语音数据提取待处理语音特征。利用分类器模型对待处理语音特征进行处理并根据处理结果确定最终身份识别结果。用户不需要注册声纹数据即可进行身份识别，节省了用户的操作时间和操作步骤，提高用户使用体验。
[0107]
本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。
[0108]
专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。
[0109]
对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。