1.本技术涉及人工智能技术领域,具体涉及一种基于声纹识别的身份验证方法、装置、电子设备及介质。
背景技术:2.互联网发展迅速,线上进行业务办理成为重要渠道,特别是电话客服,用户通过拨打电话进行业务办理,为了确保用户信息的安全性,对用户进行身份核验变得尤为重要,现有的来电业务办理,通过核验来电用户的身份证号码和姓名进行基于声纹识别的身份验证。
3.然而,在互联网时代,身份证号码和姓名可能已经被泄露流入公共渠道,若来电业务办理过程中采用身份证号码验证,无法确保来电办理业务的来电用户是否为用户本人,容易引起用户信息被泄露,导致基于声纹识别的身份验证准确率及安全性低。
4.因此,有必要提出一种快速准确的验证来电用户身份的方法。
技术实现要素:5.鉴于以上内容,有必要提出一种基于声纹识别的身份验证方法、装置、电子设备及介质,通过识别来电用户的目标区域,在后续的声纹识别过程中考虑到来电用户的发音特征,提高了声纹识别的准确率。
6.本技术的第一方面提供一种基于声纹识别的身份验证方法,所述方法包括:
7.响应于接收到的用户来电请求,识别所述用户来电请求中的来电用户所处的目标地区;
8.基于所述目标地区的语料库生成验证口令,并发送所述验证口令至所述用户来电请求中的来电号码对应的客户端;
9.接收所述客户端上报的验证语音,从所述验证语音中提取每个字的第一验证声纹特征值;
10.将多个字的第一验证声纹特征值输入至所述目标地区对应的预先训练好的声纹识别模型中,及计算所述验证语音与所述来电用户的注册声纹的相似度;
11.根据所述声纹识别模型输出的识别结果和计算得到的相似度,验证所述来电用户的身份。
12.可选地,所述基于所述目标地区的语料库生成验证口令包括:
13.识别所述目标地区的第一关键发音特征;
14.根据所述第一关键发音特征从所述语料库中随机选取多个字生成验证口令。
15.可选地,所述声纹识别模型的训练过程包括:
16.采集每个地区的多个用户的语料库,其中,所述语料库中包含有验证通过的声纹特征值和验证未通过的声纹特征值;
17.获取每个地区的第二关键发音特征;
18.根据每个地区的第二关键发音特征及预设的提取规则从所述语料库中提取多个目标声纹特征值;
19.构建包含有正样本和负样本的样本数据集,其中,所述正样本为由同一个用户的验证通过的声纹特征值和所述多个目标声纹特征值组成的样本对,所述负样本为由不同用户的验证未通过的声纹特征值和所述多个目标声纹特征值组成的样本对;
20.将所述样本数据集随机分为第一数量的训练集和第二数量的测试集;
21.将所述训练集输入预设神经网络中进行训练,得到声纹识别模型;
22.将所述测试集输入至所述声纹识别模型中进行测试,得到测试通过率;
23.判断所述测试通过率是否大于预设通过率阈值;
24.当所述测试通过率大于或者等于所述预设通过率阈值时,结束声纹识别模型的训练;
25.当所述测试通过率小于所述预设通过率阈值时,增加所述训练集的数量并基于增加后的训练集重新训练声纹识别模型直至所述测试通过率大于或者等于所述预设通过率阈值。
26.可选地,所述识别所述用户来电请求中的来电用户所处的目标地区包括:
27.解析所述用户的来电请求,获取来电用户的身份证号码;从所述身份证号码中提取多个关键字段,从预设的地区数据库中匹配出与所述多个关键字段相匹配的第一归属地区;将所述第一归属地区确定为所述来电用户所处的目标地区;或者
28.解析所述用户的来电请求,获取来电用户的来电号码;识别所述来电号码的运营商,通过所述运营商对应的数据接口查询服务获取所述来电号码的第二归属地区;将所述第二归属地区确定为所述来电用户所处的目标地区。
29.可选地,所述根据所述声纹识别模型输出的识别结果和计算得到的相似度,验证所述来电用户的身份包括:
30.将所述识别结果中的第一文本与所述验证口令对应的第二文本进行匹配,及将计算得到的相似度与预设的第一相似度阈值进行比对;
31.当所述识别结果中的第一文本与所述验证口令对应的第二文本相匹配,及计算得到的相似度大于或者等于预设的第一相似度阈值时,确定所述来电用户的身份验证通过。
32.可选地,所述方法还包括:
33.当所述识别结果中的第一文本与所述验证口令对应的第二文本不匹配,或计算得到的相似度小于所述预设的第一相似度阈值时,确定所述来电用户的身份验证不通过。
34.可选地,所述方法还包括:
35.当确定所述来电用户的身份验证不通过时,识别所述来电请求中所述身份证号码对应的第一归属地区和所述来电号码对应的第二归属地区是否为同一个归属地区;
36.当所述来电请求中所述身份证号码对应的第一归属地区和所述来电号码对应的第二归属地区不为同一个归属地区时,根据所述第一归属地区的语料库和所述第二归属地区的语料库生成方言组合验证口令;
37.发送所述方言组合验证口令至所述用户来电请求中的来电号码对应的客户端;
38.接收所述客户端上报的新的验证语音,从所述新的验证语音中提取每个字的第二验证声纹特征值;
39.将多个字的第二验证声纹特征值分别输入至所述第一归属地区对应的预先训练好的声纹识别模型和第二归属地区对应的预先训练好的声纹识别模型中,及计算所述新的验证语音与所述来电用户的注册声纹的第一相似度;
40.接收所述第一归属地区对应的预先训练好的声纹识别模型输出的第一识别结果,及接收所述第二归属地区对应的预先训练好的声纹识别模型输出的第二识别结果;
41.计算所述第一识别结果中的第三文本与所述方言组合验证口令对应的第四文本之间的第二相似度,及计算所述第二识别结果中的第五文本与所述方言组合验证口令对应的第四文本之间的第三相似度;
42.计算所述第二相似度与预设的第一权重值的乘积,得到第一归属地区对应的第四相似度;
43.计算所述第三相似度与预设的第二权重值的乘积,得到第二归属地区对应的第五相似度;
44.计算所述第四相似度和所述第五相似度的总和,得到最终目标地区的相似度;
45.将所述第一相似度与预设的第二相似度阈值进行比对,及将所述最终目标地区的相似度与预设的第三相似度阈值进行比对;
46.当所述第一相似度大于或者等于所述预设的第二相似度阈值,及所述第四相似度大于或者等于所述预设的第三相似度阈值时,确定所述来电用户的身份二次验证通过。
47.本技术的第二方面提供一种基于声纹识别的身份验证装置,所述装置包括:
48.识别模块,用于响应于接收到的用户来电请求,识别所述用户来电请求中的来电用户所处的目标地区;
49.生成模块,用于基于所述目标地区的语料库生成验证口令,并发送所述验证口令至所述用户来电请求中的来电号码对应的客户端;
50.接收模块,用于接收所述客户端上报的验证语音,从所述验证语音中提取每个字的第一验证声纹特征值;
51.输入模块,用于将多个字的第一验证声纹特征值输入至所述目标地区对应的预先训练好的声纹识别模型中,及计算所述验证语音与所述来电用户的注册声纹的相似度;
52.验证模块,用于根据所述声纹识别模型输出的识别结果和计算得到的相似度,验证所述来电用户的身份。
53.本技术的第三方面提供一种电子设备,所述电子设备包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现所述的基于声纹识别的身份验证方法。
54.本技术的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述的基于声纹识别的身份验证方法。
55.综上所述,本技术所述的基于声纹识别的身份验证方法、装置、电子设备及介质,一方面,根据目标地区的第一关键发音特征生成验证口令,提高验证口令的有效性,同时来电用户读取验证口令形成验证语音,并采用所述验证语音进行声纹验证,进而提高后续声纹验证的准确率;另一方面,通过在进行声纹识别模型的训练过程中,考虑到了每个地区的第二关键发音特征,并将验证通过的声纹特征值、验证不通过的声纹特征值都作为样本集
去不断优化声纹识别模型,提高了声纹识别模型的准确率,进而提高了来电用户身份验证的准确率;最后,通过识别来电用户的目标区域,在后续的声纹识别过程中考虑到来电用户的发音特征,进而提高了声纹识别的准确率。
附图说明
56.图1是本技术实施例一提供的基于声纹识别的身份验证方法的流程图。
57.图2是本技术实施例二提供的基于声纹识别的身份验证装置的结构图。
58.图3是本技术实施例三提供的电子设备的结构示意图。
具体实施方式
59.为了能够更清楚地理解本技术的上述目的、特征和优点,下面结合附图和具体实施例对本技术进行详细描述。需要说明的是,在不冲突的情况下,本技术的实施例及实施例中的特征可以相互组合。
60.除非另有定义,本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同。本文中在本技术的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本技术。
61.实施例一
62.图1是本技术实施例一提供的基于声纹识别的身份验证方法的流程图。
63.在本实施例中,所述基于声纹识别的身份验证方法可以应用于电子设备中,对于需要进行基于声纹识别的身份验证的电子设备,可以直接在电子设备上集成本技术的方法所提供的基于声纹识别的身份验证的功能,或者以软件开发工具包(software development kit,sdk)的形式运行在电子设备中。
64.如图1所示,所述基于声纹识别的身份验证方法具体包括以下步骤,根据不同的需求,该流程图中步骤的顺序可以改变,某些可以省略。
65.s11,响应于接收到的用户来电请求,识别所述用户来电请求中的来电用户所处的目标地区。
66.本实施例中,用户来电请求用以表征用户采用拨打电话号码的方式进行业务办理,例如,用户在进行投保过程中,可能会对保险条款存在疑问,通过拨打xxxxx发送用户来电请求,进行咨询保险条款对应的相关信息,所述目标地区用以表征来电用户的归属地区。
67.在一个可选的实施例中,所述识别所述用户来电请求中的来电用户所处的目标地区包括:
68.解析所述用户的来电请求,获取来电用户的身份证号码;
69.从所述身份证号码中提取多个关键字段,从预设的地区数据库中匹配出与所述多个关键字段相匹配的第一归属地区;
70.将所述第一归属地区确定为所述来电用户所处的目标地区。
71.在其他可选的实施例中,所述识别所述用户来电请求中的来电用户所处的目标地区包括:
72.解析所述用户的来电请求,获取来电用户的来电号码;
73.识别所述来电号码的运营商,通过所述运营商对应的数据接口查询服务获取所述
来电号码的第二归属地区;
74.将所述第二归属地区确定为所述来电用户所处的目标地区。
75.在其他可选的实施例中,可以同时识别所述来电请求中所述身份证号码对应的第一归属地区和所述来电号码对应的第二归属地区,当所述第一归属地区与所述第二归属地区不为同一个归属地区时,优先将所述第一归属地区确定为所述来电用户所处的目标地区。
76.本实施例中,通过识别来电用户的目标区域,在后续的声纹识别过程中考虑到来电用户的发音特征,进而提高了声纹识别的准确率。
77.s12,基于所述目标地区的语料库生成验证口令,并发送所述验证口令至所述用户来电请求中的来电号码对应的客户端。
78.本实施例中,在接收到用户来电请求时,系统根据来电用户对应的目标地区的语料库生成验证口令,并按照预设的发送方式发送至来电请求中的来电号码对应的客户端,例如,已短信的方式发送至来电请求中的来电号码对应的客户端,来电用户接收到所述验证口令时,读取所述验证口令形成验证语音。
79.在一个可选的实施例中,所述基于所述目标地区的语料库生成验证口令包括:
80.识别所述目标地区的第一关键发音特征;
81.根据所述第一关键发音特征从所述语料库中随机选取多个字生成验证口令。
82.本实施例中,所述第一关键发音特征用以表征所述目标区域特有的发音特征,即区别于其他地区的发音特征。
83.本实施例中,根据目标地区的第一关键发音特征生成验证口令,提高验证口令的有效性,同时来电用户读取验证口令形成验证语音,并采用所述验证语音进行声纹验证,进而提高后续声纹验证的准确率。
84.s13,接收所述客户端上报的验证语音,从所述验证语音中提取每个字的第一验证声纹特征值。
85.本实施例中,所述验证声纹特征值包含每个字的频率值、音量、音色等,在接收到客户端上报的验证语音之后,采用声纹识别技术从所述验证语音中提取每个字的第一验证声纹特征值,其中,所述声纹识别技术为现有技术,本实施例在此不做详细阐述。
86.s14,将多个字的第一验证声纹特征值输入至所述目标地区对应的预先训练好的声纹识别模型中,及计算所述验证语音与所述来电用户的注册声纹的相似度。
87.本实施例中,所述声纹识别模型是预先训练好的,将来电用户上报的验证语音的多个字的声纹特征值输入声纹识别模型中进行识别,得到识别结果,根据所述识别结果确定所述来电用户的验证语音是否为目标地区的语音特征。
88.具体地,所述声纹识别模型的训练过程包括:
89.采集每个地区的多个用户的语料库,其中,所述语料库中包含有验证通过的声纹特征值和验证未通过的声纹特征值;
90.获取每个地区的第二关键发音特征;
91.根据每个地区的第二关键发音特征及预设的提取规则从所述语料库中提取多个目标声纹特征值;
92.构建包含有正样本和负样本的样本数据集,其中,所述正样本为由同一个用户的
验证通过的声纹特征值和所述多个目标声纹特征值组成的样本对,所述负样本为由不同用户的验证未通过的声纹特征值和所述多个目标声纹特征值组成的样本对;
93.将所述样本数据集随机分为第一数量的训练集和第二数量的测试集;
94.将所述训练集输入预设神经网络中进行训练,得到声纹识别模型;
95.将所述测试集输入至所述声纹识别模型中进行测试,得到测试通过率;
96.判断所述测试通过率是否大于预设通过率阈值;
97.当所述测试通过率大于或者等于所述预设通过率阈值时,结束声纹识别模型的训练;
98.当所述测试通过率小于所述预设通过率阈值时,增加所述训练集的数量并基于增加后的训练集重新训练声纹识别模型直至所述测试通过率大于或者等于所述预设通过率阈值。
99.本实施例中,每个地区的语料库中包含有对应地区用户的第二关键发音特征,验证通过的声纹特征值、验证不通过的声纹特征值,并针对第二关键发音特征的音节、词语、句式表达采用关键标签进行标注。
100.本实施例中,所述第二关键发音特征用以表征每个地区发音区别与其他地区的发音特征,例如,广东人针对平翘部分的发音为:「z=zh」「c=ch」「s=sh」,则进行广东地区的目标声纹特征值的提取过程中,提取较多的翘舌与不翘舌的语料库进行后续模型的训练,进而提高声纹识别模型识别的准确率。
101.本实施例中,在后续服务过程中,将同一地区用户的验证通过的声纹特征值、验证不通过的声纹特征值及对应地区的多个目标声纹特征值作为新的样本,增加至所述样本数据集中,提高了声纹识别模型训练输入样本的多样性及确保了声纹识别模型训练输入的样本量,并基于新的样本数据集来重新训练声纹识别模型。即不断的更新声纹识别模型,从而不断的提高声纹识别模型的识别率。
102.本实施例中,在进行声纹识别模型的训练过程中,考虑到了每个地区的第二关键发音特征,并将验证通过的声纹特征值、验证不通过的声纹特征值都作为样本集去不断优化声纹识别模型,提高了声纹识别模型的准确率,进而提高了来电用户身份验证的准确率。
103.在一个可选的实施例中,所述计算所述验证声纹与所述来电用户的注册声纹的相似度包括:
104.提取所述验证语音的第一声纹特征,及提取所述注册声纹的第二声纹特征;
105.采用预设相似度算法计算所述第一声纹特征和所述第二声纹特征之间的相似度。
106.本实施例中,预设相似度算法可以为余弦相似度算法、切比雪夫相似度算法、欧式距离相似度算法等,本技术实施例在此不做限定。
107.s15,根据所述声纹识别模型输出的识别结果和计算得到的相似度,验证所述来电用户的身份。
108.本实施例中,当所述来电用户的验证语音属于目标地区的发音,及所述来电用户的验证语音与注册声纹相似时,确定所述来电用户的身份验证通过。
109.在一个可选的实施例中,所述根据所述声纹识别模型输出的识别结果和计算得到的相似度,验证所述来电用户的身份包括:
110.将所述识别结果中的第一文本与所述验证口令对应的第二文本进行匹配,及将计
算得到的相似度与预设的第一相似度阈值进行比对;
111.当所述识别结果中的第一文本与所述验证口令对应的第二文本相匹配,及计算得到的相似度大于或者等于预设的第一相似度阈值时,确定所述来电用户的身份验证通过。
112.进一步地,所述方法还包括:
113.当所述识别结果中的第一文本与所述验证口令对应的第二文本不匹配,或计算得到的相似度小于所述预设的第一相似度阈值时,确定所述来电用户的身份验证不通过。
114.在其他可选的实施例中,为了进一步的确保用户的身份验证的准确率,及提高用户的满意度,所述方法还包括:
115.当确定所述来电用户的身份验证不通过时,识别所述来电请求中所述身份证号码对应的第一归属地区和所述来电号码对应的第二归属地区是否为同一个归属地区;
116.当所述来电请求中所述身份证号码对应的第一归属地区和所述来电号码对应的第二归属地区不为同一个归属地区时,根据所述第一归属地区的语料库和所述第二归属地区的语料库生成方言组合验证口令;
117.发送所述方言组合验证口令至所述用户来电请求中的来电号码对应的客户端;
118.接收所述客户端上报的新的验证语音,从所述新的验证语音中提取每个字的第二验证声纹特征值;
119.将多个字的第二验证声纹特征值分别输入至所述第一归属地区对应的预先训练好的声纹识别模型和第二归属地区对应的预先训练好的声纹识别模型中,及计算所述新的验证语音与所述来电用户的注册声纹的第一相似度;
120.接收所述第一归属地区对应的预先训练好的声纹识别模型输出的第一识别结果,及接收所述第二归属地区对应的预先训练好的声纹识别模型输出的第二识别结果;
121.计算所述第一识别结果中的第三文本与所述方言组合验证口令对应的第四文本之间的第二相似度,及计算所述第二识别结果中的第五文本与所述方言组合验证口令对应的第四文本之间的第三相似度;
122.计算所述第二相似度与预设的第一权重值的乘积,得到第一归属地区对应的第四相似度;
123.计算所述第三相似度与预设的第二权重值的乘积,得到第二归属地区对应的第五相似度;
124.计算所述第四相似度和所述第五相似度的总和,得到最终目标地区的相似度;
125.将所述第一相似度与预设的第二相似度阈值进行比对,及将所述最终目标地区的相似度与预设的第三相似度阈值进行比对;
126.当所述第一相似度大于或者等于所述预设的第二相似度阈值,及所述第四相似度大于或者等于所述预设的第三相似度阈值时,确定所述来电用户的身份二次验证通过。
127.进一步地,所述方法还包括:
128.当所述第一相似度小于所述预设的第二相似度阈值,或所述最终目标地区的相似度小于所述预设的第三相似度阈值时,确定所述来电用户的身份二次验证不通过。
129.进一步地,所述方法还包括:
130.当所述来电请求中所述身份证号码对应的第一归属地区和所述来电号码对应的第二归属地区为同一个归属地区时,终止所述身份验证。
131.本实施例中,可以预先设置第一相似度阈值、第二相似度阈值和第三相似度阈值,具体地,所述预设的第一相似度阈值、第二相似度阈值和第三相似度阈值是基于机器学习得到的。
132.本实施例中,由于来电用户的身份证号码对应的归属地区为出生地区,手机号码的归属地区为生长地区,故当来电用户的身份第一次验证不通过时,可以通过识别所述来电请求中所述身份证号码对应的第一归属地区和所述来电号码对应的第二归属地区是否为同一个归属地区,确定是否需要进行身份第二次验证,在进行身份第二次验证时,可以预先为身份证号码对应的第一归属地区设置第一权重值,和为手机号码对应的第二归属地区设置第二权重值,确保计算得到的最终目标地区的相似度的正确性,进一步提高了用户身份验证的准确率,及来电用户的满意度。
133.综上所述,本实施例所述的一种基于声纹识别的身份验证方法,一方面,基于所述目标地区的语料库生成验证口令,并发送所述验证口令至所述用户来电请求中的来电号码对应的客户端,根据目标地区的第一关键发音特征生成验证口令,提高验证口令的有效性,同时来电用户读取验证口令形成验证语音,并采用所述验证语音进行声纹验证,进而提高后续声纹验证的准确率;另一方面,将多个字的第一验证声纹特征值输入至所述目标地区对应的预先训练好的声纹识别模型中,通过在进行声纹识别模型的训练过程中,考虑到了每个地区的第二关键发音特征,并将验证通过的声纹特征值、验证不通过的声纹特征值都作为样本集去不断优化声纹识别模型,提高了声纹识别模型的准确率,进而提高了来电用户身份验证的准确率;最后,识别所述用户来电请求中的来电用户所处的目标地区,通过识别来电用户的目标区域,在后续的声纹识别过程中考虑到来电用户的发音特征,进而提高了声纹识别的准确率。
134.实施例二
135.图2是本技术实施例二提供的基于声纹识别的身份验证装置的结构图。
136.在一些实施例中,所述基于声纹识别的身份验证装置20可以包括多个由程序代码段所组成的功能模块。所述基于声纹识别的身份验证装置20中的各个程序段的程序代码可以存储于电子设备的存储器中,并由所述至少一个处理器所执行,以执行(详见图1描述)基于声纹识别的身份验证的功能。
137.本实施例中,所述基于声纹识别的身份验证装置20根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:识别模块201、生成模块202、接收模块203、输入模块204、验证模块205、确定模块206及终止模块207。本技术所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机可读指令段,其存储在存储器中。在本实施例中,关于各模块的功能将在后续的实施例中详述。
138.识别模块201,用于响应于接收到的用户来电请求,识别所述用户来电请求中的来电用户所处的目标地区。
139.本实施例中,用户来电请求用以表征用户采用拨打电话号码的方式进行业务办理,例如,用户在进行投保过程中,可能会对保险条款存在疑问,通过拨打xxxxx发送用户来电请求,进行咨询保险条款对应的相关信息,所述目标地区用以表征来电用户的归属地区。
140.在一个可选的实施例中,所述识别模块201识别所述用户来电请求中的来电用户所处的目标地区包括:
141.解析所述用户的来电请求,获取来电用户的身份证号码;
142.从所述身份证号码中提取多个关键字段,从预设的地区数据库中匹配出与所述多个关键字段相匹配的第一归属地区;
143.将所述第一归属地区确定为所述来电用户所处的目标地区。
144.在其他可选的实施例中,所述识别模块201识别所述用户来电请求中的来电用户所处的目标地区包括:
145.解析所述用户的来电请求,获取来电用户的来电号码;
146.识别所述来电号码的运营商,通过所述运营商对应的数据接口查询服务获取所述来电号码的第二归属地区;
147.将所述第二归属地区确定为所述来电用户所处的目标地区。
148.在其他可选的实施例中,识别模块201可以同时识别所述来电请求中所述身份证号码对应的第一归属地区和所述来电号码对应的第二归属地区,当所述第一归属地区与所述第二归属地区不为同一个归属地区时,优先将所述第一归属地区确定为所述来电用户所处的目标地区。
149.本实施例中,通过识别来电用户的目标区域,在后续的声纹识别过程中考虑到来电用户的发音特征,进而提高了声纹识别的准确率。
150.生成模块202,用于基于所述目标地区的语料库生成验证口令,并发送所述验证口令至所述用户来电请求中的来电号码对应的客户端。
151.本实施例中,在接收到用户来电请求时,系统根据来电用户对应的目标地区的语料库生成验证口令,并按照预设的发送方式发送至来电请求中的来电号码对应的客户端,例如,已短信的方式发送至来电请求中的来电号码对应的客户端,来电用户接收到所述验证口令时,读取所述验证口令形成验证语音。
152.在一个可选的实施例中,所述生成模块202基于所述目标地区的语料库生成验证口令包括:
153.识别所述目标地区的第一关键发音特征;
154.根据所述第一关键发音特征从所述语料库中随机选取多个字生成验证口令。
155.本实施例中,所述第一关键发音特征用以表征所述目标区域特有的发音特征,即区别于其他地区的发音特征。
156.本实施例中,根据目标地区的第一关键发音特征生成验证口令,提高验证口令的有效性,同时来电用户读取验证口令形成验证语音,并采用所述验证语音进行声纹验证,进而提高后续声纹验证的准确率。
157.接收模块203,用于接收所述客户端上报的验证语音,从所述验证语音中提取每个字的第一验证声纹特征值。
158.本实施例中,所述验证声纹特征值包含每个字的频率值、音量、音色等,在接收到客户端上报的验证语音之后,采用声纹识别技术从所述验证语音中提取每个字的第一验证声纹特征值,其中,所述声纹识别技术为现有技术,本实施例在此不做详细阐述。
159.输入模块204,用于将多个字的第一验证声纹特征值输入至所述目标地区对应的预先训练好的声纹识别模型中,及计算所述验证语音与所述来电用户的注册声纹的相似度。
160.本实施例中,所述声纹识别模型是预先训练好的,将来电用户上报的验证语音的多个字的声纹特征值输入声纹识别模型中进行识别,得到识别结果,根据所述识别结果确定所述来电用户的验证语音是否为目标地区的语音特征。
161.具体地,所述声纹识别模型的训练过程包括:
162.采集每个地区的多个用户的语料库,其中,所述语料库中包含有验证通过的声纹特征值和验证未通过的声纹特征值;
163.获取每个地区的第二关键发音特征;
164.根据每个地区的第二关键发音特征及预设的提取规则从所述语料库中提取多个目标声纹特征值;
165.构建包含有正样本和负样本的样本数据集,其中,所述正样本为由同一个用户的验证通过的声纹特征值和所述多个目标声纹特征值组成的样本对,所述负样本为由不同用户的验证未通过的声纹特征值和所述多个目标声纹特征值组成的样本对;
166.将所述样本数据集随机分为第一数量的训练集和第二数量的测试集;
167.将所述训练集输入预设神经网络中进行训练,得到声纹识别模型;
168.将所述测试集输入至所述声纹识别模型中进行测试,得到测试通过率;
169.判断所述测试通过率是否大于预设通过率阈值;
170.当所述测试通过率大于或者等于所述预设通过率阈值时,结束声纹识别模型的训练;
171.当所述测试通过率小于所述预设通过率阈值时,增加所述训练集的数量并基于增加后的训练集重新训练声纹识别模型直至所述测试通过率大于或者等于所述预设通过率阈值。
172.本实施例中,每个地区的语料库中包含有对应地区用户的第二关键发音特征,验证通过的声纹特征值、验证不通过的声纹特征值,并针对第二关键发音特征的音节、词语、句式表达采用关键标签进行标注。
173.本实施例中,所述第二关键发音特征用以表征每个地区发音区别与其他地区的发音特征,例如,广东人针对平翘部分的发音为:「z=zh」「c=ch」「s=sh」,则进行广东地区的目标声纹特征值的提取过程中,提取较多的翘舌与不翘舌的语料库进行后续模型的训练,进而提高声纹识别模型识别的准确率。
174.本实施例中,在后续服务过程中,将同一地区用户的验证通过的声纹特征值、验证不通过的声纹特征值及对应地区的多个目标声纹特征值作为新的样本,增加至所述样本数据集中,提高了声纹识别模型训练输入样本的多样性及确保了声纹识别模型训练输入的样本量,并基于新的样本数据集来重新训练声纹识别模型。即不断的更新声纹识别模型,从而不断的提高声纹识别模型的识别率。
175.本实施例中,在进行声纹识别模型的训练过程中,考虑到了每个地区的第二关键发音特征,并将验证通过的声纹特征值、验证不通过的声纹特征值都作为样本集去不断优化声纹识别模型,提高了声纹识别模型的准确率,进而提高了来电用户身份验证的准确率。
176.在一个可选的实施例中,所述输入模块204计算所述验证声纹与所述来电用户的注册声纹的相似度包括:
177.提取所述验证语音的第一声纹特征,及提取所述注册声纹的第二声纹特征;
178.采用预设相似度算法计算所述第一声纹特征和所述第二声纹特征之间的相似度。
179.本实施例中,预设相似度算法可以为余弦相似度算法、切比雪夫相似度算法、欧式距离相似度算法等,本技术实施例在此不做限定。
180.验证模块205,用于根据所述声纹识别模型输出的识别结果和计算得到的相似度,验证所述来电用户的身份。
181.本实施例中,当所述来电用户的验证语音属于目标地区的发音,及所述来电用户的验证语音与注册声纹相似时,确定所述来电用户的身份验证通过。
182.在一个可选的实施例中,所述验证模块205根据所述声纹识别模型输出的识别结果和计算得到的相似度,验证所述来电用户的身份包括:
183.将所述识别结果中的第一文本与所述验证口令对应的第二文本进行匹配,及将计算得到的相似度与预设的第一相似度阈值进行比对;
184.当所述识别结果中的第一文本与所述验证口令对应的第二文本相匹配,及计算得到的相似度大于或者等于预设的第一相似度阈值时,确定所述来电用户的身份验证通过。
185.确定模块206,用于当所述识别结果中的第一文本与所述验证口令对应的第二文本不匹配,或计算得到的相似度小于所述预设的第一相似度阈值时,确定所述来电用户的身份验证不通过。
186.在其他可选的实施例中,为了进一步的确保用户的身份验证的准确率,及提高用户的满意度,当确定所述来电用户的身份验证不通过时,识别所述来电请求中所述身份证号码对应的第一归属地区和所述来电号码对应的第二归属地区是否为同一个归属地区;当所述来电请求中所述身份证号码对应的第一归属地区和所述来电号码对应的第二归属地区不为同一个归属地区时,根据所述第一归属地区的语料库和所述第二归属地区的语料库生成方言组合验证口令;发送所述方言组合验证口令至所述用户来电请求中的来电号码对应的客户端;接收所述客户端上报的新的验证语音,从所述新的验证语音中提取每个字的第二验证声纹特征值;将多个字的第二验证声纹特征值分别输入至所述第一归属地区对应的预先训练好的声纹识别模型和第二归属地区对应的预先训练好的声纹识别模型中,及计算所述新的验证语音与所述来电用户的注册声纹的第一相似度;接收所述第一归属地区对应的预先训练好的声纹识别模型输出的第一识别结果,及接收所述第二归属地区对应的预先训练好的声纹识别模型输出的第二识别结果;计算所述第一识别结果中的第三文本与所述方言组合验证口令对应的第四文本之间的第二相似度,及计算所述第二识别结果中的第五文本与所述方言组合验证口令对应的第四文本之间的第三相似度;计算所述第二相似度与预设的第一权重值的乘积,得到第一归属地区对应的第四相似度;计算所述第三相似度与预设的第二权重值的乘积,得到第二归属地区对应的第五相似度;计算所述第四相似度和所述第五相似度的总和,得到最终目标地区的相似度;将所述第一相似度与预设的第二相似度阈值进行比对,及将所述最终目标地区的相似度与预设的第三相似度阈值进行比对;当所述第一相似度大于或者等于所述预设的第二相似度阈值,及所述第四相似度大于或者等于所述预设的第三相似度阈值时,确定所述来电用户的身份二次验证通过。
187.进一步地,所述确定模块206,还用于当所述第一相似度小于所述预设的第二相似度阈值,或所述最终目标地区的相似度小于所述预设的第三相似度阈值时,确定所述来电用户的身份二次验证不通过。
188.进一步地,终止模块207,用于当所述来电请求中所述身份证号码对应的第一归属地区和所述来电号码对应的第二归属地区为同一个归属地区时,终止所述身份验证。
189.本实施例中,可以预先设置第一相似度阈值、第二相似度阈值和第三相似度阈值,具体地,所述预设的第一相似度阈值、第二相似度阈值和第三相似度阈值是基于机器学习得到的。
190.本实施例中,由于来电用户的身份证号码对应的归属地区为出生地区,手机号码的归属地区为生长地区,故当来电用户的身份第一次验证不通过时,可以通过识别所述来电请求中所述身份证号码对应的第一归属地区和所述来电号码对应的第二归属地区是否为同一个归属地区,确定是否需要进行身份第二次验证,在进行身份第二次验证时,可以预先为身份证号码对应的第一归属地区设置第一权重值,和为手机号码对应的第二归属地区设置第二权重值,确保计算得到的最终目标地区的相似度的正确性,进一步提高了用户身份验证的准确率,及来电用户的满意度。
191.综上所述,本实施例所述的一种基于声纹识别的身份验证装置,一方面,基于所述目标地区的语料库生成验证口令,并发送所述验证口令至所述用户来电请求中的来电号码对应的客户端,根据目标地区的第一关键发音特征生成验证口令,提高验证口令的有效性,同时来电用户读取验证口令形成验证语音,并采用所述验证语音进行声纹验证,进而提高后续声纹验证的准确率;另一方面,将多个字的第一验证声纹特征值输入至所述目标地区对应的预先训练好的声纹识别模型中,通过在进行声纹识别模型的训练过程中,考虑到了每个地区的第二关键发音特征,并将验证通过的声纹特征值、验证不通过的声纹特征值都作为样本集去不断优化声纹识别模型,提高了声纹识别模型的准确率,进而提高了来电用户身份验证的准确率;最后,识别所述用户来电请求中的来电用户所处的目标地区,通过识别来电用户的目标区域,在后续的声纹识别过程中考虑到来电用户的发音特征,进而提高了声纹识别的准确率。
192.实施例三
193.参阅图3所示,为本技术实施例三提供的电子设备的结构示意图。在本技术较佳实施例中,所述电子设备3包括存储器31、至少一个处理器32、至少一条通信总线33及收发器34。
194.本领域技术人员应该了解,图3示出的电子设备的结构并不构成本技术实施例的限定,既可以是总线型结构,也可以是星形结构,所述电子设备3还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置。
195.在一些实施例中,所述电子设备3是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的电子设备,其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述电子设备3还可包括客户设备,所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、数码相机等。
196.需要说明的是,所述电子设备3仅为举例,其他现有的或今后可能出现的电子产品如可适应于本技术,也应包含在本技术的保护范围以内,并以引用方式包含于此。
197.在一些实施例中,所述存储器31用于存储程序代码和各种数据,例如安装在所述电子设备3中的基于声纹识别的身份验证装置20,并在电子设备3的运行过程中实现高速、
自动地完成程序或数据的存取。所述存储器31包括只读存储器(read
‑
only memory,rom)、可编程只读存储器(programmable read
‑
only memory,prom)、可擦除可编程只读存储器(erasable programmable read
‑
only memory,eprom)、一次可编程只读存储器(one
‑
time programmable read
‑
only memory,otprom)、电子擦除式可复写只读存储器(electrically
‑
erasable programmable read
‑
only memory,eeprom)、只读光盘(compact disc read
‑
only memory,cd
‑
rom)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
198.在一些实施例中,所述至少一个处理器32可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(central processing unit,cpu)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述至少一个处理器32是所述电子设备3的控制核心(control unit),利用各种接口和线路连接整个电子设备3的各个部件,通过运行或执行存储在所述存储器31内的程序或者模块,以及调用存储在所述存储器31内的数据,以执行电子设备3的各种功能和处理数据。
199.在一些实施例中,所述至少一条通信总线33被设置为实现所述存储器31以及所述至少一个处理器32等之间的连接通信。
200.尽管未示出,所述电子设备3还可以包括给各个部件供电的电源(比如电池),可选的,电源可以通过电源管理装置与所述至少一个处理器32逻辑相连,从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备3还可以包括多种传感器、蓝牙模块、wi
‑
fi模块等,在此不再赘述。
201.应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
202.上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,电子设备,或者网络设备等)或处理器(processor)执行本技术各个实施例所述方法的部分。
203.在进一步的实施例中,结合图2,所述至少一个处理器32可执行所述电子设备3的操作装置以及安装的各类应用程序(如所述的基于声纹识别的身份验证装置20)、程序代码等,例如,上述的各个模块。
204.所述存储器31中存储有程序代码,且所述至少一个处理器32可调用所述存储器31中存储的程序代码以执行相关的功能。例如,图2中所述的各个模块是存储在所述存储器31中的程序代码,并由所述至少一个处理器32所执行,从而实现所述各个模块的功能以达到基于声纹识别的身份验证的目的。
205.示例性的,所述程序代码可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器31中,并由所述处理器32执行,以完成本技术。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段,该指令段用于描述所述程序代码在所述电子设备3中的执行过程。例如,所述程序代码可以被分割成识别模块201、生成模块202、接收模块203、输入模块204、验证模块205、确定模块206及终止模块207。
206.在本技术的一个实施例中,所述存储器31存储多个计算机可读指令,所述多个计
算机可读指令被所述至少一个处理器32所执行以实现基于声纹识别的身份验证的功能。
207.具体地,所述至少一个处理器32对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
208.在本技术所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
209.所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,既可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
210.另外,在本技术各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
211.对于本领域技术人员而言,显然本技术不限于上述示范性实施例的细节,而且在不背离本技术的精神或基本特征的情况下,能够以其他的具体形式实现本技术。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本技术的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本技术内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或,单数不排除复数。本技术中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
212.最后应说明的是,以上实施例仅用以说明本技术的技术方案而非限制,尽管参照较佳实施例对本技术进行了详细说明,本领域的普通技术人员应当理解,可以对本技术的技术方案进行修改或等同替换,而不脱离本技术技术方案的精神和范围。