1.本公开涉及声纹识别技术领域,特别涉及一种声纹识别方法、装置、电子设备及存储介质。
背景技术:2.随着声纹识别技术的不断发展,声纹识别技术广泛应用于用户身份确认的场景中。目前,在对用户进行身份确认时,通常是获取用户的音频数据,基于该音频数据的声纹信息,在声纹信息库中检索,确定与该音频数据的声纹信息匹配的声纹信息,再将匹配的声纹信息所关联的身份信息确定为当前用户的身份信息,如此,根据用户的声纹信息实现了对用户的身份确认,其中,声纹信息库用于存储多个音频数据以及该多个音频数据相关联的声纹信息和用户信息。
3.相关技术中,声纹信息库所存储的多个音频数据,可能是通过不同音频采集设备如移动终端内置麦克风、台式计算机外联麦克风或专用采集设备采集得到的,在进行声纹检索时,由于音频采集设备的类型不同,导致声纹识别的准确率较低。
技术实现要素:4.本公开实施例提供了一种声纹识别方法、装置、电子设备及存储介质,减小了因音频采集设备的类型不同而造成的识别误差,提高了声纹识别的准确率。该技术方案如下步骤。
5.一方面,提供了一种声纹识别方法,该方法包括:
6.获取第一音频数据的第一声纹信息;
7.确定该第一声纹信息与多个第二音频数据的第二声纹信息分别对应的第一相似度,该多个第二音频数据由不同类型的音频采集设备采集得到;
8.基于该第一声纹信息的设备类型、多个该第二声纹信息的设备类型以及多个该第一相似度,确定该第一声纹信息与多个该第二声纹信息分别对应的第二相似度;
9.基于多个该第二相似度,确定与该第一声纹信息匹配的目标声纹信息。
10.在一些实施例中,基于该第一声纹信息的设备类型、多个该第二声纹信息的设备类型以及多个该第一相似度,确定该第一声纹信息与多个该第二声纹信息分别对应的第二相似度包括:
11.将该第一声纹信息、该第一声纹信息的设备类型、多个该第二声纹信息、多个该第二声纹信息的设备类型以及多个该第一相似度输入声纹模型,通过该声纹模型,确定该第一声纹信息与多个该第二声纹信息分别对应的第二相似度。
12.在一些实施例中,基于多个该第二相似度,确定与该第一声纹信息匹配的目标声纹信息包括:
13.按照第二相似度由高到低的排列次序进行排序,选取排列次序位于前目标位数的第二相似度对应的第二声纹信息,确定为该目标声纹信息。
14.在一些实施例中,获取第一音频数据的第一声纹信息之后,该方法还包括:
15.基于该第一音频数据的第一声纹信息,分别在多个声纹信息库中进行检索,得到该多个第二音频数据的第二声纹信息,该多个声纹信息库分别用于存储由对应多个音频采集设备所采集的多个音频数据的声纹信息;
16.基于该多个第二音频数据的第二声纹信息,执行该确定该第一声纹信息与多个第二音频数据的第二声纹信息分别对应的第一相似度的步骤。
17.在一些实施例中,分别在多个声纹信息库中进行检索之前,该方法还包括:
18.确定该第一声纹信息的设备类型,在该设备类型对应的声纹信息库中进行检索,若该设备类型对应的声纹信息库中不存在与该第一声纹信息匹配的声纹信息,则分别在多个其他声纹信息库中进行检索。
19.在一些实施例中,基于多个该第二相似度,确定与该第一声纹信息匹配的目标声纹信息之后,该方法还包括:
20.获取与该目标声纹信息关联的用户信息,将该用户信息确定为与该第一音频数据匹配的用户信息。
21.一方面,提供了一种声纹识别装置,该装置包括:
22.获取模块,用于获取第一音频数据的第一声纹信息;
23.第一相似度确定模块,用于确定该第一声纹信息与多个第二音频数据的第二声纹信息分别对应的第一相似度,该多个第二音频数据由不同类型的音频采集设备采集得到;
24.第二相似度确定模块,用于基于该第一声纹信息的设备类型、多个该第二声纹信息的设备类型以及多个该第一相似度,确定该第一声纹信息与多个该第二声纹信息分别对应的第二相似度;
25.声纹信息确定模块,用于基于多个该第二相似度,确定与该第一声纹信息匹配的目标声纹信息。
26.在一些实施例中,该第二相似度确定模块,用于:
27.将该第一声纹信息、该第一声纹信息的设备类型、多个该第二声纹信息、多个该第二声纹信息的设备类型以及多个该第一相似度输入声纹模型,通过该声纹模型,确定该第一声纹信息与多个该第二声纹信息分别对应的第二相似度。
28.在一些实施例中,该声纹信息确定模块,用于:
29.按照第二相似度由高到低的排列次序进行排序,选取排列次序位于前目标位数的第二相似度对应的第二声纹信息,确定为该目标声纹信息。
30.在一些实施例中,该装置还包括:
31.检索模块,用于基于该第一音频数据的第一声纹信息,分别在多个声纹信息库中进行检索,得到该多个第二音频数据的第二声纹信息,该多个声纹信息库分别用于存储由对应多个音频采集设备所采集的多个音频数据的声纹信息;
32.基于该多个第二音频数据的第二声纹信息,执行该确定该第一声纹信息与多个第二音频数据的第二声纹信息分别对应的第一相似度的步骤。
33.在一些实施例中,该检索模块,还用于:
34.确定该第一声纹信息的设备类型,在该设备类型对应的声纹信息库中进行检索,若该设备类型对应的声纹信息库中不存在与该第一声纹信息匹配的声纹信息,则分别在多
个其他声纹信息库中进行检索。
35.在一些实施例中,该装置还包括:
36.用户信息确定模块,用于获取与该目标声纹信息关联的用户信息,将该用户信息确定为与该第一音频数据匹配的用户信息。
37.一方面,提供了一种电子设备,该电子设备包括一个或多个处理器和一个或多个存储器,该一个或多个存储器中存储有至少一条程序代码,该程序代码由该一个或多个处理器加载并执行以实现上述声纹识别方法所执行的操作。
38.一方面,提供了一种计算机可读存储介质,该计算机可读存储介质中存储有至少一条程序代码,该程序代码由处理器加载并执行以实现上述声纹识别方法所执行的操作。
39.本公开实施例提供的技术方案,基于待识别音频数据的声纹信息与多个音频数据的声纹信息分别对应的第一相似度以及各个声纹信息对应的设备类型,来确定待识别音频数据的声纹信息与多个音频数据的声纹信息分别对应的第二相似度,进而确定与待识别音频数据的声纹信息匹配的目标声纹信息,如此,在确定目标声纹信息时,考虑到了各个声纹信息对应的设备类型,减小了因音频采集设备的类型不同而造成的识别误差,提高了声纹识别的准确率。
附图说明
40.为了更清楚地说明本公开实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
41.图1是本公开实施例提供的一种声纹识别方法的实施环境示意图;
42.图2是本公开实施例提供的一种声纹识别方法的流程图;
43.图3是本公开实施例提供的一种声纹识别方法的流程图;
44.图4是本公开实施例提供的一种声纹识别装置的流程图;
45.图5是本公开实施例提供的一种服务器的结构示意图。
具体实施方式
46.为使本公开的目的、技术方案和优点更加清楚,下面将结合附图对本公开实施方式作进一步地详细描述。
47.首先,针对本公开实施例中涉及的应用场景进行描述:
48.本公开实施例涉及的声纹识别方法可应用于用户的身份确认场景。例如,该声纹识别方法可以应用于特殊案件中身份确认的业务场景中,根据案件相关人员的音频数据与声纹信息库中的音频数据进行声纹比对,能够确定出该案件相关人员的身份信息。或者,该声纹识别方法还可以应用于身份验证场景中,根据待验证用户的音频数据与声纹信息库中的音频数据进行声纹比对,能够确定出该声纹信息库中是否存在与待验证用户的音频数据匹配的声纹信息,以确定该待验证用户是否为合法用户。当然,该声纹识别方法还可以应用于其他身份确认的场景,本公开实施例对此不加以限定。
49.相关技术中,在一些实施例中,声纹信息库所存储的多个音频数据,是通过不同音
频采集设备如移动终端内置麦克风、台式计算机外联麦克风或专用采集设备采集得到的,进而,在基于待识别音频数据和声纹信息库中的参考音频数据进行声纹比对时,可能会产生不同类型的音频采集设备所采集的音频数据之间的声纹比对的问题,由于音频采集设备的类型不同,会造成声纹识别的误差,降低了声纹识别的准确率。在另一些实施例中,声纹信息库所存储的多个音频数据,是通过同一音频采集设备如专用采集设备采集得到的,进而,在基于待识别音频数据和声纹信息库中的参考音频数据进行声纹比对时,由于仅在同设备类型的声纹信息库中进行声纹检索,减少了声纹检索的检索范围,降低了声纹匹配的成功率。
50.图1是本公开实施例提供的一种声纹识别方法的实施环境示意图,参见图1,该实施环境包括:第一电子设备101和第二电子设备102。
51.第一电子设备101为终端设备,具体是用户(如特定人员)所操作的终端设备(为便于描述后续采用终端来指代第一电子设备101)。在一些实施例中,终端为智能手机、智能手表、台式电脑、手提电脑、虚拟现实终端、增强现实终端、无线终端和膝上型便携计算机等设备中的至少一种。终端具有通信功能,可以接入有线网络或无线网络。终端可以泛指多个终端中的一个,本实施例仅以终端来举例说明。本领域技术人员可以知晓,上述终端的数量可以更多或更少。
52.在一些实施例中,终端关联有声纹识别平台,该声纹识别平台提供有声纹识别的功能。本公开实施例中,终端用于响应于对第一音频数据的识别操作,向服务器发送对该第一音频数据的识别请求。
53.第二电子设备102为服务器(为便于描述后续采用服务器来指代第二电子设备102),具体是指声纹识别平台的后台服务器。在一些实施例中,服务器是独立的物理服务器,或者是多个物理服务器构成的服务器集群或者分布式文件系统,或者是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。服务器与终端可以通过有线或无线通信方式进行直接或间接的连接,本公开实施例对此不作限定。可选地,上述服务器的数量可以更多或更少,本公开实施例对此不加以限定。当然,服务器还可以包括其他功能服务器,以便提供更全面且多样化的服务。
54.本公开实施例中,服务器用于获取第一音频数据的第一声纹信息,确定该第一声纹信息与多个第二音频数据的第二声纹信息分别对应的第一相似度,基于该第一声纹信息的设备类型、多个该第二声纹信息的设备类型以及多个该第一相似度,确定该第一声纹信息与多个该第二声纹信息分别对应的第二相似度,基于多个该第二相似度,确定与该第一声纹信息匹配的目标声纹信息。
55.图2是本公开实施例提供的一种声纹识别方法的流程图,参见图2,该方法由服务器执行,包括以下步骤。
56.201、服务器获取第一音频数据的第一声纹信息。
57.202、服务器确定该第一声纹信息与多个第二音频数据的第二声纹信息分别对应的第一相似度,该多个第二音频数据由不同类型的音频采集设备采集得到。
58.203、服务器基于该第一声纹信息的设备类型、多个该第二声纹信息的设备类型以及多个该第一相似度,确定该第一声纹信息与多个该第二声纹信息分别对应的第二相似
度。
59.204、服务器基于多个该第二相似度,确定与该第一声纹信息匹配的目标声纹信息。
60.本公开实施例提供的技术方案,基于待识别音频数据的声纹信息与多个音频数据的声纹信息分别对应的第一相似度以及各个声纹信息对应的设备类型,来确定待识别音频数据的声纹信息与多个音频数据的声纹信息分别对应的第二相似度,进而确定与待识别音频数据的声纹信息匹配的目标声纹信息,如此,在确定目标声纹信息时,考虑到了各个声纹信息对应的设备类型,减小了因音频采集设备的类型不同而造成的识别误差,提高了声纹识别的准确率。
61.图3是本公开实施例提供的一种声纹识别方法的流程图,参见图3,图3以终端和服务器为执行主体,对方案进行说明,该方法包括以下步骤。
62.301、终端响应于对第一音频数据的识别操作,向服务器发送对该第一音频数据的识别请求。
63.其中,第一音频数据为待进行声纹识别的音频数据。以特殊案件的身份确认场景为例,第一音频数据可以是案件相关人员的音频数据,以身份验证场景为例,第一音频数据可以是待验证的用户的音频数据。在一些实施例中,第一音频数据由移动终端内置麦克风采集得到,或者由台式计算机外联麦克风采集得到,或者由专用采集设备采集得到。当然,第一音频数据还可以由其他音频采集设备采集得到。本公开实施例对此不加以限定。
64.本公开实施例中,第一音频数据的识别请求用于请求对该第一音频数据进行声纹识别,以获取与该第一音频数据关联的用户信息。本公开实施例中所涉及到的用户信息为经用户授权或经过各方充分授权的信息。如此,根据用户的声纹信息实现了对用户的身份确认。
65.在一些实施例中,终端展示有声纹识别页面,该声纹识别页面提供有上传音频数据的功能控件,用户通过在该声纹识别页面中进行操作,能够将该第一音频数据上传至终端,相应过程为:终端响应于对该声纹识别页面中上传音频数据的功能控件的触发操作,展示多个候选音频数据,响应于对任一个候选音频数据的选择操作,将被选中的候选音频数据上传至终端,则终端获取该被选中的候选音频数据,也即是获取到了该第一音频数据。
66.进一步地,该声纹识别页面提供有声纹识别的功能控件,对第一音频数据的识别操作可以是对该功能控件的触发操作,用户通过触发该声纹识别页面中的功能控件,能够触发终端向服务器发送该第一音频数据的识别请求,相应过程为:终端响应于对该声纹识别页面中声纹识别的功能控件的触发操作,向服务器发送该第一音频数据的识别请求。
67.在一个具体示例中,第一音频数据由当前终端的内置麦克风采集得到。例如,第一音频数据可以是终端所存储的本地通话记录中的通话音频,相应地,终端响应于对该上传音频数据的功能控件的触发操作,展示终端所存储的本地通话记录中的通话音频,响应于对任一个通话音频的选择操作,将被选中的通话音频上传至终端,则终端获取该被选中的通话音频,也即是获取到了第一音频数据,进而基于该第一音频数据,向服务器发送该第一音频数据的识别请求。
68.302、服务器响应于接收到对第一音频数据的识别请求,获取该第一音频数据的第一声纹信息。
69.其中,声纹是用电声学仪器显示的携带言语信息的声波频谱,声纹信息是通过滤波器、模型等方法提取出的能够表征说话人的信息。应理解地,由于人在讲话时使用的发声器官(舌、牙齿、喉头、肺、鼻腔)在尺寸和形态方面每个人的差异很大,所以任何两个人的声纹都有差异。在一些实施例中,第一声纹信息为用于表征第一音频数据的声纹的特征向量。
70.在一些实施例中,服务器响应于接收到对第一音频数据的识别请求,获取该第一音频数据的识别请求携带的该第一音频数据,提取该第一音频数据的第一声纹信息。在一种可选的实施例中,服务器采用神经网络模型,来提取该第一音频数据的第一声纹信息,相应过程为:服务器提取该第一音频数据的语音声学特征,将该语音声学特征输入神经网络模型,通过该神经网络模型对该语音声学特征进行处理,输出该语音声学特征的声纹特征,将该声纹特征作为该第一音频数据的声纹信息。
71.其中,该神经网络模型从底层向上层依次包括输入层、卷积层、池化层、全连接层和输出层。输入层用于将服务器所获取的语音声学特征输入神经网络模型,并将所输入的语音声学特征转化为数字矩阵,使输入特征标准化,以便该神经网络模型进行后续运算过程;卷积层用于对输入层生成的数字矩阵进行卷积运算,基于该卷积运算的结果对语音声学特征进行特征提取,该神经网络模型可以包括一个或多个卷积层;池化层用于将卷积层获得的特征提取值进行量化,来获得维度较小的矩阵,以便对声纹特征进一步提取,该神经网络模型可以包括一个或多个池化层;全连接层用于将提取到的声纹特征通过权值矩阵,整合为完整的声纹特征;输出层用于将全连接层整合得到的声纹特征输出。声纹特征是指神经网络模型的全连接层所输出的特征。相应地,服务器基于神经网络模型确定声纹信息的具体过程可以包括:服务器将提取得到的第一音频数据的语音声学特征输入神经网络模型,依次通过该神经网络模型的输入层、卷积层及全连接层,通过神经网络模型的卷积层对该语音声学特征进行卷积处理,得到卷积层输出的语音声学特征,通过全连接层对输入的语音声学特征进行非线性组合,输出该语音声学特征的声纹特征,将该声纹特征作为该第一音频数据的声纹信息。
72.其中,语音声学特征可以为语音的梅尔频谱倒谱系数(mel frequency cepstrum coefficient,mfcc),或感知线性预测系数(perceptual linear predictive,plp),或滤波器组特征(filter bank feature)等,当然,该语音声学特征也可以为原始语音即该第一音频数据。
73.上述实施例是基于神经网络模型提取第一声纹信息的过程,在另一些实施例中,服务器还能够采用其他声纹提取方式,来提取该第一声纹信息。本公开实施例对获取声纹信息的过程不加以限定。
74.303、服务器确定该第一声纹信息的设备类型,基于该第一音频数据的第一声纹信息,在该设备类型对应的声纹信息库中进行检索,若该设备类型对应的声纹信息库中不存在与该第一声纹信息匹配的声纹信息,则执行步骤304。
75.本公开实施例中,服务器关联有多个声纹信息库,该多个声纹信息库分别用于存储由对应多个音频采集设备所采集的多个音频数据的声纹信息,也即是一个声纹信息库对应一个音频采集设备。例如,该多个声纹信息库可以包括移动终端内置麦克风对应的声纹信息库(用于存储由移动终端内置麦克风所采集的多个音频数据的声纹信息)、台式计算机外联麦克风对应的声纹信息库(用于存储由台式计算机外联麦克风所采集的多个音频数据
的声纹信息)、专用采集设备对应的声纹信息库(用于存储由专用采集设备所采集的多个音频数据的声纹信息)。其中,音频数据的声纹信息为用于表征音频数据的声纹的特征向量。
76.在一些实施例中,服务器确定该第一声纹信息的设备类型的过程为:服务器基于该第一音频数据的音频标识和目标对应关系,确定该音频标识对应的设备类型,将该音频标识对应的设备类型确定为该该第一音频数据的设备类型,也即是该第一声纹信息的设备类型。其中,目标对应关系包括多个音频数据的音频标识以及该多个音频标识对应的设备类型。音频标识可以是音频数据的名称、编号、id(identification,身份标识符)等。可选地,该目标对应关系存储在声纹信息库中。可选地,设备类型采用设备的one
‑
hot序列来表示,该one
‑
hot序列为用于标识设备类型的一段编码。
77.在一些实施例中,服务器确定该第一声纹信息的设备类型后,利用faiss向量检索引擎,基于该第一音频数据的第一声纹信息,在该设备类型对应的声纹信息库中进行检索,若该设备类型对应的声纹信息库中不存在与该第一声纹信息匹配的声纹信息,则执行步骤304。
78.其中,faiss向量检索引擎是一个开源的相似向量检索库,其检索原理是通过计算待识别声纹和参考声纹之间的相似度,选取达到相似度阈值的声纹作为可匹配的声纹。相似度阈值为预先设定的相似度分值,通过对计算得到的相似度和预先设定的相似度分值进行比对,来确定对应的参考声纹能否作为可匹配的声纹。例如,若计算得到的待识别声纹与参考声纹之间的相似度为80,预先设定的相似度分值为75,则确定参考声纹能够作为可匹配的声纹。
79.如此,面对高维空间中的海量数据时,提供了高效且可靠的检索方法,能够快速检索得到可匹配的部分声纹信息,减少了后续声纹识别所参考的数据量,提高了服务器的运算效率。为便于描述,后续采用检索相似度来代表声纹检索时所计算得到的相似度。
80.在一种可选的实施例中,服务器利用faiss向量检索引擎进行声纹检索的过程为:服务器基于该第一声纹信息和该设备类型对应的声纹信息库所包括的多个声纹信息,确定该第一声纹信息和该多个声纹信息分别对应的检索相似度,若存在检索相似度达到相似度阈值的声纹信息,则表示该设备类型对应的声纹信息库中存在与该第一声纹信息可匹配的声纹信息,若不存在检索相似度达到相似度阈值的声纹信息,则表示该设备类型对应的声纹信息库中不存在与该第一声纹信息匹配的声纹信息。在一些实施例中,检索相似度采用特征距离来表示,例如欧氏距离。应理解地,距离越大,检索相似度越小,距离越小,检索相似度越大。
81.需要说明的是,步骤303为可选步骤。在一些实施例中,服务器获取该第一音频数据的第一声纹信息后,无需执行步骤303中优先在同设备类型的声纹信息库中检索的过程,基于该第一音频数据的第一声纹信息,在多个声纹信息库中进行检索即可。
82.304、服务器基于该第一音频数据的第一声纹信息,分别在多个其他声纹信息库中进行检索,得到多个第二音频数据的第二声纹信息,该多个第二音频数据由不同类型的音频采集设备采集得到。
83.本公开实施例中,多个第二音频数据的第二声纹信息与第一声纹信息之间满足相似度条件。其中,相似度条件用于筛选出可匹配的多个第二音频数据的第二声纹信息。在一些实施例中,相似度条件为检索相似度达到预先设定的相似度分值。在一些实施例中,第二
声纹信息为用于表征第二音频数据的声纹的特征向量。
84.需要说明的是,服务器分别在多个声纹信息库中进行检索的过程参见步骤303中的声纹检索过程,不再赘述。在一些实施例中,步骤303中提到的相似度分值和步骤304中提到的相似度分值相同,或者,在另一些实施例中,步骤303中提到的相似度分值和步骤304中提到的相似度分值不同。
85.上述步骤303至步骤304是服务器自动优先检索同设备类型的声纹信息库,在未检索到与该第一声纹信息匹配的声纹信息的情况下,再在该多个声纹信息库中进行扩展检索的过程。其中,该多个声纹信息库可以包括同设备类型的声纹信息库,也可以不包括同设备类型的声纹信息库。在另一些实施例中,上述过程还能够由用户来触发,也即是用户在触发声纹识别功能时,可指定一个或多个声纹信息库进行声纹检索。例如,用户可以优先指定同设备类型的声纹信息库进行声纹检索,相应过程为:终端响应于对该声纹识别页面中多个候选声纹信息库中目标声纹信息库的触发操作,向服务器发送指示在该目标声纹信息库对该第一音频数据进行声纹检索的请求;进一步地,若同设备类型的声纹信息库的检索结果无法满足用户需求,则用户可选择多个声纹信息库进行扩展检索,以扩大数据范围。
86.305、服务器确定该第一声纹信息与多个第二音频数据的第二声纹信息分别对应的第一相似度。
87.本公开实施例中,第一相似度是指基于声纹相似度算法计算得到的相似度。在一些实施例中,服务器基于声纹相似度算法,确定该第一声纹信息与多个第二音频数据的第二声纹信息分别对应的第一相似度。如此,通过计算声纹信息之间的第一相似度,能够更加精准地确定出声纹信息之间的相似度,进一步提升了声纹识别的准确性。
88.在一些实施例中,对于任一个第二声纹信息,服务器基于该第一声纹信息和该第二声纹信息所包括的特征维度、每个特征维度的特征值以及每个特征维度所占的权重,来计算该第一声纹信息和该第二声纹信息分别对应的第一相似度。在另一些实施例中,服务器确定第一相似度的过程,还能够采用其他声纹相似度算法来实现。例如,采用距离算法、相关系数算法或模型算法中任一种。
89.306、服务器基于该第一声纹信息的设备类型、多个该第二声纹信息的设备类型以及多个该第一相似度,确定该第一声纹信息与多个该第二声纹信息分别对应的第二相似度。
90.本公开实施例中,第二相似度是指基于声纹模型计算得到的相似度。在一些实施例中,服务器确定该第一声纹信息与多个该第二声纹信息分别对应的第二相似度包括:服务器将该第一声纹信息、该第一声纹信息的设备类型、多个该第二声纹信息、多个该第二声纹信息的设备类型以及多个该第一相似度输入声纹模型,通过该声纹模型,确定该第一声纹信息与多个该第二声纹信息分别对应的第二相似度。
91.在一些实施例中,声纹模型为xgboost(extreme gradient boosting,分布式梯度提升)模型。声纹模型用于对声纹信息之间的第二相似度进行预测。
92.本技术实施例所采用的声纹模型为已训练完成的模型。在一些实施例中,服务器获取多组样本声纹数据以及该多组样本声纹数据的相似度标签,基于该多组样本声纹数据以及该多组样本声纹数据的相似度标签,进行模型训练,得到声纹模型。其中,每组样本声纹数据包括待识别声纹信息、待识别声纹信息的设备类型、多个参考声纹信息、该多个参考
声纹信息的设备类型、待识别声纹信息分别以及该多个参考声纹信息分别对应的第一相似度。具体地,声纹模型的训练过程包括:在第一次迭代过程中,分别将该多组样本声纹数据输入初始模型,得到第一次迭代过程的相似度训练结果;基于第一次迭代过程的相似度训练结果与多组样本声纹数据的相似度标签,确定损失函数,基于损失函数,对初始模型中的模型参数进行调整;将第一次迭代调整后的模型参数作为第二次迭代的模型参数,再进行第二次迭代;重复多次上述迭代过程,在第n次过程中,以第n
‑
1次迭代调整后的模型参数作为新的模型参数,进行模型训练,直到训练满足目标条件,则将满足目标条件的迭代过程所对应的模型获取为声纹模型。其中,n为正整数,且n大于1。可选地,训练满足的目标条件可以为初始模型的训练迭代次数达到目标次数,该目标次数可以是预先设定的训练迭代次数;或者,训练满足的目标条件可以为损失值满足目标阈值条件,如损失值小于0.00001。本公开实施例对此不作限定。
93.在上述实施例中,按照音频采集设备的类型对声纹信息库进行分库管理,在保证声纹信息库的覆盖范围的情况下,通过声纹模型来进行相似度的运算,减小了因音频采集设备的类型不同而造成的声纹识别的误差,提高了声纹识别的准确性。
94.307、服务器基于多个第二相似度,确定与该第一声纹信息匹配的目标声纹信息。
95.在一些实施例中,服务器确定与该第一声纹信息匹配的目标声纹信息包括:服务器按照第二相似度由高到低的排列次序进行排序,选取排列次序位于前目标位数的第二相似度对应的第二声纹信息,确定为该目标声纹信息。其中,目标数目为预先设定的固定数目,如1或10。
96.308、服务器获取与该目标声纹信息关联的用户信息,将该用户信息确定为与该第一音频数据匹配的用户信息。
97.在一些实施例中,声纹信息库还存储有多个音频数据所关联的用户信息。
98.309、服务器将与该目标声纹信息关联的用户信息返回至终端。
99.310、终端接收该与该目标声纹信息关联的用户信息,展示与该目标声纹信息关联的用户信息。
100.本公开实施例提供的技术方案,基于待识别音频数据的声纹信息与多个音频数据的声纹信息分别对应的第一相似度以及各个声纹信息对应的设备类型,来确定待识别音频数据的声纹信息与多个音频数据的声纹信息分别对应的第二相似度,进而确定与待识别音频数据的声纹信息匹配的目标声纹信息,如此,在确定目标声纹信息时,考虑到了各个声纹信息对应的设备类型,减小了因音频采集设备的类型不同而造成的识别误差,提高了声纹识别的准确率。
101.上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
102.图4是本公开实施例提供的一种声纹识别装置的结构示意图,参见图4,该装置包括:
103.获取模块401,用于获取第一音频数据的第一声纹信息;
104.第一相似度确定模块402,用于确定该第一声纹信息与多个第二音频数据的第二声纹信息分别对应的第一相似度,该多个第二音频数据由不同类型的音频采集设备采集得到;
105.第二相似度确定模块403,用于基于该第一声纹信息的设备类型、多个该第二声纹信息的设备类型以及多个该第一相似度,确定该第一声纹信息与多个该第二声纹信息分别对应的第二相似度;
106.声纹信息确定模块404,用于基于多个该第二相似度,确定与该第一声纹信息匹配的目标声纹信息。
107.本公开实施例提供的技术方案,基于待识别音频数据的声纹信息与多个音频数据的声纹信息分别对应的第一相似度以及各个声纹信息对应的设备类型,来确定待识别音频数据的声纹信息与多个音频数据的声纹信息分别对应的第二相似度,进而确定与待识别音频数据的声纹信息匹配的目标声纹信息,如此,在确定目标声纹信息时,考虑到了各个声纹信息对应的设备类型,减小了因音频采集设备的类型不同而造成的识别误差,提高了声纹识别的准确率。
108.在一些实施例中,该第二相似度确定模块403,用于:
109.将该第一声纹信息、该第一声纹信息的设备类型、多个该第二声纹信息、多个该第二声纹信息的设备类型以及多个该第一相似度输入声纹模型,通过该声纹模型,确定该第一声纹信息与多个该第二声纹信息分别对应的第二相似度。
110.在一些实施例中,该声纹信息确定模块404,用于:
111.按照第二相似度由高到低的排列次序进行排序,选取排列次序位于前目标位数的第二相似度对应的第二声纹信息,确定为该目标声纹信息。
112.在一些实施例中,该装置还包括:
113.检索模块,用于基于该第一音频数据的第一声纹信息,分别在多个声纹信息库中进行检索,得到该多个第二音频数据的第二声纹信息,该多个声纹信息库分别用于存储由对应多个音频采集设备所采集的多个音频数据的声纹信息;
114.基于该多个第二音频数据的第二声纹信息,执行该确定该第一声纹信息与多个第二音频数据的第二声纹信息分别对应的第一相似度的步骤。
115.在一些实施例中,该检索模块,还用于:
116.确定该第一声纹信息的设备类型,在该设备类型对应的声纹信息库中进行检索,若该设备类型对应的声纹信息库中不存在与该第一声纹信息匹配的声纹信息,则分别在多个其他声纹信息库中进行检索。
117.在一些实施例中,该装置还包括:
118.用户信息确定模块,用于获取与该目标声纹信息关联的用户信息,将该用户信息确定为与该第一音频数据匹配的用户信息。
119.需要说明的是:上述实施例提供的声纹识别装置在进行声纹识别时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将电子设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的声纹识别装置与声纹识别方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
120.本公开实施例中的电子设备可以提供为一种服务器,图5是本公开实施例提供的一种服务器的结构示意图,该服务器500可因配置或性能不同而产生比较大的差异,可以包括一个或多个处理器(central processing units,cpu)501和一个或多个的存储器502,其
中,该一个或多个存储器502中存储有至少一条程序代码,该至少一条程序代码由该一个或多个处理器501加载并执行以实现上述各个方法实施例中服务器执行的声纹识别方法。当然,该服务器500还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器500还可以包括其他用于实现设备功能的部件,在此不做赘述。
121.在示例性实施例中,还提供了一种计算机可读存储介质,例如包括程序代码的存储器,上述程序代码可由处理器执行以完成上述实施例中的声纹识别方法。例如,该计算机可读存储介质可以是只读存储器(read
‑
only memory,rom)、随机存取存储器(random access memory,ram)、只读光盘(compact disc read
‑
only memory,cd
‑
rom)、磁带、软盘和光数据存储设备等。
122.本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来程序代码相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
123.上述仅为本公开的可选实施例,并不用以限制本公开,凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。