1.本发明涉及一种声纹识别语音评测方法,同时也涉及相应的声纹 识别语音评测装置,属于语音分析技术领域。
背景技术:2.目前智能语音技术在公共安全领域中被广泛应用,特别是利用声 纹识别(又叫做说话人识别)技术实现犯罪嫌疑人的确认、金融领域 中app远端声纹识别验证登录等。
3.现有基于实际应用场景下的声纹识别方法及装置通过获取声纹信 息,并提取声纹信息的声纹特征后,采用预先建立的模式识别模型对 声纹特征进行模式匹配,得到与声纹特征对应的标签信息,将该标签 信息与声纹信息对应存储至声纹数据库中,以便在声纹识别时依据标 签信息对声纹信息进行筛选。
4.但是,现有的声纹识别方法及装置只能实现声纹识别功能,无法 对其实现声纹识别的技术指标进行有效评测,进而无法确认不同方法 及装置的声纹识别效果。
技术实现要素:5.本发明所要解决的首要技术问题在于提供一种声纹识别语音评测 方法。
6.本发明所要解决的另一技术问题在于提供一种声纹识别语音评测 装置。
7.为了实现上述目的,本发明采用下述的技术方案:
8.根据本发明实施例的第一方面,提供一种声纹识别语音评测方法, 包括如下步骤:
9.步骤s1、建立声纹语音测试数据库;
10.步骤s2、根据用户的声纹语音测试需求和测试数据库,建立对应 于各个说话人的声纹语音注册集和测试集;
11.步骤s3、逐个将所述声纹语音注册集发送到至少一个待测声纹识 别装置,生成相应的声纹识别模型;
12.步骤s4、逐个将所述声纹语音测试集发送到至少一个待测声纹识 别装置,完成声纹识别测试,并接收各个所述待测声纹识别装置反馈 的声纹识别结果;
13.步骤s5、判断各个所述待测声纹识别装置是否完成对全部语音测 试集的声纹识别测试,若完成,则根据所述声纹识别结果计算出声纹 识别的性能指标,否则继续等待接收各个所述待测声纹识别装置反馈 的声纹识别结果。
14.根据本发明实施例的第二方面,提供一种声纹识别语音评测方法, 包括如下步骤:
15.步骤s10、建立声纹语音测试数据库;
16.步骤s20、根据用户的声纹语音测试需求和测试数据库,建立对 应于各个说话人的声纹语音注册集和测试集;
17.步骤s30、逐个播放所述声纹语音注册集,以使得至少一个待测 声纹识别装置进
行拾取后,生成相应的声纹识别模型;
18.步骤s40、逐个播放所述声纹语音测试集,以使得至少一个所述 待测声纹识别装置进行拾取后,完成声纹识别测试,并反馈声纹识别 结果;
19.步骤s50、判断各个所述待测声纹识别装置是否完成对全部语音 测试集的声纹识别测试,若完成,则根据所述声纹识别结果计算出声 纹识别的性能指标,否则继续等待接收各个所述待测声纹识别装置反 馈的声纹识别结果。
20.其中较优地,在于在步骤s1和s10中,所述声纹语音测试数据库 包括若干说话人的语音文件和对应于每个语音文件的标注文件,并且 每个说话人的每个语音文件对应于某一个数据采集信道采集的一条语 音内容。
21.其中较优地,在步骤s2和s20中,当用户的信道测试要求为同信 道测试时,根据所述声纹语音测试数据库中的标注文件,选择出满足 用户的声纹语音测试需求的且属于同一个数据采集信道采集的每个说 话人的语音文件后,从每个说话人的语音文件中选择预设数量的语音 文件构成该说话人的声纹语音注册集,并从该说话人剩下的语音文件 中选择预设数量的语音文件构成该说话人的声纹语音测试集。
22.其中较优地,在步骤s2和s20中,当用户的信道测试要求为跨信 道测试时,根据所述声纹语音测试数据库中的标注文件,选择出满足 用户的声纹语音测试需求的且属于不同数据采集信道采集的每个说话 人的语音文件后,从每个说话人的一个数据采集信道的语音文件中选 择预设数量的语音文件构成该说话人的声纹语音注册集,并从该说话 人余下的某一个数据采集信道的语音文件中选择预设数量的语音文件 构成该说话人的声纹语音测试集。
23.其中较优地,步骤s5和s50中,声纹识别的性能指标中的最优识 别数zyre为对多个待测声纹识别装置从时效性和准确性两个维度同时 评测的指标,根据如下公式计算得到;
24.zyre=t
zc
×
c
zc
+t
re
×
a
re
25.上式中,t
zc
为归一化声纹注册时间,c
zc
为声纹注册完成率,t
re
为 归一化声纹识别时间,a
re
为声纹识别准确率。
26.其中较优地,步骤s5和s50中,声纹识别的性能指标中的声纹识 别准确率a
re
,根据如下公式得到:
[0027][0028]
e
fr
为每个待测声纹识别装置的错误拒绝率,e
fa
为每个待测声纹识 别装置的错误接受率。
[0029]
根据本发明实施例的第三方面,提供一种声纹识别语音评测装置, 包括语音处理器和语音存储器,所述语音处理器读取所述语音存储器 中的计算机程序或指令,用于执行以下操作:
[0030]
建立声纹语音测试数据库;
[0031]
根据用户的声纹语音测试需求和测试数据库,建立对应于各个说 话人的声纹语音注册集和测试集;
[0032]
逐个将所述声纹语音注册集发送到至少一个待测声纹识别装置, 生成相应的声
纹识别模型;
[0033]
逐个将所述声纹语音测试集发送到至少一个待测声纹识别装置, 完成声纹识别测试,并接收各个所述待测声纹识别装置反馈的声纹识 别结果;
[0034]
判断各个所述待测声纹识别装置是否完成对全部语音测试集的声 纹识别测试,若完成,则根据所述声纹识别结果计算出声纹识别的性 能指标,否则继续等待接收各个所述待测声纹识别装置反馈的声纹识 别结果。
[0035]
根据本发明实施例的第四方面,提供一种声纹识别语音评测装置, 包括语音处理器、语音存储器、多通道语音转换控制器、人工嘴和环 绕音箱;所述语音处理器一方面连接所述语音存储器,另一方面连接 所述多通道语音转换控制器,所述多通道语音转换控制器分别连接所 述人工嘴和所述环绕音箱;
[0036]
所述语音处理器,用于读取所述语音存储器中的计算机程序或指 令,以执行建立声纹语音测试数据库,根据用户的声纹语音测试需求 和测试数据库,建立对应于各个说话人的声纹语音注册集和测试集, 将所述声纹语音注册集、测试集和环境噪声文件按照测试要求相应的 发送至所述多通道语音转换控制器,并接收待测声纹识别装置反馈的 声纹识别结果,当判断各个所述待测声纹识别装置完成对全部语音测 试集的声纹识别测试时,根据所述声纹识别结果计算出声纹识别的性 能指标;
[0037]
所述多通道语音转换控制器,用于将所述声纹语音注册集、测试 集和环境噪声文件转换相应的模拟音频后,对应发送至至少一个所述 人工嘴和所述环绕音箱;
[0038]
所述人工嘴,用于在全消声室环境下,模拟人体发声方式输出接 收的所述声纹语音注册集和测试集对应的音频;
[0039]
所述环绕音箱,用于在全消声室环境下,根据接收的环境噪声文 件模拟特定场景下的环境噪声。
[0040]
其中较优地,所述多通道语音转换控制器包括主控芯片、第一语 音转换芯片、第二语音转换芯片、第一语音音频解码芯片、第二语音 音频解码芯片和电源芯片;所述主控芯片分别连接所述第一语音转换 芯片、所述第二语音转换芯片、所述第一语音音频解码芯片、所述第 二语音音频解码芯片和所述电源芯片,所述第一语音转换芯片和所述 第二语音转换芯片的输入端连接所述语音处理器的输出端,所述第一 语音转换芯片和所述第二语音转换芯片的输出端对应连接所述第一语 音音频解码芯片和所述第二语音音频解码芯片的输入端,所述第一语 音音频解码芯片和所述第二语音音频解码芯片的输出端对应连接所述 人工嘴和所述环绕音箱。
[0041]
本发明所提供的声纹识别语音评测方法及装置对于目前不同的声 纹识别方法及装置提供一种可操作的、科学公正的评测技术方法。本 发明基于文件数据流和语音数据流的方式可以适用于不同应用场景、 不同实现方式的声纹识别装置的技术指标的评测,扩大了其应用范围。 并且,本发明采用智能化方式自动对待测声纹识别装置的声纹测试结 果进行统计分析计算,极大的提高了测试效率以及测试的准确度。
附图说明
[0042]
图1为本发明实施例提供的一种声纹识别语音评测方法的流程图;
[0043]
图2为本发明实施例提供的另一种声纹识别语音评测方法的流程 图;
[0044]
图3为本发明实施例提供的一种声纹识别语音评测装置的结构示 意图;
[0045]
图4为本发明实施例提供的另一种声纹识别语音评测装置的结构 示意图;
[0046]
图5为本发明实施例提供的另一种声纹识别语音评测装置的工作 过程示意图;
[0047]
图6为本发明实施例提供的另一种声纹识别语音评测装置中,多 通道语音转换控制器的电路原理图;
[0048]
图7为本发明实施例提供的另一种声纹识别语音评测装置中,多 通道语音转换控制器的主控芯片的电路原理图;
[0049]
图8为本发明实施例提供的另一种声纹识别语音评测装置中,人 工嘴的结构示意图。
具体实施方式
[0050]
下面结合附图和具体实施例对本发明的技术内容做进一步的详细 说明。
[0051]
为了实现对声纹识别方法及装置的技术指标进行有效评测,本发 明实施例提供了一种声纹识别语音评测方法,该方法用于对未具有拾 音功能的待测声纹识别装置(比如服务器型产品)的技术指标进行有 效评测,包括如下步骤:
[0052]
步骤s1、建立声纹语音测试数据库。
[0053]
建立针对不同应用场景的声纹语音测试数据库时,充分考虑人员、 数据采集信道、环境噪声、语音时长和语音内容对评测结果的影响。 人员包括性别比例、年龄分布比例、地域分布、说话人数量和情绪等 方面的影响。数据采集信道包括无线电话信道和互联网信道等。环境 噪声涉及不同特定场景下的环境噪声语音数据,比如火车站、机场大 厅、银行场所等。语音内容包括与文本相关的(固定内容)且针对不 同应用场景的中文文本和与文本无关(非固定内容)的数字文本(包 括6位数字串、8位数字串、11位手机号码、18位身份证号码)。语 音时长包括短语音和长语音。为了建立声纹语音测试数据库,邀请了 若干名来自中国不同区域的说话人参与语音录制,得到若干个语音文 件。该录制过程是在安静室内环境中(包含不影响声纹识别的背景噪 音)中进行的,且所有的语音文件涉及到了若干种不同的语音采集设 备的采集。
[0054]
因此,声纹语音测试数据库包括若干说话人的语音文件和对应于 每个语音文件的标注文件。其中,每个说话人的每个语音文件对应于 某一个数据采集信道采集的一条语音内容,因此由不同数据采集信道 采集的多条语音内容对应多个语音文件。
[0055]
对每个语音文件进行标注,得到对应于该语音文件的标注文件。 在对每个语音文件进行标注前需对每个语音文件的语音质量进行评估, 以保证声纹识别评测的有效性,语音质量评估通过现有语音质量评估 方法对语音文件的语音质量特性进行综合评估,主要从信噪比、语音 响度、有效语音失真度等维度进行加权阈值评估,对小于阈值的语音 文件不允许进入声纹语音测试数据库。其中,每个语音文件对应的标 注文件的标注信息包括但不限于说话人的性别、数量、地域、姓名、 语音类型(数字文本还是中文文本)、语音内容、数据采集信道、是否 合成语音。通过文件名称对标注信息进行定义,例如: 000001
‑
001
‑
m
‑
01
‑
02
‑
03
‑
000004.wav,其中000001代表说话人的id 号,001代表数据采集信道号,m代表男性,01代表单人说话,02代 表地域代码,03代表语音类型是数字串,000004代表语音序号。需要 强调的是,可以通过标注文件名称对声纹识别测试用的语音文件进行 初步分类归
档,标注文件中可以写入更详细的信息,比如:语音质量 评分、数据有效时长、采集设备硬件分类和型号等,以便于根据标注 文件对语音文件进行更详细的分类。
[0056]
步骤s2、根据用户的声纹语音测试需求和测试数据库,建立对应 于各个说话人的声纹语音注册集和测试集。
[0057]
用户的声纹语音测试需求包括声纹识别的应用场景、说话人的年 龄范围、性别比例、地域范围、信道测试要求、语音时长。其中,根 据信道测试要求从测试数据库中选择建立各个说话人的声纹语音注册 集和测试集的语音文件。具体地说,当用户的信道测试要求为同信道 测试时,根据测试数据库中的标注文件,选择出满足用户的声纹语音 测试需求的且属于同一个数据采集信道采集的每个说话人的语音文件 后,从每个说话人的语音文件中选择预设数量的语音文件构成该说话 人的声纹语音注册集,并从该说话人剩下的语音文件中选择预设数量 的语音文件构成该说话人的声纹语音测试集。例如,以建立某一个说 话人的声纹语音注册集和测试集为例,假设该说话人由互联网信道采 集的语音文件有20个,那么从这20个语音文件中选择5个语音文件 构成该说话人的声纹语音注册集,从剩下的15个语音文件中选择2个 语音文件构成该说话人的声纹语音测试集。
[0058]
当用户的信道测试要求为跨信道测试时,根据测试数据库中的标 注文件,选择出满足用户的声纹语音测试需求的且属于不同数据采集 信道采集的每个说话人的语音文件后,从每个说话人的一个数据采集 信道的语音文件中选择预设数量的语音文件构成该说话人的声纹语音 注册集,并从该说话人余下的另一个数据采集信道的语音文件中选择 预设数量的语音文件构成该说话人的声纹语音测试集。
[0059]
步骤s3、逐个将声纹语音注册集发送到至少一个待测声纹识别装 置,生成相应的声纹识别模型。
[0060]
当需要对单个待测声纹识别装置的技术指标进行评测时,将步骤 s2建立的对应于各个说话人的声纹语音注册集,逐个发送至待测声纹 识别装置,并启动测试计时,待测声纹识别装置根据每个声纹语音注 册集中的所有语音文件,生成各个说话人的声纹识别模型。其中,待 测声纹识别装置根据说话人的声纹语音注册集生成相应的声纹识别模 型为现有成熟技术,在次不再赘述。
[0061]
当需要对多个待测声纹识别装置的技术指标进行评测时,将步骤 s2建立的对应于各个说话人的声纹语音注册集,逐个并行发送至各个 待测声纹识别装置,并启动测试计时,各个待测声纹识别装置同时根 据每个声纹语音注册集中的所有语音文件,生成各个说话人的声纹识 别模型。
[0062]
步骤s4、逐个将声纹语音测试集发送到至少一个待测声纹识别装 置,完成声纹识别测试,并接收各个待测声纹识别装置反馈的声纹识 别结果。
[0063]
同样,当需要对单个待测声纹识别装置的技术指标进行评测时, 将步骤s2建立的对应于各个说话人的声纹语音测试集,逐个发送至待 测声纹识别装置,待测声纹识别装置将每个声纹语音测试集中的语音 文件一一分别与所有说话人的声纹识别模型进行匹配,并得到每个说 话人的用于测试的各个语音文件分别针对所有声纹识别模型的匹配分 值,作为相应说话人的声纹识别结果并进行反馈。
[0064]
当需要对多个待测声纹识别装置的技术指标进行评测时,将步骤 s2建立的对应于各个说话人的声纹语音测试集,逐个并行发送至各个 待测声纹识别装置,各个待测声纹
识别装置同时将每个声纹语音测试 集中的语音文件一一分别与所有说话人的声纹识别模型进行匹配,并 得到每个说话人的用于测试的各个语音文件分别针对所有声纹识别模 型的匹配分值,作为相应说话人的声纹识别结果并进行反馈。
[0065]
步骤s5、判断各个待测声纹识别装置是否完成对全部语音测试集 的声纹识别测试,若完成,则根据声纹识别结果计算出声纹识别的性 能指标,否则继续等待接收各个待测声纹识别装置反馈的声纹识别结 果。
[0066]
在最后一次接收到各个待测声纹识别装置反馈的声纹识别结果后 的预设时间内,不再收到各个待测声纹识别装置反馈的声纹识别结果, 则认为各个待测声纹识别装置完成对全部语音测试集的声纹识别测试, 同时结束计时,并计算出各个待测声纹识别装置完成声纹识别模型的 时间和声纹识别测试的时间。
[0067]
待测声纹识别装置进行声纹识别的技术指标主要包括错误拒绝率、 错误接受率、等错误率、错误损失、最小错误损失、声纹注册时间、 声纹识别时间、最优识别数和声纹识别准确率。下面详细说明各个技 术指标的计算过程。
[0068]
待测声纹识别装置根据说话人测试语音和声纹识别模型是否归属 于同一说话人可分为真实说话人测试例和冒认测试例,真实说话人测 试例中测试说话人测试语音和声纹识别模型是否归属于同一说话人, 冒认测试例中测试说话人测试语音和声纹识别模型是否归属于不同说 话人。
[0069]
错误拒绝率为在设定阈值下,待测声纹识别装置将真实说话人测 试例识别错误的比例。公式1是错误拒绝率的计算公式。
[0070][0071]
上式中,e
fr
为错误拒绝率,n
target
为所有真实说话人测试例的总 数;n
fr
为将真实说话人测试例判断为冒认测试例的总数,冒认测试例 的总数根据设定阈值(由用户设定,如95分),对说话人的用于测试 的各个语音文件分别针对所有声纹识别模型的匹配分值,进行划分得 到。
[0072]
例如,使用100个真实说话人测试语音对待测声纹识别装置中的 100个声纹识别模型进行测试,测试结果将5个真实说话人错误识别 冒认说话人,则该待测声纹识别装置的错误拒绝率为5/100=5%。
[0073]
错误接受率为在设定阈值下,测试装置将冒认测试例识别错误的 比例。公式2是错误接受率的计算公式。
[0074][0075]
上式中,e
fa
为错误接受率,n
imposter
为所有冒认测试例的总数,n
fa
为将冒认测试例判断为真实说话人测试例的总数,根据设定阈值(由 用户设定,如95分),对说话人的用于测试的各个语音文件分别针对 所有声纹识别模型的匹配分值,进行划分得到。
[0076]
例如,使用100个冒认测试语音对待测声纹识别装置中声纹识别 模型进行测试,测试结果将5个冒认测试语音错误识别为真实说话人, 则该待测声纹识别装置的错误接受率为5/100=5%。
[0077]
当在某一设定的阈值下,错误拒绝率和错误接受率相等时,此相 等的值为等错误
率。在等错误率对应的阈值下,错误拒绝率、错误接 受率和等错误率有公式3的关系。
[0078]
eer=e
fr
=e
fa
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0079]
错误损失为设定错误拒绝率和错误接受率的错误代价加权系数后, 评测待测声纹识别装置的总体错误损失代价。公式4是错误损失的计 算公式。
[0080]
dcf=c
fr
*e
fr
*p
target
+c
fa
*e
fa
*(1
‑
p
target
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0081]
上式中,dcf为错误损失,c
fr
为设定的错误拒绝率的错误代价加 权系数,c
fa
为设定的错误接受率的错误代价加权系数,p
target
为真实说 话人测试例占整体测试例的比例(根据设定阈值对说话人的用于测试 的各个语音文件分别针对所有声纹识别模型的匹配分值,进行划分得 到),(1
‑
p
target
)为冒认测试例占整体测试例的比例。
[0082]
最小错误损失为通过调整设置不同的判定阈值,以计算出的错误 损失中的最小值。
[0083]
声纹注册时间为从声纹识别评测装置将注册语音数据发送至待测 声纹识别装置开始,至声纹识别评测装置接收到待测声纹识别装置返 回的有效注册结果为止的时间间隔。
[0084]
声纹识别时间为从声纹识别评测装置将测试语音数据发送至待测 声纹识别装置开始,至声纹识别评测装置接收到待测声纹识别装置返 回的有效识别完成结果为止的时间间隔。
[0085]
最优识别数为对多个待测声纹识别装置从时效性和准确性两个维 度同时评测的指标。公式5是最优识别数的计算公式。
[0086]
zyre=t
zc
×
c
zc
+t
re
×
a
re
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0087]
上式中,zyre为最优识别数,t
zc
为归一化声纹注册时间,c
zc
为 声纹注册完成率,t
re
为归一化声纹识别时间,a
re
为声纹识别准确率。
[0088]
对多个待测声纹识别装置测试时,声纹识别评测装置将相同的注 册语音和测试语音分别发送至多个待测声纹识别装置,得到多个待测 声纹识别装置的声纹注册时间、声纹识别时间、错误拒绝率和错误接 受率。对多个待测声纹识别装置的声纹注册时间做归一化处理,将多 个待测声纹识别装置中数值最小的声纹识别注册时间作为基准值,用 该基准值除以其他声纹识别注册时间得到每个待测声纹识别装置的归 一化声纹注册时间t
zc
。同理地,可以得到每个待测声纹识别装置的归 一化声纹识别时间t
re
。
[0089]
c
zc
为该次实际完成声纹注册总数量占该次所有声纹注册语音数量 的比例。
[0090]
在相同的判定阈值下,将每个待测声纹识别装置的e
fa
和e
fr
带入公 式6,得到声纹识别准确率a
re
。
[0091][0092]
从而最终得到各个待测声纹识别装置的最优识别数zyre,通过比 较大小确定各个待测声纹识别装置的性能优劣,最大的最优识别数 zyre为最优。
[0093]
如图2所示,本发明实施例还提供了一种声纹识别语音评测方法, 该方法用于对具有拾音功能的待测声纹识别装置(如声纹锁、声纹打 卡机等)的技术指标进行有效评测,包括如下步骤:
[0094]
步骤s10、建立声纹语音测试数据库。
[0095]
步骤s20、根据用户的声纹语音测试需求和测试数据库,建立对 应于各个说话人的声纹语音注册集和测试集。
[0096]
步骤s10和s20的具体实现方式同步骤s1和s2,在此不再赘述。
[0097]
步骤s30、逐个播放声纹语音注册集,以使得至少一个待测声纹 识别装置进行拾取后,生成相应的声纹识别模型。
[0098]
当需要对单个待测声纹识别装置的技术指标进行评测时,可以在 全消声室环境下,同时配合模拟的特定应用场景下的环境噪声,对于 步骤s20建立的对应于各个说话人的声纹语音注册集,逐个播放每个 声纹语音注册集中的语音文件,并启动测试计时,待测声纹识别装置 根据拾取的每个声纹语音注册集中的所有语音文件,生成各个说话人 的声纹识别模型。
[0099]
当需要对多个待测声纹识别装置的技术指标进行评测时,同样可 以在全消声室环境下,同时配合模拟的特定应用场景下的环境噪声, 对于步骤s20建立的对应于各个说话人的声纹语音注册集,逐个播放 每个声纹语音注册集中的语音文件,并启动测试计时,各个待测声纹 识别装置根据拾取的每个声纹语音注册集中的所有语音文件,生成各 个说话人的声纹识别模型。
[0100]
步骤s40、逐个播放声纹语音测试集,以使得至少一个待测声纹 识别装置进行拾取后,完成声纹识别测试,并反馈声纹识别结果。
[0101]
同样,当需要对单个待测声纹识别装置的技术指标进行评测时, 可以在全消声室环境下,同时配合模拟的特定应用场景下的环境噪声, 对于步骤s20建立的对应于各个说话人的声纹语音测试集,逐个播放 每个声纹语音测试集中的语音文件,待测声纹识别装置将拾取的每个 声纹语音测试集中的语音文件一一分别与所有说话人的声纹识别模型 进行匹配,并得到每个说话人的用于测试的各个语音文件分别针对所 有声纹识别模型的匹配分值,作为相应说话人的声纹识别结果并进行 反馈。
[0102]
当需要对多个待测声纹识别装置的技术指标进行评测时,可以在 全消声室环境下,同时配合模拟的特定应用场景下的环境噪声,对于 步骤s20建立的对应于各个说话人的声纹语音测试集,逐个播放每个 声纹语音测试集中的语音文件,各个待测声纹识别装置将拾取的每个 声纹语音测试集中的语音文件一一分别与所有说话人的声纹识别模型 进行匹配,并得到每个说话人的用于测试的各个语音文件分别针对所 有声纹识别模型的匹配分值,作为相应说话人的声纹识别结果并进行 反馈
[0103]
步骤s50、判断各个待测声纹识别装置是否完成对全部语音测试 集的声纹识别测试,若完成,则根据声纹识别结果计算出声纹识别的 性能指标,否则继续等待接收各个待测声纹识别装置反馈的声纹识别 结果。
[0104]
在最后一次接收到各个待测声纹识别装置反馈的声纹识别结果后 的预设时间内,不再收到各个待测声纹识别装置反馈的声纹识别结果, 则认为各个待测声纹识别装置完成对全部语音测试集的声纹识别测试, 同时结束计时,并计算出各个待测声纹识别装置完成声纹识别模型的 时间和声纹识别测试的时间。
[0105]
其中,相关技术指标的计算过程和s5中计算方法一致,在此不再 赘述。
[0106]
需要强调的是,本发明中,由于测试过程中待测声纹识别装置处 理数据的过程耗时最长,严重影响测试效率。同时判定阈值和加权数 值的设定对于性能指标结果有影响。
为提高测试的时效性,可在一次 待测声纹识别装置数据处理结束后,直接改动判定阈值和加权方案数 值,动态化生成相应的评测指标结果。
[0107]
另外,如图3所示,本发明实施例还提供了一种声纹识别语音评 测装置,包括语音处理器100和语音存储器200,语音处理器100和 语音存储器200通过数据总线连接。本装置用于对未有拾音功能的待 测声纹识别装置的技术指标进行有效评测。其中,语音处理器100读 取语音存储器200中的计算机程序或指令,用于执行如下操作:
[0108]
建立声纹语音测试数据库。
[0109]
根据用户的声纹语音测试需求和测试数据库,建立对应于各个说 话人的声纹语音注册集和测试集。
[0110]
逐个将声纹语音注册集发送到至少一个待测声纹识别装置,生成 相应的声纹识别模型。
[0111]
逐个将声纹语音测试集发送到至少一个待测声纹识别装置,完成 声纹识别测试,并接收各个待测声纹识别装置反馈的声纹识别结果。
[0112]
判断各个待测声纹识别装置是否完成对全部语音测试集的声纹识 别测试,若完成,则根据声纹识别结果计算出声纹识别的性能指标, 否则继续等待接收各个待测声纹识别装置反馈的声纹识别结果。
[0113]
另外,如图4所示,本发明实施例还提供了一种声纹识别语音评 测装置,包括语音处理器300、语音存储器400、多通道语音转换控制 器500、人工嘴600和环绕音箱700;语音处理器300一方面连接语音 存储器400,另一方面连接多通道语音转换控制器500,多通道语音转 换控制器500分别连接人工嘴600和环绕音箱700。本装置用于对具 有拾音功能的待测声纹识别装置的技术指标进行有效评测。
[0114]
语音处理器100,用于读取语音存储器200中的计算机程序或指 令,以执行建立声纹语音测试数据库,根据用户的声纹语音测试需求 和测试数据库,建立对应于各个说话人的声纹语音注册集和测试集, 将声纹语音注册集、测试集和环境噪声文件按照测试要求相应的发送 至多通道语音转换控制器500,并接收待测声纹识别装置反馈的声纹 识别结果(如图5所示),当判断各个待测声纹识别装置完成对全部语 音测试集的声纹识别测试时,根据声纹识别结果计算出声纹识别的性 能指标。
[0115]
多通道语音转换控制器500,用于将注册集、测试集和环境噪声 文件转换相应的模拟音频后,对应发送至至少一个人工嘴600和环绕 音箱700。
[0116]
人工嘴600,用于在全消声室环境下,模拟人体发声方式输出接 收的注册集和测试集对应的音频,达到模拟人体说话的方式进行测试, 如图5所示。
[0117]
环绕音箱700,用于在全消声室环境下,根据接收的环境噪声文 件模拟特定场景下的环境噪声。
[0118]
如图6所示,多通道语音转换控制器500包括主控芯片5001、第 一语音转换芯片5002、第二语音转换芯片5003、第一语音音频解码芯 片5004、第二语音音频解码芯片5005和电源芯片5006;主控芯片5001 分别连接第一语音转换芯片5002、第二语音转换芯片5003、第一语音 音频解码芯片5004、第二语音音频解码芯片5005和电源芯片5006, 第一语音转换芯片5002和第二语音转换芯片5003的输入端连接语音 处理器100的输出端,第一语音转换芯片5002和第二语音转换芯片 5003的输出端对应连接第一语音音频解码芯片5004
和第二语音音频 解码芯片5005的输入端,第一语音音频解码芯片5004和第二语音音 频解码芯片5005的输出端对应连接人工嘴600和环绕音箱700。
[0119]
具体地说,主控芯片5001可以采用msp430fg461x系列微控制器 实现,第一语音转换芯片5002和第二语音转换芯片5003可以采用 ssm2404s系列语音转换芯片实现,第一语音音频解码芯片5004和第 二语音音频解码芯片5005可以采用tpa3116d2dadr系列语音音频解码 芯片实现。
[0120]
其中,第一语音转换芯片5002和第二语音转换芯片5003为多路 输入,用于对应接收多个说话人的声纹语音注册集、测试集的语音文 件以及多种特定场景下的环境噪声文件,即第一语音转换芯片5002的 每一路输入对应接收一个说话人的声纹语音注册集和测试集的语音文 件。第二语音转换芯片5003的每一路输入对应接收一种特定场景下的 环境噪声文件。第一语音转换芯片5002用于将接收的声纹语音注册集、 测试集的语音文件转换成相应的数字音频;第二语音转换芯片5003用 于将环境噪声文件转换成相应的数字音频。
[0121]
第一语音音频解码芯片5004和第二语音音频解码芯片为多路输 出,用于将对应的数字音频转换成模拟音频,并发送至相应的人工嘴 600和环绕音箱700。
[0122]
主控芯片5001主要用于控制第一语音转换芯片5002、第二语音 转换芯片5003、第一语音音频解码芯片5004和第二语音音频解码芯 片5005的运行和设置相应参数,同时也为第一语音转换芯片5002、 第二语音转换芯片5003、第一语音音频解码芯片5004和第二语音音 频解码芯片5005供电,其电路结构如图7所示。
[0123]
如图8所示,人工嘴600包括腔体6001,在腔体6001内设置有 驱动器6002、扬声器6003、导声传声器6004,在腔体6001外部靠近 驱动器6002的一侧设置有用于接收多通道语音转换控制器500发送的 模拟音频的数据接口6005,在腔体6001的前面罩外部设置有唇圈 6006,在腔体6001外部的底端设置有固定支架接口6008。该人工嘴 600采用的扬声器6003为稳定、宽频响应、低失真的标准声源(扬声 器),以精确模拟人体语音声场的特性。驱动器6002为安装在一个近 似封闭的特殊声腔内,可仿真模拟人嘴平均声学特性,包括声学阻尼 系数、声学辐射特性和传输特性等。前面罩6007的外形及出声孔应考 虑到人体发声时受到鼻腔和人体面部与人体嘴唇之间反射现象的影响, 因此设计前面罩6007为凸形反射面,出声孔模拟人嘴和鼻腔,出声孔 的唇圈6006平面是一个参考平面,以保证从这一平面开始声压随距离 的衰减,与人体发声时从人体嘴唇平面开始声压随着距离衰减做到近 似。
[0124]
在本发明中,待测声纹识别装置可以通过远程和本地两种方式接 入声纹识别语音评测装置完成声纹识别功能技术指标的评测验证。远 程评测方式以应用程序接口模式实现;本地评测方式以动态库模式实 现。应用程序接口模式需要待测声纹识别装置ip地址和端口号,与声 纹识别语音评测装置通过互联网连接后进行测试。动态库模式直接将 待测声纹识别装置的动态库拷贝至声纹识别语音评测装置特定目录下 进行测试。
[0125]
此外,本发明还可以应用于相关智能语音类设备的检测。比如: 智能声纹锁、声纹签到机、具有声纹识别验证功能的安防产品、语音 识别性能检测以及语义设备性能检测等。
[0126]
另外,本发明实施例还提供一种计算机可读存储介质,所述可读 存储介质上存储有指令,当其在计算机上运行时,使得所述计算机执 行如上述图1和图2所述的声纹识别语音评测方法,此处不再赘述其 具体实现方式。
[0127]
另外,本发明实施例还提供一种包含指令的计算机程序产品,当 其在计算机上运行时,使得所述计算机执行如上述图1和图2所述的 声纹识别语音评测方法,此处不再赘述其具体实现方式。
[0128]
本发明所提供的声纹识别语音评测方法及装置对于目前不同的声 纹识别方法及装置提供一种可操作的、科学公正的评测技术方法。本 发明基于文件数据流和语音数据流的方式可以适用于不同应用场景、 不同实现方式的声纹识别装置的技术指标的评测,扩大了其应用范围。 并且,本发明采用智能化方式自动对待测声纹识别装置的声纹测试结 果进行统计分析计算,极大的提高了测试效率以及测试的准确度。
[0129]
以上对本发明所提供的声纹识别语音评测方法及装置进行了详细 的说明。对本领域的一般技术人员而言,在不背离本发明实质内容的 前提下对它所做的任何显而易见的改动,都将属于本发明专利权的保 护范围。