1.本技术涉及音频处理技术领域,更具体地,涉及一种语音同一性的检验方法、装置、电子设备及存储介质。
背景技术:2.语音同一性检验是指通过对两段输入语音进行比对分析,确定两段输入语音是否来自同一人。现有技术中存在语音同一性检验的准确度不高的问题,导致同一性检验结果的可靠性不高。因此,如何提高语音同一性检验的准确度是现有技术中亟待解决的技术问题。
技术实现要素:3.鉴于上述问题,本技术实施例提出了一种语音同一性的检验方法、装置、电子设备及存储介质,以改善上述问题。
4.根据本技术实施例的一个方面,提供了一种语音同一性的检验方法,包括:将对比语音的语音识别结果和样本语音的语音识别结果进行音节匹配,确定所述对比语音相对于所述样本语音的多个相同音节;所述多个相同音节包括至少两种音节类型的音节,所述音节类型包括词类型、字类型和音素类型;根据所述相同音节所对应第一语音段的语音特征和所对应第二语音段的语音特征,计算所述相同音节所对应第一语音段和所对应第二语音段之间的声纹相似度;所述第一语音段是所述相同音节在所述对比语音中对应的语音段;所述第二语音段是所述相同音节在所述样本语音中对应的语音段;根据所述相同音节所对应第一语音段和所对应所述第二语音段之间的声纹相似度,确定所述对比语音和所述样本语音的同一性检验结果。
5.根据本技术实施例的一个方面,提供了一种语音同一性的检验装置,包括:音节匹配模块,用于将对比语音的语音识别结果和样本语音的语音识别结果进行音节匹配,确定所述对比语音相对于所述样本语音的多个相同音节;所述多个相同音节包括至少两种音节类型的音节,所述音节类型包括词类型、字类型和音素类型;声纹相似度计算模块,用于根据所述相同音节所对应第一语音段的语音特征和所对应第二语音段的语音特征,计算所述相同音节所对应第一语音段和所对应第二语音段之间的声纹相似度;所述第一语音段是所述相同音节在所述对比语音中对应的语音段;所述第二语音段是所述相同音节在所述样本语音中对应的语音段;同一性检验结果确定模块,用于根据所述相同音节所对应第一语音段和所对应所述第二语音段之间的声纹相似度,确定所述对比语音和所述样本语音的同一性检验结果。
6.根据本技术实施例的一个方面,提供了一种电子设备,包括:处理器;存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,实现如上所述语音同一性的检验方法。
7.根据本技术实施例的一个方面,提供了一种计算机可读存储介质,其上存储有计
算机可读指令,当所述计算机可读指令被处理器执行时,实现如上所述语音同一性的检验方法。
8.在本技术的方案中,基于对比语音的语音识别结果和样本语音的语音识别结果进行音节匹配,确定所述对比语音相对于所述样本语音的多个相同音节,然后根据相同音节所对应第一语音段的语音特征和所对应第二语音段的语音特征,计算所述相同音节所对应第一语音段和所对应第二语音段之间的声纹相似度,再根据所确定的声纹相似度来确定对比语音和所述样本语音的同一性检验结果。在本方案中,结合对比语音和样本语音的多个相同音节来进行声纹相似度计算,而且,该多个相同音节包括至少两种音节类型的音节,而不同音节类型的音节的稳定性和所表达的特征的粒度存在差异,因此,本方案结合至少两种音节类型的相同音节进行声纹相似度计算和确定同一性检验结果,可以提高同一性检验结果的准确性和有效性。
附图说明
9.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理。显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
10.图1是根据本技术的一个实施例示出的语音同一性的检验方法的流程图。
11.图2是根据本技术一实施例示出的获得语音识别结果的流程图。
12.图3是根据本技术一实施例示出的音节匹配的流程图。
13.图4是根据本技术一实施例示出的步骤120的流程图。
14.图5a-5c是根据本技术一实施例的三个相同音节所对应第一语音段的分段语谱图和所对应第二语音段的分段语谱图。
15.图6是根据本技术另一实施例示出的步骤120的流程图。
16.图7是根据本技术一实施例示出的步骤120和步骤130的流程图。
17.图8是根据本技术另一实施例示出的步骤130的流程图。
18.图9是根据本技术另一实施例示出的步骤130的流程图。
19.图10是根据本技术另一实施例示出的步骤130的流程图。
20.图11是根据本技术一实施例示出的语音同一性的检验装置的框图。
21.图12示出了适于用来实现本技术实施例的电子设备的计算机系统的结构示意图。
具体实施方式
22.现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本技术将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
23.此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本技术的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本技术的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方
法、装置、实现或者操作以避免模糊本技术的各方面。
24.附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
25.附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
26.需要说明的是:在本文中提及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
27.以下对本技术实施例的技术方案的实现细节进行详细阐述:图1是根据本技术的一实施例示出的语音同一性的检验方法的流程图,该方法可以由具备处理能力的计算机设备执行,例如服务器、终端设备(例如台式电脑、笔记本电脑)等,还可以由包括服务器和终端设备的检验系统执行,在此不进行具体限定。参照图1所示,该方法至少包括步骤110至130,详细介绍如下:步骤110,将对比语音的语音识别结果和样本语音的语音识别结果进行音节匹配,确定所述对比语音相对于所述样本语音的多个相同音节;所述多个相同音节包括至少两种音节类型的音节,所述音节类型包括词类型、字类型和音素类型。
28.在一些实施例中,语音识别结果可以是将对比语音(或者样本语音)进行转文本识别所得到的,从而,对比语音的语音识别结果指示了对比语音对应的文字内容,样本语音的语音识别结果指示了样本语音对应的文字内容。
29.在一些实施例中,语音识别结果可以是将对比语音(或者样本语音)进行音素识别所得到的,从而,对比语音的语音识别结果指示了对比语音对应的音素内容,样本语音的语音识别结果指示了样本语音对应的音素内容。
30.音素(phone)是指是根据语音的自然属性划分出来的最小语音单位,分为元音与辅音两大类。音素依据音节里的发音动作来分析,一个动作构成一个音素,如汉语音节啊(
ā
)只有一个音素
ā
;爱(
à
i)有两个音素,即
à
和i;代(d
à
i)有三个音素,即d、
à
和i。
31.在本方案中,音节类型为词类型的音节即为词,音节类型为字类型的音节为字,音节类型为音素类型的音节为音素。因此,在本方案中,相同音节可以是相同词、相同字或者相同音素。
32.在一些实施例中,语音识别结果包括音素内容和文字内容,从而,可以基于音素内容进行音素匹配,确定相同音素,可以基于文字内容进行字匹配,确定相同字;以及基于文字内容进行词匹配,确定相同词。
33.图2是根据本技术一实施例示出的获得语音识别结果的流程图,如图2所示,包括:步骤210,输入语音信号;步骤220,活动语音检测;步骤230,语音识别;步骤240,输出音素内容和文字内容。
34.若步骤210中的语音信号是对比语音,则步骤240中所输出的音素内容和文字内容为对比语音的语音识别结果;反之,若步骤210中的语音信号是样本语音,步骤240中所输出的音素内容和文字内容为样本语音的语音识别结果。
35.活动语音检测又称语音端点检测、语音边界检测,其是指从语音信号中识别和消除长时间的静音段,确定语音信号中的活动语音段(即非静音段),从而,在步骤230中,对语音信号中的活动语音段进行语音识别,不需要关注语音信号中的静音段。
36.对比语音相对于样本语音的相同音节是指对比语音的语音识别结果和样本语音的语音识别结果中均包括的音节。
37.在一些实施例中,可以是从作为样本的样本语音中选取若干个音节作为参考音节,然后将每一参考音节在对比语音的语音识别结果进行匹配,判断对比语音的语音识别结果中是否包括该参考音节,若包括,则将该参考音节确定为对比语音相对于样本语音的一个相同音节;反之,若不包括,则该参考音节不是对比语音相对于样本语音的相同音节;重复上述过程,确定各个参考音节是否为对比语音相对于样本语音相同音节。可以理解的是,为了保证所确定的相同音节包括至少两种音节类型的音节,则多个参考音节中也包括至少两种音节类型的音节。
38.图3是根据本技术一实施例示出的音节匹配的流程图。在本实施例中,对比语音的语音识别结果包括对比语音对应的音素内容和文字内容;样本语音的语音识别结果包括样本语音对应的音素内容和文字内容。如图3所示,将对比语音对应的音素内容和文字内容,与,样本语音对应的音素内容和文字内容进行音节匹配,然后输出多个相同音节和每个相同音节的时间位置信息。相同音节的时间位置信息包括相同音节在对比语音段中的时间位置信息和该相同音节在样本语音段中的时间位置信息。
39.具体来说,相同音节在对比语音中的时间位置信息,又可以理解为该相同音节在对比语音中所对应第一语音段在对比语音段中的时间位置信息,相同音节所对应第一语音段在对比语音段中的时间位置信息指示了该第一语音段在对比语音中的开始时间和在对比语音中的结束时间。
40.举例来说,若一对比语音对应的文字内容为“你今天去哪里了”,若相同音节为“今天”,“今天”一词对应的音段在对比语音中的开始时间为t1,在语音中的结束时间为t2,则相同音节“今天”所对应第一语音段在对比语音中的时间位置信息指示了该开始时间t1和结束时间t2。
41.在一些实施例中,在对对比语音(或样本语音)进行语音识别过程中,例如进行语音转文本识别,不仅识别确定各个音频段对应的文字内容,还对应确定各文本内容(字或词)所对应音频段在对比语音中的时间位置信息,从而,在基于对比语音的语音识别结果和样本语音的语音识别结果进行音节匹配的过程中,不仅可以确定对比语音相对于样本语音的相同词和/或相同字,还进一步确定该相同词或相同字在对比语音中的时间位置信息,以及该相同词或相同字在样本语音中的时间位置信息。
42.同理,在对对比语音(或样本语音)进行语音识别的音素识别过程中,不仅识别确定各个音频段对应的音素,还对应确定各音素所对应音频段在对比语音(或样本语音)中的时间位置信息,从而,音节匹配时,可以对应确定相同音素在对比语音中的时间位置信息和相同音素在样本语音中的时间位置信息。
43.可以理解的是,由于不同音节类型的音节所对应音频段时长不同,从而,所体现声音特征的全面性也存在差异。一般而言,在词类型、子类型和音素类型对应的音节中,对应于词类型的音节(词)对应的音频的时长最长,因此,该词类型的音节所对应音频段所包含
发声者的声纹特征的信息量更大,而对应于音素类型的音节(音素)所对应的音频的时长最短,因此,其包含发声者的声纹特征的信息量更大;但是,由于音素类型的音节所对应的音频的时长最短,其能够表达发声者在较小细粒度上的声纹特征。
44.因此,在本技术的方案中,结合至少两种音节类型的相同音节来对对比语音和样本语音进行同一性验证,兼顾了相同音节所对应音频在声纹特征表达的全面性和精细度,从而,可以保证同一性检验结果的准确性。
45.步骤120,根据所述相同音节所对应第一语音段的语音特征和所对应第二语音段的语音特征,计算所述相同音节所对应第一语音段和所对应第二语音段之间的声纹相似度;所述第一语音段是所述相同音节在所述对比语音中对应的语音段;所述第二语音段是所述相同音节在所述样本语音中对应的语音段。
46.在一些实施例中,步骤120之前,该方法还包括:获取所述相同音节所对应第一语音段的语音特征;获取所述相同音节所对应第二语音段的语音特征。
47.在一些实施例中,所述对比语音的语音识别结果指示了所述对比语音中所包括每一音节在所述对比语音中的时间位置信息;在本实施例中,所述获取所述相同音节所对应第一语音段的语音特征的步骤进一步包括:根据所述相同音节在所述对比语音中的时间位置信息,在所述对比语音中进行片段提取,得到所述相同音节所对应的第一语音段;对所述第一语音段进行语音特征提取,得到所述第一语音段的语音特征。
48.语音特征可以包括共振峰的中心频率、带宽和强度等特征参数,进一步的,语音特征还可以包括共振峰走势、基频轨迹、lpc频谱等特征曲线。在具体实施例中,可以通过语音信号处理算法,例如自相关法、倒谱法、线性预测(lpc)等方法来自动计算语音段(第一语音段、第二语音段)中各语音帧的共振峰、基频等频域特征,进而可以得到语音段(第一语音段、第二语音段)的共振峰走势、基频轨迹、lpc频谱等特征曲线。
49.在提取得到相同音节对应的第一语音段后,可以按照如上的方式来提取中心频率、带宽和强度、振峰走势、基频轨迹、lpc频谱等特征曲线,得到第一语音段的语音特征。
50.相同音节所对应第二语音段的语音特征可以按照类似的方式进行提取,在此不再赘述。
51.在另一些实施例中,所述对比语音的语音识别结果指示了所述对比语音中所包括每一音节在所述对比语音中的时间位置信息;在本实施例中,所述获取所述相同音节所对应第一语音段的语音特征的步骤,进一步包括:根据所述相同音节在所述对比语音中的时间位置信息,在所述对比语音的语谱图中确定所述第一语音段对应的分段语谱图;从所述第一语音段对应的分段语谱图中获取所述第一语音段的语音特征。
52.在预先生成了对比语音的语谱图和样本语音的语谱图的情况下,基于语音识别结果所指示各音节的时间位置信息,在语音的语谱图中将各音节对应的分段语谱图与时间位置信息相关联,从而,可以基于音节的时间位置信息从语音的语谱图中提取对应的分段语谱图。
53.由于语音的语谱图是通过对时域的语音进行时频变换,进而计算各语音帧的频域特征,从而,语音的语谱图也对应表达了各音节的频域特征,例如音节的共振峰、中心频率、带宽等,从而,可以直接从相同音节所对应第一语音段对应的分段语谱图获取该第一语音段的语音特征。同理,第二语音段的语音特征也可以按照相似的方式来获取,在此不再赘
述。
54.请继续参阅图3,步骤130,根据所述相同音节所对应第一语音段和所对应所述第二语音段之间的声纹相似度,确定所述对比语音和所述样本语音的同一性检验结果。
55.同一性检验是指检验两语音是否来自同一人,从而,对比语音和所述样本语音的同一性检验结果用于指示对比语音和所述样本语音是否来自同一人,或者用于指示对比语音和所述样本语音来自同一人的概率大小。
56.在一些实施例中,可以统计相同音节所对应第一语音段和所对应所述第二语音段之间的声纹相似度超过相似度阈值的目标相同音节的数量,之后,基于目标相同音节的数量的来确定所述对比语音和所述样本语音的同一性检验结果。
57.在本技术的方案中,基于对比语音的语音识别结果和样本语音的语音识别结果进行音节匹配,确定所述对比语音相对于所述样本语音的多个相同音节,然后根据相同音节所对应第一语音段的语音特征和所对应第二语音段的语音特征,计算所述相同音节所对应第一语音段和所对应第二语音段之间的声纹相似度,再根据所确定的声纹相似度来确定对比语音和所述样本语音的同一性检验结果。在本方案中,结合对比语音和样本语音的多个相同音节来进行声纹相似度计算,而且,该多个相同音节包括至少两种音节类型的音节,而不同音节类型的音节的稳定性和所表达的特征的粒度存在差异,因此,本方案结合至少两种音节类型的相同音节进行声纹相似度计算和确定同一性检验结果,可以提高同一性检验结果的准确性和有效性。
58.在一些实施例中,语音特征包括语音特征曲线和语音特征参数;在本实施例中,如图4所示,步骤120,包括:步骤410,根据所述相同音节所对应第一语音段的语音特征曲线和所对应第二语音段的语音特征曲线,确定特征曲线相似度。
59.语音特征曲线可以是上文的共振峰走势、基频轨迹、lpc频谱等中的一项或者多项。根据每种语音特征曲线,计算相同音节所对应第一语音段的语音特征曲线和所对应第二语音段的语音特征曲线之间的特征曲线相似度。
60.可以理解的是,当语音特征曲线为多种的情况下,则所计算的特征曲线相似度也为多个。
61.步骤420,根据所述相同音节所对应第一语音段的语音特征参数和所对应第二语音段的语音特征参数,确定特征参数偏差。
62.语音特征参数可以是上文所列举共振峰的中心频率、带宽和强度等,在此不进行具体限定。
63.特征参数偏差可以是对于每一种语音特征参数,将相同音节所对应第一语音段的语音特征参数与该相同音节所对应第二语音段的语音特征参数相减,得到对应的特征参数偏差。
64.可以理解的是,当语音特征参数包括多个的情况下,所计算得到的特征参数偏差也对应为多个。
65.步骤430,根据所述特征曲线相似度和所述特征参数偏差,确定所述相同音节所对应第一语音段和所对应所述第二语音段之间的声纹相似度。
66.在一些实施例中可以将特征曲线相似度与特征参数偏差进行加权计算,将加权计
算结果作为相同音节所对应第一语音段和所对应所述第二语音段之间的声纹相似度。其中,对应于每一特征曲线相似度、每一特征参数偏差的加权权重可以根据实际需要设定,在此不进行具体限定。
67.通过如上的过程,结合语音段的语音特征曲线和语音参数来综合计算相同音节所对应第一语音段和所对应所述第二语音段之间的声纹相似度,结合多个维度下的语音特征来计算声纹相似度,可以保证所计算得到声纹相似度的准确性。
68.在一些实施例中,基于所提取相同音节所对应第一语音段的分段语谱图,和所对应第二语音段的分段语谱图,还可以在显示界面中,分别显示相同音节所对应第一语音段的分段语谱图,和所对应第二语音段的分段语谱图,从而,便于用户基于所显示相同音节的分段语谱图来直观观察相同音节在对比语音和样本语音中的相似性。
69.图5a是根据一实施例示出的“哪位”这一词在两语音中分段语谱图。图5a左侧示出了“哪位”这一词在音频1中的分段语谱图;图5a右侧示出了“哪位”这一词在音频2中的分段语谱图。
70.图5b是根据一实施例示出的“是”字在两语音中的分段语谱图。图5b左侧示出了“是”字在音频1中的分段语谱图;图5b右侧示出了“是”字在音频2中的分段语谱图。
71.图5c是根据一实施例示出的“e4”音素在两语音中的分段语谱图。图5c左侧示出了“这样”中的“e4”这一音素在音频1中的分段语谱图;图5c右侧示出了“这个”中的“e4”这一因素在音频2中的分段语谱图。
72.在一些实施例中,如图6所示,步骤120,包括:步骤610,根据所述相同音节所对应第一语音段的语音特征,确定所述相同音节所对应第一语音段的第一语音特征向量。
73.步骤620,根据所述相同音节所对应第二语音段的语音特征,确定所述相同音节所对应第二语音段的第二语音特征向量。
74.在本实施例中,将相同音节所对应第一语音段的语音特征以及相同音节所对应第二语音段的语音特征分别进行向量化,对应得到该相同音节所对应第一语音段的第一语音特征向量和该相同音节所对应第二语音段的第二语音特征向量。
75.步骤630,根据所述相同音节所对应第一语音段的第一语音特征向量和所对应第二语音段的第二语音特征向量,计算得到所述相同音节所对应第一语音段和所对应所述第二语音段之间的声纹相似度。
76.在一些实施例中,可以是计算第一语音特征向量与第二语音特征向量之间的距离,根据所计算得到的距离确定相同音节所对应第一语音段和所对应所述第二语音段之间的声纹相似度。其中,距离可以是欧式距离等,在此不进行具体限定。可以理解的是,所计算得到的距离越大,相同音节所对应第一语音段和所对应所述第二语音段之间的声纹相似度越小。
77.在一些实施例中,可以是计算第一语音特征向量与第二语音特征向量之间的相似度,将该相似度作为相同音节所对应第一语音段和所对应所述第二语音段之间的声纹相似度。所计算的相似度例如余弦相似度、相对熵、jaccard相似系数等,在此不进行具体限定。
78.在本实施例中,将相同音节所对应第一语音段的语音特征以及所对应第二语音段的语音特征进行向量化,简化了声纹相似度的计算。
79.在一些实施例中,如图7所示,步骤120,包括:步骤121,按照音节由长到短的顺序从所述多个相同音节中选取一个相同音节作为候选相同音节。
80.如上所描述,词类型的音节的长度大于字类型的音节的长度,字类型的音节的长度大于音素类型的音节的长度,而音节的长度越长,所对应音频段的时长越长,对应的,所表达的语音特征越多。从而,在实施例的方案中,按照音节从长到短的顺序来从多个相同音节中选取候选相同音节,来进行声纹相似度计算,由于所表达的语音特征较多,因此,可以保证所计算得到的声纹相似度的准确性。
81.步骤122,计算所述候选相同音节所对应第一语音段和所对应所述第二语音段之间的声纹相似度。 具体声纹相似度的计算过程参见上文描述,在此不再赘述。
82.在本实施例中,所述步骤130,包括:步骤131,若所述候选相同音节所对应第一语音段和所对应所述第二语音段之间的声纹相似度超过相似度阈值,则进行数量累计。反之,若候选相同音节所对应第一语音段和所对应所述第二语音段之间的声纹相似度超过相似度阈值,则不进行数量累计,以统计声纹相似度超过相似度阈值的相同音节的数量。
83.该相似度阈值可以根据需要进行设定,例如95%、96%、98%等,在此不进行具体限定。
84.步骤132,判断累计数量是否达到目标数量。若达到目标数量,则执行步骤133,确定所述同一性检验结果为指示所述对比语音和所述样本语音是来自同一人的检验结果。若未达到目标数量,则返回至步骤121,以继续选取候选相同音节来计算声纹相似度。
85.在一些实施例中,若步骤132中确定累计数量达到目标数量,则后续可以不用再从多个相同音节中选取候选相同音节进行声纹相似度计算。
86.在一些实施例中,同一性检验结果可以包括指示所述对比语音和所述样本语音是来自同一人的检验结果(为便于描述,称为第一检验结果),和指示所述对比语音和所述样本语音不是来自同一人的检验结果(为便于描述,称为第二检验结果)。从而,若按照上述过程,基于全部相同音节进行声纹相似度计算所统计的累计数量未达到目标数量,则确定同一性检验结果为第二检验结果。
87.在一些实施例中,同一性检验结果还可以包括除上述第一检验结果和第二检验结果外的更多种检验结果,针对每一种同一性检验结果,可以对应设定数量范围,从而,当基于全部相同音节进行声纹相似度计算所统计的累计数量,将该累计数量所在的数量范围所对应的同一性检验结果,作为该对比语音与样本语音的同一性检验结果。
88.举例来说,若同一性检验结果包括第一检验结果,第二检验结果、第三检验结果、第四检验结果、第五检验结果,其中,第三检验结果指示对比语音与样本语音来自同一人的概率较高,第四检验结果指示对比语音与样本语音来自同一人的概率较低;第五检验结果指示无法确定对比语音与样本语音是否来自同一人;可以设定第一检验结果对应第一数量范围,第三检验结果对应第二数量范围;第五检验结果对应第三数量范围;第四检验结果对应第四数量范围;第二检验结果对应第五数量范围,从而,若确定最后所得到累计数量位于第五数量范围,则确定对比语音与样本语音的同一性检验结果为第二检验结果。可以理解的是,第一数量范围中的数量>第二数量范围中的数量>第三数量范围中的数量>第四数
量范围中的数量>第五数量范围中的数量。
89.在另一些实施例中,如图8所示,步骤130,包括:步骤810,根据每一所述相同音节所对应第一语音段和所对应所述第二语音段之间的声纹相似度,确定所对应声纹相似度超过相似度阈值的目标相同音节。
90.目标相同音节是指所对应声纹相似度超过相似度阈值的相同音节。
91.步骤820,根据所述目标相同音节的数量,确定所述对比语音和所述样本语音的同一性检验结果。
92.在一些实施例中,可以在计算全部相同音节所对应第一语音段和所对应所述第二语音段之间的声纹相似度后,来对应确定目标相同音节,并统计目标相同音节的数量。
93.在一些实施例中,可以针对每一种同一性检验结果设定数量范围,从而,在确定目标相同音节的数量后,将目标相同音节的数量所属的数量范围对应的同一性检验结果,作为对比语音和所述样本语音的同一性检验结果。
94.在另一些实施例中,如图9所示,步骤130,包括:步骤910,根据每一所述相同音节所对应第一语音段和所对应所述第二语音段之间的声纹相似度,确定所对应声纹相似度超过相似度阈值的目标相同音节。
95.步骤920,根据目标相同音节所属的音节类型,统计归属于每一音节类型的目标相同音节的数量。
96.步骤930,根据每一音节类型对应的第一权重,和归属于每一音节类型的目标相同音节的数量,计算所述对比语音和所述样本语音来自同一人的概率。
97.在一些实施例中,可以根据每一音节类型对应的第一权重,和归属于每一音节类型的目标相同音节的数量,进行加权计算,将加权计算结果作为所述对比语音和所述样本语音来自同一人的概率。
98.举例来说,若词类型对应的第一权重为a1,字类型对应的第一权重为a2,音素类型对应的第一权重为a3,统计确定归属于词类型的目标相同音节的数量为b1,归属于字类型的目标相同音节的数量为b2;归属于音素类型的目标相同音节的数量为b3,则可以将a1*b1+a2*b2+a3*b3的结果作为所述对比语音和所述样本语音来自同一人的概率。当然,以上仅仅是示例性举例,不能认为是对本技术使用范围的限制。
99.在本实施例中,第一权重用于反映所对应音节类型的相同音节对同一性检验结果的贡献程度,如上所描述,由于词类型的音节表达的特征更多,因此,词类型对应的第一权重>字类型对应的第一权重>音节类型对应的第一权重。
100.步骤940,根据所述对比语音和所述样本语音来自同一人的概率,确定所述对比语音和所述样本语音的同一性检验结果。
101.在一些实施例中,可以针对每一种同一性检验结果设定概率范围(为便于区分,称为第一概率范围),从而,基于所确定对比语音和所述样本语音来自同一人的概率,将所确定概率所位于的第一概率范围对应的同一性检验结果作为所述对比语音和所述样本语音的同一性检验结果。
102.在本实施例中,结合每一音节类型对应的第一权重和归属于每一音节类型的目标相同音节的数量,来计算所述对比语音和所述样本语音来自同一人的概率,因此,综合考虑了不同音节类型的音节对同一性检验结果的贡献程度和不同音节类型的目标相同音节的
数量,来确定所述对比语音和所述样本语音来自同一人的概率,保证了所确定对比语音和所述样本语音来自同一人的概率的合理性和准确性,进而保证基于该概率所确定对比语音和所述样本语音的同一性检验结果的准确性。
103.在另一些实施例中,步骤110,包括:将对比语音的语音识别结果和样本语音的语音识别结果在至少两种粒度下进行音节匹配,确定在每一种粒度下所述对比语音相对于所述样本语音的相同音节,其中,所述粒度包括词粒度、字粒度和音素粒度。在每一种粒度下,可以对应确定该种粒度所对应音节类型的相同音节。具体的,若是词粒度下进行音节匹配,所确定的相同音节均为词;若是在字粒度下进行音节匹配,则所确定的相同音节均为字;若是在音素粒度下进行音节匹配,则所确定的相同音节均为音素。
104.在本实施例中,由于在至少两种粒度下进行音节匹配,从而,所得到的音节匹配结果包括对应于至少两种粒度下中每一种粒度的音节匹配结果。
105.在本实施例中,如图10所示,步骤130,包括:步骤1010,基于在每一种粒度下的相同音节,统计所对应声纹相似度超过相似度阈值的目标相同音节的数量。
106.步骤1020,根据在每一种粒度下所对应声纹相似度超过相似度阈值的目标相同音节的数量,计算在每一种粒度下所述对比语音和所述样本语音来自同一人的参考概率。
107.在一些实施例中,可以预先设定每种粒度下目标相同音节的数量与参考概率之间的映射关系,从而,在确定每一粒度下目标相同音节的数量后,将该粒度下目标相同音节的数量所映射的参考概率作为该种粒度下对比语音和所述样本语音来自同一人的参考概率。
108.在不同粒度下,所设定目标相同音节的数量与参考概率之间的映射关系可以相同也可以不同,具体可根据实际需要进行设定。
109.步骤1030,根据所述在每一种粒度下所述对比语音和所述样本语音来自同一人的参考概率,和每一种粒度对应的第二权重,确定对比语音和所述样本语音来自同一人的目标概率。
110.在一些实施例中,可以根据每一种粒度对应的第二权重,将至少两种粒度下的参考概率进行加权计算,将加权计算结果作为对比语音和所述样本语音来自同一人的目标概率。
111.举例来说,若至少两种粒度包括词粒度和音素粒度,词粒度对应的第二权重为c1,音素粒度对应的第二权重为c2,在词粒度下的参考概率为p1,音素粒度下的参考概率为p2,则目标概率可以为:c1*p1+c2*p2。值得一提的是,以上仅仅是示例性举例,不能认为是对本技术使用范围的限制。
112.步骤1040,根据所述对比语音和所述样本语音来自同一人的目标概率,确定所述对比语音和所述样本语音的同一性检验结果。
113.在一些实施例中,可以设定每种同一性检验结果对应的概率范围(为便于区分,称为第二概率范围),从而,在确定目标概率后,将该目标概率所位于的第二概率范围对应的同一性检验结果作为对比语音和所述样本语音的同一性检验结果。
114.在本实施例中,结合每种粒度对应的第二权重和在每种粒度下所计算得到的参考概率来计算目标概率,综合考虑了不同粒度下的音节匹配结果对同一性检验结果的贡献程度和不同粒度下的目标相同音节的数量,来确定所述对比语音和所述样本语音来自同一人
的目标概率,保证了所确定对比语音和所述样本语音来自同一人的概率的合理性和准确性,进而保证基于该概率所确定对比语音和所述样本语音的同一性检验结果的准确性。
115.以下介绍本技术的装置实施例,可以用于执行本技术上述实施例中的方法。对于本技术装置实施例中未披露的细节,请参照本技术上述方法实施例。
116.图11是根据一实施例示出的语音同一性的检验装置的框图,如图11所示,该语音同一性的检验装置,包括:音节匹配模块1110,用于将对比语音的语音识别结果和样本语音的语音识别结果进行音节匹配,确定所述对比语音相对于所述样本语音的多个相同音节;所述多个相同音节包括至少两种音节类型的音节,所述音节类型包括词类型、字类型和音素类型;声纹相似度计算模块1120,用于根据所述相同音节所对应第一语音段的语音特征和所对应第二语音段的语音特征,计算所述相同音节所对应第一语音段和所对应第二语音段之间的声纹相似度;所述第一语音段是所述相同音节在所述对比语音中对应的语音段;所述第二语音段是所述相同音节在所述样本语音中对应的语音段;同一性检验结果确定模块1130,用于根据所述相同音节所对应第一语音段和所对应所述第二语音段之间的声纹相似度,确定所述对比语音和所述样本语音的同一性检验结果。
117.在一些实施例中,语音同一性的检验装置,还包括:第一语音特征获取模块,用于获取所述相同音节所对应第一语音段的语音特征;第二语音特征获取模块,用于获取所述相同音节所对应第二语音段的语音特征。
118.在一些实施例中,所述对比语音的语音识别结果指示了所述对比语音中所包括每一音节在所述对比语音中的时间位置信息;在本实施例中,第一语音特征获取模块,包括:片段提取单元,用于根据所述相同音节在所述对比语音中的时间位置信息,在所述对比语音中进行片段提取,得到所述相同音节所对应的第一语音段;第一提取单元,用于对所述第一语音段进行语音特征提取,得到所述第一语音段的语音特征。
119.在另一些实施例中,所述对比语音的语音识别结果指示了所述对比语音中所包括每一音节在所述对比语音中的时间位置信息;在本实施例中,第一语音特征获取模块,包括:分段语谱图确定单元,用于根据所述相同音节在所述对比语音中的时间位置信息,在所述对比语音的语谱图中确定所述第一语音段对应的分段语谱图;语音特征获取单元,用于从所述第一语音段对应的分段语谱图中获取所述第一语音段的语音特征。
120.在一些实施例中,语音特征包括语音特征曲线和语音特征参数;声纹相似度计算模块1120,包括:特征曲线相似度确定单元,用于根据所述相同音节所对应第一语音段的语音特征曲线和所对应第二语音段的语音特征曲线,确定特征曲线相似度;特征参数偏差计算单元,用于根据所述相同音节所对应第一语音段的语音特征参数和所对应第二语音段的语音特征参数,确定特征参数偏差;第一声纹相似度确定单元,用于根据所述特征曲线相似度和所述特征参数偏差,确定所述相同音节所对应第一语音段和所对应所述第二语音段之间的声纹相似度。
121.在另一些实施例中,所述语音特征包括至少两个语音特征参数;声纹相似度计算模块1120,包括:第一语音特征向量确定单元,用于根据所述相同音节所对应第一语音段的语音特征,确定所述相同音节所对应第一语音段的第一语音特征向量;第二语音特征向量确定单元,用于根据所述相同音节所对应第二语音段的语音特征,确定所述相同音节所对应第二语音段的第二语音特征向量;第二声纹相似度确定单元,用于根据所述相同音节所
对应第一语音段的第一语音特征向量和所对应第二语音段的第二语音特征向量,计算得到所述相同音节所对应第一语音段和所对应所述第二语音段之间的声纹相似度。
122.在一些实施例中,声纹相似度计算模块1120,包括:候选相同音节选取单元,用于按照音节由长到短的顺序从所述多个相同音节中选取一个相同音节作为候选相同音节;计算单元,用于计算所述候选相同音节所对应第一语音段和所对应所述第二语音段之间的声纹相似度;在本实施例中,同一性检验结果确定模块1130,包括:数量累计单元,用于若所述候选相同音节所对应第一语音段和所对应所述第二语音段之间的声纹相似度超过相似度阈值,则进行数量累计;判断单元,用于判断累计数量是否达到目标数量;第一结果确定单元,用于若达到目标数量,则确定所述同一性检验结果为指示所述对比语音和所述样本语音是来自同一人的检验结果;若未达到目标数量,则返回至执行所述按照音节由长到短的顺序从所述多个相同音节中选取一个相同音节作为候选相同音节的步骤。
123.在一些实施例中,同一性检验结果确定模块1130,包括:目标相同音节确定单元,用于根据每一所述相同音节所对应第一语音段和所对应所述第二语音段之间的声纹相似度,确定所对应声纹相似度超过相似度阈值的目标相同音节;第二结果确定单元,用于根据所述目标相同音节的数量,确定所述对比语音和所述样本语音的同一性检验结果。
124.在另一些实施例中,同一性检验结果确定模块1130,包括:目标相同音节确定单元,用于根据每一所述相同音节所对应第一语音段和所对应所述第二语音段之间的声纹相似度,确定所对应声纹相似度超过相似度阈值的目标相同音节;第一数量确定单元,用于根据目标相同音节所属的音节类型,统计归属于每一音节类型的目标相同音节的数量;概率计算单元,用于根据每一音节类型对应的第一权重,和归属于每一音节类型的目标相同音节的数量,计算所述对比语音和所述样本语音来自同一人的概率;第三结果确定单元,用于根据所述对比语音和所述样本语音来自同一人的概率,确定所述对比语音和所述样本语音的同一性检验结果。
125.在一些实施例中,音节匹配模块1110进一步被配置为:将对比语音的语音识别结果和样本语音的语音识别结果在至少两种粒度下进行音节匹配,确定在每一种粒度下所述对比语音相对于所述样本语音的相同音节,其中,所述粒度包括词粒度、字粒度和音素粒度;在本实施例中,同一性检验结果确定模块1130,包括:第一数量确定单元,用于基于在每一种粒度下的相同音节,统计所对应声纹相似度超过相似度阈值的目标相同音节的数量;参考概率计算单元,用于根据在每一种粒度下所对应声纹相似度超过相似度阈值的目标相同音节的数量,计算在每一种粒度下所述对比语音和所述样本语音来自同一人的参考概率;目标概率计算单元,用于根据所述在每一种粒度下所述对比语音和所述样本语音来自同一人的参考概率,和每一种粒度对应的第二权重,确定对比语音和所述样本语音来自同一人的目标概率;第四结果确定单元,用于根据所述对比语音和所述样本语音来自同一人的目标概率,确定所述对比语音和所述样本语音的同一性检验结果。
126.图12示出了适于用来实现本技术实施例的电子设备的计算机系统的结构示意图。需要说明的是,图12示出的电子设备的计算机系统1200仅是一个示例,不应对本技术实施例的功能和使用范围带来任何限制。
127.如图12所示,计算机系统1200包括中央处理单元(central processing unit,cpu)1201,其可以根据存储在只读存储器(read-only memory,rom)1202中的程序或者从存
储部分1208加载到随机访问存储器(random access memory,ram)1203中的程序而执行各种适当的动作和处理,例如执行上述实施例中的方法。在ram 1203中,还存储有系统操作所需的各种程序和数据。cpu1201、rom1202以及ram 1203通过总线1204彼此相连。输入/输出(input/output,i/o)接口1205也连接至总线1204。
128.以下部件连接至i/o接口1205:包括键盘、鼠标等的输入部分1206;包括诸如阴极射线管(cathode ray tube,crt)、液晶显示器(liquid crystal display,lcd)等以及扬声器等的输出部分1207;包括硬盘等的存储部分1208;以及包括诸如lan(local area network,局域网)卡、调制解调器等的网络接口卡的通信部分1209。通信部分1209经由诸如因特网的网络执行通信处理。驱动器1210也根据需要连接至i/o接口1205。可拆卸介质1211,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1210上,以便于从其上读出的计算机程序根据需要被安装入存储部分1208。
129.特别地,根据本技术的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本技术的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1209从网络上被下载和安装,和/或从可拆卸介质1211被安装。在该计算机程序被中央处理单元(cpu)1201执行时,执行本技术的系统中限定的各种功能。
130.需要说明的是,本技术实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(erasable programmable read only memory,eprom)、闪存、光纤、便携式紧凑磁盘只读存储器(compact disc read-only memory,cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本技术中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本技术中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
131.附图中的流程图和框图,图示了按照本技术各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意
的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
132.描述于本技术实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
133.作为另一方面,本技术还提供了一种计算机可读存储介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读存储介质承载计算机可读指令,当该计算机可读存储指令被处理器执行时,实现上述任一实施例中的方法。
134.根据本技术的一个方面,还提供了一种电子设备,其包括:处理器;存储器,存储器上存储有计算机可读指令,计算机可读指令被处理器执行时,实现上述任一实施例中的方法。
135.根据本技术实施例的一个方面,提供了计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述任一实施例中的方法。
136.应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本技术的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
137.通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本技术实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd-rom,u盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本技术实施方式的方法。
138.本领域技术人员在考虑说明书及实践这里公开的实施方式后,将容易想到本技术的其它实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本技术未公开的本技术领域中的公知常识或惯用技术手段。
139.应当理解的是,本技术并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本技术的范围仅由所附的权利要求来限制。