首页 > 乐器声学 专利正文
说话人分割聚类方法、装置、设备及存储介质与流程

时间:2022-02-13 阅读: 作者:专利查询

说话人分割聚类方法、装置、设备及存储介质与流程

1.本发明涉及但不限于人工智能技术领域,尤其涉及一种说话人分割聚类方法、装置、设备及存储介质。


背景技术:

2.说话人分割聚类(speaker diarization),是按照说话人的身份,将不同说话人的声音区分开来的技术,解决了“谁在什么时候说了话”的问题。
3.目前,在分割的过程中,会按固定的单一分割时长对音频流进行分割,或者按可变的分割时长对音频流进行分割,得到多个语音段,在聚类的过程中会根据相似性结果预测说话人标签,语音段的长度很大程度上决定了聚类结果的好坏;若语音段的长度过短,语音段包含的说话人特征信息较少,提取出的说话人特征的可信度较低;若语音段的长度过长,一个语音段内很有可能包含了多个说话人的语音,降低说话人标签预测的准确率;因此,无法既保证说话人特征的可信度,又保证说话人标签预测的准确率,导致聚类结果较差。


技术实现要素:

4.以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
5.本发明实施例提供了一种说话人分割聚类方法、装置、存储介质,既保证说话人特征的可信度,又保证说话人标签预测的准确率,能够使得聚类结果较好。
6.第一方面,本发明实施例提供了一种说话人分割聚类方法,包括:获取音频流,其中,所述音频流中的语音帧包含来自至少一个说话人的语音;将所述音频流输入至少两个语音分割模型中,分别得到语音集合,其中,所述语音分割模型被配置为按固定的分割时长进行语音分割,任意两个所述语音分割模型的分割时长不同;对所述语音集合进行归类处理,得到多组相近语音集合;对所述相近语音集合进行相似性得分处理,得到相似性得分矩阵;根据所述相似性得分矩阵,对所述语音集合进行聚类处理,得到语音簇;根据所述语音簇,建立说话人分类模型;根据所述说话人分类模型,将所述音频流中的语音帧与所述说话人对准。
7.在一些实施例中,所述将所述音频流输入至少两个语音分割模型中,分别得到语音集合的步骤之后,还包括:根据每个所述语音分割模型的分割时长,分别对每个所述语音分割模型的分割起点进行相应的时移;将所述音频流输入每个所述时移后的语音分割模型中,分别得到辅助语音集合,其中,所述辅助语音集合与所述语音集合一一对应;将所述辅助语音集合与对应的所述语音集合进行合并处理,更新所述语音集合。
8.在一些实施例中,所述语音分割模型的分割起点的时移长度为对应的所述语音分割模型的分割时长的一半。
9.在一些实施例中,每个所述语音集合至少包含两个语音段;所述对所述语音集合进行归类处理,得到多组相近语音集合,包括:取所述语音分割模型中分割时长最短的语音
分割模型得到的语音集合作为基准语音集合;依次计算所述基准语音集合的每个语音段与所有所述语音集合的每个语音段之间的基准长度中心距离;对于所述基准语音集合的任意一个语音段,取每一个所述语音集合中基准长度中心距离最小的语音段组成相近语音集合。
10.在一些实施例中,所述对所述相近语音集合进行相似性得分处理,得到相似性得分矩阵,包括:对任意两个所述相近语音集合进行特征提取,分别得到第一特征向量集合和第二特征向量集合;将所述第一特征向量集合和所述第二特征向量集合输入得分计算模型,得到相似性得分;对所述第一特征向量集合和所述第二特征向量集合进行相似性计算,得到相似度矩阵;根据相似性得分和所述相似度矩阵,得到相似性得分矩阵。
11.在一些实施例中,所述得分计算模型的训练过程如下:获取训练音频流和说话人标签,其中,所述训练音频流中的语音帧包含来自至少一个说话人的语音,所述说话人标签用于表征所述训练音频流中的语音帧对准的说话人;将所述训练音频流输入至少两个所述语音分割模型中,分别得到语音训练集合;对所述语音训练集合进行归类处理,得到多组相近语音训练集合;对任意两个所述相近语音训练集合进行特征提取,分别得到第一特征向量训练集合和第二特征向量训练集合;将所述第一特征向量训练集合和所述第二特征向量训练集合输入所述得分计算模型,得到相似性训练得分;根据所述相似性训练得分、所述第一特征向量训练集合和所述第二特征向量训练集合,得到预测相似度;根据所述说话人标签,根据所述说话人标签、所述训练音频流、所述第一特征向量训练集合和所述第二特征向量训练集合,通过相似度计算,得到真实相似度;根据所述真实相似度和所述预测相似度,确定损失函数;根据所述损失函数,更新所述得分计算模型。
12.在一些实施例中,所述得分计算模型的第一输入为所述第一特征向量集合,所述得分计算模型的第二输入为所述第二特征向量集合,所述得分计算模型的输出为所述相似性得分,所述得分计算模型包括差值计算模块和得分计算模块,所述差值计算模块包括第一融合层、第二融合层、至少两个并联的第一前馈神经网络和至少两个并联的第二前馈神经网络,所述第一特征向量集合作为所述第一前馈神经网络的输入,所述得分计算模型的第二输入作为所述第二前馈神经网络的输入,所述第一前馈神经网络的输出作为所述第一融合层的输入,所述第二前馈神经网络的输出作为所述第二融合层的输入,所述第一融合层的输出和所述第二融合层的输出相减后作为所述差值计算模块的输出,所述差值计算模块的输出作为所述得分计算模块的输入,所述得分计算模块的输出作为所述得分计算模型的输出,所述第一融合层用于拼接所述第一前馈神经网络的输出,所述第二融合层用于拼接所述第二前馈神经网络的输出。
13.第二方面,本发明还提供了一种说话人分割聚类装置,包括:获取单元,用于获取音频流,其中,所述音频流中的语音帧包含来自至少一个说话人的语音;分割单元,用于将所述音频流输入至少两个语音分割模型中,分别得到语音集合,其中,所述语音分割模型被配置为按固定的分割时长进行语音分割,任意两个所述语音分割模型的分割时长不同;归类单元,用于对所述语音集合进行归类处理,得到多组相近语音集合;计算得分单元,用于对所述相近语音集合进行相似性得分处理,得到相似性得分矩阵;聚类单元,用于根据所述相似性得分矩阵,对所述语音集合进行聚类处理,得到语音簇;建模单元,用于根据所述语音簇,建立说话人分类模型;对准单元,用于根据所述说话人分类模型,将所述音频流中的
语音帧与所述说话人对准。
14.第三方面,本发明实施例还提供了一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的说话人分割聚类方法。
15.第四方面,本发明实施例还提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行如第一方面所述的说话人分割聚类方法。
16.本发明实施例包括:获取音频流,其中,所述音频流中的语音帧包含来自至少一个说话人的语音;将所述音频流输入至少两个语音分割模型中,分别得到语音集合,其中,所述语音分割模型被配置为按固定的分割时长进行语音分割,任意两个所述语音分割模型的分割时长不同;对所述语音集合进行归类处理,得到多组相近语音集合;对所述相近语音集合进行相似性得分处理,得到相似性得分矩阵;根据所述相似性得分矩阵,对所述语音集合进行聚类处理,得到语音簇;根据所述语音簇,建立说话人分类模型;根据所述说话人分类模型,将所述音频流中的语音帧与所述说话人对准。根据本发明实施例提供的方案,利用不同固定的分割时长进行分割,分别得到语音集合,再通过归类处理得到相近语音集合,然后对相近语音集合进行相似性得分处理得到相似性得分矩阵,实现了既保证说话人特征的可信度,又保证说话人标签预测的准确率,使得聚类结果较好。
17.本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
18.附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
19.图1是本发明一个实施例提供的说话人分割聚类方法的流程图;
20.图2是图1中步骤s120之后的具体方法流程图;
21.图3是图2中步骤s230的更新后的语音集合的时间分布图;
22.图4是图1中步骤s130的具体方法流程图;
23.图5是图1中步骤s140的具体方法流程图;
24.图6是图5中步骤s520的得分计算模型的结构图;
25.图7是图5中步骤s520的得分计算模型的训练过程的流程图;
26.图8是图7中步骤s710的训练音频流中所有说话人的语音的时间分布图;
27.图9是本发明另一个实施例提供的说话人分割聚类装置的结构图;
28.图10是本发明另一个实施例提供的电子设备的结构图。
具体实施方式
29.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
30.需要说明的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻
辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书、权利要求书或上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
31.本发明提供了一种说话人分割聚类方法、装置、设备及存储介质,该方法包括:获取音频流,其中,音频流中的语音帧包含来自至少一个说话人的语音;将音频流输入至少两个语音分割模型中,分别得到语音集合,其中,语音分割模型被配置为按固定的分割时长进行语音分割,任意两个语音分割模型的分割时长不同;对语音集合进行归类处理,得到多组相近语音集合;对相近语音集合进行相似性得分处理,得到相似性得分矩阵;根据相似性得分矩阵,对语音集合进行聚类处理,得到语音簇;根据语音簇,建立说话人分类模型;根据说话人分类模型,将音频流中的语音帧与说话人对准。根据本发明实施例提供的方案,利用不同固定的分割时长进行分割,分别得到语音集合,再通过归类处理得到相近语音集合,然后对相近语音集合进行相似性得分处理得到相似性得分矩阵,实现了既保证说话人特征的可信度,又保证说话人标签预测的准确率,使得聚类结果较好。
32.本技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。
33.人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。随着人工智能技术研究和进步,人工智能在多个领域展开研究和应用,例如常见的智能家居、智能客服、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、机器人、智能医疗等,相信随着技术的发展,人工智能将在更多的领域得到应用,并发挥越来越重要的价值。
34.机器学习(machine learning,ml)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
35.机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。
36.需要说明的是,本发明实施例中的说话人分割聚类方法适用于多人对话的语音场景,可以应用到很多和语音相关的产品应用中,例如媒体采访系统、智能客服系统、多人会议系统、智慧法庭系统、智能教育系统等,该说话人分割聚类方法能够按照说话人的身份,将不同说话人的声音区分开来,解决了“谁在什么时候说了话”的问题。
37.首先,对本发明中涉及的若干名词进行解析:
38.聚类(clustering)是按照某个特定标准把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽
可能地大。也即聚类后同一类的数据尽可能聚集到一起,不同类数据尽量分离。
39.隐含狄利克雷分布(latent dirichlet allocation,lda)是一种主题模型,它可以将文档集中每篇文档的主题按照概率分布的形式给出。同时它是一种无监督学习算法,在训练时不需要手工标注的训练集,需要的仅仅是文档集以及指定主题的数量k即可。
40.概率形式的lda算法(probabilistic linear discriminant analysis,plda)是一种信道补偿算法,用于对说话人特征进行两两打分,得分越高,相似度越高,越可能是同一个人的语音。
41.凝聚层次聚类方法(agglomerative hierarchical clustering,ahc)是通过计算两类数据点间的相似性,对所有数据点中最为相似的两个数据点进行组合,并反复迭代这一过程。
42.梅尔频率倒谱系数(mel

frequency cepstral coefficients,mfcc)是一组用来创建梅尔倒频谱的关键系数,是需要语音特征参数提取方法之一。
43.多层感知器(multilayer perceptron,mlp)是一种前馈人工神经网络模型,其将输入的多个数据集映射到单一的输出的数据集上。
44.均方误差(mean

square error,mse)是反映估计量与被估计量之间差异程度的一种度量。设t是根据子样确定的总体参数θ的一个估计量,(θ

t)2的数学期望称为估计量t的均方误差,它等于σ2+b2,其中σ2与b分别是估计量t的方差与偏倚。
45.归一化指数函数,或称softmax函数,是逻辑函数的一种推广。它能将一个含任意实数的k维向量z“压缩”到另一个k维实向量σ(z)中,使得每一个元素的范围都在(0,1)之间,并且所有元素的和为1。该函数多于多分类问题中。
46.下面结合附图,对本发明实施例作进一步阐述。
47.如图1所示,图1是本发明一个实施例提供的一种说话人分割聚类方法的流程图,在该方法中,包括但不限于有以下步骤:
48.步骤s110,获取音频流,其中,音频流中的语音帧包含来自至少一个说话人的语音;
49.需要说明的是,麦克风能够将声信号转换成电信号,通过麦克风获取待处理语音后,获取待处理语音,然后将待处理语音输入语音检测模型,对语音检测模型的所有输出依次进行拼接,得到音频流;其中,语音检测模型能够对待处理语音进行语音检测,将待处理语音逐帧分为有人说话语音和无人说话语音两个类别,无人说话语音包括但不限于纯静音、环境噪音、音乐和音效;音频流属于有人说话语音,因此,音频流中的语音帧包含来自至少一个说话人的语音。
50.步骤s120,将音频流输入至少两个语音分割模型中,分别得到语音集合,其中,语音分割模型被配置为按固定的分割时长进行语音分割,任意两个语音分割模型的分割时长不同;
51.可以理解的是,所有的语音分割模型都是按固定的分割时长进行语音分割,而且,不同的语音分割模型的分割时长不同,将语音集合按对应的语音分割模型的分割时长的长短进行排序,为后续计算语音集合的每个元素的得分做准备。
52.需要说明的是,语音分割模型的分割时长的可选范围为0.5s至2s。
53.步骤s130,对语音集合进行归类处理,得到多组相近语音集合;
54.可以理解的是,归类处理是指对语音集合的元素进行归类,先取其中一个语音集合,然后依次将语音集合中的元素作为基准元素,判断另一个语音集合的元素与基准元素的接近程度,将另一个语音集合中接近程度最高的元素与基准元素归为同一类,从而得到多组相近语音集合,因此,一个相近语音集合的元素个数是语音集合的个数,一个相近语音集合的元素分别取自不同的语音集合。
55.值得注意的是,在归类处理过程中,先取其中一个语音集合,然后依次将语音集合中的元素作为基准元素,判断另一个语音集合的元素与基准元素的接近程度,当接近程度最高的元素有两个时,由于这两个元素的出现的时间有先后之分,取时间在前的元素作为最接近的元素,能够保证相近语音集合的唯一性。
56.步骤s140,对相近语音集合进行相似性得分处理,得到相似性得分矩阵;
57.需要说明的是,相似性得分处理是指根据语音分割效果进行得分计算,能够提高语音分割的效果,既保证说话人特征的可信度,又保证说话人标签预测的准确率;不同的语音集合是由不同分割时长的语音分割模型输出的,不同语音集合的语音分割效果会有差异,同一语音集合内不同元素的语音分割效果也会有差异;每个相近语音集合包含每个语音集合的一个元素,对相近语音集合进行相似性得分处理,相当于计算出语音集合内相应元素的得分;在相似性得分处理中,语音分割效果越好的相近语音集合,得分就越高;语音分割效果越差的相近语音集合,得分就越低。
58.可以理解的是,相似性得分矩阵是由语音集合内相应元素的得分得到的,可用在后续的聚类过程中,相对于不计算语音集合内相应元素的得分直接进行聚类,采用相似性得分矩阵进行聚类,聚类结果较好。
59.步骤s150,根据相似性得分矩阵,对语音集合进行聚类处理,得到语音簇;
60.可以理解的是,相似性得分矩阵由音频流中每个语音段对应的说话人特征得出,利用相似性得分矩阵进行聚类,聚类结果较好。
61.在具体实践中,在聚类处理中,结合相似性得分矩阵和plda,对音频流分割的语音段进行两两打分,再利用ahc将相似度高的类别进行合并,可以得到语音簇,同一说话人的语音在一个语音簇内,不同说话人的语音在不同的语音簇内。
62.步骤s160,根据语音簇,建立说话人分类模型;
63.可以理解的是,不同的语音簇能够表征不同的说话人,利用语音簇建立说话人分类模型,说话人分类模型能够区分出不同说话人的语音片段。
64.步骤s170,根据说话人分类模型,将音频流中的语音帧与说话人对准。
65.可以理解的是,利用说话人分类模型处理音频流,使得音频流中的语音帧与说话人对准,从而区分出音频流中不同说话人的语音片段。
66.另外,参照图2,在一实施例中,图1所示实施例中的步骤s120之后,还包括但不限于有以下步骤:
67.步骤s210,根据每个语音分割模型的分割时长,分别对每个语音分割模型的分割起点进行相应的时移;
68.可以理解的是,利用语音分割模型对音频流进行语音分割后,相邻两个语音段之间可能会存在联系,音频流分割处附近的语音有可能会具备较好的说话人特征信息,如果直接分割成两个语音段,就会破坏该说话人特征信息,影响后续的聚类结果;因此,根据每
个语音分割模型的分割时长,分别对每个语音分割模型的分割起点进行时移,能够保留分割处附近的语音,聚类结果较好。
69.步骤s220,将音频流输入每个时移后的语音分割模型中,分别得到辅助语音集合,其中,辅助语音集合与语音集合一一对应;
70.可以理解的是,对每个语音分割模型的分割起点进行时移,再利用每个时移后的语音分割模型进行新一轮的语音分割,分别得到辅助语音集合,使得辅助语音集合和对应的语音集合的元素有重合部分,能够保留分割处附近的语音,聚类结果较好。
71.步骤s230,将辅助语音集合与对应的语音集合进行合并处理,更新语音集合。
72.可以理解的是,辅助语音集合和语音集合都要用于后续的归类处理,合并处理后,能够提高运算效率。
73.另外,参照图3,在一实施例中,图3是图2中步骤s230的更新后的语音集合的时间分布图,语音分割模型的分割起点的时移长度为对应的语音分割模型的分割时长的一半。
74.可以理解的是,利用三个固定分割时长的语音分割模型分别对音频流进行第一轮语音分割,分别得到第一旧语音集合oc1、第二旧语音集合oc2和第三旧语音集合oc3,其中,第一个语音分割模型的分割时长为0.5s,第二个语音分割模型的分割时长为1s,第三个语音分割模型的分割时长为1.5s;然后,根据分割时长,对对应的语音分割模型的分割起点进行时移,第一个语音分割模型的分割起点时移0.25s,第二个语音分割模型的分割起点时移0.5s,第三个语音分割模型的分割起点时移1s;然后,利用时移后的语音分割模型分别对音频流进行第二轮语音分割,分别得到第一辅助语音集合sc1、第二辅助语音集合sc2和第三辅助语音集合sc3;最后,将辅助语音集合与对应的语音集合进行合并处理,更新语音集合,第一语音集合c1由第一旧语音集合oc1和第一辅助语音集合sc1合并得到,第二语音集合c2由第二旧语音集合oc2和第二辅助语音集合sc2合并得到,第三语音集合c3由第三旧语音集合oc3和第三辅助语音集合sc3合并得到。
75.另外,在一实施例中,每个语音集合至少包含两个语音段;
76.可以理解的是,利用语音分割模型对音频流进行语音分割,音频流至少有一个分割处,因此,得到的语音集合至少包含两个语音段。
77.另外,参照图4,在一实施例中,图1所示实施例中的步骤s130,还包括但不限于有以下步骤:
78.步骤s410,取语音分割模型中分割时长最短的语音分割模型得到的语音集合作为基准语音集合;
79.步骤s420,依次计算基准语音集合的每个语音段与所有语音集合的每个语音段之间的基准长度中心距离;
80.可以理解的是,长度中心距离为两个语音段的中心所在的时间之间的距离,基准长度中心距离就是指基准语音集合的语音段和语音集合的语音段的中心所在的时间之间的距离。
81.步骤s430,对于基准语音集合的任意一个语音段,取每一个语音集合中基准长度中心距离最小的语音段组成相近语音集合。
82.可以理解的是,一个相近语音集合由k个语音段组成,k为语音集合的个数,语音段和语音集合一一对应。
83.另外,参照图5,在一实施例中,图1所示实施例中的步骤s140,还包括但不限于有以下步骤:
84.步骤s510,对任意两个相近语音集合进行特征提取,分别得到第一特征向量集合和第二特征向量集合;
85.需要说明的是,特征提取的步骤如下:对一个相近语音集合的语音段进行声学特征提取,再进行特征向量提取,得到第一特征向量集合;然后对另一个相近语音集合的语音段进行声学特征提取,再进行特征向量提取,得到第二特征向量集合。
86.可以理解的是,声学特征提取的方法包括但不限于利用基于mfcc特征提取的方法,提取语音段的特征,因mfcc基于倒谱的提取方式,mfcc特征更加的符合人类的听觉原理,语音特征提取的效果更好,mfcc特征提取技术为本领域技术人员熟知的技术,在此不多作赘述。
87.值得注意的是,特征向量提取的过程是降维处理,第一特征向量集合和第二特征向量集合内的向量均为定长嵌入向量,定长嵌入向量能够有效表征语音的个性特征,第一特征向量集合和第二特征向量集合内的向量均为特征向量x

vector。
88.步骤s520,将第一特征向量集合和第二特征向量集合输入得分计算模型,得到相似性得分;
89.可以理解的是,得分计算模型是已经训练好的机器学习模型,能够有效计算第一特征向量集合和第二特征向量集合之间的相似性得分。
90.步骤s530,对第一特征向量集合和第二特征向量集合进行相似性计算,得到相似度矩阵;
91.可以理解的是,可通过计算第一特征向量集合和第二特征向量集合之间的余弦距离,得到相似度矩阵,相似性计算为本领域技术人员熟知的技术,在此不多作赘述。
92.步骤s540,根据相似性得分和相似度矩阵,得到相似性得分矩阵。
93.可以理解的是,相似性得分处理是指根据语音分割效果进行得分计算,利用相似性得分,对相似度矩阵进行打分,得到相似性得分矩阵,能够提高语音分割的效果,既保证说话人特征的可信度,又保证说话人标签预测的准确率,后续采用相似性得分矩阵进行聚类,聚类结果较好。
94.另外,参照图6,在一实施例中,图6是图5所示实施例中的步骤s520的得分计算模型的结构图,得分计算模型的第一输入为第一特征向量集合,得分计算模型的第二输入为第二特征向量集合,得分计算模型的输出为相似性得分,得分计算模型包括差值计算模块610和得分计算模块620,差值计算模块610包括第一融合层612、第二融合层614、至少两个并联的第一前馈神经网络611和至少两个并联的第二前馈神经网络613,第一特征向量集合作为第一前馈神经网络611的输入,得分计算模型的第二输入作为第二前馈神经网络613的输入,第一前馈神经网络611的输出作为第一融合层612的输入,第二前馈神经网络613的输出作为第二融合层614的输入,第一融合层612的输出和第二融合层614的输出相减后作为差值计算模块610的输出,差值计算模块610的输出作为得分计算模块620的输入,得分计算模块620的输出作为得分计算模型的输出,第一融合层612用于拼接第一前馈神经网络611的输出,第二融合层614用于拼接第二前馈神经网络613的输出。
95.可以理解的是,第一前馈神经网络611和第二前馈神经网络613的个数等于语音集
合的个数,每个第一前馈神经网络611处理第一特征向量集合的一个元素,每个第二前馈神经网络613处理第二特征向量集合的一个元素,能够同步进行,处理效率高;第一融合层612能够将所有第一前馈神经网络611的输出依次拼接,得到一个中间向量;第二融合层614能够将所有第二前馈神经网络613的输出依次拼接,得到另一个中间向量;差值计算模块610用于计算两个中间向量的差值;得分计算模块620能够根据两个中间向量的差值,计算出第一特征向量集合和第二特征向量集合之间的相似性得分。
96.在具体实践中,第一前馈神经网络611和第二前馈神经网络613采用mlp神经网络模型;得分计算模块620包括依次连接的全连接层和softmax函数。
97.另外,参照图7,在一实施例中,图7是图5所示实施例中的步骤s520的得分计算模型的训练过程如下:
98.步骤s710,获取训练音频流和说话人标签,其中,训练音频流中的语音帧包含来自至少一个说话人的语音,说话人标签用于表征训练音频流中的语音帧对准的说话人;
99.可以理解的是,聚类属于无监督学习,在获取训练音频流时,还需要获取训练音频流对应的说话人标签。
100.需要说明的是,训练音频流的说话人数量需要与待处理语音的说话人数量相同,保证得分计算模型的准确性。
101.步骤s720,将训练音频流输入至少两个语音分割模型中,分别得到语音训练集合;
102.可以理解的是,本步骤中提及的语音分割模型与上述步骤中提及的语音分割模型是相同的,在此不多作赘述。
103.步骤s730,对语音训练集合进行归类处理,得到多组相近语音训练集合;
104.可以理解的是,本步骤中提及的归类处理与上述步骤中提及的归类处理是相同的,在此不多作赘述。
105.步骤s740,对任意两个相近语音训练集合进行特征提取,分别得到第一特征向量训练集合和第二特征向量训练集合;
106.可以理解的是,本步骤中提及的特征提取与上述步骤中提及的特征提取是相同的,在此不多作赘述。
107.步骤s750,将第一特征向量训练集合和第二特征向量训练集合输入得分计算模型,得到相似性训练得分;
108.可以理解的是,本步骤中提及的得分计算模型与上述步骤中提及的得分计算模型是相同的,在此不多作赘述。
109.步骤s760,根据相似性训练得分、第一特征向量训练集合和第二特征向量训练集合,得到预测相似度;
110.在具体实践中,预测相似度的计算公式如下:
[0111][0112][0113]
其中,n为第一特征向量训练集合和第二特征向量训练集合的总对数,为每对第一特征向量训练集合和第二特征向量训练集合的softmax函数的平均输出,c=(c1,c2,c3)为每对第一特征向量训练集合和第二特征向量训练集合的余弦
距离,y
n
是第n对第一特征向量训练集合和第二特征向量训练集合的预测相似度。
[0114]
步骤s770,根据说话人标签、训练音频流、第一特征向量训练集合和第二特征向量训练集合,通过相似度计算,得到真实相似度;
[0115]
需要说明的是,训练音频流中有与第一特征向量训练集合对应的语音帧,也有与第二特征向量训练集合对应的语音帧,根据说话人标签,得到上述两个语音帧的不同说话人语音的占比,从而计算出两个语音帧的相似度。
[0116]
可以理解的是,可通过计算余弦距离,得到真实相似度,相似性计算为本领域技术人员熟知的技术,在此不多作赘述。
[0117]
步骤s780,根据真实相似度和预测相似度,确定损失函数;
[0118]
在具体实践中,损失函数采用mse损失函数,具体如下:
[0119][0120]
其中,n为第一特征向量训练集合和第二特征向量训练集合的总对数,y
n
是第n对第一特征向量训练集合和第二特征向量训练集合的预测相似度,d
n
是第n对第一特征向量训练集合和第二特征向量训练集合的真实相似度。
[0121]
步骤s790,根据损失函数,更新得分计算模型。
[0122]
需要说明的是,通过损失函数更新得分计算模型,能够有效减少预测相似度与真实相似度之间的差距,使得得分计算模型计算的相似性得分更加准确。
[0123]
可以理解的是,得分计算模型通过训练后,能够有效计算第一特征向量集合和第二特征向量集合之间的相似性得分。
[0124]
另外,参照图8,在一实施例中,图8是图7中步骤s710的训练音频流中所有说话人的语音的时间分布图。
[0125]
可以理解的是,以两个说话人为例,该训练音频流包含了第一说话人spk1和第二说话人spk2的语音,假设其中的语音片段a为第一特征向量训练集合对应的语音帧,语音片段b为第二特征向量训练集合对应的语音帧,根据说话人标签,得到上述两个语音帧的不同说话人语音的占比,具体如下:
[0126]
v
a
=(spk1,spk2)=(0,0.5),
[0127]
v
b
=(spk1,spk2)=(0.5,0.25),
[0128]
然后通过计算余弦距离,计算出两个语音帧的相似度,具体如下:
[0129]
d=cos(v
a
,v
b
),
[0130]
由于说话人语音的占比是正值,所以两者的余弦距离范围为0至1,因此,需要对上述余弦距离d进行归一化处理,使其范围在0至1内。
[0131]
另外,参考图9,本发明还提供了一种说话人分割聚类装置900,包括:
[0132]
获取单元910,用于获取音频流,其中,音频流中的语音帧包含来自至少一个说话人的语音;
[0133]
分割单元920,用于将音频流输入至少两个语音分割模型中,分别得到语音集合,其中,语音分割模型被配置为按固定的分割时长进行语音分割,任意两个语音分割模型的分割时长不同;
[0134]
归类单元930,用于对语音集合进行归类处理,得到多组相近语音集合;
[0135]
计算得分单元940,用于对相近语音集合进行相似性得分处理,得到相似性得分矩阵;
[0136]
聚类单元950,用于根据相似性得分矩阵,对语音集合进行聚类处理,得到语音簇;
[0137]
建模单元960,用于根据语音簇,建立说话人分类模型;
[0138]
对准单元970,用于根据说话人分类模型,将音频流中的语音帧与说话人对准。
[0139]
另外,参照图10,本发明的一个实施例还提供了一种电子设备,该电子设备1000包括:存储器1010、处理器1020及存储在存储器1010上并可在处理器1020上运行的计算机程序。
[0140]
处理器1020和存储器1010可以通过总线或者其他方式连接。
[0141]
实现上述实施例的说话人分割聚类方法所需的非暂态软件程序以及指令存储在存储器1010中,当被处理器1020执行时,执行上述实施例中的说话人分割聚类方法,例如,执行以上描述的图1中的方法步骤s110至步骤s170、图2中的方法步骤s210至步骤s230、图4中的方法步骤s410至步骤s430、图5中的方法步骤s510至步骤s540、图7中的方法步骤s710至步骤s790。以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
[0142]
此外,本发明的一个实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个处理器或控制器执行,例如,被上述电子设备实施例中的一个处理器执行,可使得上述处理器执行上述实施例中的说话人分割聚类方法,例如,执行以上描述的图1中的方法步骤s110至步骤s170、图2中的方法步骤s210至步骤s230、图4中的方法步骤s410至步骤s430、图5中的方法步骤s510至步骤s540、图7中的方法步骤s710至步骤s790。本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于ram、rom、eeprom、闪存或其他存储器技术、cd

rom、数字多功能盘(dvd)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
[0143]
以上是对本发明的较佳实施进行了具体说明,但本发明并不局限于上述实施方式,熟悉本领域的技术人员在不违背本发明精神的前提下还可作出种种的等同变形或替换,这些等同的变形或替换均包含在本发明权利要求所限定的范围内。