一种话务环境下单通道语音分离方法与流程

1.本发明属于音频数据分离技术领域，具体涉及一种话务环境下单通道语音分离方法。

背景技术：

2.目前，在各行业中，逐渐采用电话沟通的方式进行营销、催收、售后；随着相同行业间竞争的激烈，公司在人力和财力的投入下，希望电话业务能够起到较好的效果；故对话务员的具体工作绩效考核或者是防止消费纠纷而进行通话内容的录音是目前企业的常规做法。目前，常采用的录音设备采用双轨音频技术，可以分别储存通话双方的语音信息；但由于设备和迁移成本的问题，仍然有大量企业采用单轨录音设备，而对于单轨录音设备录制的音频，难以针对业务员的话术水平进行针对性分析，以及是否使用忌讳词句问题进行分析。
3.经过检索发现公开号为cn111785291a的发明专利申请，公开了一种语音分离方法和语音分离装置，其主要是将语音分为多个片段，然后通过分离模型进行分类，得到各个说话人的语音片段集合；分离模型的建立需要预先采集每个话务员的声纹特征；且分离模型至少需要重新建立两次，每次建立时根据当前的语音数据库建立，且任意两次建立的分离模型为根据不同的语音数据库建立。上述方法通过重建进行修正，以确保语音片段集合中的目标语音片段为同一个话务员的语音，从而提高语音分离的准确率。
4.但是，采用上述方法进行语音分离需要预先获取话务员的语音数据，进而获取对应的声纹特征，应用到分离模型中。对于大规模的话务团队而言，预先收集每个话务员的语音数据费时费力，且需要多次根据语音数据库建立模型，来提高语音分离的准确率；尽快其能够提高语音分离的准确率，但是多次建立模型也将造成费时费力的问题。

技术实现要素：

5.本发明公开了一种话务环境下单通道语音分离方法，拟解决背景技术中提到的预先收集每个话务员的语音数据以及多次建立模型造成费时费力的问题。
6.为解决上述技术问题，本发明采用的技术方案如下：
7.一种话务环境下单通道语音分离方法，包括以下步骤：
8.步骤1：根据通话录音材料，以不同的话务员为分组标识进行分组，整合每个话务员的通话录音材料；
9.步骤2：对每个话务员通话录音材料的音频进行切分；并对切分片段进行活性检测和停顿检测，将音频中无声片段删除，将停顿明显的部分做切开处理；
10.步骤3：对步骤2中切分的片段做再次切分，并对各个切分后的片段，根据声学特征对不同类型的语音片段进行编码，组成多个矩阵；
11.步骤4：在步骤3中切分后的片段中根据相似度找出话务员的片段，并对话务员的相似片段进行合并。
12.本发明通过对音频做切分处理后进行活性检测以及停顿检测，实现了无声片段的剔除，以及明显停顿部分做切开处理，并且再次对切分处理后的片段进行再切分处理，根据声学特征，对不同类型的语音进行编码，根据相似度找出话务员的语音片段后进行合并，实现了话务员与客户通话的单通道录音的语音分离，并且本发明无需预先收集每个话务员的语音，也不用多次建立模型。
13.优选的，所述步骤2基于开源的pyannote库对每个话务员通话录音材料的音频进行切分。
14.本发明基于开源的pyannote库对每个话务员通话录音材料的音频进行切分，进而实现活性检测以及停顿检测。
15.优选的，所述步骤3包括以下步骤：
16.步骤3.1：以步长为t秒对步骤2中切分的片段再次进行切分；
17.步骤3.2：对步骤3.1切分后的所有片段进行编码，将每t秒的音频段编码为一个1*512的向量，得到每个音频段对应的矩阵。
18.优选的，所述步骤4依据余弦相似度进行质心的选取与更新，并计算矩阵与质心的余弦相似度，依据设定的阈值确定所有片段中属于话务员的语音，并进行合并。
19.优选的，所述步骤4包括以下步骤：
20.步骤4.1：设置相似度阈值k；
21.步骤4.2：计算x
t
和x
2t
的余弦相似度矩阵，得到对应的矩阵；取出相似度大于阈值的行，并根据矩阵取出x
t
和x
2t
中相似度大于阈值的对应行；
22.步骤4.3：将x
3t
、x
4t
、x
5t
…
x
nt
分别和x
t
计算余弦相似度矩阵，得的对应的矩阵；取出相似度大于阈值的行，并根据矩阵取出x
3t
、x
4t
、x
5t
…
x
nt
中相似度大于阈值的对应行；
23.步骤4.4：将步骤4.2和步骤4.3中取出的行数据压缩为一个向量为1*512维的初始质心；
24.步骤4.5：将初始质心分别和x
t
、x
2t
、x
3t
、x
4t
、x
5t
…
x
nt
矩阵计算余弦相似度矩阵，基于阈值分别在每个矩阵中取出相似度大于阈值的行；
25.步骤4.6：将步骤4.5中取出的行和初始质心组合在一起压缩为一个向量为1*512为的更新质心；
26.步骤4.7：将更新质心分别和x
t
、x
2t
、x
3t
、x
4t
、x
5t
…
x
nt
矩阵计算余弦相似度矩阵，基于阈值分别在每个矩阵中取出相似度大于阈值的行；将本步骤中得到的取出的行所对应的语音片段进行合并，得到话务员的音频。
27.本发明只需基于原有模型上多次更新质心即可实现话务员与客户通话的单通道录音的语音分离；从而提高了效率。
28.优选的，所述t等于1秒；k等于0.8。
29.综上所述，由于采用了上述技术方案，本发明的有益效果是：本发明通过对音频做切分处理后进行活性检测以及停顿检测，实现了无声片段的剔除，以及明显停顿部分做切开处理，并且再次对切分处理后的片段进行再切分处理，根据声学特征，对不同类型的语音进行编码，根据相似度找出话务员的语音片段后进行合并，实现了话务员与客户通话的单通道录音的语音分离，并且本发明无需预先收集每个话务员的语音，也不用多次建立模型；有效的解决了现有技术中提到的费事费力的问题。
附图说明
30.本发明将通过例子并参照附图的方式说明，其中：
31.图1为本发明的流程示意图。
具体实施方式
32.为使本技术实施例的目的、技术方案和优点更加清楚，下面将结合本技术实施例中附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本技术一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本技术实施例的组件可以各种不同的配置来布置和设计。因此，以下对在附图中提供的本技术的实施例的详细描述并非旨在限制要求保护的本技术的范围，而是仅仅表示本技术的选定实施例。基于本技术的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本技术保护的范围。
33.下面结合附图1对本发明的实施例作详细描述；
34.一种话务环境下单通道语音分离方法，包括以下步骤：
35.步骤1：收集通话录音材料，以不同话务员为分组标识进行分组，即同一话务员与不同客户的录音材料视为同一类别；
36.步骤2：基于开源的pyannote库，对同一话务员的不同音频进行切分；进行活性检测和停顿检测，将音频中的噪音或无声的部分全部删除，将停顿明显的部分作切开处理；
37.步骤3：对步骤2中切分后的片段进行切分，切分步长设置为1秒，然后对各个片段进行编码，从而组成多个特征矩阵；
38.例如：假设话务员甲有20条语音记录，经过步骤b活性检测和停顿检测切分后，记为a1，a2…a20
。
39.对a1，a2…a20
，进行再次切分，步长为1秒，得到{a
1,1
，a
1,2
…a1,50
}，{a
2,1
，a
2,2
…a2,60
}
…
{a
20,1
，a
20,2
…a20,80
}(假设话务员甲的音频段a1时长50秒，a2时长60秒
…a20
时长80秒)。
40.对切分后的音频进行编码，记为x1，x2…
x
20
，每一秒的音频段a
i,j
可以编码为一个1*512的向量。因此，x1，x2…
x
20
分别对应50*512，60*512
…
80*512维的矩阵。
41.所述步长t也可以设置为2秒、1.5秒、0.5秒、0.4秒等。
42.步骤4：进行相似度语音片段匹配，依据余弦相似度进行质心的选取与更新，然后计算不同矩阵与质心的余弦相似度，依据设定的阈值大小找出所有小片段中属于话务员的语音，并进行合并，至此实现话务员与客户通话的单通道录音的语音分离：
43.具体的包括以下步骤：
44.步骤4.1：设置相似度阈值为0.8；所述相似度阈值也可以设置为0.9或0.88等，余弦相似度计算方法为：
[0045][0046]
式中：a和b均为n维向量，cos(θ)为数值，表示a和b向量之间的相似度大小，取值范围为0-1。
[0047]
步骤4.2：计算x2和x1计算余弦相似度矩阵，记为s
1,2
，对应50*60维度的矩阵(即为
音频段a1的时间长度*a2的时间长度)。取出相似度大于阈值的行，并根据矩阵取出x2和x1中相似度大于阈值的对应行；
[0048]
步骤4.3：将x3、x4…
x
20
分别和x1计算余弦相似度矩阵，得的对应的矩阵；取出相似度大于阈值的行，并根据矩阵取出x3、x4…
x
20
中相似度大于阈值的对应行；
[0049]
步骤4.4：将步骤4.2和步骤4.3中取出的行数据压缩为一个向量为1*512维的初始质心；
[0050]
步骤4.5：将初始质心分别和x1、x2、x3、x4…
x
20
矩阵计算余弦相似度矩阵，基于阈值分别在每个矩阵中取出相似度大于阈值的行；
[0051]
步骤4.6：将步骤4.5中取出的行和初始质心组合在一起压缩为一个向量为1*512为的更新质心；
[0052]
步骤4.7：将更新质心分别和x1、x2、x3、x4…
x
20
矩阵计算余弦相似度矩阵，基于阈值分别在每个矩阵中取出相似度大于阈值的行；将本步骤中得到的取出的行所对应的语音片段进行合并，得到话务员的音频；实现了话务员与客户通话单通道录音的语音分离。
[0053]
以上所述实施例仅表达了本技术的具体实施方式，其描述较为具体和详细，但并不能因此而理解为对本技术保护范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本技术技术方案构思的前提下，还可以做出若干变形和改进，这些都属于本技术的保护范围。