语音脱敏方法、装置、电子设备及存储介质与流程

1.本发明涉及人工智能技术领域，尤其涉及一种语音脱敏方法、装置、电子设备及存储介质。

背景技术：

2.如今语音的实时通讯的应用场景越来越多，譬如电话通讯，语音通讯工具通讯以及在线会议通讯等，而在语音通讯的过程中，往往包含大量的敏感信息，例如个人证件号码、姓名、地址、价格、注册信息等。因此，需要对这些敏感信息进行屏蔽以保护语音信息的安全，而现有的语音敏感信息的屏蔽方法主要是通过语音转文字后检测敏感词，将敏感词进行脱敏替换，将替换后的内容转成语音输出至接收端。但该方法存在无法应对实时场景、敏感信息容易泄露或者过度消除语音以及识别率低的问题。

技术实现要素：

3.本发明提供一种语音脱敏方法、装置、电子设备及存储介质，用以解决现有技术中无法应对实时场景、敏感信息容易泄露或者过度消除语音以及识别率低的缺陷。
4.本发明提供一种语音脱敏方法，包括：
5.确定待脱敏的语音数据；
6.将所述语音数据中每一语音帧的幅度谱输入至敏感语音检测模型，得到所述敏感语音检测模型输出的每一语音帧的语音掩码；所述敏感语音检测模型基于样本通用语音以及其中每一样本语音帧的通用掩码，和样本敏感词语音以及其中每一样本语音帧的敏感掩码训练得到；
7.基于所述每一语音帧的语音掩码，消除所述语音数据中的敏感信息。
8.根据本发明提供的一种语音脱敏方法，所述将所述语音数据中每一语音帧的幅度谱输入至敏感语音检测模型，得到所述敏感语音检测模型输出的每一语音帧的语音掩码，包括：
9.将所述语音数据中各语音帧的幅度谱逐帧输入至敏感语音检测模型，得到所述敏感语音检测模型逐帧输出的各语音帧的语音掩码；
10.其中，同一时刻的输入语音帧和输出语音帧相差预设帧数，所述输入语音帧为输入所述敏感语音检测模型的幅度谱对应的语音帧，所述输出语音帧为从所述敏感语音检测模型中输出的语音掩码对应的语音帧。
11.根据本发明提供的一种语音脱敏方法，所述将所述语音数据中各语音帧的幅度谱逐帧输入至敏感语音检测模型，得到所述敏感语音检测模型逐帧输出的各语音帧的语音掩码，包括：
12.将所述语音数据中各语音帧的幅度谱逐帧输入至敏感语音检测模型，由所述敏感语音检测模型基于各语音帧的幅度谱、各语音帧之后连续的预设帧数个语音帧的幅度谱，以及各语音帧之前一帧的状态向量，编码各语音帧的状态向量，并基于各语音帧的状态向
量进行敏感语音检测，得到所述敏感语音检测模型逐帧输出的各语音帧的语音掩码。
13.根据本发明提供的一种语音脱敏方法，所述基于所述每一语音帧的语音掩码，消除所述语音数据中的敏感信息，包括：
14.基于所述每一语音帧的语音掩码，对所述语音数据中每一语音帧的幅度谱进行脱敏处理，得到脱敏后的幅度谱数据；
15.对所述脱敏后的幅度谱数据进行逆变换，得到脱敏后的语音数据。
16.根据本发明提供的一种语音脱敏方法，所述基于所述每一语音帧的语音掩码，对所述语音数据中每一语音帧的幅度谱进行脱敏处理，得到脱敏后的幅度谱数据，包括：
17.基于所述每一语音帧的语音掩码，从所述语音数据中定位出敏感词语音段，并确定各敏感词语音段的脱敏方式；
18.若所述脱敏方式为信息脱敏，则对所述敏感词语音段后指定帧数的语音帧的幅度谱，或对所述敏感词语音段中各语音帧的幅度谱以及所述敏感词语音段后指定帧数的语音帧的幅度谱进行脱敏处理；
19.若所述脱敏方式为敏感词脱敏，则对所述敏感词语音段中各语音帧的幅度谱进行脱敏处理。
20.根据本发明提供的一种语音脱敏方法，所述基于所述每一语音帧的语音掩码，从所述语音数据中定位出敏感词语音段，包括：
21.确定所述语音数据中，语音掩码小于预设语音掩码阈值的语音帧作为敏感词语音帧；
22.将帧数大于预设帧数阈值的连续多个敏感词语音帧作为一段敏感词语音段。
23.根据本发明提供的一种语音脱敏方法，所述确定各敏感词语音段的脱敏方式，具体步骤包括：
24.从敏感词语音段的尾部向前截取预设截取帧数个语音帧，作为待分类语音段；
25.将所述待分类语音段输入到语音分类模型，得到所述语音分类模型输出的所述敏感词语音段的脱敏方式；
26.所述语音分类模型基于样本敏感词语音段及其脱敏方式标签训练得到。
27.根据本发明提供的一种语音脱敏方法，所述样本敏感词语音基于样本噪声，对原始敏感词语音进行加噪得到，所述敏感掩码基于所述样本噪声的幅度谱和所述原始敏感词语音的幅度谱确定。
28.本发明还提供一种语音脱敏装置，包括：
29.确定模块，用于确定待脱敏的语音数据；
30.预测模块，用于将所述语音数据中每一语音帧的幅度谱输入至敏感语音检测模型，得到所述敏感语音检测模型输出的每一语音帧的语音掩码；所述敏感语音检测模型基于样本通用语音以及其中每一样本语音帧的通用掩码，和样本敏感词语音以及其中每一样本语音帧的敏感掩码训练得到；
31.消除模块，用于基于所述每一语音帧的语音掩码，消除所述语音数据中的敏感信息。
32.本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述语音脱敏方法
的步骤。
33.本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述语音脱敏方法的步骤。
34.本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述语音脱敏方法的步骤。
35.本发明提供的一种语音脱敏方法、装置、电子设备及存储介质，通过将待脱敏的语音数据中每一帧的幅度谱输入到敏感语音检测模型，得到每一语音帧的语音掩码，再根据每一语音帧的语音掩码消除该语音数据中的敏感信息，实现了使用敏感语音检测模型基于输入的语音帧的幅度谱输出语音掩码以定位敏感词，并将该敏感词脱敏，减少了语音和文字互转的过程，提高了识别效率，克服敏感信息易泄露或过度消除语音以及效率和识别率低的问题，实现了语音实时精准的脱敏。
附图说明
36.为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
37.图1是本发明提供的用于语音脱敏方法的流程示意图之一；
38.图2是本发明提供的获取脱敏后的语音数据的流程示意图；
39.图3是本发明提供的确定敏感语音段方法的流程示意图；
40.图4是本发明提供的确定敏感词语音段脱敏方式的流程示意图；
41.图5是本发明提供的用于语音脱敏方法的流程示意图之二；
42.图6是本发明提供的敏感语音检测模型的训练方法；
43.图7是本发明提供的敏感语音检测模型的处理流程示意图；
44.图8是本发明提供的语音脱敏装置的结构示意图；
45.图9是本发明提供的电子设备的结构示意图。
具体实施方式
46.为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
47.现有的语音脱敏方法中主要是通过先将语音数据转换成文字，将转换后的文字与预先设置的敏感词库中的敏感词进行比对，若检测到该文字中有包含有敏感词，则将敏感词部分的语音段落替换成其它语音段落完成语音的脱敏操作。
48.但是现有的方法中语音转文字的方式效率较低，无法满足实时语音的脱敏需求，后续步骤对语音转文字的依赖性很大，一旦转换文字出现问题将导致后续脱敏步骤全部失效，而且并非针对敏感词进行的语音转文字的操作，会导致敏感词识别率低的问题；并且当检测到敏感词后，将敏感词部分的语音段落替换成其它语音段落，需要将替换的语音段在
原语音段上进行对齐，但通过文字在语音数据上进行对齐，容易出现错误，导致敏感信息出现泄露，而为了减少敏感信息泄露的几率，会进行过度消除敏感信息附近的语音段，影响实际体验。
49.因此，如何实现实时准确的语音脱敏是本领域亟待解决的问题。
50.图1是本发明提供的用于语音脱敏方法的流程示意图之一，如图1所示，本发明实施例提供了一种语音脱敏方法，包括：
51.步骤110，确定待脱敏的语音数据；
52.具体地，待脱敏的语音数据可以是实时语音数据，例如：语音通话，在线会议等，也可以是非实时语音数据，譬如：录音、对讲类语音留言等，本发明实施例对此不作限制。其中脱敏为消除语音数据中的敏感信息，而敏感信息可以是需要进行消除的信息，例如，不文明用语或者非法用语等，还可以是定位信息，用于定位并消除该敏感信息后面的指定信息，例如，密码、住址或者身份信息等，本发明实施例对此不作限制。
53.步骤120，将该语音数据中每一语音帧的幅度谱输入至敏感语音检测模型，得到该敏感语音检测模型输出的每一语音帧的语音掩码；该敏感语音检测模型基于样本通用语音以及其中每一样本语音帧的通用掩码，和样本敏感词语音以及其中每一样本语音帧的敏感掩码训练得到；
54.考虑到语音转文字时会因为环境音，说话人的地方口音或者语义导致的转换错误，而将时域的语音数据变换至频域进行处理，再将处理完成的频域信号恢复到时域，其变换的是语音数据的表现方式，不容易出现转换错误的情况，本发明实施例中不再对语音数据做转文字处理，而是将语音数据变换到频域进行处理。进一步地，幅度谱作为语音信号的频域表现形式之一，能作为语音特征提取的手段，因此，本发明实施例通过语音数据的幅度谱进行敏感信息的检测定位。
55.具体地，本发明实施例，可以将语音数据中每一语音帧的幅度谱输入至预先训练好的敏感语音检测模型，由敏感语音检测模型对语音数据中的每一语音帧的幅度谱进行检测，得到该语音帧对应的语音掩码，以供步骤130使用。需要说明的是，语音数据中的每一语音帧的幅度谱是将语音数据进行滑窗分帧，再将得到的每一帧语音帧进行时频变换得到的；敏感语音检测模型输出的语音掩码是该语音帧是否为包含敏感信息的语音帧的判断标签，例如，可以以“0”、“1”的形式反映该语音帧是否为包含敏感信息的语音帧，也可以以概率的形式反映该语音帧中包含敏感信息的可能性，本发明实施例对比不作具体限定。
56.在执行步骤120之前，还需要预先训练得到敏感语音检测模型，具体在敏感语音检测模型训练时，需要以样本通用语音和样本敏感词语音作为样本，以样本通用语音中每一样本语音帧的通用掩码，和样本敏感词语音中每一样本语音帧的敏感掩码作为标签。其中，样本通用语音和样本敏感词语音均为样本语音，区别在于样本通用语音中不包含敏感词，即样本通用语音是不需要进行脱敏处理的语音，样本通用语音中每一样本语音帧的掩码均反映对应的样本语音帧不包含敏感信息，故此处记为通用掩码，而样本敏感词语音为仅包含敏感词的语音，即样本敏感词是需要整体消音的语音，样本敏感词语音中每一样语音帧的掩码均反映对应的样本语音帧包含敏感信息，故此处记为敏感掩码。
57.在敏感语音检测模型训练时，可以分别将样本通用语音和样本敏感词语音的幅度谱输入到训练中的模型中，从而得到模型针对样本通用语音和样本敏感词语音中每一样本
语音帧的幅度谱输出的预测掩码，在此基础上，将样本通用语音中每一样本语音帧的预测掩码与预先标注的通用掩码进行比较，将样本敏感词语音中每一样本语音帧输出的预测掩码与预先标注的敏感掩码进行比较，从而得到模型训练的损失值，基于损失值对模型参数进行迭代更新，在此过程中，模型可以学习到样本语音帧的幅度谱与掩码标签之间的对应关系，使得训练得到的敏感语音检测模型能够具备基于幅度谱进行敏感信息检测的能力。
58.步骤130，基于每一语音帧的语音掩码，消除该语音数据中的敏感信息。
59.具体地，根据步骤120输出的每一语音帧的语音掩码，消除该语音数据中的敏感信息。需要说明的是消除该语音数据中的敏感信息可以根据语音掩码对该原始语音帧的幅度谱进行脱敏处理，再将脱敏处理后的幅度谱恢复成为语音数据，还可以根据每个语音帧的语音掩码，定位多个连续敏感信息的语音帧组成语音段，从而对语音段进行整体消除或者对该语音段之后的指定帧数的语音段进行消除，本发明实施例对此不作限制。
60.本发明实施例提供的一种语音脱敏方法，应用敏感语音检测模型对输入的语音帧的幅度谱进行敏感语音检测，以定位语音数据中的敏感信息，从而实现语音脱敏，此过程中不存在语音和文字互转的过程，避免了语音转写导致的敏感信息易泄露、过度消除语音以及转写效率和识别率低的问题，实现了实时精准的语音脱敏。
61.基于上述实施例，步骤120包括：
62.将语音数据中各语音帧的幅度谱逐帧输入至敏感语音检测模型，得到敏感语音检测模型逐帧输出的各语音帧的语音掩码；
63.其中，同一时刻的输入语音帧和输出语音帧相差预设帧数，输入语音帧为输入敏感语音检测模型的幅度谱对应的语音帧，输出语音帧为从敏感语音检测模型中输出的语音掩码对应的语音帧。
64.考虑到对实时语音进行脱敏处理的需求，基于流式处理的低延时和高吞吐量的特点，将其引入到本发明实施例中。具体地，将语音数据中的每一语音帧的幅度谱逐帧输入到敏感语音检测模型，得到该敏感语音检测模型逐帧输出的各语音帧对应的语音掩码，通过逐帧输入输出的形式，实现针对语音数据的流式敏感语音检测，保证语音脱敏的实时性。
65.同时，考虑到流式敏感语音检测中，单语音帧的幅度谱中信息含量较少，为了提高模型预测的效果，需要多个语音帧的幅度谱中的信息协助进行敏感语音检测，因此，在对当前语音帧进行预测处理时，可以针对模型的输入、输出设置时延，使得模型在对当前语音帧进行敏感语音检测时，在依据当前语音帧的幅度谱的同时，还可以参考到语音帧之后预设帧数个各语音帧的幅度谱的信息。
66.具体地，同一时刻的输入语音帧和输出语音帧相差预设帧数。需要说明的是，同一时刻的输入语音帧和输出语音帧相差的预设帧数为设置一个预设帧数时延，当输入语音帧的时候该敏感语音检测模型输出的是该语音帧之前的预设帧数时延的语音帧，例如：预设帧数时延为2帧，当前输入为帧数为第3语音帧的幅度谱，则同时输出的为第1语音帧的语音掩码。
67.本发明实施例提供的方法，通过逐帧输入语音帧并逐帧输出敏感信息检测结果，实现流式语音数据中语音帧的敏感信息检测。
68.在流式语音帧的敏感信息检测中，应用预设帧数的时延，使得敏感语音检测模型能够基于当前语音帧后续预设帧数的语音帧的幅度谱，联合当前帧的幅度谱及当前帧前一
阵的敏感信息检测结果进行当前帧的敏感信息检测，提高检测的可靠性。
69.基于上述实施例，步骤120中，将语音数据中各语音帧的幅度谱逐帧输入至敏感语音检测模型，得到敏感语音检测模型逐帧输出的各语音帧的语音掩码，包括：
70.将语音数据中各语音帧的幅度谱逐帧输入至敏感语音检测模型，由敏感语音检测模型基于各语音帧的幅度谱、各语音帧之后连续的预设帧数个语音帧的幅度谱，以及各语音帧之前一帧的状态向量，编码各语音帧的状态向量，并基于各语音帧的状态向量进行敏感语音检测，得到敏感语音检测模型逐帧输出的各语音帧的语音掩码。
71.具体地，考虑到语音本身的时序性，语音帧所表示的信息往往与该语音帧之前和之后的语音帧所表示的信息相关。在基于敏感语音检测模型进行流式敏感语音检测时，敏感语音检测模型可以通过自身模型结构，实现基于模型左视野的敏感语音检测，例如因果卷积、lstm(long short-term memory，长短期记忆网络)等模型结构均带有左视野，即在流式处理过程中，模型可以根据输入的任一语音帧自身的幅度谱以及该语音帧之前一帧的状态向量，编码该语音帧的状态向量，然后根据各语音帧的状态向量进行敏感语音检测。
72.但是不带右视野的流式的敏感语音检测模型直接预测当前帧的语音掩码效果并不理想，因此，本发明实施例将各语音帧之后连续的预设帧数个语音帧的幅度谱作为敏感语音检测模型的右视野辅助敏感语音检测模型预测输出各语音帧的语音掩码。
73.具体地，将语音数据中各语音帧的幅度谱逐帧输入至敏感语音检测模型的过程中，针对其中的任一语音帧，该模型可以根据输入的该语音帧之后的连续的预设帧数个语音帧的幅度谱、各语音帧自身的幅度谱以及各语音帧之前一帧的状态向量，编码各语音帧的状态向量，然后根据各语音帧的状态向量进行敏感语音检测，得到该敏感语音检测模型逐帧输出的各语音帧的语音掩码。
74.需要说明的是，状态向量为敏感语音检测模型根据语音帧的幅度谱以及其上下文语音帧的幅度谱进行编码得到；当敏感语音检测模型处理某一语音帧时，需要将该语音帧后续的预设帧数个语音帧的幅度谱(作为模型的右视野)、该语音帧的幅度谱，以及该帧前一帧的幅度谱的状态向量(作为模型的左视野)进行编码，得到该语音帧的状态向量，然后根据该语音帧的状态向量进行敏感语音检测，得到该帧的语音掩码，基于这样的处理流程，逐帧输出的各语音帧的语音掩码，在保证实时性的同时，也保证了可靠性和准确性。
75.例如，预设帧数为2，当前处理语音帧为第4语音帧，则敏感语音检测模型会将当前处理语音帧的后两个语音帧作为模型右视野，即第5语音帧和第6语音帧，然后将当前处理语音帧的前一语音帧即第3语音帧的状态向量、当前处理语音帧即第4语音帧的幅度谱以及第5语音帧和第6语音帧的幅度谱进行编码，得到第4语音帧对应的状态向量，由此得到第4语音帧的语音掩码，此处，该模型输出第4语音帧的语音掩码是在第6语音帧的幅度谱输入模型之后，即存在2帧时延。
76.基于上述实施例，敏感语音检测模型可以采用cnn(convolutional neural network，卷积神经网络)+rnn(recurrent neural network，循环神经网络)结构，为了兼顾模型效果与流式处理的实时性，对敏感语音检测模型的cnn部分使用因果卷积，即不带模型右视野的卷积层；rnn部分使用lstm结构，同样不需要模型右视野，由此整个模型可以保持进一帧出一帧的流式处理效果。
77.基于上述实施例，图2是本发明提供的获取脱敏后的语音数据的流程示意图，如图
2所示，步骤130包括：
78.步骤131，基于每一语音帧的语音掩码，对语音数据中每一语音帧的幅度谱进行脱敏处理，得到脱敏后的幅度谱数据；
79.具体地，基于每一语音帧的语音掩码，对语音数据中每一语音帧的幅度谱进行脱敏处理，得到脱敏后的幅度谱数据。需要说明的是，基于每一语音帧的语音掩码，对语音数据中每一语音帧的幅度谱进行脱敏处理，其中脱敏处理可以为根据每一语音帧的语音掩码将原语音帧的幅度谱进行脱敏，例如：输出的语音掩码为0或者接近0时表示为敏感语音帧，则该语音掩码乘以该帧原幅度谱则可以得到脱敏的语音帧的幅度谱。
80.但考虑到敏感语音检测模型输出会出现一些误判的情况，基于单帧语音掩码进行脱敏处理会出现误处理，会消除了通用语音，导致用户体验不佳，因此，具体的脱敏处理还可以是将检测结果为敏感信息的语音掩码对应的连续多帧组合成语音段，然后将该语音段的语音掩码乘以该语音段的原始幅度谱，得到脱敏后的幅度谱数据。
81.步骤132，对脱敏后的幅度谱数据进行逆变换，得到脱敏后的语音数据。
82.具体地，对脱敏后的幅度谱数据进行逆变换，得到脱敏后的语音数据。需要说明的是，将脱敏后的幅度谱数据通过短时傅里叶逆变换转换成语音数据，即得到脱敏后的语音数据。
83.基于上述实施例，步骤131包括：
84.基于每一语音帧的语音掩码，从语音数据中定位出敏感词语音段，并确定各敏感词语音段的脱敏方式；
85.若脱敏方式为信息脱敏，则对敏感词语音段后指定帧数的语音帧的幅度谱，或对敏感词语音段中各语音帧的幅度谱以及敏感词语音段后指定帧数的语音帧的幅度谱进行脱敏处理；
86.若脱敏方式为敏感词脱敏，则对敏感词语音段中各语音帧的幅度谱进行脱敏处理。
87.考虑到脱敏的方式可以包括对敏感词直接进行脱敏处理，例如：不文明用语的脱敏，或者是基于敏感词进行定位，对该词后面的内容进行脱敏处理，譬如：对语音中账号、密码等词进行定位，对该词后续部分内容进行脱敏。基于上述内容，本发明实施例对敏感词进行定位，并对该敏感词的脱敏方法进行确定。
88.具体地，根据敏感信息监测模型输出的每一语音帧的语音掩码判断该语音帧是否为敏感语音帧并基于定位敏感词语音段的条件得到敏感词语音段，并根据该敏感词语音段的幅度谱查找到其对应的脱敏方式，其中脱敏方式包括信息脱敏以及敏感词脱敏。若脱敏方式为信息脱敏，则对敏感词语音段后指定帧数的语音帧的幅度谱，或对敏感词语音段中各语音帧的幅度谱以及敏感词语音段后指定帧数的语音帧的幅度谱进行脱敏处理；若脱敏方式为敏感词脱敏，则对敏感词语音段中各语音帧的幅度谱进行脱敏处理。需要说明的是，定位敏感词语音段的条件可以是根据多个语音帧中敏感语音帧的占比达到预设比例则确定该语音段为敏感语音段，还可以是连续的敏感语音帧达到预设帧数则确定该语音段为敏感语音段，本发明实施例对此不作限制；确定该语音段的脱敏方式可以根据预先设置的语音段幅度谱与脱敏方法的对应关系进行脱敏方式的确定，还可以将该语音段幅度谱输入到脱敏方式分类模型中，由该分类模型输出脱敏方式，本发明实施例对此不作限制。
89.基于上述实施例，图3是本发明提供的确定敏感语音段方法的流程示意图。如图3所示，步骤131中，基于每一语音帧的语音掩码，从语音数据中定位出敏感词语音段，包括：
90.步骤310，确定语音数据中，语音掩码小于预设语音掩码阈值的语音帧作为敏感词语音帧；
91.考虑到幅度谱的幅度值越小则声音强度越小，因此为了消除敏感语音即需要将敏感语音从语音数据中消除，即需要将敏感语音的幅度谱中的幅度值变为0或接近于0。因此，预设一个语音掩码阈值用来区分通用语音和敏感语音，由于敏感语音是需要消音的语言，敏感语音的语音掩码必然是0或者接近于0，因此可以通过设置预设语音掩码阈值，并将预设语音掩码阈值与语音掩码进行大小比较的方式，从语音数据的各语音帧中筛选出敏感词语音帧。
92.具体地，确定语音数据中，将小于预设语音掩码阈值的语音帧作为敏感词语音帧。需要说明的是语音掩码的值可以是向量的长度，也可以是向量中的各元素的均值，本发明实施例对此不作限制。
93.步骤320，将帧数大于预设帧数阈值的连续多个敏感词语音帧作为一段敏感词语音段。
94.考虑到单帧的数据信息较少，敏感语音检测模型会出现误触发的情况，并且敏感词会有一定的持续时长，因此，可以将小于某个预设帧数的语音段认为是误触发。
95.具体地，可以将帧数大于预设帧数阈值的连续多个敏感词语音帧作为一段敏感词语音段。需要说明的是在逐帧处理时，在通用语音帧后检测到一帧敏感词语音帧，则将该帧作为起点，在该起点之后检测到通用语音帧则作为终点，起点到终点(不包括终点)的语音段区间中的帧数大于预设帧数阈值则该语音段为敏感词语音段。
96.基于上述实施例，图4是本发明提供的确定敏感词语音段脱敏方式的流程示意图，如图4所示，本发明实施例提供的一种确定敏感词语音段脱敏方式的方法，包括：
97.步骤410，从敏感词语音段的尾部向前截取预设截取帧数个语音帧，作为待分类语音段；
98.考虑到需保证语音脱敏的实时性，本发明实施例将敏感词语音段的尾部向前截取一段语音帧，作为待分类语音段。同时，考虑到为了方便步骤420中语音分类模型的训练，将样本的语音段的帧数进行了固定，此处，对进行预测的语音段的长度也固定成和样本语音段的帧数相同。
99.需要说明的是，敏感词语音段的尾部是敏感词语音段的最后一语音帧；截取语音帧的预设数量可以根据步骤420中语音分类模型的要求进行设置。
100.步骤420，将该待分类语音段输入到语音分类模型，得到该语音分类模型输出的敏感词语音段的脱敏方式；
101.该语音分类模型基于样本敏感词语音段及其脱敏方式标签训练得到。
102.具体地，将步骤410中得到的待分类语音段输入至由样本敏感词语音段及其脱敏方式标签训练得到的语音分类模型，由该模型预测输出该待分类语音段的脱敏方式，供后续部分根据脱敏方式对语音数据进行脱敏处理。
103.本发明实施例提供的方法，从敏感词语音段的尾部向前截取预设截取帧数个语音帧用于脱敏方式的判断，有助于保证敏感信息监测模型的实时处理效率，不会产生时延。
104.基于上述实施例，样本敏感词语音基于样本噪声，对原始敏感词语音进行加噪得到，敏感掩码基于样本噪声的幅度谱和原始敏感词语音的幅度谱确定。
105.考虑到敏感词会出现在各种环境中，为了更准确的对敏感语音模型进行训练，需模拟在噪音环境下的敏感词的出现场景。本发明实施例对原始敏感词语音进行了加噪处理。
106.针对于加噪处理所得的样本敏感词语音，由于样本敏感词语音不再是单纯的敏感词语音，相应的敏感掩码也需要基于样本噪声的幅度谱和原始敏感词语音的幅度谱确定。
107.例如，可以通过如下公式确定敏感掩码：
[0108][0109]
其中，s为敏感词语音幅度谱，n为背景噪声语音幅度谱。模型训练的损失函数为mse(mean square error，均值平方差)损失函数，用于减小预测出的语音掩码与真实语音掩码之间的误差。
[0110]
基于上述实施例，图5是本发明提供的用于语音脱敏方法的流程示意图之二，如图5所示，本发明实施例提供的一种语音脱敏方法，包括：
[0111]
步骤510，对语音进行滑窗分帧，得到语音数据的语音帧集合；
[0112]
步骤520，对语音帧集合中每一语音帧进行stft(short-time fourier transform，短时傅里叶变换)，得到每一语音帧的幅度谱；
[0113]
步骤530，将语音的每一帧的幅度谱逐帧输入到敏感语音检测模型中，得到每一帧的语音掩码，通用语音的每一帧语音掩码都接近于1，敏感词或者类似敏感词的语音会出现接近于0值的语音掩码，并根据步骤310和步骤320确定敏感词语音段；
[0114]
步骤540，对敏感词语音段进行后处理，可以包括根据敏感词语音段中的语音掩码直接乘以其对应的原始stft幅度谱，得到消除敏感词、只保留背景声音的stft幅度谱，再使用istft(inverse short-time fourier transformation，短时傅里叶逆变换)逆变换回语音数据，这样能起到自然过滤敏感词的作用；也可以根据检测到的敏感词前后时间端点，直接对敏感词做预设处理，比如替换为消音音频等，同时对敏感词之后可能出现的复杂敏感信息进行进一步处理，比如为防止敏感词过长，影响比对效率，可以设置短敏感词，在敏感词结束后，针对结束帧后的1s时长的音频分帧进行替换处理，将提前准备好的1s时长的静音帧替换掉结束帧之后的原1s音频时长的分帧，从而针对该段时间内的音频实现静音效果，达到敏感词及敏感词后的敏感信息共同实现主动隐藏的目的。
[0115]
本发明实施例提供的一种语音脱敏方法，应用敏感语音检测模型对输入的语音帧的幅度谱进行敏感语音检测，以定位语音数据中的敏感信息，从而实现语音脱敏，此过程中不存在语音和文字互转的过程，避免了语音转写导致的敏感信息易泄露、过度消除语音以及转写效率和识别率低的问题，实现了实时精准的语音脱敏。
[0116]
基于上述实施例，图6是本发明提供的敏感语音检测模型的训练方法，如图6所示，本发明实施例提供一种敏感语音检测模型的训练方法，包括：
[0117]
步骤610，对原始语音进行滑窗分帧处理，做stft变换，例如：对16k采样率的语音数据，帧的窗长为1024，窗移为512，做stft变换取幅度谱，每帧语音转换为513维频域特征向量；
[0118]
步骤620，将原始语音的每一帧幅度谱及标签逐帧输入到初始敏感语音检测模型中，并输出对应的语音掩码。对于通用语音数据，输出的语音掩码值全为1，该语音掩码乘上原始语音幅度谱，不会改变幅度谱的值，即对通用语音不做修改；对于敏感词语音数据，会对该语音数据随机加噪声处理，用于模拟复杂环境下的敏感词出现场景，模型输入加噪后敏感词语音的幅度谱，输出的语音掩码乘以加噪后幅度谱，得到原始噪音的幅度谱，换言之，该语音掩码只屏蔽掉了敏感词成分，而尽可能保留原始的背景声音。语音掩码作为模型输出训练标签的获得公式如下：
[0119][0120]
其中，s为敏感词语音幅度谱，n为背景噪声语音幅度谱。模型训练的损失函数为mse损失函数，用于减小预测出的语音掩码与真实语音掩码之间的误差。
[0121]
同时，为了提升敏感语音检测模型的检测效果，对敏感语音检测模型训练的标签做了若干帧时延，相当于在当前帧时刻给出历史帧的分类结果，这样即使模型不带有右视野，对待给出的历史帧结果而言依然相当于有了一部分右视野(即历史帧特征到当前帧特征部分)，对于cnn模型而言双侧视野都存在。图7是本发明提供的敏感语音检测模型的处理流程示意图，如图7所示：
[0122]
假设时延为2帧，也就是64ms的时延，则在输入第2语音帧的时候，敏感语音检测模型输出第0语音帧，然后经过mse损失函数进行训练收敛，完成全部帧的训练后进行延时对齐标签序号。
[0123]
下面对本发明提供的语音脱敏装置进行描述，下文描述的语音脱敏装置与上文描述的语音脱敏方法可相互对应参照。
[0124]
图8是本发明提供的语音脱敏装置的结构示意图，如图8所示，该装置包括：确定模块810，预测模块820，消除模块830。
[0125]
其中，
[0126]
确定模块810，用于确定待脱敏的语音数据；
[0127]
预测模块820，用于将语音数据中每一语音帧的幅度谱输入至敏感语音检测模型，得到敏感语音检测模型输出的每一语音帧的语音掩码；敏感语音检测模型基于样本通用语音以及其中每一样本语音帧的通用掩码，和样本敏感词语音以及其中每一样本语音帧的敏感掩码训练得到；
[0128]
消除模块830，用于基于每一语音帧的语音掩码，消除语音数据中的敏感信息。
[0129]
在本发明实施例中，通过确定模块810，用于确定待脱敏的语音数据；预测模块820，用于将语音数据中每一语音帧的幅度谱输入至敏感语音检测模型，得到敏感语音检测模型输出的每一语音帧的语音掩码；敏感语音检测模型基于样本通用语音以及其中每一样本语音帧的通用掩码，和样本敏感词语音以及其中每一样本语音帧的敏感掩码训练得到；消除模块830，用于基于每一语音帧的语音掩码，消除语音数据中的敏感信息，实现了使用敏感语音检测模型基于输入的语音帧的幅度谱输出语音掩码以定位敏感词，并将该敏感词脱敏，减少了语音和文字互转的过程，提高了识别效率，克服敏感信息易泄露或过度消除语音以及效率和识别率低的问题，实现了语音实时精准的脱敏。
[0130]
基于上述任一实施例，预测模块820，包括：
[0131]
流式预测子模块，用于将语音数据中各语音帧的幅度谱逐帧输入至敏感语音检测模型，得到敏感语音检测模型逐帧输出的各语音帧的语音掩码；
[0132]
其中，同一时刻的输入语音帧和输出语音帧相差预设帧数，输入语音帧为输入敏感语音检测模型的幅度谱对应的语音帧，输出语音帧为从敏感语音检测模型中输出的语音掩码对应的语音帧。
[0133]
基于上述任一实施例，流式预测子模块中将语音数据中各语音帧的幅度谱逐帧输入至敏感语音检测模型，得到敏感语音检测模型逐帧输出的各语音帧的语音掩码，包括：
[0134]
将语音数据中各语音帧的幅度谱逐帧输入至敏感语音检测模型，由敏感语音检测模型基于各语音帧的幅度谱、各语音帧之后连续的预设帧数个语音帧的幅度谱，以及各语音帧之前一帧的状态向量，编码各语音帧的状态向量，并基于各语音帧的状态向量进行敏感语音检测，得到敏感语音检测模型逐帧输出的各语音帧的语音掩码。
[0135]
基于上述任一实施例，消除模块830，包括：
[0136]
脱敏子模块，用于基于每一语音帧的语音掩码，对语音数据中每一语音帧的幅度谱进行脱敏处理，得到脱敏后的幅度谱数据；
[0137]
逆转换子模块，用于对脱敏后的幅度谱数据进行逆变换，得到脱敏后的语音数据。
[0138]
基于上述任一实施例，脱敏子模块，包括：
[0139]
定位子模块，用于基于每一语音帧的语音掩码，从语音数据中定位出敏感词语音段，并确定各敏感词语音段的脱敏方式；
[0140]
脱敏处理子模块，用于若脱敏方式为信息脱敏，则对敏感词语音段后指定帧数的语音帧的幅度谱，或对敏感词语音段中各语音帧的幅度谱以及敏感词语音段后指定帧数的语音帧的幅度谱进行脱敏处理；
[0141]
若脱敏方式为敏感词脱敏，则对敏感词语音段中各语音帧的幅度谱进行脱敏处理。
[0142]
基于上述任一实施例，定位子模块，包括：
[0143]
敏感帧确定子模块，用于确定语音数据中，语音掩码小于预设语音掩码阈值的语音帧作为敏感词语音帧；
[0144]
敏感语音段确定子模块，用于将帧数大于预设帧数阈值的连续多个敏感词语音帧作为一段敏感词语音段。
[0145]
基于上述任一实施例，定位子模块，还包括：
[0146]
确定待分类语音段子模块，用于从敏感词语音段的尾部向前截取预设截取帧数个语音帧，作为待分类语音段；
[0147]
方式预测子模块，用于将待分类语音段输入到语音分类模型，得到语音分类模型输出的敏感词语音段的脱敏方式；
[0148]
分类模型训练模块，用于语音分类模型基于样本敏感词语音段及其脱敏方式标签训练得到
[0149]
基于上述任一实施例，预测模块820中样本敏感词语音基于样本噪声，对原始敏感词语音进行加噪得到，敏感掩码基于样本噪声的幅度谱和原始敏感词语音的幅度谱确定。
[0150]
图9示例了一种电子设备的实体结构示意图，如图9所示，该电子设备可以包括：处理器(processor)910、通信接口(communications interface)920、存储器(memory)930和
通信总线940，其中，处理器910，通信接口920，存储器930通过通信总线940完成相互间的通信。处理器910可以调用存储器930中的逻辑指令，以执行语音脱敏方法，该方法包括：确定待脱敏的语音数据；将语音数据中每一语音帧的幅度谱输入至敏感语音检测模型，得到敏感语音检测模型输出的每一语音帧的语音掩码；敏感语音检测模型基于样本通用语音以及其中每一样本语音帧的通用掩码，和样本敏感词语音以及其中每一样本语音帧的敏感掩码训练得到；基于每一语音帧的语音掩码，消除语音数据中的敏感信息。
[0151]
此外，上述的存储器930中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0152]
另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的语音脱敏方法，该方法包括：确定待脱敏的语音数据；将语音数据中每一语音帧的幅度谱输入至敏感语音检测模型，得到敏感语音检测模型输出的每一语音帧的语音掩码；敏感语音检测模型基于样本通用语音以及其中每一样本语音帧的通用掩码，和样本敏感词语音以及其中每一样本语音帧的敏感掩码训练得到；基于每一语音帧的语音掩码，消除语音数据中的敏感信息。
[0153]
又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的语音脱敏方法，该方法包括：确定待脱敏的语音数据；将语音数据中每一语音帧的幅度谱输入至敏感语音检测模型，得到敏感语音检测模型输出的每一语音帧的语音掩码；敏感语音检测模型基于样本通用语音以及其中每一样本语音帧的通用掩码，和样本敏感词语音以及其中每一样本语音帧的敏感掩码训练得到；基于每一语音帧的语音掩码，消除语音数据中的敏感信息。
[0154]
以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。
[0155]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0156]
最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管
参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。