一种合成语音的识别方法、系统、智能设备和存储介质与流程

1.本发明涉及语音识别技术领域，尤其涉及一种合成语音的识别方法、系统、智能设备和存储介质。

背景技术：

2.语音合成，又称文语转换(text to speech，tts)技术，是利用电子计算机和一些专门装置模拟人，制造语音的技术。还有的语音合成技术是采集说话人的多个语音片段，根据目标文字对语音片段进行截取、拼接，生成新的合成语音。
3.对语音数据是否为合成语音的判断，采用的是判断语句的连续性、停顿是否正常等方式。随着合成语音与真实语音越来越接近，如何鉴别哪些声音是真实的，哪些是伪造的是当前研究的一项重要课题，关系着诸如声纹识别、语音解锁等识别技术的安全性。

技术实现要素：

4.基于此，有必要针对上述问题，提出了一种合成语音的识别方法、系统、智能设备和存储介质。
5.本发明解决其技术问题所采用的技术方案是：提供一种合成语音的识别方法，包括：获取目标待识别语音数据，根据所述目标待识别语音获取目标待识别文字数据；获取所述目标待识别语音数据中每个发音音素的语音情感数据和所述目标待识别文字数据中每个单词的文字情感数据；判断所述语音情感数据和所述文字情感数据是否匹配，若所述语音情感数据和所述文字情感数据匹配，则判定所述目标待识别语音数据为非合成语音数据。
6.其中，所述判断所述语音情感数据和所述文字情感数据是否匹配的步骤，包括：获取相邻的两个发音音素的发音情感连续数据和/或发音情感转折数据，以及相邻两个单词的文字情感连续数据和/或文字情感转折数据；判断所述发音情感连续数据和文字情感连续数据是否匹配和/或所述发音情感转折数据和所述文字情感转折数据是否匹配。
7.其中，所述获取所述目标待识别语音数据中每个发音音素的语音情感数据的步骤之前，包括：通过语音识别技术获取所述目标待识别语音数据中的至少一个所述发音音素。
8.其中，所述判断所述语音情感数据和所述文字情感数据是否匹配的步骤之前，包括：获取所述目标待识别语音的时间维度，将所述语音情感数据和所述文字情感数据在所述时间维度进行对齐。
9.其中，所述判断所述语音情感数据和所述文字情感数据是否匹配的步骤，包括：根据所述语音情感数据获取所述目标待识别语音数据的语音目标情感数据，根据所述文字情感数据获取所述目标待识别文字数据的文字目标情感数据；判断所述语音目标情感数据和所述文字目标情感数据是否匹配。
10.其中，所述根据所述语音情感数据获取所述目标待识别语音数据的语音目标情感数据，根据所述文字情感数据获取所述目标待识别文字数据的文字目标情感数据的步骤之
前，包括：获取每个所述语音情感数据的语音情感权重，获取每个所述文字情感数据的文字情感权重。
11.其中，所述获取每个所述语音情感数据的语音情感权重，获取每个所述文字情感数据的文字情感权重的步骤，包括：通过注意力运算获取所述语音情感权重和所述文字情感权重。
12.本发明解决其技术问题所采用的技术方案是：提供一种合成语音的识别系统，包括：获取模块，用于获取目标待识别语音数据，根据所述目标待识别语音获取目标待识别文字数据；情感模块，用于获取所述目标待识别语音数据中每个发音音素的语音情感数据和所述目标待识别文字数据中每个单词的文字情感数据；判断模块，用于判断所述语音情感数据和所述文字情感数据是否匹配，若所述语音情感数据和所述文字情感数据匹配，则判定所述目标待识别语音数据为非合成语音数据。
13.本发明解决其技术问题所采用的技术方案是：提供一种智能设备，包括：处理器和存储器，所述处理器耦接所述存储器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序以实现如上所述的方法。
14.本发明解决其技术问题所采用的技术方案是：提供一种存储介质，存储有计算机程序，所述计算机程序能够被处理器执行以实现如上所述的方法。
15.实施本发明实施例，将具有如下有益效果：根据所述目标待识别语音获取目标待识别文字数据，获取所述目标待识别语音数据中每个发音音素的语音情感数据和所述目标待识别文字数据中每个单词的文字情感数据；判断所述语音情感数据和所述文字情感数据是否匹配，若所述语音情感数据和所述文字情感数据匹配，则判定所述目标待识别语音数据为非合成语音数据，可以从情感方面判断语音是否是合成的，能够提升判断的准确性和可靠性。
附图说明
16.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
17.其中：图1是本发明提供的合成语音的识别方法的一实施例的流程示意图；图2是本发明提供的合成语音的识别系统的一实施例的结构示意图；图3是本发明提供的智能设备的一实施例的结构示意图；图4是本发明提供的存储介质的一实施例的结构示意图。
具体实施方式
18.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
19.请参阅图1，图1是本发明提供的合成语音的识别方法的一实施例的流程示意图。本发明提供的合成语音的识别方法包括如下步骤：s101：获取目标待识别语音数据，根据目标待识别语音获取目标待识别文字数据。
20.在一个具体的实施场景中，获取目标待识别语音数据，目标待识别语音数据可以由用户上传，或者是由视频数据中进行解析获取，或者是进行现场录音获取。对目标待识别语音数据进行文字识别获取目标待识别文字数据。根据语音数据获取文字数据的方法可以采用现有的方法，此处不再进行赘述。
21.s102：获取目标待识别语音数据中每个发音音素的语音情感数据和目标待识别文字数据中每个单词的文字情感数据。
22.在一个具体的实施场景中，通过asr (automatic speech recognition，语音识别)技术获取音频数据的至少一个发音音素，获取每个发音音素的语音情感数据。具体地说，可以将至少一个发音音素输入预训练的语音情感识别网络，获取每个发音音素的语音情感数据，在其他实施场景中，还可以是获取每个发音音素的语调，根据发音音素的语调获取每个发音音素的语音情感数据。
23.对目标待识别文字数据进行词语拆分，获取至少一个单词，根据每个单词对应的词义获取每个单词的文字情感数据。进一步地，根据目标待识别文字数据获取语境数据，结合语境数据获取每个单词的文字情感数据。
24.s103：判断语音情感数据和文字情感数据是否匹配，若是，则执行步骤s104。
25.在一个具体的实施场景中，将每个发音音素的语音情感数据和其对应的单词的文字情感数据进行比对，判断两者是否匹配。具体地说，可以判断两者是否一致，或者判断两者是情感是否是同类别（例如同为正面情绪或者同为负面情绪）。若两者一致或者是同类别，则可以判定语音情感数据和文字情感数据匹配。
26.在其他实施场景中，还可以统计连续若干个发音音素的语音情感数据和对应的连续若干个单词的文字情感数据是否匹配，例如统计该语音情感数据中各个种类的情感数据的占比比重，以及文字情感数据中各个种类的情感数据的占比比重，将这两个占比比重进行对比，判断两者差值是否在预设比重差值阈值范围内，若是，则判定语音情感数据和文字情感数据匹配。
27.在其他实施场景中，由于正常人在说话是表达的情绪是连贯的，例如递进、逐渐平复或者保持相同的情绪，即使是悲喜交加的情况也是两种情绪掺杂，基本不会出现陡然间的情绪极大转折。因此，还可以根据相邻两个发音因素对应的情感连续数据和/或发音情感转折数据和这两个发音因素对应的相邻两个单词的文字情感连续数据和/或文字情感转折数据是否匹配判断语音情感数据和文字情感数据是否匹配。可以先根据每个发音音素的语音情感数据和目标待识别文字数据中每个单词的文字情感数据获取相邻的两个发音音素的发音情感连续数据和/或发音情感转折数据，以及相邻两个单词的文字情感连续数据和/或文字情感转折数据。判断在相邻两个发音因素的语音情感数据发生转折或者连续时，对应的相邻两个单词的文字情感数据是否是相同的转折或者连续，若是，则判定发音情感连续数据和文字情感连续数据是否匹配和/或发音情感转折数据和文字情感转折数据匹配。
28.在其他实施场景中，还可以根据目标待识别语音数据中每个发音音素的语音情感数据和目标待识别文字数据中每个单词的文字情感数据分别绘制语音情感数据曲线和文
字情感数据曲线，将这两个曲线重叠，判断两个曲线重合部分是否大于预设重合区域阈值，若是，则语音情感数据和文字情感数据匹配。
29.在其他实施场景中，还可以根据目标待识别语音数据中每个发音音素的语音情感数据语音目标情感数据，根据目标待识别文字数据中每个单词的文字情感数据获取文字目标情感数据。具体地说，可以将每个发音因素的语音情感数据输入预训练的语音目标情感神经网络，获取语音目标情感数据，将每个单词的文字情感数据输入预训练的文字目标情感神经网络，获取文字目标情感数据。在实际生活中，即使人物说出的话语包括了多种情感，部分语句之间存在情感的差异，但是说出的话语都是具有一个最终的目标情感的，例如用户在悲伤时说的话，即使是每个语句可能包含了其他的情感，但是最终的整体情感还是悲伤的。但是若语音为人工合成，那么即使说的是表述悲伤的话语，但是实际的情感是没有的，或者是通过拼接获取的语音，那么可能截取的语境中讲述时的情感并不是悲伤的，而是从喜悦、愤怒、平静等多个语境中截取的，则可能无法获取最终的整体情感，或者获取的最终整体情感不是悲伤的。因此可以根据语音目标情感数据和文字目标情感数据是否匹配判断语音情感数据和文字情感数据是否匹配。
30.进一步地，获取每个语音情感数据的语音情感权重，获取每个文字情感数据的文字情感权重，将每个语音情感数据乘以其对应的语音情感权重之后，输入预训练的语音目标情感神经网络，获取语音目标情感数据，将每个文字情感数据乘以其对应的文字情感权重后，输入预训练的文字目标情感神经网络，获取文字目标情感数据。例如，可以通过注意力运算获取每个语音情感数据的语音情感权重，以及获取每个文字情感数据的文字情感权重。例如，用户在表达自己真正的情感的时候，可能会先说一些用于铺垫情感的语句，这些语句对应的权重较低，当用户说出用于表达自己真正意思的语句时，这些语句对应的权重则较高。通过不同的权重计算可以更加准确的获取用户的真正情感。但是在语音为合成语音的情况下，即使通过不同的权重，也无法获取实际的语音情感，或者是剪辑的用户语音进行拼接，则通过权重计算，将与实际表达情感不匹配的错误情感的比重放大，更加能够确认语音是合成的。
31.在其他实施场景中，目标待识别语音数据是具有时间维度的，但是目标待识别文字数据没有时间维度，为了在比对语音情感数据和文字情感数据时更加准确和可靠，将语音情感数据和文字情感数据在时间维度进行对齐，也就是说比对的语音情感数据和文字情感数据为同一时间的。
32.s104：判定目标待识别语音数据为非合成语音数据。
33.在一个具体的实施场景中，语音情感数据和文字情感数据匹配，也就是说根据语音获取的人物情感和根据文字获取的人物情感是相符的，则判定目标待识别语音数据为非合成语音数据。而人工合成语音在很多情况下存在无法感知人物情感的现象，或者将多个语音片段进行拼接获取的拼接语音，则有可能由于不同片段时人物感情的不同，而与实际要表达的人物情感不匹配的情况（例如，采集的语音片段包括高兴、伤心、愤怒多种情感，而相应的文字表达的是悲伤的情感），也就是说语音情感数据与文字情感数据并不匹配，则判定目标待识别语音数据为合成语音数据。
34.通过上述描述可知，在本实施例中，根据目标待识别语音获取目标待识别文字数据，获取目标待识别语音数据中每个发音音素的语音情感数据和目标待识别文字数据中每
个单词的文字情感数据；判断语音情感数据和文字情感数据是否匹配，若语音情感数据和文字情感数据匹配，则判定目标待识别语音数据为非合成语音数据，可以从情感方面判断语音是否是合成的，能够提升判断的准确性和可靠性。
35.请参阅图2，图2是本发明提供的合成语音的识别系统的一实施例的结构示意图。合成语音的识别系统10包括获取模块11、情感模块12、判断模块13。
36.获取模块11用于获取目标待识别语音数据，根据目标待识别语音获取目标待识别文字数据。情感模块12用于获取目标待识别语音数据中每个发音音素的语音情感数据和目标待识别文字数据中每个单词的文字情感数据。判断模块13用于判断语音情感数据和文字情感数据是否匹配，若语音情感数据和文字情感数据匹配，则判定目标待识别语音数据为非合成语音数据。
37.判断模块13还用于获取相邻的两个发音音素的发音情感连续数据和/或发音情感转折数据，以及相邻两个单词的文字情感连续数据和/或文字情感转折数据；判断发音情感连续数据和文字情感连续数据是否匹配和/或发音情感转折数据和文字情感转折数据是否匹配。
38.情感模块12还用于通过语音识别技术获取目标待识别语音数据中的至少一个发音音素。
39.判断模块13还用于获取目标待识别语音的时间维度，将语音情感数据和文字情感数据在时间维度进行对齐。
40.判断模块13还用于根据语音情感数据获取目标待识别语音数据的语音目标情感数据，根据文字情感数据获取目标待识别文字数据的文字目标情感数据；判断语音目标情感数据和文字目标情感数据是否匹配。
41.判断模块13还用于获取每个语音情感数据的语音情感权重，获取每个文字情感数据的文字情感权重。
42.判断模块13还用于通过注意力运算获取语音情感权重和文字情感权重。
43.通过上述描述可知，在本实施例中合成语音的识别系统根据目标待识别语音获取目标待识别文字数据，获取目标待识别语音数据中每个发音音素的语音情感数据和目标待识别文字数据中每个单词的文字情感数据；判断语音情感数据和文字情感数据是否匹配，若语音情感数据和文字情感数据匹配，则判定目标待识别语音数据为非合成语音数据，可以从情感方面判断语音是否是合成的，能够提升判断的准确性和可靠性。
44.请参阅图3，图3是本发明提供的智能设备的一实施例的结构示意图。智能设备20包括处理器21、存储器22。处理器21耦接存储器22。存储器22中存储有计算机程序，处理器21在工作时执行该计算机程序以实现如图1所示的方法。详细的方法可参见上述，在此不再赘述。
45.请参阅图4，图4是本发明提供的存储介质的一实施例的结构示意图。存储介质30中存储有至少一个计算机程序31，计算机程序31用于被处理器执行以实现如图1所示的方法，详细的方法可参见上述，在此不再赘述。在一个实施例中，计算机可读存储介质30可以是终端中的存储芯片、硬盘或者是移动硬盘或者优盘、光盘等其他可读写存储的工具，还可以是服务器等等。
46.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以
通过计算机程序来指令相关的硬件来完成，的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限，ram以多种形式可得，诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink) dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
47.以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。
48.以上实施例仅表达了本技术的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本技术专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本技术构思的前提下，还可以做出若干变形和改进，这些都属于本技术的保护范围。因此，本技术专利的保护范围应以所附权利要求为准。