一种基于语音识别的语音元素标记方法和系统与流程

1.本发明涉及语音识别及自然语言处理技术，尤其涉及一种基于语音识别的语音元素标记方法和系统。

背景技术：

2.语音同一性鉴定(又称声纹鉴定)指通过对检材语音和样本语音的语音特征的提取、比对和综合评断，判断两者是否为同一人语音，其中，语音特征主要包含语音的听觉特征和频谱特征；语音听觉特征是个人发音器官、发音习惯和讲话习惯表现在口语中的各种特征征象，频谱特征是个人发音器官和发音习惯在声纹频谱中表现的各种特征征象。听觉检验和频谱检验的分析对象包括相同的元音、辅音、字、词、短语、句子等语音对象，在此定义为语音元素。当前司法鉴定实践中，针对语音元素，特别是文本词和文本短语对象的有效提取和标记主要依赖于司法鉴定专家的人工识别、提取和人工标记，操作过程效率低下、工作量较大，极大影响鉴定效率和准确性。

技术实现要素：

3.针对法庭科学和司法鉴定等领域对语音同一性鉴定新技术新方法的需求，本发明提供一种基于语音识别的语音元素标记方法和系统，以解决现有的语音同一性鉴定中语音元素提取主要依赖专家鉴定人的人工提取现状中存在的效率低下、语音元素对象提取不全面等问题，通过语音识别和自然语言处理等技术实现语音元素的自动识别、高效提取和标记，提高声纹鉴定实施效能和准确性。
4.本发明是通过如下技术方案实现的：
5.一种基于语音识别的语音元素标记方法，包括如下步骤：
6.步骤a、使用语音识别技术对需检语音所对应的语义文本进行识别，形成语音文本以及所述语音文本中的文本单字在需检语音中的起止时间位置信息；
7.步骤b、对所述的语音文本中的文本单字的音标进行识别，并对文本单字音标中的元音和辅音进行提取；
8.步骤c、通过自然语言处理方法对所述的语音文本中的文本词和文本短语进行识别和提取；
9.步骤d、根据所述的文本单字音标中的元音和辅音、所述的语音文本中的文本词和文本短语和所述文本单字，形成所述的需检语音中的语音元素；
10.步骤e、在需检语音显示界面中的相应语音时间位置上进行语音元素标记。
11.进一步地，所述语音文本包括中文文本和英文文本中的至少一个。
12.进一步地，所述语音元素包括文本单字音标中的元音、文本单字音标中的辅音、文本单字、文本词、文本短语、文本句子中的至少一个。
13.一种基于语音识别的语音元素标记系统，包括：
14.语音识别模块，用于使用语音识别技术对需检语音所对应的语义文本进行识别，
形成语音文本以及所述语音文本中的文本单字在需检语音中的起止时间位置信息；
15.音标对象提取模块，用于对所述的语音文本中的文本单字的音标进行识别，并对文本单字音标中的元音和辅音进行提取；
16.文本对象提取模块，用于通过自然语言处理方法对所述的语音文本中的文本词和文本短语进行识别和提取；
17.语音元素提取模块，用于根据所述的文本单字音标中的元音和辅音、所述的语音文本中的文本词和文本短语和所述文本单字，形成所述的需检语音中的语音元素；
18.语音标记模块，用于在需检语音显示界面中的相应语音时间位置上进行语音元素标记。
19.进一步地，所述语音文本包括中文文本和英文文本中的至少一个。
20.进一步地，所述语音元素包括文本单字音标中的元音、文本单字音标中的辅音、文本单字、文本词、文本短语、文本句子中的至少一个。
21.与现有技术相比，本发明提供的一种基于语音识别的语音元素标记方法和系统，通过语音识别技术实现语音文本识别，并通过语音文本单字音标对象提取、语音文本中文本单字、词、短语和句子的提取，最终实现语音元素的自动识别、有效提取和标记，提高声纹鉴定效能和准确性。
附图说明
22.图1是本发明一种基于语音识别的语音元素标记方法的流程示意图。
23.图2是本发明一种基于语音识别的语音元素标记系统的组成原理示意图。
具体实施方式
24.为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步详细说明。
25.本实施例提供了一种基于语音识别的语音元素标记方法。整个工作流程如图1所示，包括如下步骤：
26.步骤a、使用语音识别技术对需检语音所对应的语义文本进行识别，形成语音文本以及语音文本中的文本单字在需检语音中的起止时间位置信息。本实施例中需检语音时长为5.246秒，采样率为44100hz，位深度为32位，经过语音识别方法所得到的语音文本为“一种基于语音识别的语音元素标记方法和系统。”文本单字在需检语音中的起止时间位置信息，比如文本单字“一”在需检语音中的起止时间为“0.000
‑
0.170秒”，“种”在需检语音中的起止时间为“0.206
‑
0.514秒”，“基”在需检语音中的起止时间为“0.547
‑
0.768秒”，“于”在需检语音中的起止时间为“0.780
‑
0.964秒”，其他类似。在本实施例中另一需检语音时长为6.568秒，采样率为44100hz，位深度32位，经过语音识别方法所得到的语音文本为“a method and system for spe ech elements labelling based on speech recognition.”文本单字在需检语音中的起止时间位置信息，比如文本单字“a”在需检语音中的起止时间为“0.000
‑
0.090秒”，“method”在需检语音中的起止时间为“0.104
‑
0.643秒”，“and”在需检语音中的起止时间为“0.678
‑
0.947秒”，“system”在需检语音中的起止时间为“0.959
‑
1.660秒”，其他类似。语音信号在计算机中通常以向量表示，则文本单字在需
检语音中的起止时间位置信息也可以是以向量的起止元素位置方式表示。
27.步骤b、对所述的语音文本中的文本单字的音标进行识别，并对文本单字音标中的元音和辅音进行提取。本实施例中，语音文本“一种基于语音识别的语音元素标记方法和系统。”中的每个文本单字对应的汉语拼音音标分别为[y
ī
][zh
ǒ
ng][j
ī
][y
ú
][y
ǔ
][y
ī
n][sh
í
][bi
é
][de][y
ǔ
][y
ī
n][yu
á
n][s
ù
][sh
í
][bi
é
][f
ā
ng][f
ǎ
][h
é
][x
ì
][t
ǒ
ng]，其中，“[]”用于对象间的分割，其他依次类推；文本单字音标中的元音和辅音提取结果中，[y
ī
]的元音和辅音分别为[
ī
][y]，[zh
ǒ
ng]的元音为[
ǒ
]、辅音为[zh][ng]，[j
ī
]的元音和辅音分别为[
ī
][j]，其他类似；本实施例中另一需检英语语音的语音文本“a metho d and system for speech elements labelling based on speech recogni tion.”中的文本单词对应的英式音标为式音标为[spi:t∫][spi:t∫][spi:t∫]其中，“[]”用于对象区分；文本单词音标中的元音和辅音提取结果中，的元音为[e]无辅音，的元音为[e]辅音为[m][θ][d]，的元音为辅音为[n][d]，其他类似。
[0028]
步骤c、通过自然语言处理方法对所述的语音文本中的文本词和文本短语进行识别和提取。本实施例中，语音文本“一种基于语音识别的语音元素标记方法和系统。”中的文本词提取结果为[一种][基于][语音][识别][语音][元素][标记][方法][系统]，文本短语提取结果为[语音识别][语音元素标记][方法和系统]；本实施例中，英文语音文本“a method and system for spe ech elements labelling based on speech recognition.”中的文本词提取结果即为各个文本单词[a][method][and][system][for][speech][elements][labelling][based][on][speech][recognition]，文本短语提取结果为[met hod and system][speech elements labelling][speech recognition]。
[0029]
步骤d、根据所述的文本单字音标中的元音和辅音对象、所述的语音文本中的文本词和文本短语和所述文本单字，形成所述的需检语音中的语音元素。其中，语音元素包括文本单字音标中的元音、文本单字音标中的辅音、文本单字、文本词、文本短语、文本句子中的至少一个。本实施例中，语音文本为“一种基于语音识别的语音元素标记方法和系统。”的需检语音中的语音元素包括：(1)文本单字音标中的元音，比如[
ī
][
ǒ
][
ī
]等；(2)文本单字音标中的辅音，比如[y][zh][ng][j]等；(3)文本单字，比如[一][种][基][于]等；(4)文本词，比如[一种][基于][语音][识别]等；(5)文本短语，比如[语音识别][语音元素标记][方法和系统]；(6)本文句子“一种基于语音识别的语音元素标记方法和系统。”本实施例中，语音文本为“a method and system for speech elements labelling based on speech recogniti on.”的需检语音中的语音元素包括：(1)文本单字(词)音标中的元音，比如[e][e]等；(2)文本单字(词)音标中的辅音，比如[m][θ][d][n][d]等；(3)文本单字(词)，比如[a][method][and][system]等；(4)文本短语，比如[method and system][speech elements labelling][speechrecognition]；(5)文本句子“a method and system for speech elemen ts labelling based on speech recognition.”。
[0030]
步骤e、在需检语音显示界面中的相应语音时间位置上进行语音元素标记。通过利用在步骤a中使用语音识别技术对需检语音所对应的语义文本进行识别过程中得到的语音
文本和语音文本单字在需检语音中的起止时间位置信息，可以实现所有文本单字和对应需检语音中的语音片段的时间关联，从而为在需检语音显示界面中的相应语音时间位置上进行语音元素标记提供了时间信息。文本单字音标中的元音和辅音原则上不再进行进一步的起止时间细分，文本单字音标中的元音和辅音的起止时间位置根据该文本单字音标中的元音和辅音的总数进行平均分配，比如本文单字[一]的音标为[y
ī
]，其对应需检语音中的起始时间位置为0.000
‑
0.170秒，其元音和辅音共包含2个，分别为[
ī
][y]，那么该元音和辅音的时长平均分配为二分之一的本文单字时长，即0.085秒，起止时间位置根据出现先后顺序连续划分，分别为0.085
‑
0.170秒和0.000
‑
0.085秒。此外，本文词和文本短语均是由连续的文本单字组成，其起止时间位置为第一个文本单字的开始时间和最后一个文本单字的结束时间组成。
[0031]
需检语音信号显示方式包括语音信号波形图和频谱图类型中的至少一种。需检语音显示界面中包括需检语音信号的时间信息和语音元素标记信息中的至少一个，其中，语音元素标记信息包括文本单字音标中的元音、文本单字音标中的辅音、文本单字、文本词、文本短语、文本句子中的至少一个。具体需要显示的语音元素标记信息可以根据用户需求进行有选择性显示，比如，只选择显示文本词，则在需检语音显示界面中的相应语音时间位置上显示对应的文本词。又比如，只选择显示文本单字音标中的元音类型为[a][o][e]的元音，则在需检语音显示界面中的相应语音时间位置上显示对应的文本单字音标中的[a][o][e]元音。
[0032]
基于上述基于语音识别的语音元素标记方法，本发明另一实施例还提供了一种基于语音识别的语音元素标记系统，如图2所示。该基于语音识别的语音元素标记系统包括：
[0033]
语音识别模块1，用于使用语音识别技术对需检语音所对应的语义文本进行识别，形成语音文本以及所述语音文本中的文本单字在需检语音中的起止时间位置信息；
[0034]
音标对象提取模块2，用于对所述的语音文本中的文本单字的音标进行识别，并对文本单字音标中的元音和辅音进行提取；
[0035]
文本对象提取模块3，用于通过自然语言处理方法对所述的语音文本中的文本词和文本短语进行识别和提取；
[0036]
语音元素提取模块4，用于根据所述的文本单字音标中的元音和辅音、所述的语音文本中的文本词和文本短语和所述文本单字，形成所述的需检语音中的语音元素；
[0037]
语音标记模块5，用于在需检语音显示界面中的相应语音时间位置上进行语音元素标记。
[0038]
其中，所述语音文本包括中文文本和英文文本中的至少一个；所述语音元素包括文本单字音标中的元音、文本单字音标中的辅音、文本单字、文本词、文本短语、文本句子中的至少一个。
[0039]
该基于语音识别的语音元素标记系统中的各模块与上述基于语音识别的语音元素标记方法中的各步骤对应，用于执行上述基于语音识别的语音元素标记方法中的各步骤，各模块具体执行的动作可参见上述基于语音识别的语音元素标记方法中的各步骤。
[0040]
上述实施例仅为优选实施例，并不用以限制本发明的保护范围，在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。