首页 > 乐器声学 专利正文
病理语音的识别方法、装置、设备及存储介质与流程

时间:2022-02-13 阅读: 作者:专利查询

病理语音的识别方法、装置、设备及存储介质与流程

1.本发明涉及智能决策领域,尤其涉及一种病理语音的识别方法、装置、设备及存储介质。


背景技术:

2.随着人工智能的兴起,用于病理语音检测的医疗平台或医疗系统可以支持疾病辅助诊断、健康管理和远程会诊等功能。病理语音通常指的是由于发声器官发生病变而引起的异常发音。目前,对于病理语音的检测方法一般都是对病理语音检测进行声学参数提取,得到声学参数,通过声学参数进行识别,然而,对病理语音检测的鲁棒性较差,导致了对病理语音识别的准确率较低。


技术实现要素:

3.本发明提供一种病理语音的识别方法、装置、设备及存储介质,用于提高对病理语音识别的准确率。
4.本发明第一方面提供了一种病理语音的识别方法,包括:
5.获取语音数据,对所述语音数据依次进行预处理、信号归一化和信号分割,得到已分割语音信号;
6.对所述已分割语音信号依次进行小波变换的多频带分解和倒谱分析,得到倒谱数据;
7.对所述倒谱数据分别进行梅尔频率倒谱系数转换和时频分阶数提取,得到梅尔频率倒谱系数和时频分阶梅尔频率倒谱系数;
8.根据所述梅尔频率倒谱系数和所述时频分阶梅尔频率倒谱系数构造预设维度的特征向量,得到初始语音特征向量,并对所述初始语音特征向量进行基于特征值时间序列的特征选择,得到目标语音特征向量;
9.通过预置的多层感知器,对所述目标语音特征向量进行语音类别概率计算和概率判别,得到分类结果,所述多层感知器包括三个卷积层以及每个卷积层连接的最大池化层、两个完整连接层和一个输出层,所述分类结果包括正常语音和病理语音。
10.可选的,在本发明第一方面的第一种实现方式中,所述通过预置的多层感知器,对所述目标语音特征向量进行语音类别概率计算和概率判别,得到分类结果,所述多层感知器包括三个卷积层以及每个卷积层连接的最大池化层、两个完整连接层和一个输出层,所述分类结果包括正常语音和病理语音,包括:
11.通过预置的多层感知器的三个卷积层,计算所述目标语音特征向量中每个特征图的隐藏单元值,得到语音特征向量的隐藏单元值;
12.通过所述多层感知器的最大池化层,对所述语音特征向量的隐藏单元值进行降维处理,得到初始语音特征;
13.通过所述多层感知器的两个完整连接层,对所述初始语音特征进行拟合,得到待
分类特征向量;
14.通过所述多层感知器的一个输出层,基于所述待分类特征向量进行语音类别概率计算并输出分类结果,所述分类结果包括正常语音和病理语音。
15.可选的,在本发明第一方面的第二种实现方式中,所述对所述已分割语音信号依次进行小波变换的多频带分解和倒谱分析,得到倒谱数据,包括:
16.通过预置的离散小波变换算法,对所述已分割语音信号中的每段语音信号进行多级子带分解,得到分解后的语音信号;
17.通过预置的倒谱算法,对所述分解后的语音信号依序进行傅立叶变换和傅里叶逆变换,得到倒谱数据。
18.可选的,在本发明第一方面的第三种实现方式中,所述对所述倒谱数据分别进行梅尔频率倒谱系数转换和时频分阶数提取,得到梅尔频率倒谱系数和时频分阶梅尔频率倒谱系数,包括:
19.对所述倒谱数据依序进行傅里叶变换和离散余弦变换,得到梅尔频率倒谱系数;
20.通过预置的时频分阶数计算公式,对所述梅尔频率倒谱系数进行计算,得时频分阶梅尔频率倒谱系数,所述时频分阶梅尔频率倒谱系数包括一阶差分梅尔频率倒谱系数和二阶差分梅尔频率倒谱系数。
21.可选的,在本发明第一方面的第四种实现方式中,所述病理语音的识别方法,还包括:
22.获取所述语音数据对应的历史声纹数据,通过所述历史声纹数据,对所述分类结果进行校验,得到目标检测结果,所述历史声纹数据包括历史存储的语音发出者的声纹特征和声纹特征分析结果;
23.通过所述目标检测结果从预置的病理数据库匹配对应的目标病理数据,所述目标病理数据包括疾病数据。
24.可选的,在本发明第一方面的第五种实现方式中,所述获取所述语音数据对应的历史声纹数据,通过所述历史声纹数据,对所述分类结果进行校验,得到目标检测结果,所述历史声纹数据包括历史存储的语音发出者的声纹特征和声纹特征分析结果,包括:
25.从预置的语音数据库中提取所述语音数据对应的历史声纹数据,所述历史声纹数据包括历史存储的语音发出者的声纹特征和声纹特征分析结果;
26.通过预置的多个相似度计算算法,分别计算所述分类结果和所述历史声纹数据之间的相似度,得到多个目标相似度;
27.将所述多个目标相似度与预设阈值进行对比分析,得到对比分析结果,并根据所述对比分析结果将所述分类结果确定为目标检测结果。
28.可选的,在本发明第一方面的第六种实现方式中,所述通过所述目标检测结果从预置的病理数据库匹配对应的目标病理数据,所述目标病理数据包括疾病数据,包括:
29.对所述目标检测结果依次进行实体识别、实体关系提取和知识图谱创建,得到检测结果知识图谱;
30.通过所述检测结果知识图谱,对预置的病理数据库中的病理知识图谱进行匹配,得到目标病理数据,所述目标病理数据包括病理语音对应的疾病数据。
31.本发明第二方面提供了一种病理语音的识别装置,包括:
32.处理模块,用于获取语音数据,对所述语音数据依次进行预处理、信号归一化和信号分割,得到已分割语音信号;
33.分析模块,用于对所述已分割语音信号依次进行小波变换的多频带分解和倒谱分析,得到倒谱数据;
34.转换模块,用于对所述倒谱数据分别进行梅尔频率倒谱系数转换和时频分阶数提取,得到梅尔频率倒谱系数和时频分阶梅尔频率倒谱系数;
35.选择模块,用于根据所述梅尔频率倒谱系数和所述时频分阶梅尔频率倒谱系数构造预设维度的特征向量,得到初始语音特征向量,并对所述初始语音特征向量进行基于特征值时间序列的特征选择,得到目标语音特征向量;
36.判别模块,用于通过预置的多层感知器,对所述目标语音特征向量进行语音类别概率计算和概率判别,得到分类结果,所述多层感知器包括三个卷积层以及每个卷积层连接的最大池化层、两个完整连接层和一个输出层,所述分类结果包括正常语音和病理语音。
37.可选的,在本发明第二方面的第一种实现方式中,所述判别模块具体用于:
38.通过预置的多层感知器的三个卷积层,计算所述目标语音特征向量中每个特征图的隐藏单元值,得到语音特征向量的隐藏单元值;
39.通过所述多层感知器的最大池化层,对所述语音特征向量的隐藏单元值进行降维处理,得到初始语音特征;
40.通过所述多层感知器的两个完整连接层,对所述初始语音特征进行拟合,得到待分类特征向量;
41.通过所述多层感知器的一个输出层,基于所述待分类特征向量进行语音类别概率计算并输出分类结果,所述分类结果包括正常语音和病理语音。
42.可选的,在本发明第二方面的第二种实现方式中,所述分析模块具体用于:
43.通过预置的离散小波变换算法,对所述已分割语音信号中的每段语音信号进行多级子带分解,得到分解后的语音信号;
44.通过预置的倒谱算法,对所述分解后的语音信号依序进行傅立叶变换和傅里叶逆变换,得到倒谱数据。
45.可选的,在本发明第二方面的第三种实现方式中,所述转换模块具体用于:
46.对所述倒谱数据依序进行傅里叶变换和离散余弦变换,得到梅尔频率倒谱系数;
47.通过预置的时频分阶数计算公式,对所述梅尔频率倒谱系数进行计算,得时频分阶梅尔频率倒谱系数,所述时频分阶梅尔频率倒谱系数包括一阶差分梅尔频率倒谱系数和二阶差分梅尔频率倒谱系数。
48.可选的,在本发明第二方面的第四种实现方式中,所述病理语音的识别装置,还包括:
49.校验模块,用于获取所述语音数据对应的历史声纹数据,通过所述历史声纹数据,对所述分类结果进行校验,得到目标检测结果,所述历史声纹数据包括历史存储的语音发出者的声纹特征和声纹特征分析结果;
50.匹配模块,用于通过所述目标检测结果从预置的病理数据库匹配对应的目标病理数据,所述目标病理数据包括疾病数据。
51.可选的,在本发明第二方面的第五种实现方式中,所述校验模块具体用于:
52.从预置的语音数据库中提取所述语音数据对应的历史声纹数据,所述历史声纹数据包括历史存储的语音发出者的声纹特征和声纹特征分析结果;
53.通过预置的多个相似度计算算法,分别计算所述分类结果和所述历史声纹数据之间的相似度,得到多个目标相似度;
54.将所述多个目标相似度与预设阈值进行对比分析,得到对比分析结果,并根据所述对比分析结果将所述分类结果确定为目标检测结果。
55.可选的,在本发明第二方面的第六种实现方式中,所述匹配模块具体用于:
56.对所述目标检测结果依次进行实体识别、实体关系提取和知识图谱创建,得到检测结果知识图谱;
57.通过所述检测结果知识图谱,对预置的病理数据库中的病理知识图谱进行匹配,得到目标病理数据,所述目标病理数据包括病理语音对应的疾病数据。
58.本发明第三方面提供了一种病理语音的识别设备,包括:存储器和至少一个处理器,所述存储器中存储有计算机程序;所述至少一个处理器调用所述存储器中的所述计算机程序,以使得所述病理语音的识别设备执行上述的病理语音的识别方法。
59.本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行上述的病理语音的识别方法。
60.本发明提供的技术方案中,获取语音数据,对语音数据依次进行预处理、信号归一化和信号分割,得到已分割语音信号;对已分割语音信号依次进行小波变换的多频带分解和倒谱分析,得到倒谱数据;对倒谱数据分别进行梅尔频率倒谱系数转换和时频分阶数提取,得到梅尔频率倒谱系数和时频分阶梅尔频率倒谱系数;根据梅尔频率倒谱系数和时频分阶梅尔频率倒谱系数构造预设维度的特征向量,得到初始语音特征向量,并对初始语音特征向量进行基于特征值时间序列的特征选择,得到目标语音特征向量;通过预置的多层感知器,对目标语音特征向量进行语音类别概率计算和概率判别,得到分类结果,多层感知器包括三个卷积层以及每个卷积层连接的最大池化层、两个完整连接层和一个输出层,分类结果包括正常语音和病理语音。本发明实施例中,通过对语音数据进行小波变换的多频带分解和倒谱分析以及多层感知器的分类,保证了目标语音特征向量的质量,提高了目标语音特征向量的准确性,提高了对病理语音检测的鲁棒性,从而提高了对病理语音识别的准确率。
附图说明
61.图1为本发明实施例中病理语音的识别方法的一个实施例示意图;
62.图2为本发明实施例中病理语音的识别方法的另一个实施例示意图;
63.图3为本发明实施例中病理语音的识别装置的一个实施例示意图;
64.图4为本发明实施例中病理语音的识别装置的另一个实施例示意图;
65.图5为本发明实施例中病理语音的识别设备的一个实施例示意图。
具体实施方式
66.本发明实施例提供了一种病理语音的识别方法、装置、设备及存储介质,提高了对病理语音识别的准确率。
67.本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
68.为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中病理语音的识别方法的一个实施例包括:
69.101、获取语音数据,对语音数据依次进行预处理、信号归一化和信号分割,得到已分割语音信号。
70.可以理解的是,本发明的执行主体可以为病理语音的识别装置,还可以是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。
71.申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
72.人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
73.服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
74.服务器可通过发送请求至用户终端,并接收用户终端发送的语音数据,语音数据可包括一个或一个用户的语音数据;服务器也可通过从预置联盟链对应的噪音数据库meei中采集语音数据,该噪音数据库meei包括53个健康语音和133个病理语音(声带息肉21例、声带水肿44例和声带麻痹68例)。其中,语音数据包括待检测识别的健康语音(正常语音)和病理语音,语音数据也可为某一时段(或时刻)的语音数据或者不同时段(或时刻)的语音数据,例如,语音数据可为患者在就诊当天的检查时刻发出的语音数据,语音数据也可为患者在就诊当天以及在就诊当天的前后一两天的早上起床发出的语音数据。
75.服务器获得语音数据后,将语音数据进行信号转换得到初始语音信号,以实现预处理;通过预置的高通滤波器对初始语音信号进行高频滤波,以实现预处理,得到已预加重信号,提升了高频部分,使初始语音信号的频谱变得平坦,保证在低频到高频的整个频带中,能用同样的信噪比求频谱,同时,也是为了消除发生过程中声带和嘴唇的效应,补偿初始语音信号受到发音系统所抑制的高频部分,突出了高频的共振峰;将已预加重信号进行样本帧划分,以实现预处理,得到已分帧信号,为避免相邻两帧变化过大,因此使已分帧信号中的两相邻帧之间存在一段重叠区域;从已分帧信号中提取预设长度的语音长信号,对语音长信号进行归一化,得到归一化后的目标信号,进一步地,预设长度的语音长信号为稳
定且无伪影的预设长度长信号,本实施例中,预设长度为3秒,语音长信号的数量包括一个或一个以上,服务器计算每个语音长信号的二次方乘积,并计算所有语音长信号的二次方乘积的和值,将每个语音长信号除以和值,得到归一化后的目标信号,可选的,将每个语音长信号除以和值,得到归一化后的初始信号,将归一化后的初始信号进行平均值计算,得到归一化后的目标信号;对归一化后的目标信号进行加汉明窗,实现了将归一化后的目标信号分成不重叠的目标长度(即信号分割),从而得到已分割语音信号,减少了归一化后的目标信号的不连续性,使两端光滑,以增加帧左端和右端的连续性,其中,本实施例中,目标长度为100长度,选择这个持续时间是为了确保最后一个分解级别的信号有足够的样本来计算倒谱,已分割语音信号包括一段或一段以上的语音信号。
76.102、对已分割语音信号依次进行小波变换的多频带分解和倒谱分析,得到倒谱数据。
77.服务器调用预置的倍频程带临界抽取滤波器组(或离散小波变换算法),基于等效分析滤波器,将已分割语音信号分解为一组从有限数量的原型序列及其时移版本获得的基函数(即小波变换的多频带分解),得到分解后的语音信号,其中,等效分析滤波器包括分析尺度函数(即半带低通分析滤波器的脉冲响应)和分析小波函数(即高通分析滤波器的脉冲响应)。通过预置的倒谱算法,对分解后的语音信号进行傅立叶变换,得到傅立叶变换的信号,对傅立叶变换的信号进行再傅里叶逆变换,得到倒谱数据。
78.103、对倒谱数据分别进行梅尔频率倒谱系数转换和时频分阶数提取,得到梅尔频率倒谱系数和时频分阶梅尔频率倒谱系数。
79.服务器通过预设滤波器组对倒谱数据进行滤波处理,得到滤波处理后的倒谱数据,对倒谱数据进行滤波处理的执行过程中以带宽随频率而变化,对于倒谱数据中低于1赫兹hz的频率,从大约100赫兹hz开始然后在高于1赫兹hz时以对数方式增加,其中,预设滤波器组为由重叠50%的三角形带通滤波器组成的滤波器组;对滤波处理后的倒谱数据进行傅里叶变换,得到傅里叶变换后的倒谱数据,对傅里叶变换后的倒谱数据进行离散余弦变换,得到梅尔频率倒谱系数(mel frequency cepstrum coefficient,mfcc)。通过预置的时频分阶数计算公式,分别计算梅尔频率倒谱系数的一阶差分梅尔频率倒谱系数和二阶差分梅尔频率倒谱系数,从而得到时频分阶梅尔频率倒谱系数。
80.本实施例中,对每个语音子带在语音片段(即已分割语音信号中的每段语音信号)中,获得了13个mfcc并将其用作特征;通过为每个语音片段(即已分割语音信号中的每段语音信号)的倒谱数据计算13个mfcc中的每个语音片段(即已分割语音信号中的每段语音信号)的持续时间为30ms、重叠20ms,使用具有40个倍频程带临界抽取滤波器的子带信号(即分解后的语音信号)。
81.104、根据梅尔频率倒谱系数和时频分阶梅尔频率倒谱系数构造预设维度的特征向量,得到初始语音特征向量,并对初始语音特征向量进行基于特征值时间序列的特征选择,得到目标语音特征向量。
82.服务器将梅尔频率倒谱系数和时频分阶梅尔频率倒谱系数进行组合,并将组合后的梅尔频率倒谱系数和时频分阶梅尔频率倒谱系数构造成预设维度的特征向量,得到初始语音特征向量,本实施例中的预设维度为39维,初始语音特征向量包括已分割语音信号的每个特征值的时间序列。通过预置的用于特征选择的过滤算法、包裹算法或嵌入算法,对初
始特征向量进行特征选择,得到目标语音特征向量。
83.105、通过预置的多层感知器,对目标语音特征向量进行语音类别概率计算和概率判别,得到分类结果,多层感知器包括三个卷积层以及每个卷积层连接的最大池化层、两个完整连接层和一个输出层,分类结果包括正常语音和病理语音。
84.服务器通过预置的多层感知器的三个卷积层,计算目标语音特征向量中每个特征图的隐藏单元值,得到语音特征向量的隐藏单元值;通过多层感知器的最大池化层,对语音特征向量的隐藏单元值进行降维处理,得到初始语音特征;通过多层感知器的两个完整连接层,对初始语音特征进行拟合,得到待分类特征向量;通过多层感知器的一个输出层,基于待分类特征向量进行语音类别概率计算并输出分类结果,分类结果包括正常语音和病理语音。
85.本发明实施例中,通过对语音数据进行小波变换的多频带分解和倒谱分析以及多层感知器的分类,保证了目标语音特征向量的质量,提高了目标语音特征向量的准确性,提高了对病理语音检测的鲁棒性,从而提高了对病理语音识别的准确率。本方案可应用于智慧医疗领域中,从而推动智慧城市的建设。
86.请参阅图2,本发明实施例中病理语音的识别方法的另一个实施例包括:
87.201、获取语音数据,对语音数据依次进行预处理、信号归一化和信号分割,得到已分割语音信号。
88.该步骤201的执行过程与上述步骤101的执行过程类似,在此不再赘述。
89.202、对已分割语音信号依次进行小波变换的多频带分解和倒谱分析,得到倒谱数据。
90.具体地,服务器通过预置的离散小波变换算法,对已分割语音信号中的每段语音信号进行多级子带分解,得到分解后的语音信号;通过预置的倒谱算法,对分解后的语音信号依序进行傅立叶变换和傅里叶逆变换,得到倒谱数据。
91.服务器调用预置的离散小波变换算法(discrete wavelet transformation,dwt),将已分割语音信号中的每段语音信号分解为一组从有限数量的原型序列及其时移版本获得的基函数,已分割语音信号包括多段语音信号,进一步地,通过预置的离散小波变换算法,基于预设的计算公式,对已分割语音信号中的每段语音信号进行多级子带分解的运算,得到分解后的语音信号,其中,预设的计算公式具体如下:x
m
(n)表示分解后的语音信号,m表示语音子带的数量,n表示已分割语音信号中的语音信号的数量,k表示已分割语音信号中的第k段语音信号,h
m
()表示等效分析滤波器,s表示分解阶段或级别的数据量;其中,本实施例中的s为3,即进行三级的子带分解,每个语音子带符合预设条件,例如,第m个语音子带仅限于:其中,w为已分割语音信号中的各语音信号的第m个语音子带,s为已分割语音信号进行分解阶段或级别的数据量,s+1为语音子带的数量,π为归
一化角频率,相当于采样率的一半。
92.服务器通过预置的倒谱算法,对分解后的语音信号进行映射卷积(或反卷积,即傅立叶变换后傅里叶逆变换),从而得到倒谱数据,倒谱算法如下:c(n)表示倒谱数据,x(n)表示分解后的语音信号,表示离散时间傅立叶变换(discrete

time fourier transform,dtft),表示离散时间傅立叶变换dtft的逆变换。在实际应用中,一个n点快速傅立叶变化(fft)用于代替dtft,在该方案中提出的多波段倒谱分析中,为了每个子带信号(即语音子带)计算真实的倒谱x
m
(n),m={0,1,2,3},使用4410个点fft对每个语音段进行分析,从而得到倒谱c
m
(n),m={0,1,2,3},m表示语音子带的数量。
93.203、对倒谱数据分别进行梅尔频率倒谱系数转换和时频分阶数提取,得到梅尔频率倒谱系数和时频分阶梅尔频率倒谱系数。
94.具体地,服务器对倒谱数据依序进行傅里叶变换和离散余弦变换,得到梅尔频率倒谱系数;通过预置的时频分阶数计算公式,对梅尔频率倒谱系数进行计算,得时频分阶梅尔频率倒谱系数,时频分阶梅尔频率倒谱系数包括一阶差分梅尔频率倒谱系数和二阶差分梅尔频率倒谱系数。
95.服务器对倒谱数据进行傅里叶变换,得到傅里叶变换后的倒谱数据,对傅里叶变换后的倒谱数据进行离散余弦变换,得到梅尔频率倒谱系数mfcc。服务器通过预置的时频分阶数计算公式,对梅尔频率倒谱系数进行计算,得到时频分阶梅尔频率倒谱系数,其中,时频分阶数计算公式包括一阶差分计算公式和二阶差分计算公式,通过一阶差分计算公式对梅尔频率倒谱系数进行计算,得到一阶差分梅尔频率倒谱系数,通过二阶差分计算公式对梅尔频率倒谱系数进行计算,得到二阶差分梅尔频率倒谱系数,一阶差分计算公式具体如下:d1(l)表示一阶差分梅尔频率倒谱系数,i表示第i帧语音(即已分割语音信号中的语音信号),p表示一阶导数的时间差,p=2,c(l+i)表示一阶差分梅尔频率倒谱系数mfcc参数的一帧,d2(l)表示一阶差分梅尔频率倒谱系数。
96.204、根据梅尔频率倒谱系数和时频分阶梅尔频率倒谱系数构造预设维度的特征向量,得到初始语音特征向量,并对初始语音特征向量进行基于特征值时间序列的特征选择,得到目标语音特征向量。
97.服务器计算梅尔频率倒谱系数的特征值和时频分阶梅尔频率倒谱系数的特征值,梅尔频率倒谱系数的特征值和时频分阶梅尔频率倒谱系数的特征值均是针对已分割语音信号的所有语音子带计算的,通过预设的线性方程组,对梅尔频率倒谱系数、梅尔频率倒谱系数的特征值、时频分阶梅尔频率倒谱系数和时频分阶梅尔频率倒谱系数的特征值进行预设维度的特征向量的求解,得到初始语音特征向量,本实施例中的预设维度为39维,初始语音特征向量包括已分割语音信号的每个特征值的时间序列。
98.为了提高后续的分类精度,对初始语音特征向量进行基于特征值时间序列的特征选择,对初始语音特征向量进行基于特征值时间序列的特征选择的执行过程,将初始语音
特征向量视作为分布,即获取每个特征值的时间序列,通过预设指标对每个特征值的时间序列进行统计,得到统计数据,其中,预设指标包括但不限于平均值、中位数、方差、最大值和最小值;通过预置的用于特征选择的过滤算法、包裹算法或嵌入算法,基于统计数据对初始特征向量进行特征选择,得到目标语音特征向量。
99.205、通过预置的多层感知器,对目标语音特征向量进行语音类别概率计算和概率判别,得到分类结果,多层感知器包括三个卷积层以及每个卷积层连接的最大池化层、两个完整连接层和一个输出层,分类结果包括正常语音和病理语音。
100.具体地,服务器通过预置的多层感知器的三个卷积层,计算目标语音特征向量中每个特征图的隐藏单元值,得到语音特征向量的隐藏单元值;通过多层感知器的最大池化层,对语音特征向量的隐藏单元值进行降维处理,得到初始语音特征;通过多层感知器的两个完整连接层,对初始语音特征进行拟合,得到待分类特征向量;通过多层感知器的一个输出层,基于待分类特征向量进行语音类别概率计算并输出分类结果,分类结果包括正常语音和病理语音。
101.其中,多层感知器包括多个隐藏层,多层感知器能够从低层特征中抽象出有用的高层特征或属性等信息,发现数据之间内在的分布规律,多层感知器可为预先设计的卷积神经网络(diffusion

convolutional neural networks,dcnn),多层感知器(预先设计的卷积神经网络dcnn)具有1024个神经元的两个隐藏层架构,1024个神经元的两个隐藏层架构包括三个卷积层、每个卷积层连接的最大池化层(每个卷积层之后是最大池化层)、两个完整连接层和一个输出层,三个卷积层、每个卷积层连接的最大池化层(每个卷积层之后是最大池化层)、两个完整连接层和一个输出层从左往右的顺序依次连接,例如,三个卷积层为c

layer1、c

layer2和c

layer3,每个卷积层连接的最大池化层为m

layer1和m

layer2,两个完整连接层为fc

layer1和fc

layer2,一个输出层为sx

layer,连接顺序依次为c

layer1与m

layer1连接、m

layer1与c

layer2连接、c

layer2与m

layer2连接、m

layer2与fc

layer1连接、fc

layer1与fc

layer2连接,fc

layer2与sx

layer连接。
102.三个卷积层中的第一个卷积层用于捕获目标语音特征向量中的低纬度特征,三个卷积层可以使网络架构(多层感知器)灵活地提取目标语音特征向量中的高维度特征,每个卷积层中的隐藏单元只连接到输入特征映射的一个分区。服务器通过三个卷积层的激活函数和隐藏单元,对目标语音特征向量进行加权求和,以实现目标语音特征向量中每个特征图的隐藏单元值的计算,从而得到语音特征向量的隐藏单元值,其中,隐藏单元在局部感受野之间共享权重,以便在输入数据中提取相同的特征。
103.通过多层感知器的最大池化层,对语音特征向量的隐藏单元值进行降维处理,得到初始语音特征,每个卷积层连接的最大池化层的作用是减少在卷积层中获得的卷积特征的空间大小,从而最小化模型参数的数量,降低处理数据所需的计算能力,此外,最大池化操作有利于提取相关特征,其能够保持模型的高效训练过程。
104.通过多层感知器的两个完整连接层,对初始语音特征进行全局卷积的特征分类,以将初始语音特征整合到一起,输出一个值,从而得到待分类特征向量,其中,两个完整连接层均为全连接层。通过多层感知器的一个输出层,计算待分类特征向量对于正常语音类别或病理语音类别的概率值,得到语音类别概率值,语音类别概率值的计算过程如下:
其中,σ(v)
i
表示语音类别概率值,exp表示以e为底的指数函数,v表示待分类特征向量,m表示语音类别的数量,i、j表示第几个待分类特征向量;根据语音类别概率值,对语音数据进行语音类型判别,得到分类结果,进一步地,若语音类别概率值大于或等于预设病理语音阈值,则判定对应的语音数据为病理语音,若语音类别概率值小于预设病理语音阈值,则判定对应的语音数据为正常语音。
105.206、获取语音数据对应的历史声纹数据,通过历史声纹数据,对分类结果进行校验,得到目标检测结果,历史声纹数据包括历史存储的语音发出者的声纹特征和声纹特征分析结果。
106.具体地,服务器从预置的语音数据库中提取语音数据对应的历史声纹数据,历史声纹数据包括历史存储的语音发出者的声纹特征和声纹特征分析结果;通过预置的多个相似度计算算法,分别计算分类结果和历史声纹数据之间的相似度,得到多个目标相似度;将多个目标相似度与预设阈值进行对比分析,得到对比分析结果,并根据对比分析结果将分类结果确定为目标检测结果。
107.服务器获取语音数据对应的语音发出者信息,通过语音发出者信息对预置的语音数据库进行检索,得到语音数据对应的历史声纹数据,历史声纹数据包括历史存储的语音发出者的声纹特征和声纹特征分析结果,声纹特征包括身体健康时发出的声音的声纹特征和病理状态下发出的声音的声纹特征,声纹特征分析结果包括语音类别和病理信息,语音类别包括正常语音(健康语音)或病理语音,病理信息包括但不限于病理程度、病理状况和病理部位等。通过预置的多个相似度计算算法,分别计算分类结果和历史声纹数据之间的相似度,得到多个目标相似度,一个目标相似度对应一个相似度计算算法,多个目标相似度计算算法为均不相同的用于计算相似度的算法,多个相似度计算算法可为余弦相似度的计算算法、皮尔逊相关系数、欧几里得距离、谷本系数、修正余弦相似度、汉明距离和曼哈顿距离等分别对应的计算算法中的任意两者以上。
108.将多个目标相似度与预设阈值进行对比分析,得到对比分析结果,并根据对比分析结果将分类结果确定为目标检测结果的执行过程为:将每个相似度与预设阈值进行比对,并对大于预设阈值的相似度的数量进行统计,得到目标数量,即对比分析结果,若对比分析结果大于或等于目标值,则将分类结果确定为目标检测结果,若对比分析结果小于目标值,则重复执行上述所有步骤重新获取新的分类结果,再对分类结果进行比对分析,本实施例中的目标值为2;或者,将多个目标相似度进行算术平均值计算,得到目标和值,判断目标和值是否大于预设阈值,得到对比分析结果,若对比分析结果为目标和值大于预设阈值,则将分类结果确定为目标检测结果,若对比分析结果为目标和值小于或等于预设阈值,则重复执行上述所有步骤重新获取新的分类结果,再对分类结果进行比对分析。提高了目标检测结果的准确性。
109.207、通过目标检测结果从预置的病理数据库匹配对应的目标病理数据,目标病理数据包括疾病数据。
110.具体地,服务器对目标检测结果依次进行实体识别、实体关系提取和知识图谱创建,得到检测结果知识图谱;通过检测结果知识图谱,对预置的病理数据库中的病理知识图谱进行匹配,得到目标病理数据,目标病理数据包括病理语音对应的疾病数据。
111.服务器调用预置的实体关系模型,对目标检测结果依次进行实体识别,得到实体信息,根据实体信息对目标检测结果进行实体关系提取,得到实体关系信息,根据实体信息和实体关系信息构建知识图谱,得到检测结果知识图谱;分别对检测结果知识图谱和预置的病理数据库中的病理知识图谱进行随机游走,得到多个检测结果序列和多个病理知识序列,计算多个检测结果序列中各检测结果序列分别与多个病理知识序列的相似度,得到多个初始序列相似度集合,一个初始序列相似度集合对应一个检测结果序列,将每个初始序列相似度集合中的各初始序列相似度与预设相似度阈值进行对比,得到多个目标序列相似度集合,每个目标序列相似度集合均包括大于预设相似度阈值的一个或一个以上的初始序列相似度,将多个目标序列相似度集合分别对应的病理知识序列确定为目标病理数据,目标病理数据包括病理语音对应的疾病数据,其中,病理知识图谱包括各类型语音病理对应的疾病数据。提高了目标病理数据的准确性和有效性。
112.本发明实施例中,不仅通过对语音数据进行小波变换的多频带分解和倒谱分析以及多层感知器的分类,保证了目标语音特征向量的质量,提高了目标语音特征向量的准确性,提高了对病理语音检测的鲁棒性,从而提高了对病理语音识别的准确率,还基于高质量、高准确性的分类结果进行目标检测结果和目标病理数据的获取,提高了目标检测结果的准确性,进而提高了目标病理数据的准确性和有效性。本方案可应用于智慧医疗领域中,从而推动智慧城市的建设。
113.上面对本发明实施例中病理语音的识别方法进行了描述,下面对本发明实施例中病理语音的识别装置进行描述,请参阅图3,本发明实施例中病理语音的识别装置一个实施例包括:
114.处理模块301,用于获取语音数据,对语音数据依次进行预处理、信号归一化和信号分割,得到已分割语音信号;
115.分析模块302,用于对已分割语音信号依次进行小波变换的多频带分解和倒谱分析,得到倒谱数据;
116.转换模块303,用于对倒谱数据分别进行梅尔频率倒谱系数转换和时频分阶数提取,得到梅尔频率倒谱系数和时频分阶梅尔频率倒谱系数;
117.选择模块304,用于根据梅尔频率倒谱系数和时频分阶梅尔频率倒谱系数构造预设维度的特征向量,得到初始语音特征向量,并对初始语音特征向量进行基于特征值时间序列的特征选择,得到目标语音特征向量;
118.判别模块305,用于通过预置的多层感知器,对目标语音特征向量进行语音类别概率计算和概率判别,得到分类结果,多层感知器包括三个卷积层以及每个卷积层连接的最大池化层、两个完整连接层和一个输出层,分类结果包括正常语音和病理语音。
119.上述病理语音的识别装置中各个模块的功能实现与上述病理语音的识别方法实施例中各步骤相对应,其功能和实现过程在此处不再一一赘述。
120.本发明实施例中,通过对语音数据进行小波变换的多频带分解和倒谱分析以及多层感知器的分类,保证了目标语音特征向量的质量,提高了目标语音特征向量的准确性,提高了对病理语音检测的鲁棒性,从而提高了对病理语音识别的准确率。本方案可应用于智慧医疗领域中,从而推动智慧城市的建设。
121.请参阅图4,本发明实施例中病理语音的识别装置的另一个实施例包括:
122.处理模块301,用于获取语音数据,对语音数据依次进行预处理、信号归一化和信号分割,得到已分割语音信号;
123.分析模块302,用于对已分割语音信号依次进行小波变换的多频带分解和倒谱分析,得到倒谱数据;
124.转换模块303,用于对倒谱数据分别进行梅尔频率倒谱系数转换和时频分阶数提取,得到梅尔频率倒谱系数和时频分阶梅尔频率倒谱系数;
125.选择模块304,用于根据梅尔频率倒谱系数和时频分阶梅尔频率倒谱系数构造预设维度的特征向量,得到初始语音特征向量,并对初始语音特征向量进行基于特征值时间序列的特征选择,得到目标语音特征向量;
126.判别模块305,用于通过预置的多层感知器,对目标语音特征向量进行语音类别概率计算和概率判别,得到分类结果,多层感知器包括三个卷积层以及每个卷积层连接的最大池化层、两个完整连接层和一个输出层,分类结果包括正常语音和病理语音;
127.校验模块306,用于获取语音数据对应的历史声纹数据,通过历史声纹数据,对分类结果进行校验,得到目标检测结果,历史声纹数据包括历史存储的语音发出者的声纹特征和声纹特征分析结果;
128.匹配模块307,用于通过目标检测结果从预置的病理数据库匹配对应的目标病理数据,目标病理数据包括疾病数据。
129.可选的,判别模块305还可以具体用于:
130.通过预置的多层感知器的三个卷积层,计算目标语音特征向量中每个特征图的隐藏单元值,得到语音特征向量的隐藏单元值;
131.通过多层感知器的最大池化层,对语音特征向量的隐藏单元值进行降维处理,得到初始语音特征;
132.通过多层感知器的两个完整连接层,对初始语音特征进行拟合,得到待分类特征向量;
133.通过多层感知器的一个输出层,基于待分类特征向量进行语音类别概率计算并输出分类结果,分类结果包括正常语音和病理语音。
134.可选的,分析模块302还可以具体用于:
135.通过预置的离散小波变换算法,对已分割语音信号中的每段语音信号进行多级子带分解,得到分解后的语音信号;
136.通过预置的倒谱算法,对分解后的语音信号依序进行傅立叶变换和傅里叶逆变换,得到倒谱数据。
137.可选的,转换模块303还可以具体用于:
138.对倒谱数据依序进行傅里叶变换和离散余弦变换,得到梅尔频率倒谱系数;
139.通过预置的时频分阶数计算公式,对梅尔频率倒谱系数进行计算,得时频分阶梅尔频率倒谱系数,时频分阶梅尔频率倒谱系数包括一阶差分梅尔频率倒谱系数和二阶差分梅尔频率倒谱系数。
140.可选的,校验模块306还可以具体用于:
141.从预置的语音数据库中提取语音数据对应的历史声纹数据,历史声纹数据包括历史存储的语音发出者的声纹特征和声纹特征分析结果;
142.通过预置的多个相似度计算算法,分别计算分类结果和历史声纹数据之间的相似度,得到多个目标相似度;
143.将多个目标相似度与预设阈值进行对比分析,得到对比分析结果,并根据对比分析结果将分类结果确定为目标检测结果。
144.可选的,匹配模块307还可以具体用于:
145.对目标检测结果依次进行实体识别、实体关系提取和知识图谱创建,得到检测结果知识图谱;
146.通过检测结果知识图谱,对预置的病理数据库中的病理知识图谱进行匹配,得到目标病理数据,目标病理数据包括病理语音对应的疾病数据。
147.上述病理语音的识别装置中各模块和各单元的功能实现与上述病理语音的识别方法实施例中各步骤相对应,其功能和实现过程在此处不再一一赘述。
148.本发明实施例中,不仅通过对语音数据进行小波变换的多频带分解和倒谱分析以及多层感知器的分类,保证了目标语音特征向量的质量,提高了目标语音特征向量的准确性,提高了对病理语音检测的鲁棒性,从而提高了对病理语音识别的准确率,还基于高质量、高准确性的分类结果进行目标检测结果和目标病理数据的获取,提高了目标检测结果的准确性,进而提高了目标病理数据的准确性和有效性。本方案可应用于智慧医疗领域中,从而推动智慧城市的建设。
149.上面图3和图4从模块化功能实体的角度对本发明实施例中的病理语音的识别装置进行详细描述,下面从硬件处理的角度对本发明实施例中病理语音的识别设备进行详细描述。
150.图5是本发明实施例提供的一种病理语音的识别设备的结构示意图,该病理语音的识别设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,cpu)510(例如,一个或一个以上处理器)和存储器520,一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对病理语音的识别设备500中的一系列计算机程序操作。更进一步地,处理器510可以设置为与存储介质530通信,在病理语音的识别设备500上执行存储介质530中的一系列计算机程序操作。
151.病理语音的识别设备500还可以包括一个或一个以上电源540,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口560,和/或,一个或一个以上操作系统531,例如windows serve,mac os x,unix,linux,freebsd等等。本领域技术人员可以理解,图5示出的病理语音的识别设备结构并不构成对病理语音的识别设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
152.本发明还提供一种病理语音的识别设备,包括:存储器和至少一个处理器,所述存储器中存储有计算机程序,所述存储器和所述至少一个处理器通过线路互连;所述至少一个处理器调用所述存储器中的所述计算机程序,以使得所述病理语音的识别设备执行上述病理语音的识别方法中的步骤。本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,计算机可读存储介质中存储有计算机程序,当计算机程序在计算机上运
行时,使得计算机执行病理语音的识别方法的步骤。
153.进一步地,计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
154.本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
155.所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
156.集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干计算机程序用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read

only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
157.以上,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。