一种适用于车内语音识别系统的语音端点检测方法及模块与流程

1.本发明涉及语音识别前处理领域，特别涉及一种适用于车内语音识别系统的语音端点检测方法及模块。

背景技术：

2.随着汽车智能化程度的快速发展，语音识别及操控系统逐渐成为汽车标配。行车场景中不同工况的噪声，包括路噪、胎噪、发动机噪声、风噪、空调噪声等，这些噪声能量高，频率范围与语音的频率范围重叠度高，对语音的掩蔽效应强烈，严重影响语音识别系统的识别能力。
3.语音端点检测是语音识别过程中的一个必要环节，对信号中语音部分起始点的准确检测与判断，可以大幅度提升语音识别系统的识别率。传统检测方法中对人工声学特征的提取难以描述行车场景中的带噪语音，影响车载语音系统中语音信号的端点检测能力。
4.常用的语音端点检测方法大多是基于人工声学特征的提取，包括时域特征和频域特征，通过设置门限值最终确定语音的起点和终点。基于时域的特征包括短时能量、过零率、相关函数等特征的一系列语音端点检测方法。对信号进行快速傅里叶变换后，可以基于信号频域特征判别语音端点。如基于信息熵、频带方差、谱距离等的语音端点检测算法。这些人工定义的声学特征参数数量少，难以充分描述数据特性，只有在高信噪比下具有较好的检测性能，低信噪比情况下无法很好的计算人工声学特征，检测准确率有很大波动，检测性能大打折扣，特别是在行车工况中，缺乏场景特征的融合，导致高噪时车载语音识别系统的识别准确率难以有效提升。

技术实现要素：

5.为了克服现有技术存在的不足，本发明提供了一种适用于车内语音识别系统的语音端点检测方法及模块，所述技术方案如下：
6.一方面，本发明提供了一种适用于车内语音识别系统的语音端点检测方法，包括以下步骤：
7.s1、对采集的语音音频数据、行车过程中的噪声音频数据以及与所述噪声音频数据相对应的行车工况数据进行预处理，以得到多组待训练的样本数据；
8.s2、利用pr net网络模型分别对若干组所述样本数据进行特征提取和分类任务，并通过全连接操作分别输出预测结果；
9.s3、将所述预测结果与对应的样本数据中的标签结果分别进行损失函数计算，根据计算结果不断调整所述pr net网络模型的参数权重；
10.s4、多次循环执行s2-s3，进行训练，当所述pr net网络模型训练的循环次数等于提前设置的次数，或者所述计算结果达到预设的精度范围，则停止训练，以得到最优的pr net网络模型；
11.s5、将实际行车过程中预处理后的实时音频数据和相应行车工况数据输入至所述
最优的pr net网络模型，所述最优的pr net网络模型输出检测结果；
12.s6、根据所述检测结果，对所述实时音频数据中的含语音帧进行标记；
13.s7、将带标记的实时音频数据输出至下游的语音识别系统。
14.进一步地，在步骤s1中，对采集的数据处理包括以下步骤：
15.s101、提取一段语音音频数据、一段噪声音频数据以及与所述噪声音频数据对应的行车工况数据；
16.s102、将语音音频数据分帧后进行语音端点检测，以得到带语音检测标记的语音音频数据；
17.s103、将带语音检测标记的语音音频数据和所述噪声音频数据进行融合，以得到带语音端点检测标记的带噪语音；
18.s104、将所述带噪语音按照一帧n毫秒进行切分，以得到时域带噪语音帧，并取m帧的数据作为一个训练数据单位；
19.s105、将所述时域带噪语音帧进行频域转换，得到带噪语音频谱数据，使得所述训练数据单位转换为二维频域数据；
20.s106、计算所述二维频域数据的谱熵；
21.s107、将步骤s101中的行车工况数据、步骤s102中的所述带噪语音的标签结果数据、步骤s105中的二维频域数据和步骤s106中的谱熵对应绑定成一组待训练的样本数据；
22.s108、重复多次步骤s101-s107，以得到多组待训练的样本数据。
23.进一步地，所述pr net网络模型对所述二维频域数据进行特征提取，然后将提取出的特征结果分别与相应的所述谱熵以及所述行车工况数据做全连接操作，利用多个分类器分别对全连接后的结果进行分类，以得到分类结果，将所述分类结果做全连接操作以输出预测结果。
24.进一步地，在步骤s2中，所述pr net网络模型中的数据处理包括以下步骤：
25.s201、对所述二维频域数据进行卷积操作；
26.s202、将卷积后的结果通过卷积模型提取特征，并进行深度连接；
27.s203、对深度连接后的结果进行卷积操作后，得到卷积图像，所述卷积图像通过第一分支依次经过卷积、池化操作之后得到特征值，将所述特征值同相应的谱熵和行车工况数据进行全连接操作，再将所述全连接操作后的结果通过激活函数得到一个二分类的分类结果，所述卷积图像通过第二分支输入至所述卷积模型提取特征，并进行深度连接；
28.s204、循环执行一次或多次步骤s203，后一次循环中步骤s203中深度连接后的结果为前一次循环中步骤s203中所述卷积图像通过所述第二分支输入至所述卷积模型提取特征后并进行深度连接产生的结果，以得到若干个分类结果；
29.s205、将全部的分类结果进行全连接操作，以输出预测结果。
30.进一步地，所述卷积模型包括第一卷积模型和第二卷积模型，所述第一卷积模型采用3
×
1、7
×
1和15
×
3大小的卷积核，所述第二卷积模型分别采用3
×
1、7
×
1和15
×
1大小的卷积核；
31.所述卷积模型数据处理包括以下步骤：
32.s2001、将卷积后的结果通过第一卷积模型提取特征，得到第一结果，并将所述第一结果进行深度连接；
33.s2002、对深度连接后的第一结果进行卷积操作后，再通过第二卷积模型提取特征，得到第二结果，并将所述第二结果进行深度连接。
34.进一步地，所述pr net网络模型在训练前设置模型训练次数为x，训练的过程中每隔y次监测验证集的损失，并使用早停法监视所述pr net模型的更新。
35.进一步地，所述预测结果、标签结果和检测结果的表示方式均为{0,1}中的一个元素，0表示不含语音帧，1表示含语音帧。
36.进一步地，所述行车工况数据包括车速数据、车窗状态数据和空调状态数据中的一种或者多种。
37.另一方面，本发明还提供了一种适用于车内语音识别系统的语音端点检测模块，包括语音帧判断单元和语音帧标记单元，所述语音帧判断单元用于检测出实时音频数据中的含语音帧，所述语音帧标记单元用于根据所述语音帧判断单元的检测结果对所述实时音频数据中的含语音帧进行标记；
38.所述语音帧判断单元采用pr net网络模型，所述pr net网络模型包括主分类器、辅助分类器和卷积模型，所述主分类器用于区分出输入数据中的二维频域数据，所述卷积模型采用不同大小的卷积核进行并行卷积运算，并用于提取所述二维频域数据的特征信息，所述辅助分类器用于对所述特征信息进行结果分类。
39.进一步地，所述卷积模型包括第一卷积模型和第二卷积模型，所述第一卷积模型分别采用3
×
1、7
×
1和15
×
3大小的卷积核，所述第二卷积模型分别采用3
×
1、7
×
1和15
×
1大小的卷积核。
40.本发明提供的技术方案带来的有益效果如下：
41.(1)具有良好的抗噪性，对车载环境下的噪声数据和带噪语音有较好的区分能力；
42.(2)能够针对不同的车速以及不同的开窗情况下的场景进行语音端点检测；
43.(3)增加行车工况中带噪语音中特征的耦合，有效解决行车环境下语音端点检测准确率低、部分方法识别速度慢和语音特征选取困难的问题。
附图说明
44.为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
45.图1是本发明实施例提供的适用于车内语音识别系统的语音端点检测方法样本数据处理流程示意图；
46.图2是本发明实施例提供的适用于车内语音识别系统的语音端点检测方法pr net网络模型训练流程示意图；
47.图3是本发明实施例提供的适用于车内语音识别系统的语音端点检测方法pr net网络模型端点检测流程示意图；
48.图4是本发明实施例提供的适用于车内语音识别系统的语音端点检测方法车载应用示意图；
49.图5是本发明实施例提供的适用于车内语音识别系统的语音端点检测方法中语音
音频信号示意图；
50.图6是本发明实施例提供的适用于车内语音识别系统的语音端点检测方法中噪声音频信号示意图；
51.图7是本发明实施例提供的适用于车内语音识别系统的语音端点检测方法中带语音检测标记的语音音频信号示意图；
52.图8是本发明实施例提供的适用于车内语音识别系统的语音端点检测方法中带语音检测标记的带噪语音音频信号示意图；
53.图9是本发明实施例提供的适用于车内语音识别系统的语音端点检测方法中含语音帧的音频信号示意图；
54.图10是本发明实施例提供的适用于车内语音识别系统的语音端点检测方法中含语音帧的二维频谱示意图；
55.图11是本发明实施例提供的适用于车内语音识别系统的语音端点检测方法pr net网络模型结构示意图；
56.图12是本发明实施例提供的适用于车内语音识别系统的语音端点检测方法卷积核的结构示意图；
57.图13是本发明实施例提供的适用于车内语音识别系统的语音端点检测方法第一卷积模型的结构示意图；
58.图14是本发明实施例提供的适用于车内语音识别系统的语音端点检测方法第二卷积模型的结构示意图；
59.图15是本发明实施例提供的适用于车内语音识别系统的语音端点检测方法中实时带噪语音音频信号示意图；
60.图16是本发明实施例提供的适用于车内语音识别系统的语音端点检测方法中频域图像的共振峰特征示意图。
具体实施方式
61.为了使本技术领域的人员更好地理解本发明方案，更清楚地了解本发明的目的、技术方案及其优点，以下结合具体实施例并参照附图对本发明实施例中的技术方案进行清楚、完整地描述。需要说明的是，附图中未绘示或描述的实现方式，为所属技术领域中普通技术人员所知的形式。另外，虽然本文可提供包含特定值的参数的示范，但应了解，参数无需确切等于相应的值，而是可在可接受的误差容限或设计约束内近似于相应的值。显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。除此，本发明的说明书和权利要求书中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
62.在本发明的一个实施例中，提供了一种适用于车内语音识别系统的语音端点检测方法，包括以下步骤：
63.s1、对采集的语音音频数据、行车过程中的噪声音频数据以及与所述噪声音频数
据相对应的行车工况数据进行预处理，以得到多组待训练的样本数据。
64.其中，在步骤s1中，参见图1，对采集的数据处理包括以下步骤：
65.s101、提取一段语音音频数据、一段噪声音频数据以及与所述噪声音频数据对应的行车工况数据，所述行车工况数据包括车速数据、车窗状态数据和空调状态数据中的一种或者多种；
66.s102、将语音音频数据分帧后进行语音端点检测，以得到带语音检测标记的语音音频数据；
67.s103、将带语音检测标记的语音音频数据和所述噪声音频数据进行融合，以得到带语音端点检测标记的带噪语音；
68.s104、将所述带噪语音按照一帧n毫秒进行切分，以得到时域带噪语音帧，并取m帧的数据作为一个训练数据单位；
69.s105、将所述时域带噪语音帧进行频域转换，得到带噪语音频谱数据，使得所述训练数据单位转化为二维频域数据；
70.s106、计算所述二维频域数据的谱熵；
71.s107、将步骤s101中的行车工况数据、步骤s102中的所述带噪语音的标签结果数据、步骤s105中的二维频域数据和步骤s106中的谱熵对应绑定成一组待训练的样本数据，其中所述标签结果的表示方式为{0,1}中的一个元素，0表示不含语音帧，1表示含语音帧；
72.s108、重复多次步骤s101-s107，以得到多组待训练的样本数据。
73.s2、利用pr net网络模型分别对若干组所述样本数据进行特征提取和分类任务，并通过全连接操作分别输出预测结果。
74.其中，在步骤s2中，所述pr net网络模型对所述二维频域数据进行特征提取，然后将提取出的特征结果分别与相应的所述谱熵以及所述行车工况数据做全连接操作，利用多个分类器分别对全连接后的结果进行分类，以得到分类结果，将所述分类结果做全连接操作以输出预测结果。
75.具体地，参见图2，所述pr net网络模型中的数据处理包括以下步骤：
76.s201、对所述二维频域数据进行卷积操作；
77.s202、将卷积后的结果通过卷积模型提取特征，并进行深度连接；
78.其中，所述卷积模型包括第一卷积模型(记作pr-cnn-a)和第二卷积模型(记作pr-cnn-b)，所述第一卷积模型采用3
×
1、7
×
1和15
×
3大小的卷积核，所述第二卷积模型分别采用3
×
1、7
×
1和15
×
1大小的卷积核；
79.所述卷积模型数据处理包括以下步骤：
80.s2001、将卷积后的结果通过第一卷积模型提取特征，得到第一结果，并将所述第一结果进行深度连接；
81.s2002、对深度连接后的第一结果进行卷积操作后，再通过第二卷积模型提取特征，得到第二结果，并将所述第二结果进行深度连接。
82.s203、对深度连接后的结果进行卷积操作后，得到卷积图像，所述卷积图像通过第一分支依次经过卷积、池化操作之后得到特征值，将所述特征值同相应的谱熵和行车工况数据进行全连接操作，再将所述全连接操作后的结果通过激活函数得到一个二分类的分类结果，所述卷积图像通过第二分支输入至所述卷积模型提取特征，并进行深度连接；
83.s204、循环执行一次或多次步骤s203，后一次循环中步骤s203中深度连接后的结果为前一次循环中步骤s203中所述卷积图像通过所述卷积模型提取特征后并进行深度连接产生的结果，以得到若干个分类结果；
84.s205、将全部的分类结果进行全连接操作，以输出预测结果。
85.其中，所述预测结果的表示方式为{0,1}中的一个元素，0表示不含语音帧，1表示含语音帧。
86.s3、将所述预测结果与对应的样本数据中的标签结果分别进行损失函数计算，根据计算结果不断调整所述pr net网络模型的参数权重。
87.s4、多次循环执行s2-s3，进行训练，当所述pr net网络模型训练的循环次数等于提前设置的次数，或者所述计算结果达到预设的精度范围，则停止训练，以得到最优的pr net网络模型。
88.其中，所述pr net网络模型在训练前设置模型训练次数为x，训练的过程中每隔y次监测验证集的损失，并使用早停法监视所述pr net模型的更新。
89.需要注意的是，在一次循环中，会有一组或多组样本数据作为一个批次，使用同一个pr net网络模型进行输出，然后再分别进行损失计算，不断调整参数权重，后一次循环中的pr net网络模型为前一次循环中的参数权重更新后的pr net网络模型。
90.s5、参见图3和图4，将实际行车过程中预处理后的实时音频数据和相应行车工况数据输入至所述最优的pr net网络模型，所述最优的pr net网络模型输出检测结果。
91.s6、根据所述检测结果，对所述实时音频数据中的含语音帧进行标记。
92.s7、将带标记的实时音频数据输出至下游的语音识别系统。
93.所述pr net网络模型充分利用传统信号处理和深度学习方法的优点，传统信号处理在信噪比较高的情况下语音端点检测准确率很高，但在低信噪比情况准确率大大降低，而深度学习方法可以通过对大量样本数据的学习，提取出强噪声下的语音特征，实现低信噪比下的语音端点检测。因此在训练数据准备中使用传统的短时能量和短时平均过零率的方法对纯净语音进行端点标记，在训练样本数据时采用pr net网络模型对多参数进行特征提取和分类任务，多参数包括行车工况数据和谱熵信息。行车工况数据与该行车状况下的背景噪声相对应，在进行全连接操作时能够体现出网络对实时数据的泛化性能，噪声的不相关性和语音数据的相关性能够在频域图像的谱熵数据中很好的体现出来，噪声数据更加混乱，语音数据则更加集中；在输入模型之前计算每一帧的谱熵，并在给定的最小浊音间隔内计算谱熵和，将计算得到的谱熵和作为网络的一个输入参数。
94.在一个实施例中，pr net网络模型结构使用三个分类器(包括一个主分类器、两个辅助分类器)和两个卷积模型(分别记作pr-cnn-a和pr-cnn-b)进行三次循环来进行结果预测，使用分类器主要为了防止随着网络层次的加深出现梯度消失等问题。在网络训练时pr net网络模型首先对语音的频谱信息进行特征提取，然后将提取出的特征结果与谱熵以及行车工况数据做全连接操作(记作fc)，三个分类器分别对全连接后的结果进行分类，将三个分类结果最后做一次全连接操作并将最终结果输出。
95.具体步骤如下：
96.步骤1前期数据准备阶段
97.步骤1.1收集语音音频数据、行车过程中的噪声音频数据和行车工况数据；
98.其中，语音音频数据是指包含人说话声音的纯净语音；行车过程中的噪声音频数据指在某一车速下以及车窗和空调状态下对应采集的噪声音频数据；所述行车工况数据包括车速数据、车窗状态数据和空调状态数据；
99.车速数据即为对应背景噪声的车速，数值为整数，如80代表80km/h；空调数据表示该背景噪声下空调风挡的挡位信息，数据包含[0,1,2,3,4]，分别代表[关闭,开1挡,开2挡,开3挡,开4挡]；车窗数据表示该背景噪声下的车窗开闭状态信息，数据包含[0,0.5,1]，分别代表车窗的[关闭，半开，全开]状态。
[0100]
步骤1.2对收集的音频数据执行升采样或降采样操作，统一语音音频数据和噪声音频数据的采样率，例如都采用16khz的采样率；
[0101]
步骤1.3参见图5和图6，按顺序提取一段语音音频数据、随机提取一段噪声音频数据以及噪声对应的行车工况数据；
[0102]
步骤1.4将语音音频数据分帧后进行语音端点检测，可利用短时能量、短时过零率、使用双门限法等方式进行端点检测，参见图7，以得到带语音检测标记的语音音频数据；
[0103]
步骤1.5将带语音检测标记的语音音频数据和噪声音频数据融合，参见图8，得到带语音端点检测标记的带噪语音；
[0104]
步骤1.6将步骤1.5得到的带噪语音按照一帧25ms进行切分，参见图9，帧长h＝400个采样点(在采样率为16khz条件下)，帧移s为1/4的帧长，取最小浊音间隔为15帧，即每15帧为一个训练数据单位；
[0105]
步骤1.7将步骤1.6得到的时域带噪语音帧进行频域转换，得到带噪语音频谱数据，参见图10，由步骤1.6得知每15帧一个训练数据单位转成频域后是一张201
×
15大小的二维频谱图；
[0106]
步骤1.8计算步骤1.7中二维频谱图的谱熵，计算过程如下：
[0107]
时域语音信号x(t)经加窗分帧和fft变换后，其中第k条谱线频率分量fk的能量谱为yi(k)，则每个频率分量的归一化谱概率密度函数定义为：
[0108][0109]
其中:pi(k)为第i帧第k个频率分量fk对应的概率密度，n为fft长度；
[0110]
第i帧的谱熵h(i)表示为：
[0111][0112]
设置最小浊音间隔m帧，将m帧的谱熵进行累加，得到最小浊音间隔t时间内的谱熵，即谱熵和c(t)：
[0113][0114]
步骤1.9将步骤1.3的行车工况数据、步骤1.4的标签结果数据、步骤1.7的二维频
谱图和步骤1.8计算得到的谱熵绑定成一个待训练的样本数据。
[0115]
步骤1.10重复上述步骤1.3-1.9，生成大量的带标签的待训练的样本数据。
[0116]
步骤2设计pr net网络模型阶段
[0117]
步骤2.1参见图11，对输入的每个待训练数据进行数据处理，将数据分为二维频域数据和其它数据；
[0118]
步骤2.2参见图12，将步骤2.1分离后的二维频域数据进行卷积操作；
[0119]
步骤2.3对步骤2.2卷积后的结果进行并行卷积运算，参见图13，经过pr-cnn-a(1)结构提取特征，并将输出的结果进行深度连接；
[0120]
步骤2.4对步骤2.3卷积后的结果使用一个3
×
3的卷积操作，使原来的201
×
15大小的图像变为199
×
13大小的图像，参见图14，再经过pr-cnn-b(1)操作之后将输出的结果进行深度连接；
[0121]
步骤2.5对步骤2.4卷积后的结果使用一个5
×
5的卷积操作，使原来的199
×
13大小的图像变为195
×
9大小的图像，在卷积之后建立两个分支(即分支1和分支2)，分支1依次经过卷积、池化操作之后得到一个特征值，将这个值同其他数据进行全连接操作，再将该全连接结果通过sigmoid激活层得到一个二分类的第一分类结果，即该段含语音和不含语音的概率，分支2再经过pr-cnn-a(2)操作之后将输出的结果进行深度连接；
[0122]
步骤2.6对步骤2.5中分支2卷积后的结果使用一个3
×
3的卷积操作，使原来的195
×
9大小的图像变为193
×
7大小的图像，再经过pr-cnn-b(2)操作之后将输出的结果进行深度连接；
[0123]
步骤2.7对步骤2.6卷积后的结果使用一个5
×
5的卷积操作，使原来的193
×
7大小的图像变为189
×
3大小的图像，在卷积之后建立两个分支(即分支3和分支4)，分支3依次经过卷积、池化操作之后得到一个特征值，将这个值同其他数据进行全连接操作，再将该全连接结果通过sigmoid激活层得到一个二分类的第二分类结果，分支4再经过pr-cnn-a(3)操作之后将输出的结果进行深度连接；
[0124]
步骤2.8对步骤2.7中分支4卷积后的结果使用一个3
×
3的卷积操作，使原来的189
×
3大小的图像变为187
×
1大小的图像，再经过pr-cnn-b(3)操作之后将输出的结果进行深度连接；
[0125]
步骤2.9对步骤2.8卷积后的结果依次使用平均池化、全连接操作之后再通过sigmoid激活层得到一个二分类的第三分类结果，将第三分类结果与上述步骤2.5中的第一分类结果、步骤2.7中的第二分类结果进行全连接操作，并将结果输出。
[0126]
步骤3 pr net网络模型训练阶段
[0127]
步骤3.1对输入的每个待训练的样本数据进行数据处理，将标签与训练数据对应分离，分离后不含标签的数据送入网络中进行训练；
[0128]
步骤3.2将步骤3.1得出的预测结果与实际数据的标签结果进行计算loss函数，并不断调整参数权重优化网络；
[0129]
其中，基于输出标签结果的表示方式为{0,1}，loss表达式如下：
[0130][0131]
式中，y为标签结果，y^为概率结果。
[0132]
训练前设置模型训练的次数设置为n，训练的过程中每隔m次将监测验证集的损
失，并使用早停法监视模型的更新。当深度神经网络模型训练的循环次数等于提前设置的次数n，或者损失停止下降已持续多个循环，则停止训练模型。这时的模型已达到最优。优化的过程就是反向传播的过程，根据计算的loss反向求偏导不断去调整权重的参数。
[0133]
步骤3.3对调整好参数的网络模型进行保存。
[0134]
步骤4 pr net网络模型应用阶段
[0135]
步骤4.1在行车过程中，车载拾音设备获取实时音频数据、相关传感器获取行车工况数据；
[0136]
步骤4.2参见图15，语音前端处理系统将步骤4.1获取的音频数据依次进行分帧、频域转换和谱熵计算等操作，得到待检测的语音数据；
[0137]
步骤4.3将步骤4.2得到的多输入待检测的语音数据输入至pr net网络模型进行检测，模型给出检测结果，0代表不含语音帧，1代表含语音帧；
[0138]
步骤4.4参见图8，根据步骤4.3得出的检测结果对带噪语音进行标记得到带标记的带噪语音。
[0139]
在本发明的一个实施例中，提供了一种适用于车内语音识别系统的语音端点检测模块，包括语音帧判断单元和语音帧标记单元，所述语音帧判断单元用于检测出实时音频数据中的含语音帧，所述语音帧标记单元用于根据所述语音帧判断单元的检测结果对所述实时音频数据中的含语音帧进行标记。
[0140]
由于传统卷积神经网络采用正方形卷积核提取图像特征，但从语音的语谱图观察，最小浊音间隔不具备正方形图像的性质，而且语音的谱图是由连续的时域语音信号逐帧傅里叶变换得到，竖直方向上的信息更能反映语音特性，如共振峰信息，且具有相关性，由此考虑将图像的感受野修改为矩形形状，建立了pr net网络模型(全称parallel rectangular convolution neural network)，结合谱熵和prnet网络模型对信号的频谱图像进行分类操作，通过提取频谱特征信息来区分语音帧和噪声帧，pr net网络模型是一种具有维度差异的网络模型，并采用多参数输入的语音端点检测方法，将人工声学特征与网络模型抽取的特征融合，并把行车工况(车速、车窗状态、空调状态)引入模型的训练过程，能够提升车载语音识别系统在行车场景的低信噪比情况的语音信号端点检测能力，进而提高车载语音识别系统的识别率。
[0141]
从而所述语音帧判断单元采用了pr net网络模型进行数据检测，所述pr net网络模型包括主分类器、辅助分类器和卷积模型，所述主分类器用于区分出输入数据中的二维频域数据，所述卷积模型采用不同大小的卷积核进行并行卷积运算，并用于提取所述二维频域数据的特征信息，所述辅助分类器用于对所述特征信息进行结果分类。
[0142]
其中，所述卷积模型包括第一卷积模型和第二卷积模型，这两种模型结构都采用不同大小的卷积核进行并行卷积运算，目的是提取频谱图像上不同尺度的特征信息，所述第一卷积模型分别采用3
×
1、7
×
1和15
×
3大小的卷积核，所述第二卷积模型分别采用3
×
1、7
×
1和15
×
1大小的卷积核。15
×
3大小的卷积核能够提取频谱的整体特征，如共振峰信息，3
×
1的卷积核能够提取频谱的细节部分，如高频清音信息，7
×
1的卷积核则是对帧间信息的检测，防止对特征的遗漏。将并行卷积后的结果进行深度连接，也就是将提取的不同尺度的特征进行合并。卷积核为竖直矩形，目的是竖直条状的感受野更容易提取语音的频域图像信息，如图16所示，共振峰在频域图像上的形状偏竖直条状。由于共振峰是反映声道谐
振特性的重要特征，它代表了发音信息的最直接的来源，而且人在语音感知中利用了共振峰信息。所以共振峰是语音信号处理中非常重要的特征参数，已经广泛地用作语音识别的主要特征和语音编码传输的基本信息。共振峰信息包含在频率包络之中，因此共振峰参数提取的关键是估计自然语音频谱包络，一般认为谱包络中的最大值就是共振峰。在语音的频域图像上，共振峰表现为在同一时间段上频率分布较为集中的部分，也就是看起来像“竖直的长条状”[0143]
该实施例在车载语音系统上取得了较好的实验结果，如图4所示，预先将训练好的模型结果加载至车载语音系统的语音端点检测模块中，车载单通道麦克风拾取实时的音频数据，can总线获取实时的行车工况数据，将所获得的数据送至车机芯片的vad模块进行语音端点检测，并将检测后的结果送至下游的语音识别系统。
[0144]
本发明提供的适用于车内语音识别系统的语音端点检测方法及模块结合实际场景的行车工况特征，建立多特征融合的端点检测模型，采用具有维度差异的模型框架，并结合语音的语谱图像特点设计卷积核，设计模型的特征提取内核，以更好的识别信号中语音特征，从而提升语音识别准确率。目前车载语音识别系统在低信噪比的行车工况中识别效果差，其中一个重要原因是对信号中的语音端点检测能力不足，行车噪声的干扰使得算法发生错检、漏检情况。本方法有着一定的抗噪性，对车载环境下的噪声数据和带噪语音有较好的区分能力。能够针对不同的车速以及不同的开窗情况下的场景进行语音端点检测。在-10db的低信噪比下依然有较好的效果。增加行车工况中带噪语音中特征的耦合，有效解决行车环境下语音端点检测准确率低、部分方法识别速度慢和语音特征选取困难的问题。
[0145]
以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。