语音识别方法及相关装置、电子设备、存储介质与流程

1.本技术涉及音频处理技术领域，特别是涉及一种语音识别方法及相关装置、电子设备、存储介质。

背景技术：

2.随着全球国际化的日益加深，如何在全国甚至全世界范围内进行无障碍交流成为不可忽略的问题。面对如此庞大的语言体系，个人能掌握的语言种类是非常有限的。因此，自动语种识别技术的重要性和地位也显得愈发重要。
3.然而，语种信息属于语音信息中的弱信息，尽管目前已提出诸如全变量(total variability，tv)因子分析技术、基于端到端(end2end)的语种识别框架等众多语种识别技术，但是仍然难以保证语种识别的准确性。有鉴于此，如何提高识别语音所涉及语种的准确性成为亟待解决的问题。

技术实现要素：

4.本技术主要解决的技术问题是提供一种语音识别方法及相关装置、电子设备、存储介质，能够提高识别语音所涉及语种的准确性。
5.为了解决上述技术问题，本技术第一方面提供了一种语音识别方法，包括：获取待识别语音的语谱图；基于第一滑窗在语谱图逐窗进行语种识别的第一识别结果，从语谱图提取再识别语谱片段；基于若干第二滑窗分别在再识别语谱片段逐窗进行语种识别的第二识别结果，分析得到再识别语谱片段涉及的目标语种；其中，若干第二滑窗的尺寸各不相同，且第二滑窗的尺寸小于第一滑窗的尺寸。
6.为了解决上述技术问题，本技术第二方面提供了一种语音识别装置，包括：语谱获取模块、第一识别模块和第二识别模块，语谱获取模块，用于获取待识别语音的语谱图；第一识别模块，用于基于第一滑窗在语谱图逐窗进行语种识别的第一识别结果，从语谱图提取再识别语谱片段；第二识别模块，用于基于若干第二滑窗分别在再识别语谱片段逐窗进行语种识别的第二识别结果，分析得到再识别语谱片段涉及的目标语种；其中，若干第二滑窗的尺寸各不相同，且第二滑窗的尺寸小于第一滑窗的尺寸。
7.为了解决上述技术问题，本技术第三方面提供了一种电子设备，包括相互耦接的存储器和处理器，存储器中存储有程序指令，处理器用于执行程序指令以实现上述第一方面中的语音识别方法。
8.为了解决上述技术问题，本技术第四方面提供了一种计算机可读存储介质，存储有能够被处理器运行的程序指令，程序指令用于实现上述第一方面中的语音识别方法。
9.上述方案，获取待识别语音的语谱图，并基于第一滑窗在语谱图逐窗进行语种识别的第一识别结果，从语谱图提取再识别语谱片段，在此基础上，再基于若干第二滑窗分别在再识别语谱片段逐窗进行语种识别的第二识别结果，分析得到再识别语谱片段涉及的目标语种，且若干第二滑窗的尺寸各不相同，第二滑窗的尺寸小于第一滑窗的尺寸，故一方面
在整个识别过程中，最多能够进行两次语种识别，即第一次基于第一滑窗的语种识别以及第二次基于第二滑窗的语种识别，故通过双重识别能够有利于提升识别准确性，另一方面在第二次识别过程中采用尺寸各不相同的若干第二滑窗，能够融合多尺度识别结果，有利于再次提升识别准确性，又一方面第二次识别过程中所采用的第二滑窗的尺寸又小于第一滑窗的尺寸，即第二次识别相较于第一次识别而言具有更为精细的尺度，有利于进一步提升识别准确性。故此，能够提高识别语音所涉及语种的准确性。
附图说明
10.图1是本技术语音识别方法一实施例的流程示意图；
11.图2是本技术语音识别方法一实施例的过程示意图；
12.图3是图1中步骤s13一实施例的流程示意图；
13.图4是语种识别一实施例的流程示意图；
14.图5是语种识别模型一实施例的框架示意图；
15.图6是训练语种识别模型一实施例的流程示意图；
16.图7是本技术语音识别装置一实施例的框架示意图；
17.图8是本技术电子设备一实施例的框架示意图；
18.图9是本技术计算机可读存储介质一实施例的框架示意图。
具体实施方式
19.下面结合说明书附图，对本技术实施例的方案进行详细说明。
20.以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透彻理解本技术。
21.本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。此外，本文中的“多”表示两个或者多于两个。
22.请参阅图1，图1是本技术语音识别方法一实施例的流程示意图。具体而言，可以包括如下步骤：
23.步骤s11：获取待识别语音的语谱图。
24.在一个实施场景中，可以对待识别语音进行加窗、傅里叶变换，得到声学特征参数(如，filterbank等)，声学特征参数的维度可以根据实际需要设定，如128维、256维等等，在此不做限定。为了便于描述，可以将声学特征参数的维度记为d维。在此基础上，可以将待识别语音经加窗所得到的语音帧经傅里叶变换后所得到的声学特征参数组成语谱图。为了便于描述，可以将语谱图记为x
spec
。更为具体的语谱图提取过程，可以参阅语谱图的相关技术细节，在此不再赘述。
25.在一个实施场景中，待识别语音可以根据实际应用场景进行设置。例如，待识别语音可以是在会议现场采集到的，则在此情况下，可以通过本技术公开实施例识别到待识别语音所涉及的目标语种，以便后续利用目标语种的翻译模型、识别模型等对待识别语音进行翻译、识别等操作，以获取待识别语音的识别文本、翻译文本或同传语音，从而能够大大
降低会议现场不同语种人群的交流障碍；或者，待识别语音也可以是线上会话采集到的，则在此情况下，可以通过本技术公开实施识别到待识别语音所涉及的目标语种，以便后续利用目标语种的翻译模型、识别模型对待识别语音进行翻译、识别等操作，以获取待识别语音的识别文本、翻译文本或同传语音，从而能够大大降低参与线上会话的不同语种人群的交流障碍。其他应用场景可以以此类推，在此不再一一举例。
26.步骤s12：基于第一滑窗在语谱图逐窗进行语种识别的第一识别结果，从语谱图提取再识别语谱片段。
27.在一个实施场景中，滑窗尺寸可以包括窗长和窗移，第一滑窗的尺寸可以根据实际应用需要进行设置。例如，第一滑窗的窗长可以设置为5秒，第一滑窗的窗移可以设置为0.1秒，在此不做限定。需要说明的是，窗长表示窗函数的整体长度，而窗移表示窗函数每次滑动的步长。以窗长5秒且窗移0.1秒为例，每次滑动可以从语谱图提取到一段长度为5秒的语谱片段，且下次滑动时需间隔本次0.1秒，如本次滑动所提取的语谱片段在语谱图中的开始时刻为第t秒，则下次滑动时需从语谱图的第t+0.1秒开始提取5秒的语谱片段。在第一滑窗为其他情况时，可以以此类推，在此不再一一举例。
28.在一个实施场景中，可以基于第一滑窗在语谱图逐窗进行语种识别，得到若干第一语谱片段的第一识别结果，且第一识别结果包括第一语谱片段分别与若干预设语种的第一相关分值，在此基础上，对于每一第一语谱片段，可以获取最高的第一相关分值与次高的第一相关分值之间的第一分值差值，并基于第一分值差值，从语谱图提取再识别语谱片段。为了便于描述，第一语谱片段可以记为x
spec_window
。上述方式，通过第一滑窗在语谱图逐窗进行语种识别所得到的各个第一语谱片段的第一识别结果中最高相关分值和次高相关分值之间的分值差值，来从语谱图中提取再识别语谱片段，故能够根据各个第一语谱片段的语种识别结果来提取再识别语谱片段，从而能够尽可能地减少需要二次识别的语谱长度，进而能够在提升识别准确性的基础上，尽可能地降低对识别效率的影响。
29.在一个具体的实施场景中，若干预设语种可以根据实际应用需要进行设置。以前述会议现场为例，对于欧洲国家会议，可以将欧洲国家的语种作为若干预设语种(如，英语、法语、德语、西班牙语、葡萄牙语等)，而对于中东国家会议，可以将中东国家的语种作为若干预设语种(如，阿拉伯语、波斯语等)，其他情况可以以此类推，在此不再一一举例。
30.在一个具体的实施场景中，为了提高语种识别效率，可以预先训练一个语种识别模型，从而可以采用语种识别模型对第一语谱片段进行语种识别，得到第一语谱片段的第一识别结果。具体地，语种识别模型可以包括但不限于：dnn(deep neural network，深度神经网络)、tdnn(time delay neural network，时延神经网络)、lstm(long short term memory，长短期记忆网络)等，在此不做限定。在训练过程中，可以先获取样本语音的样本语谱，且样本语音可以标注有其所涉及的样本语种，在此基础上，可以将样本语谱输入语种识别模型进行预测，得到样本语音语若干预设语种的预测相关分值，并采用诸如交叉熵等损失函数，基于样本语种和若干预设语种的预测相关分值进行损失计算，得到语种识别模型的损失值，以及采用诸如梯度下降等优化方式，基于损失值调整语种识别模型的网络参数。损失计算的具体过程，可以参阅诸如交叉熵等损失函数的技术细节，参数调整的具体过程，可以参阅诸如梯度下降等优化方式的技术细节，在此不再赘述。
31.在一个具体的实施场景中，对于每一第一语谱片段x
spec_window
，可以将其第一识别
结果中与若干预设语种的第一相关分值按照从高到低的顺序进行排序，从而可以获取到第一识别结果中最高的第一相关分值和次高的第一相关分值，并计算得到两者之间的第一分值差值。通过上述方式，即可获取到每一第一语谱片段x
spec_window
对应的第一分值差值。需要说明的是，最高的第一相关分值即为排在第一位的第一相关分值，而次高的第一相关分值即为排在第二位的第一相关分值。
32.在一个具体的实施场景中，可以基于第一分值差异低于第一阈值且连续的至少一组第一语谱片段，确定至少一组提取时段，且每组提取时段包括开始时刻和结束时刻，在此基础上，可以分别基于每组提取时段，从语谱图中提取得到再识别语谱片段。仍以第一滑窗的窗长是5秒且窗移是0.1秒为例，则第一个提取到的第一语谱片段从语谱图的0秒开始到语谱图的5秒结束，为了便于描述，该第一语谱片段可以记为x
spec_window
(0,5)，以此类推，第i个第一语谱片段可以记为x
spec_window
((i
‑
1)*0.1,(i
‑
1)*0.1+5)。在第1个至第3个第一语谱片段的第一差值分值不低于第一阈值的情况下，若后续一组第一语谱片段(第4个语谱片段和第5个语谱片段)的第一分值差值均低于第一阈值，则可以基于该组第一语谱片段中第一个语谱片段(即第4个第一语谱片段)的开始时刻(即0.3秒)和最后一个语谱片段(即第5个第一语谱片段)的结束时刻(即5.4秒)得到一组提取时段，并从语谱图的0.3秒开始至5.4秒结束提取出一段再识别语谱片段；进一步地，在第6个第一语谱片段至第10个语谱片段的第一差值分值均不低于第一阈值的情况下，若后续一组第一语谱片段(第11个第一语谱片段至第13个第一语谱片段)的第一分值差异均低于第一阈值，则可以基于该组第一语谱片段中第一个语谱片段(即第11个第一语谱片段)的开始时刻(即1秒)和最后一个第一语谱片段(即第13个语谱片段)的结束时刻(即6.2秒)得到第一组提取时段，并从语谱图中的1秒开始至6.2秒结束提取出一段再识别语谱片段。其他情况可以以此类推，在此不再一一举例。也就是说，可以基于每组第一语谱片段中第一个第一语谱片段的开始时刻和最后一个语谱片段的结束时刻，得到一组提取时段，并可以在语谱图中从提取时段中的开始时刻到提取时段中的结束时刻截取出一段再识别语谱片段。上述方式，基于第一分值差异低于第一阈值且连续的至少一组第一语谱片段，确定至少一组提取时段，且每组提取时段包括开始时刻和结束时刻，在此基础上，分别基于各组提取时段，从语谱图提取得到再识别语谱片段，故能够仅基于第一次语种识别过程中难以区分语种的第一语谱片段进行再识别，有利于尽可能地降低对识别效率的影响。
33.需要说明的是，为了提升语种再识别的准确性，在确定提取时段时，还可以留有冗余。具体地，可以将第一分值差值低于第一阈值且连续的至少一个第一语谱片段以及后一个第一分值差值不低于第一阈值的第一语谱片段，作为一组第一语谱片段，并根据该组第一语谱片段中第一个第一语谱片段的开始时刻和最后一个第一语谱片段的结束时刻，确定一组提取时段。仍以第一滑窗的窗长是5秒且窗移是0.1秒为例，第i个第一语谱片段可以记为x
spec_window
((i
‑
1)*0.1,(i
‑
1)*0.1+5)，若第4个语谱片段和第5个语谱片段两者的第一分值差值均低于第一阈值，而第6个第一语谱片段的第一分值差值不低于第一阈值，则可以将第4个至第6个第一语谱片段作为一组第一语谱片段，在此基础上，可以基于该组第一语谱片段中第一个语谱片段(即第4个第一语谱片段)的开始时刻(即0.3秒)和最后一个语谱片段(即第6个第一语谱片段)的结束时刻(即5.5秒)得到一组提取时段，并从语谱图的0.3秒开始至5.5秒结束提取出一段再识别语谱片段，由此可见，相较于前述方式，利用本方式提
取出来的再识别语谱片段略有增长，有利于适当提升冗余，从而能够在确保识别效率的前提下，提升再识别的准确性。
34.在一个具体的实施场景中，还可以基于第一语谱片段的第一分值差异不低于第一阈值，将最高的第一相关分值对应的预设语种，作为第一语谱片段涉及的目标语种。仍以第一滑窗的窗长是5秒且窗移是0.1秒为例，如前所述，第i个第一语谱片段可以记为x
spec_window
((i
‑
1)*0.1,(i
‑
1)*0.1+5)，第1个语谱片段与若干预设语种(英语、法语、德语、西班牙语、葡萄牙语等)的第一相关分值分别为：0.96、0.01、0.01、0.01。01，则最高的第一相关分值和次高的第一相关分值之间的第一分值差值为0.95，在第一阈值设置为0.8的情况下，该第一分值差值不低于第一阈值，则可以将最高的第一相关分值对应的预设语种(即英语)作为第1个第一语谱片段涉及的目标语种。此外换言之，可以基于该第一语谱片段的开始时刻和结束时刻，定位该目标语种在待识别语音的开始时刻和结束时刻。例如，在第1个至第3个第一语谱片段的第一差值分值不低于第一阈值的情况下，上述3个第一语谱片段中最高的第一相关分值对应的预设语种均为英语，则可以定位英语在待识别语音的开始时刻(0秒)以及结束时刻(5.2秒)，其他情况可以以此类推，在此不再一一举例。上述方式，基于第一语谱片段的第一分值差值不低于第一阈值，将最高的第一相关分值对应的预设语种，作为第一语谱片段涉及的目标语种，能够直接确定第一语谱片段涉及的目标语种，有利于在确保语种识别的准确性的基础上，进一步提升语种识别的效率。
35.需要说明的是，由于最高的第一相关分值与次高的第一相关分值之间的第一分值差值越大，表明第一语谱片段的语种识别越可靠，反之，最高的第一相关分值与次高的第一相关分值之间的第一分值差值越小，表明第一语谱片段的语种识别越不可靠。故此，上述第一阈值可以根据实际应用需要件设置。例如，在对语种识别的准确性要求较高的情况下，第一阈值可以设置地大一些，反之，在对语种识别的准确性要求相对宽松的情况下，第一阈值可以设置稍小一些，具体数值在此不做限定。
36.在一个实施场景中，也可以基于第一滑窗在语谱图逐窗进行语种识别，得到本次滑窗对应的第一语谱片段的第一识别结果，并对于本次滑窗对应的第一语谱片段，可以获取最高的第一相关分值与次高的第一相关分值之间的第一分值差值，若第一分值差值不低于第一阈值，则可以直接将最高的第一相关分值对应的预设语种作为本次滑窗对应的第一语谱片段涉及的目标语种，反之若第一分值差值低于第一阈值，则可以记录本次滑窗的开始时间为t
start
，并继续执行上述基于第一滑窗在语谱图逐窗进行语种识别的步骤，以在时域继续滑窗，直至本次滑窗对应的第一语谱片段的第一分值差值高于第一阈值为止，并记录本次滑窗的结束时间t
end
，并从语谱图中截取出一段t
start
～t
end
的再识别语谱片段。
37.步骤s13：基于若干第二滑窗分别在再识别语谱片段逐窗进行语种识别的第二识别结果，分析得到再识别语谱片段涉及的目标语种。
38.本公开实施例中，若干第二滑窗的尺寸各不相同，且第二滑窗的尺寸小于第一滑窗的尺寸。
39.在一个实施场景中，如前所述，滑窗尺寸可以包括窗长和窗移，则若干第二滑窗的窗长和/或窗移可以各不相同。也就是说，若干第二滑窗的窗长可以各不相同，或者，若干第二滑窗的窗移可以各不相同；或者，若干第二滑窗的窗长和窗移两者可以均各不相同；或者，只要若干第二滑窗的窗长、窗移任一者不同即可，总而言之，若干第二滑窗不完全相同，
在此不做限定。示例性地，可以设置6个第二滑窗，1号第二滑窗的窗长w＝2秒且窗移s＝0.1秒，2号第二滑窗的窗长w＝2秒且窗移s＝0.05秒，3号第二滑窗的窗长w＝2秒且窗移s＝0.01秒，4号第二滑窗的窗长w＝1秒且窗移s＝0.1秒，5号第二滑窗的窗长w＝1秒且窗移s＝0.05秒，6号第二滑窗的窗长w＝1秒且窗移s＝0.01秒。需要说明的是，上述举例仅仅是实际应用过程中，可能采取的一种方案，并不因此而限定若干第二滑窗的实际数量以及窗长、窗移的具体数值。
40.在一个实施场景中，滑窗尺寸可以包括窗长，则第二滑窗的窗长不大于第一滑窗的窗长。如前所述，第一滑窗的窗长可以设置为5秒，上述6种第二滑窗的窗长可以设置为2秒、1秒等，在此不做限定。
41.在一个实施场景中，滑窗尺寸可以包括窗移，额第二滑窗的窗移不大于第一滑窗的窗移。如前所述，第一滑窗的窗移可以设置为0.1秒，上述6种第二滑窗的窗移可以设置为0.1秒、0.05秒、0.01秒等，在此不做限定。
42.在一个实施场景中，先可以获取各个第二滑窗分别在再识别语谱片段逐窗进行语种识别的第二识别结果，且第二识别结果包括再识别语谱片段分别与若干预设语种的第二相关分值，在此基础上，可以直接融合各个第二滑窗对应的第二识别结果，得到最终识别结果，并根据最终识别结果，确定再识别语谱片段涉及的目标语种。上述方式通过获取各个第二滑窗分别在再识别语谱片段逐窗进行语种识别的第二识别结果，并直接融合各个第二滑窗对应的第二识别结果，得到最终识别结果，以及根据最终识别结果，确定再识别语谱片段涉及的目标语种，能够大大降低再识别语谱片段进行语种识别的复杂度。需要说明的是，获取第二识别结果的具体过程可以参阅下述相关公开实施例，在此暂不赘述。
43.在一个具体的实施场景中，对于每种预设语种而言，可以获取该预设语种在各个第二滑窗对应的第二识别结果中的第二相关分值，并对这些第二相关分值进行取平均值、取中位数等融合操作，以得到该预设语种的最终相关分值，在此基础上，最终识别结果可以包含若干预设语种的最终相关分值。
44.在一个具体的实施场景中，如前所述，最终识别结果可以包含若干预设语种的最终相关分，在此基础上，可以将最高的最终相关分值对应的预设语种，作为再识别语谱片段涉及的目标语种。
45.在一个实施场景中，区别于前述方式，在获取各个第二滑窗分别在再识别语谱片段逐窗进行语种识别的第二识别结果之后，对于每个第二滑窗，可以利用第二滑窗对应的统计识别结果对第二滑窗对应的第二识别结果进行规整，得到第二滑窗对应的规整识别结果，且统计识别结果是基于第二滑窗分别在若干样本语谱逐窗进行语种识别的样本识别结果而统计得到的，在此基础上，再基于融合若干第二滑窗对应的规整识别结果而得到的最终识别结果，确定再识别语谱片段涉及的目标语种。上述方式，先利用第二滑窗对应的统计识别结果对第二滑窗对应的第二识别结果进行规整，故能够尽可能地消弭基于不同尺寸的第二滑窗逐窗进行语种识别所得到的第二识别结果之间的固有差异，有利于提升最终识别结果的准确性，进而能够有利于提升再识别语谱片段涉及的目标语种的准确性。此外，获取第二识别结果、识别结果规整以及识别结果融合的具体过程，可以参阅下述相关公开实施例，在此暂不赘述。
46.在一个实施场景中，在确定再识别语谱片段涉及的目标语种之后，可以定位该目
标语种在待识别语音中的起始时刻和结束时刻。具体可以参阅前述第一语谱片段涉及的目标语种相关描述，在此不再赘述。
47.在一个实施场景中，请结合参阅图2，图2是本技术语音识别方法一实施例的过程示意图。如图2所示，可以利用第一滑窗(即图中加粗矩形框所示)在语谱图逐窗进行语种识别，得到该窗对应时间段的第一识别结果，且第一结果中包含与若干预设语种的第一相关分值，在此基础上，可以获取最高的第一相关分值和次高的第一相关分值之间的第一分值差值，若第一分值差值不低于第一阈值，则可以直接将最高的第一相关分值对应的预设语种作为该窗对应时间段涉及的目标语种，反之则可以基于若干第二滑窗进行多尺度融合判决，具体过程可以参阅上述相关描述，在此不再赘述。
48.上述方案，获取待识别语音的语谱图，并基于第一滑窗在语谱图逐窗进行语种识别的第一识别结果，从语谱图提取再识别语谱片段，在此基础上，再基于若干第二滑窗分别在再识别语谱片段逐窗进行语种识别的第二识别结果，分析得到再识别语谱片段涉及的目标语种，且若干第二滑窗的尺寸各不相同，第二滑窗的尺寸小于第一滑窗的尺寸，故一方面在整个识别过程中，最多能够进行两次语种识别，即第一次基于第一滑窗的语种识别以及第二次基于第二滑窗的语种识别，故通过双重识别能够有利于提升识别准确性，另一方面在第二次识别过程中采用尺寸各不相同的若干第二滑窗，能够融合多尺度识别结果，有利于再次提升识别准确性，又一方面第二次识别过程中所采用的第二滑窗的尺寸又小于第一滑窗的尺寸，即第二次识别相较于第一次识别而言具有更为精细的尺度，有利于进一步提升识别准确性。故此，能够提高识别语音所涉及语种的准确性。
49.请参阅图3，图3是图1中步骤s13一实施例的流程示意图。具体而言，可以包括如下步骤：
50.步骤s31：获取各个第二滑窗分别在再识别语谱片段逐窗进行语种识别的第二识别结果。
51.本公开实施例中，第二识别结果包括再识别语谱片段分别与若干预设语种的第二相关分值。以前述公开实施例中采用6种第二滑窗为例，1号第二滑窗经逐窗进行语种识别之后，可以得到一个第二识别结果，该第二识别结果表示采用1号第二滑窗进行语种识别之后，再识别语谱片段与若干预设语种的第二相关分值，其他第二滑窗可以以此类推，在此不再一一举例。具体地，可以各个第二滑窗分别作为当前滑窗，并基于当前滑窗在再识别语谱片段逐窗进行语种识别，得到若干第二语谱片段的第三识别结果，且第三识别结果包括第二语谱片段分别与若干预设语种的第三相关分值，在此基础上，可以基于各个第二语谱片段分别与预设语种的第三相关分值，得到再识别语谱片段与对应预设语种的第二相关分值，从而综合再识别语谱片段分别与各个预设语种的第二相关分值，即可得到当前滑窗对应的第二识别结果。上述方式，通过将各个第二滑窗分别作为当前滑窗，并基于当前滑窗在再识别语谱片段逐窗进行语种识别，得到若干第二语谱片段的第三识别结果，且第三识别结果包括第二语谱片段分别与若干预设语种的第三相关分值，从而基于各个第二语谱片段分别与预设语种的第三相关分值，得到再识别语谱片段与对应预设语种的第二相关分值，进而能够快速获取到各个第二滑窗对应的第二识别结果，有利于提升整体识别的效率。
52.在一个实施场景中，以前述公开实施例中采用6种第二滑窗为例，可以分别将1号第二滑窗、2号第二滑窗、
……
、6号第二滑窗作为当前滑窗，并基于当前滑窗在再识别语谱
片段逐窗进行语种识别。其他情况可以以此类推，在此不再一一举例。
53.在一个实施场景中，第二语谱片段的相关含义可以参阅前述公开实施例中第一语谱片段的相关描述，在此不再赘述。以将1号第二滑窗作为当前滑窗且逐窗进行语种识别得到n1个第二语谱片段的第三识别结果为例，为了便于计算可以将每一第二语谱片段的第三识别结果表示为一个分值向量，如1号第二滑窗进行语种识别得到n1个第二语谱片段的第三识别结果中第i个第三识别结果可以表示为分值向量s
1i
，其中，i＝1,2,
…
,n1，此外，分值向量s
1i
中包含n个元素，每个元素表示一种预设语种的第三相关分值。
54.在一个实施场景中，可以对各个第二语谱片段分别与预设语种的第三相关分值进行取平均值(或取中位数)，作为再识别语谱片段与该预设语种的第二相关分值。如前所述，可以将每一第二语谱片段的第三识别结果表示为一个分值向量，则可以对各个第二语谱片段的分值向量中每一位置处的元素进行取平均值(或取中位数)，得到第二识别结果。以取平均值为例，1号第二滑窗对应的第二识别结果可以表示为：
[0055][0056]
上述公式(1)中，s1表示1号第二滑窗对应的第二识别结果，表示1号第二滑窗进行语种识别得到n1个第二语谱片段的第三识别结果中第i个第三识别结果，n1表示利用1号第二滑窗逐窗进行语种识别所得到的第二语谱片段的总数量。需要说明的是，公式(1)是以1号第二滑窗为例时对应的第二识别结果的计算公式，其他第二滑窗可以以此类推，在此不再一一举例。
[0057]
步骤s32：对于每个第二滑窗，利用第二滑窗对应的统计识别结果对第二滑窗对应的第二识别结果进行规整，得到第二滑窗对应的规整识别结果。
[0058]
本公开实施例中，统计识别结果是基于第二滑窗分别在若干样本语谱逐窗进行语种识别的样本识别结果而统计得到的。
[0059]
在一个实施场景中，对于每一第二滑窗而言，可以将各个样本语谱分别作为当前语谱，并可以利用该第二滑窗分别在当前语谱逐窗进行语种识别，得到若干样本语谱片段分别与若干预设语种的样本相关分值，在此基础上，在采用该第二滑窗的情况下，对于每个样本语谱而言，都可以获取若干样本语谱片段分别与若干预设语种的样本相关分值，则可以统计这些样本相关分值的标准差，得到在采用该第二滑窗的情况下的标准差，并对于每种预设语种而言，可以统计这些样本相关分值的平均值，得到在采用该第二滑窗的情况下，各个预设语种的平均相关分值。也就是说，样本识别结果包括第二滑窗在样本语谱提取的若干样本语谱片段分别与若干预设语种的样本相关分值，统计识别结果是基于样本相关分值而统计到的标准差以及各个预设语种的平均相关分值。
[0060]
在一个实施场景中，如前所述，为了便于描述，也可以将统计识别结果所包含的各个预设语种的平均相关分值以分值向量表示，例如，可以将第j个第二滑窗对应的统计识别结果所包含的各个预设语种的平均相关分值记为并将第j个第二滑窗对应的统计识别结果所包含的标准差记为σ
j
。
[0061]
在一个实施场景中，规整识别结果包括再识别语谱片段分别与若干预设语种的规整相关分值，在此基础上，对于每个第二滑窗而言，可以分别将各个预设语种作为当前语种，并获取当前语种对应的第二相关分值和平均相关分值的第二分值差值，以及将第二分
值差值与标准差之比，作为再识别语谱片段与当前语种的规整相关分值。仍以第j个第二滑窗为例，为了便于描述，也可以将规整识别结果以分值向量的形式来表示，如可以记为则规整识别结果可以表示为：
[0062][0063]
上述公式(2)中，s
j
表示第j个第二滑窗对应的第二识别结果，表示第j个第二滑窗对应的统计识别结果所包含的各个预设语种的平均相关分值的向量形式，σ
j
表示第j个第二滑窗对应的统计识别结果所包含的标准差。
[0064]
步骤s33：基于融合若干第二滑窗对应的规整识别结果而得到的最终识别结果，确定再识别语谱片段涉及的目标语种。
[0065]
具体地，如前所述，规整识别结果包括再识别语谱片段分别与若干预设语种的规整相关分值，为了便于计算，第j个第二滑窗对应的规整识别结果可以采用分值向量的形式进行表示，如可以记为则对应地，最终识别结果可以包括再识别语谱片段分别与若干预设语种的最终相关分值，为了便于计算，也可以采用分值向量的形式进行表示，如可以记为s。在此基础上，最终识别结果s可以表示为：
[0066][0067]
上述公式(3)中，m表示若干第二滑窗的总数量(如，6)。此外，如前所述，表示以分值向量形式表示的规整识别结果。需要说明的是，在进行向量求和的过程中，可以将对应位置处元素进行求和。也就是说，可以分别将各个预设语种作为当前语种，并将各个第二滑窗对应的规整识别结果中再识别语谱片段与当前语种的规整相关分值进行求和，得到再识别语谱片段与当前语种的最终相关分值，最后综合再识别语谱片段分别与各个预设语种的最终相关分值，即可得到最终识别结果。在此基础上，可以将最高的最终相关分值对应的预设语种，作为再识别语谱片段涉及的目标语种。上述方式，通过分别将各个预设语种作为当前语种，并将各个第二滑窗对应的规整识别结果中再识别语谱片段与当前语种的规整相关分值进行求和，得到再识别语谱片段与当前语种的最终相关分值，以及将最高的最终相关分值对应的预设语种，作为再识别语谱片段涉及的目标语种，故通过简单数学运算即可求得到最终相关分值，有利于在确保语种识别的准确性的基础上，提升识别效率。
[0068]
上述方案，先利用第二滑窗对应的统计识别结果对第二滑窗对应的第二识别结果进行规整，故能够尽可能地消弭基于不同尺寸的第二滑窗逐窗进行语种识别所得到的第二识别结果之间的固有差异，有利于提升最终识别结果的准确性，进而能够有利于提升再识别语谱片段涉及的目标语种的准确性。
[0069]
请参阅图4，图4是语种识别一实施例的流程示意图。具体而言，可以包括如下步骤：
[0070]
步骤s41：对待识别语谱图进行特征提取，得到第一特征图和语种特征表示。
[0071]
在一个实施场景中，请结合参阅图5，图5是语种识别模型一实施例的框架示意图。如前述公开实施例所述，为了提高语种识别效率，可以预先训练一个语种识别模型，且在本
公开实施例中，语种识别模型可以包括特征提取网络。特征提取网络可以包括但不限于：cnn(convolutional neural network，cnn)、tdnn、lstm等等，在此不做限定。在此基础上，可以利用特征提取网络执行特征提取操作。具体地，可以将特征提取网络最终输出的特征图作为第一特征图，并将特征提取网络隐层表示作为语种特征表示。需要说明的是，为了提升特征提取效果，特征提取网络具体可以采用tdnn。
[0072]
步骤s42：对第一特征图残差处理，得到第二特征图。
[0073]
在一个实施场景中，可以对第一特征图进行上采样，得到上采样特征图，并将上采样特征图和由上采样特征图提取到的第三特征图进行融合，得到融合特征图，在此基础上，再对融合特征图进行下采样，得到第二特征图。上述方式，通过上采样、特征融合以及下采样等处理流程完成残差处理，从而能够在加深特征层次的基础上，有利于提升语种识别的准确性。
[0074]
在一个具体的实施场景中，上采样用于将三维的第一特征图转换为四维，而下采样用于将四维的融合特征图还原为三维。
[0075]
在一个具体的实施场景中，可以通过点加运算将上采样特征图和第三特征图进行融合。为了便于描述，可以将待识别语谱图记为x
spec
，并将经上采样得到的上采样特征图记为f
sepc
，由上采样特征图f
sepc
提取到的第三特征图记为r
spec
，则第二特征图y
spec
可以表示为：
[0076]
y
spec
＝f
sepc
+r
spec
……
(4)
[0077]
在一个实施场景中，如前所述，为了提高语种识别效率，可以预先训练一个语种识别模型，且请结合参阅图5，在本公开实施例中，语种识别模型可以包括残差处理网络，残差处理网络用于执行残差处理操作。具体地，残差处理网络可以包括上采样层，用于执行上采样操作，残差处理网络可以包括提取层，用于执行提取上采样特征的第三特征图的操作，残差处理网络可以包括第一融合层，用于执行将上采样特征图和第三特征图进行融合的操作，残差处理网络可以包括下采样层，用于执行下采样操作。需要说明的是，通过上采样可以将三维的第一特征图转换为四维的上采样特征图，以匹配后续提取层的网络尺寸，而将四维的融合特征图下采样还原为三维的第二特征图，能够匹配后续的特征提取网络的网络尺寸。
[0078]
在一个具体的实施场景中，提取层可以由若干残差块(residual block)构成，如可以由2个残差块构成提取层，以加深网络深度，有利于避免语种识别模型在训练过程中出现梯度消失和网络退化等问题，从而能够提升语种识别模型的模型性能。
[0079]
步骤s43：对第二特征图进行特征提取，得到新的第一特征图和新的语种特征表示。
[0080]
具体地，特征提取的具体方式，可以参阅前述对待识别语谱图进行特征提取的相关描述，在此不再赘述。
[0081]
步骤s44：基于历次提取到的语种特征表示进行预测处理，得到待识别语谱图的语种识别结果。
[0082]
在一个实施场景中，可以将历次提取到的语种特征表示分别进行池化处理，以得到历次特征提取对应的语种嵌入向量(language embedding)，在此基础上，可以将所有语种嵌入向量进累加，得到整体语种嵌入向量，该向量用于描述不同语音数据所代表的语种
信息。在此之后，可以将整体语种嵌入向量进行线性变换，以预测得到待识别语谱图与若干预设语种的相关分值。需要说明的是，若干预设语种的相关分值即构成待识别语谱图的语种识别结果。
[0083]
在一个实施场景中，如前所述，为了提高语种识别效率，可以预先训练一个语种识别模型，且请结合参阅图5，在本公开实施例中，语种识别模型可以包括类别预测网络，用于执行预测处理操作。具体地，类别预测网络可以包括池化层用于对语种特征表示进行池化处理得到语种嵌入向量，类别预测网络可以包括第二融合层，用于将所有语种嵌入向量进累加得到整体语种嵌入向量，类别预测网络可以包括全连接层，用于将整体语种嵌入向量进行线性变换得到语种识别结果。
[0084]
需要说明的是，语种识别结果包括待识别语谱图分别与若干预设语种的语种相关分值，在基于第一滑窗进行语种识别的情况下，待识别语谱图为第一滑窗在语谱图逐窗提取到的第一语谱片段，在基于第二滑窗进行语种识别的情况下，待识别语谱图为第二滑窗在再识别语谱片段逐窗提取到的第二语谱片段。也就是说，在基于第一滑窗逐窗进行语种识别以及在基于第二滑窗逐窗进行语种识别的过程中，可以采用相同的语种识别步骤，从而能够有利于进一步降低整体识别的复杂度。
[0085]
此外，为了进一步提高语种识别的准确性，在进行预测处理之前，还可以检测特征提取的执行次数是否不高于第二阈值，在执行次数不高于第二阈值的情况下，可以重新执行对第一特征图残差处理，得到第二特征图的步骤以及后续步骤，即可以重新执行上述步骤s42以及后续步骤，反之在执行次数高于第二阈值的情况下，可以执行基于历次提取到的语种特征表示进行预测处理，得到待识别语谱图的语种识别结果的步骤，即可以直接执行上述步骤s44。上述方式，通过在预测处理之前，先检测特征提取的执行次数是否不高于第二阈值，并在执行次数不高于第二阈值的情况下，重新执行对第一特征图残差处理，得到第二特征图的步骤以及后续步骤，能够有利于提升语种识别的准确性。此外，第二阈值可以根据实际需要进行设置，如可以设置为2、3、4等等，在此不做限定。
[0086]
需要说明的是，如前所述，为了提高语种识别效率，可以预先训练一个语种识别模型，且请结合参阅图5，语种识别模型可以包括第二阈值个特征提取网络，且相邻特征提取网络之间设置有残差处理网络，从而能够通过多层网络提升语种识别准确性。
[0087]
上述方案，对待识别语谱图进行特征提取，得到第一特征图和语种特征表示，并对第一特征图残差处理，得到第二特征图，以及对第二特征图进行特征提取，得到新的第一特征图和新的语种特征表示，在此基础上，再基于历次提取到的语种特征表示进行预测处理，得到待识别语谱图的语种识别结果，故能够在语种识别过程中，结合多次提取到的语种特征表示进行语种预测，有利于提升语种识别的准确性。
[0088]
请参阅图6，图6是训练语种识别模型一实施例的流程示意图。需要说明的是，本公开实施例中，语种识别模型可以包括：特征提取网络、残差处理网络和类别预测网络。具体而言，可以包括如下步骤：
[0089]
步骤s61：利用特征提取网络对样本语谱图进行特征提取，得到第一样本特征图和样本语种特征表示。
[0090]
本公开实施例中，样本语谱图是基于样本语音提取得到的，且样本语音标注有样本语种，样本语种表示样本语音实际所采用的语种。特征提取的具体过程可以参阅图5以及
前述公开实施例中相关描述，在此不再赘述。
[0091]
步骤s62：利用残差处理网络对第一样本特征图进行残差处理，得到第二样本特征图。
[0092]
残差处理的具体过程可以参阅图5以及前述公开实施例中相关描述，在此不再赘述。
[0093]
步骤s63：利用特征提取网络对第二样本特征图进行特征提取，得到新的第一样本特征图和新的样本语种特征表示。
[0094]
特征提取的具体过程可以参阅图5以及前述公开实施例中相关描述，在此不再赘述。
[0095]
步骤s64：利用类别预测网络基于历次提取到的样本语种特征表示进行预测处理，得到样本语谱图的样本语种识别结果。
[0096]
本公开实施例中，样本语种识别结果包括样本语谱图分别与若干预设语种的预测相关分值。预测处理的具体过程可以参阅图5以及前述公开实施例中相关描述，在此不再赘述。
[0097]
此外，如前所述公开实施例所述，在进行预测处理之前，还可以检测当前特征提取网络是否为语种识别模型的最后一个特征提取网络，若否，则可以继续执行步骤s62以及后续步骤，反之可以直接步骤s64。
[0098]
步骤s65：基于样本语种识别结果和样本语种之间的差异，调整语种识别模型的网络参数。
[0099]
具体地，可以利用诸如交叉熵等损失函数来度量上述差异，以得到语种识别模型的损失值，并基于该损失值，利用误差反向传播(error back propagation，bp)算法来调整语种识别模型的网络参数。
[0100]
在一个实施场景中，可以重复执行多轮(如，5轮、6轮等)上述训练步骤，以使语种识别模型的模型性能趋于稳定。
[0101]
在一个实施场景中，为了进一步提升模型性能，在语种识别模型趋于稳定之后，还可以进一步进行语种识别模型进行若干轮再优化。具体地，在首轮再优化过程中，可以利用语种识别模型对每条样本语音的样本语谱图进行语种识别，得到每条样本语音的样本识别分值，并基于各条样本语音的样本识别分值(即与若干预设语种的样本相关分值中的最高值)和与本轮再优化对应的判决门限(如，首轮再优化对应的判决门限可以设置可以设置为0.9)进行对比，若超出该判决门限，则可以保留该条样本语音的样本语谱图，否则可以舍弃该条样本语音的样本语谱图，从而可以基于n条保留的样本语音的样本语谱图构建第一轮再优化的训练子集s1，并基于m条舍弃的样本语音的样本语谱图构建训练子集在此基础上，可以利用训练子集s1按照前述训练步骤对语种识别模型进行若干轮(如，5轮、6轮等)训练，以对语种识别模型进行再优化，从而完成第1轮再优化。类似地，在第二轮再优化过程中，可以利用语种识别模型对第1轮构建的训练子集进行语种识别，得到训练子集中每条样本语音的样本识别分值，并基于各条样本语音的样本识别分值和本轮再优化对应的判决门限(如，第2轮再优化对应的判决门限可以设置为0.85)进行对比，若超出该判决门限，则可以保留该条样本语音的样本语谱图，否则可以舍弃该条样本语音的样本语谱
图，从而可以基于保留的样本语音的样本语谱图构建第二轮再优化的训练子集s2，并基于舍弃的样本语音的样本语谱图构建训练子集在此基础上，可以利用训练子集s2按照前述训练步骤对语种识别模型进行若干轮(如，5轮、6轮等)训练，以对语种识别模型进行再优化，从而完成第2轮再优化。第3轮再优化、第4轮再优化等后续轮次的再优化过程可以以此类推，在此不再一一举例。此外，需要说明的是，在最后一轮(如第t轮)再优化过程中，在利用训练子集s
n
按照前述训练步骤对语种识别模型进行若干轮(如，5轮、6轮等)训练之后，还可以进一步利用训练子集按照前述训练步骤对语种识别模型进行若干轮(如，5轮、6轮等)训练，进而可以得到最终的语种识别模型。上述方式，能够随着再优化轮次的增加，不断提升语种识别模型的模型性能，并不断挖掘出识别难度不断增加的难识别样本，以不断对语种识别模型进行再优化，有利于不断提升语种识别模型的模型性能。
[0102]
上述方案，语种识别模型包括特征提取网络、残差处理网络和类别预测网络，在此基础上，利用特征提取网络对样本语谱图进行特征提取，得到第一样本特征图和样本语种特征表示，并利用残差处理网络对第一样本特征图进行残差处理，得到第二样本特征图，以及利用特征提取网络对第二样本特征图进行特征提取，得到新的第一样本特征图和新的样本语种特征表示，从而利用类别预测网络基于历次提取到的样本语种特征表示进行预测处理，得到样本语谱图的样本语种识别结果，进而基于样本语种识别结果和样本语种之间的差异，调整语种识别模型的网络参数，故能够在语种识别模型的训练过程中，结合多次提取到的样本语种特征表示进行语种预测，有利于提升语种识别模型的模型性能。
[0103]
请参阅图7，图7是本技术语音识别装置70一实施例的框架示意图。语音识别装置70包括：语谱获取模块71、第一识别模块72和第二识别模块73，语谱获取模块71，用于获取待识别语音的语谱图；第一识别模块72，用于基于第一滑窗在语谱图逐窗进行语种识别的第一识别结果，从语谱图提取再识别语谱片段；第二识别模块73，用于基于若干第二滑窗分别在再识别语谱片段逐窗进行语种识别的第二识别结果，分析得到再识别语谱片段涉及的目标语种；其中，若干第二滑窗的尺寸各不相同，且第二滑窗的尺寸小于第一滑窗的尺寸。
[0104]
上述方案，一方面在整个识别过程中，最多能够进行两次语种识别，即第一次基于第一滑窗的语种识别以及第二次基于第二滑窗的语种识别，故通过双重识别能够有利于提升识别准确性，另一方面在第二次识别过程中采用尺寸各不相同的若干第二滑窗，能够融合多尺度识别结果，有利于再次提升识别准确性，又一方面第二次识别过程中所采用的第二滑窗的尺寸又小于第一滑窗的尺寸，即第二次识别相较于第一次识别而言具有更为精细的尺度，有利于进一步提升识别准确性。故此，能够提高识别语音所涉及语种的准确性。
[0105]
在一些公开实施例中，第一识别模块72包括第一识别子模块，用于基于第一滑窗在语谱图逐窗进行语种识别，得到若干第一语谱片段的第一识别结果；其中，第一识别结果包括第一语谱片段分别与若干预设语种的第一相关分值；第一识别模块72包括第一差值子模块，用于对于每一第一语谱片段，获取最高的第一相关分值与次高的第一相关分值之间的第一分值差值；第一识别模块72包括语谱提取子模块，用于基于第一分值差值，从语谱图提取再识别语谱片段。
[0106]
因此，通过第一滑窗在语谱图逐窗进行语种识别所得到的各个第一语谱片段的第一识别结果中最高相关分值和次高相关分值之间的分值差值，来从语谱图中提取再识别语
谱片段，故能够根据各个第一语谱片段的语种识别结果来提取再识别语谱片段，从而能够尽可能地减少需要二次识别的语谱长度，进而能够在提升识别准确性的基础上，尽可能地降低对识别效率的影响。
[0107]
在一些公开实施例中，语谱提取子模块包括时段确定单元，用于基于第一分值差值低于第一阈值且连续的至少一组第一语谱片段，确定至少一组提取时段；其中，每组提取时段包括开始时刻和结束时刻；语谱提取子模块包括片段提取单元，用于分别基于各组提取时段，从语谱图提取得到再识别语谱片段。
[0108]
因此，基于第一分值差异低于第一阈值且连续的至少一组第一语谱片段，确定至少一组提取时段，且每组提取时段包括开始时刻和结束时刻，在此基础上，分别基于各组提取时段，从语谱图提取得到再识别语谱片段，故能够仅基于第一次语种识别过程中难以区分语种的第一语谱片段进行再识别，有利于尽可能地降低对识别效率的影响。
[0109]
在一些公开实施例中，第一识别模块72包括语种确定子模块，用于基于第一语谱片段的第一分值差异不低于第一阈值，将最高的第一相关分值对应的预设语种，作为第一语谱片段涉及的目标语种。
[0110]
因此，基于第一语谱片段的第一分值差值不低于第一阈值，将最高的第一相关分值对应的预设语种，作为第一语谱片段涉及的目标语种，能够直接确定第一语谱片段涉及的目标语种，有利于在确保语种识别的准确性的基础上，进一步提升语种识别的效率。
[0111]
在一些公开实施例中，第二识别模块73包括第二识别子模块，用于获取各个第二滑窗分别在再识别语谱片段逐窗进行语种识别的第二识别结果；第二识别结果包括再识别语谱片段分别与若干预设语种的第二相关分值；第二识别模块73包括结果规整子模块，用于对于每个第二滑窗，利用第二滑窗对应的统计识别结果对第二滑窗对应的第二识别结果进行规整，得到第二滑窗对应的规整识别结果；其中，统计识别结果是基于第二滑窗分别在若干样本语谱逐窗进行语种识别的样本识别结果而统计得到的；第二识别模块73包括结果融合子模块，用于基于融合若干第二滑窗对应的规整识别结果而得到的最终识别结果，确定再识别语谱片段涉及的目标语种。
[0112]
因此，先利用第二滑窗对应的统计识别结果对第二滑窗对应的第二识别结果进行规整，故能够尽可能地消弭基于不同尺寸的第二滑窗逐窗进行语种识别所得到的第二识别结果之间的固有差异，有利于提升最终识别结果的准确性，进而能够有利于提升再识别语谱片段涉及的目标语种的准确性。
[0113]
在一些公开实施例中，第二识别子模块包括滑窗选择单元，用于将各个第二滑窗分别作为当前滑窗；第二识别子模块包括片段识别单元，用于基于当前滑窗在再识别语谱片段逐窗进行语种识别，得到若干第二语谱片段的第三识别结果；其中，第三识别结果包括第二语谱片段分别与若干预设语种的第三相关分值；第二识别子模块包括分值获取单元，用于基于各个第二语谱片段分别与预设语种的第三相关分值，得到再识别语谱片段与对应预设语种的第二相关分值。
[0114]
因此，通过将各个第二滑窗分别作为当前滑窗，并基于当前滑窗在再识别语谱片段逐窗进行语种识别，得到若干第二语谱片段的第三识别结果，且第三识别结果包括第二语谱片段分别与若干预设语种的第三相关分值，从而基于各个第二语谱片段分别与预设语种的第三相关分值，得到再识别语谱片段与对应预设语种的第二相关分值，进而能够快速
获取到各个第二滑窗对应的第二识别结果，有利于提升整体识别的效率。
[0115]
在一些公开实施例中，样本识别结果包括第二滑窗在样本语谱提取的若干样本语谱片段分别与若干预设语种的样本相关分值，统计识别结果是基于样本相关分值而统计到的标准差以及各个预设语种的平均相关分值，且规整识别结果包括再识别语谱片段分别与若干预设语种的规整相关分值；结果规整子模块包括第一选择单元，用于分别将各个预设语种作为当前语种；结果规整子模块包括分值规整单元，用于获取当前语种对应的第二相关分值和平均相关分值之间的第二分值差值，并将第二分值差值与标准差之比，作为再识别语谱片段与当前语种的规整相关分值。
[0116]
因此，通过分别将各个预设语种作为当前语种，并将各个第二滑窗对应的规整识别结果中再识别语谱片段与当前语种的规整相关分值进行求和，得到再识别语谱片段与当前语种的最终相关分值，以及将最高的最终相关分值对应的预设语种，作为再识别语谱片段涉及的目标语种，故通过简单数学运算即可求得到最终相关分值，有利于在确保语种识别的准确性的基础上，提升识别效率。
[0117]
在一些公开实施例中，规整识别结果包括再识别语谱片段分别与若干预设语种的规整相关分值，且最终识别结果包括再识别语谱片段分别与若干预设语种的最终相关分值；结果融合子模块包括第二选择单元，用于分别将各个预设语种作为当前语种；结果融合子模块包括分值求和单元，用于将各个第二滑窗对应的规整识别结果中再识别语谱片段与当前语种的规整相关分值进行求和，得到再识别语谱片段与当前语种的最终相关分值；结果融合子模块包括语种确定单元，用于将最高的最终相关分值对应的预设语种，作为再识别语谱片段涉及的目标语种。
[0118]
因此，通过分别将各个预设语种作为当前语种，并将各个第二滑窗对应的规整识别结果中再识别语谱片段与当前语种的规整相关分值进行求和，得到再识别语谱片段与当前语种的最终相关分值，以及将最高的最终相关分值对应的预设语种，作为再识别语谱片段涉及的目标语种，故通过简单数学运算即可求得到最终相关分值，有利于在确保语种识别的准确性的基础上，提升识别效率。
[0119]
在一些公开实施例中，语音识别装置70包括第一提取模块，用于对待识别语谱图进行特征提取，得到第一特征图和语种特征表示；语音识别装置70包括残差处理模块，用于对第一特征图残差处理，得到第二特征图；语音识别装置70包括第二提取模块，用于对第二特征图进行特征提取，得到新的第一特征图和新的语种特征表示；语音识别装置70包括类别预测模块，用于基于历次提取到的语种特征表示进行预测处理，得到待识别语谱图的语种识别结果；其中，语种识别结果包括待识别语谱图分别与若干预设语种的语种相关分值，在基于第一滑窗进行语种识别的情况下，待识别语谱图为第一滑窗在语谱图逐窗提取到的第一语谱片段，在基于第二滑窗进行语种识别的情况下，待识别语谱图为第二滑窗在再识别语谱片段逐窗提取到的第二语谱片段。
[0120]
因此，对待识别语谱图进行特征提取，得到第一特征图和语种特征表示，并对第一特征图残差处理，得到第二特征图，以及对第二特征图进行特征提取，得到新的第一特征图和新的语种特征表示，在此基础上，再基于历次提取到的语种特征表示进行预测处理，得到待识别语谱图的语种识别结果，故能够在语种识别过程中，结合多次提取到的语种特征表示进行语种预测，有利于提升语种识别的准确性。
[0121]
在一些公开实施例中，语音识别装置70包括次数检测模块，用于检测特征提取的执行次数是否不高于第二阈值；语音识别装置70包括循环执行模块，用于在执行次数不高于第二阈值的情况下，结合残差处理模块、第二提取模块重新执行对第一特征图残差处理，得到第二特征图的步骤以及后续步骤。
[0122]
因此，通过在预测处理之前，先检测特征提取的执行次数是否不高于第二阈值，并在执行次数不高于第二阈值的情况下，重新执行对第一特征图残差处理，得到第二特征图的步骤以及后续步骤，能够有利于提升语种识别的准确性。
[0123]
在一些公开实施例中，残差处理模块包括上采样子模块，用于对第一特征图进行上采样，得到上采样特征图；残差处理模块包括特征融合子模块，用于将上采样特征图和由上采样特征图提取到的第三特征图进行融合，得到融合特征图；残差处理模块包括下采样模块，用于对融合特征图进行下采样，得到第二特征图。
[0124]
因此，通过上采样、特征融合以及下采样等处理流程完成残差处理，从而能够在加深特征层次的基础上，有利于提升语种识别的准确性。
[0125]
在一些公开实施例中，语种识别是由语种识别模型执行的，且语种识别模型包括特征提取网络、残差处理网络和类别预测网络，特征提取网络用于执行特征提取，残差处理网络用于执行残差处理，类别预测网络用于执行预测处理。
[0126]
因此，利用语种识别模型执行语种识别，且利用特征提取网络、残差处理网络、类别预测网络分别执行特征提取、残差处理以及类别预测从而能够有利于提升语种识别效率。
[0127]
在一些公开实施例中，尺寸包括窗长和窗移，若干第二滑窗的窗长和/或窗移各不相同；和/或，尺寸包括窗长，第二滑窗的窗长不大于第一滑窗的窗长；和/或，尺寸包括窗移，第二滑窗的窗移不大于第一滑窗的窗移。
[0128]
因此，将若干第二滑窗的窗长和/或窗移设置为各不相同，能够提升第二滑窗的多样化，有利于融合多种尺度进行语种判别，提升语种识别准确性；而将第二滑窗的窗长设置为不大于第一滑窗的窗长，或将第二滑窗的窗移设置为不大于第一滑窗的窗移，能够通过第二滑窗更为精细地在再识别语谱片段进行精细识别，有利于提升语种识别精度。
[0129]
请参阅图8，图8是本技术电子设备80一实施例的框架示意图。电子设备80包括相互耦接的存储器81和处理器82，存储器81中存储有程序指令，处理器82用于执行程序指令以实现上述任一语音识别方法实施例中的步骤。具体地，电子设备80可以包括但不限于：台式计算机、笔记本电脑、服务器、手机、平板电脑等等，在此不做限定。
[0130]
具体而言，处理器82用于控制其自身以及存储器81以实现上述任一语音识别方法实施例中的步骤。处理器82还可以称为cpu(central processing unit，中央处理单元)。处理器82可能是一种集成电路芯片，具有信号的处理能力。处理器82还可以是通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field
‑
programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器82可以由集成电路芯片共同实现。
[0131]
上述方案，一方面在整个识别过程中，最多能够进行两次语种识别，即第一次基于
第一滑窗的语种识别以及第二次基于第二滑窗的语种识别，故通过双重识别能够有利于提升识别准确性，另一方面在第二次识别过程中采用尺寸各不相同的若干第二滑窗，能够融合多尺度识别结果，有利于再次提升识别准确性，又一方面第二次识别过程中所采用的第二滑窗的尺寸又小于第一滑窗的尺寸，即第二次识别相较于第一次识别而言具有更为精细的尺度，有利于进一步提升识别准确性。故此，能够提高识别语音所涉及语种的准确性。
[0132]
请参阅图9，图9是本技术计算机可读存储介质90一实施例的框架示意图。计算机可读存储介质90存储有能够被处理器运行的程序指令91，程序指令91用于实现上述任一语音识别方法实施例中的步骤。
[0133]
上述方案，一方面在整个识别过程中，最多能够进行两次语种识别，即第一次基于第一滑窗的语种识别以及第二次基于第二滑窗的语种识别，故通过双重识别能够有利于提升识别准确性，另一方面在第二次识别过程中采用尺寸各不相同的若干第二滑窗，能够融合多尺度识别结果，有利于再次提升识别准确性，又一方面第二次识别过程中所采用的第二滑窗的尺寸又小于第一滑窗的尺寸，即第二次识别相较于第一次识别而言具有更为精细的尺度，有利于进一步提升识别准确性。故此，能够提高识别语音所涉及语种的准确性。
[0134]
在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。
[0135]
上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以互相参考，为了简洁，本文不再赘述。
[0136]
在本技术所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。
[0137]
作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
[0138]
另外，在本技术各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
[0139]
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本技术各个实施方式方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read
‑
only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种
可以存储程序代码的介质。