首页 > 乐器声学 专利正文
语音识别方法及相关装置与流程

时间:2022-02-06 阅读: 作者:专利查询

语音识别方法及相关装置与流程

1.本技术涉及语音识别场景,具体而言,涉及一种语音识别方法及相关装置。


背景技术:

2.随着语音识别技术的发展与商业化应用,语音识别技术越来越多的用于各类场景,比如客服、质检、车载、手机、音箱、家居等。
3.然而发明人研究发现,相关语音识别技术存在只能适应特定识别场景与通用识别场景中的其中一个,而难以同时适应着两种识别场景的问题。


技术实现要素:

4.为了克服现有技术中的至少一个不足,本技术提供一种语音识别方法及相关装置,包括:
5.第一方面,本申提供一种语音识别方法,应用于语音识别设备,所述语音识别设备配置有语音识别模型,所述语音识别模型包括完全基于神经网络原理的第一模型以及未完全基于神经网络原理的第二模型,所述方法包括:
6.获取待识别语音;
7.将所述待识别语音输入到所述第一模型,获得第一文本以及所述第一文本的第一得分;
8.将所述待识别语音输入到所述第二模型,获得第二文本以及所述第二文本的第二得分;
9.根据所述第一得分以及所述第二得分,从所述第一文本以及所述第二文本中选取得分最高的目标文本;
10.将所述目标文本作为所述待识别语音的语音识别结果。
11.第二方面,本申提供一种语音识别装置,应用于语音识别设备,所述语音识别设备配置有语音识别模型,所述语音识别模型包括完全基于神经网络原理的第一模型以及未完全基于神经网络原理的第二模型,所述语音识别装置包括:
12.语音模块,用于获取待识别语音;
13.得分模块,用于将所述待识别语音输入到所述第一模型,获得第一文本以及所述第一文本的第一得分;
14.所述得分模块,还用于将所述待识别语音输入到所述第二模型,获得第二文本以及所述第二文本的第二得分;
15.文本模块,用于根据所述第一得分以及所述第二得分,从所述第一文本以及所述第二文本中选取得分最高的目标文本;
16.所述文本模块,还用于将所述目标文本作为所述待识别语音的语音识别结果。
17.第三方面,本申提供一种语音识别设备,所述语音识别设备包括处理器以及存储器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,实现所述的语音
识别方法。
18.第四方面,本申提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被所述处理器执行时,实现所述的语音识别方法。
19.第五方面,本申提供一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现所述的语音识别方法。
20.相对于现有技术而言,本技术具有以下有益效果:
21.本技术实施例提供的语音识别方法及相关装置中,语音识别设备配置有语音识别模型,而该语音识别模型包括完全基于神经网络原理的第一模型以及未完全基于神经网络原理的第二模型;然后,通过第一模型与第二模型分别获得待识别语音的第一文本、第二文本以及两文本各自的得分,最后,将得分最高的文本作为待识别语音的语音识别结果。由于第一模型在通用识别场景能够取的很好的识别效果,而第二模型在特定识别场景能够取的很好的识别效果,因此,能够达到同时适应这两种场景的目的。
附图说明
22.为了更清楚地说明本技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
23.图1为本技术实施例提供的语音识别设备的结构示意图;
24.图2为本技术实施例提供的语音识别方法的流程图之一;
25.图3为本技术实施例提供的语音识别方法的流程图之二;
26.图4为本技术实施例提供的语音识别模型的结构示意图;
27.图5为本技术实施例提供的待训练模型的训练原理示意图;
28.图6为本技术实施例提供的语音识别装置的结构示意图。
29.图标:120

存储器;130

处理器;140

通信单元;201

语音模块;202

得分模块;203

文本模块。
具体实施方式
30.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本技术实施例的组件可以以各种不同的配置来布置和设计。
31.因此,以下对在附图中提供的本技术的实施例的详细描述并非旨在限制要求保护的本技术的范围,而是仅仅表示本技术的选定实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
32.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
33.在本技术的描述中,需要说明的是,术语“第一”、“第二”、“第三”等仅用于区分描
述,而不能理解为指示或暗示相对重要性。此外,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
34.应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本技术内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
35.语音识别技术可以用于将用户的语音转变成文本,因此,随着语音识别技术的发展与商业化应用,语音识别技术越来越多的用于各类场景。目前的语音识别技术包括以下两种技术思路:
36.一种是采用完全基于神经网络原理的第一模型,例如,端到端语音识别模型。而另外一种则是采用未完全基于神经网络原理的第二模型,例如,传统语音识别模型。
37.其中,传统语音识别模型包括特征提取层、声学模型层、语言模型层以及解码层,本领域技术人员可以对上述特征提取层、声学模型层、语言模型层以及解码层进行设计,以使传统语音识别模型适应各类特定识别场景。为便于理解,下面对各传统语音识别模型的上述3个声音处理环节进行说明。
38.特征提取层:由于直接对待识别语音的原始波形进行识别,并不能取得很好的识别效果,因此,需要将时域的语音波形信号转换成频域信号后,再进行特征提取。例如,待识别语音的mel倒谱系数(mel frequency cepstrum coefficient,mfcc)。
39.声学模型层:用于对特征提取阶段获得的声学特征进行处理,获得待识别语音的发音单元。其中,常见的声学模型层包括隐马尔科夫模型、高斯混合模型等。
40.语言模型层:语言模型层用于刻画人类语言表达的方式习惯,着重描述了词与词在排列结构上的内在联系,因此,语言模型不仅能够提高解码层的解码效率,还能在一定程度上提高语音识别率。例如,可以使用n

gram模型作为语言模型层。
41.解码层:由于发音单元相对于整个待识别语音而言是相对独立的,并且,同样的发音单元还存在同音字的情况;因此,需要使用具有词典的语言识别模型将相对孤立分散的发音单元进行解码,以获得与待识别语音相匹配的目标文本。并且,可便捷地使用丰富的领域场景文本语料优化语言识别模型,进而提升语音识别效果。此外,传统混合语音识别框架下,热词、词边界、语言识别模型自适应等方法相对成熟,且已经成功进行商业化应用。
42.相比传统语音识别模型,端到端语音识别模型则是基于神经网络原理利用大量的语音文本成对的样本对其进行训练获得。因此,端到端语音识别模型更多的应用于通用识别场景,比如输入法、客服等。在通用类场景下,端到端语音识别模型具有较为明显的语音识别效果优势。
43.因此,目前的端到端语音识别模型与传统语音识别模型分别在各自擅长的语音识别场景能够取的很好的语音识别效果,然而,难以同时适应着两种识别场景的问题。
44.鉴于此,本技术实施例提供一种应用于语音识别设备的语音识别方法,通过比较完全基于神经网络原理的第一模型与未完全基于神经网络原理的第二模型各自对待识别语音的识别文本,选取其中得分最高的目标文本作为待识别语音的语音识别结果,从而达
到既能适应通用识别场景,又能适应特定识别场景的目的。
45.其中,可选地实施方式中,该语音识别设备可以是服务器。其中,该服务器可以是单个服务器,也可以是服务器组。服务器组可以是集中式的,也可以是分布式的(例如,服务器可以是分布式系统)。当该语音识别设备是服务器时,可以通过与该服务器通信连接的音频采集设备,获取待视频别音频。
46.在其他可选地实施方式中,该语音识别设备还可以是用户终端。例如,移动终端、平板计算机、膝上型计算机、或机动车辆中的内置设备等,或其任意组合。在一些实施例中,移动终端可以包括智能家居设备(例如,智能音箱)、可穿戴设备、智能移动设备、虚拟现实设备、或增强现实设备等,或其任意组合。在一些实施例中,智能家居设备可以包括智能照明设备、智能电器设备的控制设备、智能监控设备、智能电视、智能摄像机、或对讲机等,或其任意组合。在一些实施例中,可穿戴设备可包括智能手环、智能鞋带、智能玻璃、智能头盔、智能手表、智能服装、智能背包、智能配件等、或其任何组合。在一些实施例中,智能移动设备可以包括智能手机、个人数字助理(personal digital assistant,pda)、游戏设备、导航设备、或销售点(point of sale,pos)设备等,或其任意组合。
47.可选地的实施方式中,该用户终端的操作系统可以是,但不限于,安卓(android)系统、ios(iphone operating system)系统、windows phone系统、windows系统等。优选地,本实施例中,该用户终端的操作系统为ios系统。
48.该语音识别设备的结构如图1所示,包括存储器120、处理器130、通信单元140。其中,该存储器120、处理器130以及通信单元140各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。
49.其中,该存储器120可以是,但不限于,随机存取存储器(random access memory,ram),只读存储器(read only memory,rom),可编程只读存储器(programmable read

only memory,prom),可擦除只读存储器(erasable programmable read

only memory,eprom),电可擦除只读存储器(electric erasable programmable read

only memory,eeprom)等。其中,存储器120用于存储程序,该处理器130在接收到执行指令后,执行该程序。
50.该通信单元140用于通过网络收发数据。网络可以包括有线网络、无线网络、光纤网络、远程通信网络、内联网、因特网、局域网(local area network,lan)、广域网(wide area network,wan)、无线局域网(wireless local area networks,wlan)、城域网(metropolitan area network,man)、广域网(wide area network,wan)、公共电话交换网(public switched telephone network,pstn)、蓝牙网络、zigbee网络、或近场通信(near field communication,nfc)网络等,或其任意组合。在一些实施例中,网络可以包括一个或多个网络接入点。例如,网络可以包括有线或无线网络接入点,例如基站和/或网络交换节点,服务请求处理系统的一个或多个组件可以通过该接入点连接到网络以交换数据和/或信息。
51.其中,该通信单元可以包括射频单元,用于接收以及发送无线电波信号(如电磁波),实现无线电波与电信号的相互转换,从而实现该用户终端与网络或者其他通信设备之间的无线通信。
52.该处理器130可能是一种集成电路芯片,具有信号的处理能力,并且,该处理器可
以包括一个或多个处理核(例如,单核处理器或多核处理器)。仅作为举例,上述处理器可以包括中央处理单元(central processing unit,cpu)、专用集成电路(application specific integrated circuit,asic)、专用指令集处理器(application specific instruction

set processor,asip)、图形处理单元(graphics processing unit,gpu)、物理处理单元(physics processing unit,ppu)、数字信号处理器(digital signal processor,dsp)、现场可编程门阵列(field programmable gate array,fpga)、可编程逻辑器件(programmable logic device,pld)、控制器、微控制器单元、简化指令集计算机(reduced instruction set computing,risc)、或微处理器等,或其任意组合。
53.可选地的实施方式中,该语音识别设备还包括外设接口、输入输出单元、音频单元以及显示单元。
54.其中,外设接口用于将各种输入/输出装置(例如输入输出单元、音频单元以及显示单元)耦合至处理器130以及存储器120。在一些实施例中,外设接口、处理器130可以在单个芯片中实现。在其他一些实例中,他们可以分别由独立的芯片实现。
55.该输入输出单元,用于提供给用户输入数据实现用户与用户终端的交互。该输入输出单元可以是,但不限于,鼠标和键盘等。
56.该音频单元,用于向用户提供音频接口,其可包括一个或多个麦克风、一个或者多个扬声器以及音频电路。该语音识别设备可以通过音频单元采集本实施例中的待识别音频。
57.该显示单元,用于在该用户终端与用户之间提供一个交互界面(例如用户操作界面)或用于显示图像数据。在本实施例中,该显示单元可以是液晶显示器或触控显示器。若为触控显示器,其可为支持单点和多点触控操作的电容式触控屏或电阻式触控屏等。支持单点和多点触控操作是指触控显示器能感应到来自该触控显示器上一个或多个位置处产生的触控操作,并将该感应到的触控操作交由处理器进行计算和处理。
58.基于上述相关介绍,下面结合图2对该方法的具体实施方式进行详细阐述,如图2所示,该方法包括:
59.s101,获取待识别语音。
60.s102,将待识别语音输入到第一模型,获得第一文本以及第一文本的第一得分。
61.s103,将待识别语音输入到第二模型,获得第二文本以及第二文本的第二得分。
62.s104,根据第一得分以及第二得分,从第一文本以及第二文本中选取得分最高的目标文本。
63.s105,将目标文本作为待识别语音的语音识别结果。
64.示例性的,假定第一模型输出的第一文本,其得分为8.0分,第二模型输出的第二文本,其得分为7.5分;由于文本得分反映了所识别文本的准确程度,而第一文本的得分大于第二文本的得分,因此,该语音识别设备将第一文本作为目标文本,并作为待识别语音的语音识别结果。
65.同理,假定第一模型输出的第一文本,其得分为6.0分,第二模型输出的第二文本,其得分为7.5分;由于文本得分反映了所识别文本的准确程度,而第一文本的得分小于第二文本的得分,因此,该语音识别设备将第二文本作为目标文本,并作为待识别语音的语音识别结果。
66.由此,该语音识别设备配置有语音识别模型,而该语音识别模型包括完全基于神经网络原理的第一模型以及未完全基于神经网络原理的第二模型;然后,通过第一模型与第二模型分别获得待识别语音的第一文本、第二文本以及两文本各自的得分,最后,将得分最高的文本作为待识别语音的语音识别结果。由于第一模型在通用识别场景能够取的很好的识别效果,而第二模型在特定识别场景能够取的很好的识别效果,因此,能够达到同时适应这两种场景的目的。
67.发明人进一步研究发现,由于第一模型与第二模型分别在各自擅长的语音识别场景能够取的很好的语音识别效果,因此,通用识别场景下,第一模型的语音识别结果更具有可信度;而在特定识别场景下,第二模型的语音识别结果则更具有可信度。需要说明的是,为便于描述,下述实施方式中,将通用识别场景成为第一场景,将特定识别场景成为第二场景。
68.因此,该语音识别设备针对通用识别场景配置有第一场景因子,这对特定识别场景,配置有第二场景因子。如图3所示,基于第一场景因子与第二场景因子,通过以下实施方式选取得分最高的目标文本:
69.s104

1,获取语音识别设备的目标使用场景。
70.s104

2,判断目标使用场景的场景类型。
71.若目标使用场景为第一场景,则执行步骤s104

3以及s104

4:
72.s104

3,通过第一场景因子对第一得分进行加权处理,获得第一文本的第一加权得分。
73.s104

4,根据第一加权得分以及第二得分,从第一文本以及第二文本中选取得分最高的目标文本。
74.若目标使用场景为第二场景,则执行步骤s104

5以及s104

6:
75.s104

5,通过第二场景因子对第二得分进行加权处理,获得第二文本的第二加权得分。
76.s104

6,根据第一得分以及第二加权得分,从第一文本以及第二文本中选取得分最高的目标文本。
77.示例性的,继续以上述8.0分的第一文本以及7.5分的第二文本为例。假定该目标场景为第二场景,并且第二场景的场景因子为1.1,则第一加权得分为1.1*7.5=8.25;由于此时的第一加权得分大于第二得分,因此,语音识别设备将第二文本作为目标文本。
78.假定第一文本得的得分为8.5分,则说明即使对第二得分进行加权之后,仍然低于第一文本的得分,此时说明第一文本的可信度高于第二文本的可信度,因此,语音识别设备将第一文本作为目标文本。
79.可选地实施方式中,第一场景因子与第二场景因子的数值,本领域技术人员可以依据自身经验进行人为设置,因此,第一场景因子与第二场景因子的数值不仅限于上述示例,本领域技术人员可以根据需要进行适当调整,本实施例不做具体限定。
80.可选地的其他实施方式中,该语音识别设备可以通过以下方式确定第一场景因子:
81.语音识别设备统计第一模型在第一场景下的第一识别率,以及第二模型在第一场景下的第二识别率;然后,将第一识别率与第二识别率之间的比值,作为第一场景因子。
82.示例性的,假定第一模型在第一场景下的第一识别率为95%,第二模型在第一场景下的第二识别率为70%;则第一识别率与第二识别率之间的比值为0.95/0.7≈1.35。因此,第一场景因子的值为1.35。
83.同理,语音识别设备统计第一模型在第二场景下的第三识别率,以及第二模型在第二场景下的第四识别率;然后,将第四识别率与第三识别率之间的比值,作为第二场景因子。
84.示例性的,假定第一模型在第二场景下的第三识别率为80%,第二模型在第二场景下的第四识别率为90%;则第四识别率与第三识别率之间的比值为0.9/0.8≈1.12。因此,第二场景因子的值为1.12。
85.由于目标使用场景会影响最终的待识别语音的识别结果,本实施例提供多种实施方式,用于确定语音设备的使用场景。
86.可选地实施方式中,语音识别设备配置有对应第一场景的第一词库以及对应第二场景的第二词库。
87.基于这两个词库,语音识别设备获取第一词库的第一使用频率以及第二词库的第二使用频率;然后,根据第一使用频率以及第二使用频率,从第一词库以及第二词库中选取满足预设条件的目标词库;最后,根据目标词库,确定目标使用场景。
88.示例性的,假定该语音识别设备为智能音箱,并且该智能音箱可以接收用户输入的待识别语音,并对其进行响应。例如,用户可以对智能音箱提问,该智能音箱将用户的提问转换成文本,然后,再通过文本分析模型(例如,lstm网络)对该文本进行分析,最后根据分析结果生成该提问的答案。或者,用户可以通过语音控制智能音箱播放音乐、有声小说以及控制其他设备。而本示例中,假定智能音箱的用户为成年人时,将该智能音箱的使用场景视为第一场景;智能音箱的用户为儿童时,将该智能音箱的使用场景视为第二场景。
89.考虑到儿童积累的词汇多是关于童话故事、动漫、儿歌等内容,因此,收集与童话故事、动漫、儿歌相关的词汇,作为第二词库;收集通用场景下的词汇,作为第一词库。然后,语音识别设备周期性的统计第一词库与第二词库各自的使用频率,然后,选取使用频率最大的词库作为目标词库,该目标词库所对应的场景作为目标使用场景。
90.其中,本示例中的使用频率表示历史语音中的词汇在统计周期与第一词库与第二词库匹配成功的次数。假定该统计周期为1星期,并且这1星期内以内,第一词库匹配成功的次数为10次,第二词库匹配成功的次数为35次,则可以确定目标词库为第二词库,目标使用场景为第二场景。
91.可选地其他实施方式中,该语音识别设备还可以接收用户输入的场景配置指令;然后,根据场景配置指令,确定目标使用场景。其中,用户可以通过语音输入的方式向语音识别设备下发该场景配置指令;还可以通过语音识别设备提供的控件输入该场景配置指令。该控件可以是语音识别设备提供的按钮或者语音识别设备提供的人机交互界面中显示的场景配置控件。
92.需要说明的是,同一语音识别设备可以同时具有上述两种功能用于确定语音识别设备的使用场景。用户可以通过语音识别设备提供的配置方式,选择其中一种实施方式用于确定目标使用场景,或者同时开启上述两种确定语音识别设备的使用场景的实施方式。
93.本实施例中,第一得分与第二得分通过相同的评分标准对第一文本以及第二文本
进行评分获得。而该语音识别模型的结构如图4所示,其中,第一模型包括声学识别层以及解码层,其中,声学识别层包括编码层、连接时序分类层,解码层提供上述评分标准;第二模型包括具有词典的语言识别层。
94.基于该语音识别模型的上述结构,可选地实施方式中,语音识别设备可以通过以下实施方式获得第一文本以及第一文本的第一得分:
95.语音识别设备将待识别语音输入声学识别层,获得由编码层输出的待识别语音的声学编码信息;然后,将声学编码信息输入到解码层,获得多条第一候选文本以及多条第一候选文本各自的得分;最后,根据多条第一候选文本各自的得分,获得第一文本以及第一文本的第一得分。
96.其中,语音识别设备可以根据多条第一候选文本各自的得分,选取其中得分最高的第一候选文本,作为第一文本。
97.应理解的是,图4中的编码层用于对待识别语音进行编码,获得待识别语音的声学编码信息。
98.连接时序分类(connectionist temporal classification,ctc)层用于对声学编码信息进行分类,获得待识别语音的声学识别结果,即待识别语音的对应的发音单元。
99.解码层用于将编码层输出的声学编码信息进行解码,获得待识别语音的多条第一候选文本,并对每条第一候选文本进行打分。
100.继续参见4,可选地的实施方式中,该第一模型还可以包括注意力机制层,位于解码层与编码层之间,用于进一步提高语音识别时的准确率。
101.基于该语音识别模型的上述结构,第二模型可以复用第一模型的声学识别层以及解码层,将声学识别层作为第二模型的特征提取层以及声学模型层,然后通过以下实施方式获得第二文本以及第二文本的第一得分:
102.语音识别设备先通过具有词典的语言识别层识别连接时序分类层输出的声学识别结果,获得多条第二候选文本;然后,将多条第二候选文本输入到解码层,获得多条第二候选文本各自的得分;最后,根据多条第二候选文本各自的得分,获得第二文本以及第二文本的第二得分。
103.其中,该语音识别设备可以根据多条第二候选文本各自的得分,选取其中得分最高的第二候选文本,作为第二文本。
104.如图5所示,可选地实施方式中,语音识别设备获取样本语音;将样本语音输入到配置的待训练模型进行识别;最后,根据待训练模型识别样本语音的声学损失以及文本损失,调整待训练的语音识别模型的模型参数,以获得上述第一模型。
105.其中,该声学损失由连接时序分类层输出的预测发音进行计算获得,文本损失由解码层输出的预测文本进行计算获得。例如,上述声学损失可以基于连接时序分类准则获得,文本损失可以基于交叉熵准则获得。可选地实施方式中,语音识别设备可以对这两个训练损失进行加权求和,然后,依据加权求和结果调整待训练的语音识别模型的模型参数,以获得上述第一模型。
106.基于与语音识别方法相同的发明构思,本实施例还提供与该方法相关的装置,包括:
107.本实施例还提供一种语音识别装置,应用于语音识别设备;语音识别装置包括至
少一个可以软件形式存储于存储器中的功能模块,其中,语音识别设备配置有语音识别模型,语音识别模型包括完全基于神经网络原理的第一模型以及未完全基于神经网络原理的第二模型。其中,如图6所示,从功能上划分,该语音识别装置可以包括:
108.语音模块201,用于获取待识别语音。
109.本实施例中,该语音模块201可以用于实现图2中的步骤s101,关于该语音模块201的详细描述,可以参见步骤s101的详细描述。
110.得分模块202,用于将待识别语音输入到第一模型,获得第一文本以及第一文本的第一得分。
111.得分模块202,还用于将待识别语音输入到第二模型,获得第二文本以及第二文本的第二得分。
112.本实施例中,该得分模块202可以用于实现图2中的步骤s102以及s103,关于该得分模块202的详细描述,可以参见步骤s102以及s103的详细描述。
113.文本模块203,用于根据第一得分以及第二得分,从第一文本以及第二文本中选取得分最高的目标文本。
114.文本模块203,还用于将目标文本作为待识别语音的语音识别结果。
115.本实施例中,该文本模块203可以用于实现图2中的步骤s104以及s105,关于该得分模块202的详细描述,可以参见步骤s104以及s105的详细描述。
116.可选地实施方式中,该文本模块203获取目标文本的方式包括:
117.获取语音识别设备的目标使用场景;
118.若目标使用场景为第一场景,则通过第一场景因子对第一得分进行加权处理,获得第一文本的第一加权得分;
119.根据第一加权得分以及第二得分,从第一文本以及第二文本中选取得分最高的目标文本;
120.若目标使用场景为第二场景,则通过第二场景因子对第二得分进行加权处理,获得第二文本的第二加权得分;
121.根据第一得分以及第二加权得分,从第一文本以及第二文本中选取得分最高的目标文本。
122.可选地实施方式中,语音识别设备配置有对应第一场景的第一词库以及对应第二场景的第二词库,该文本模块203获取目标使用场景的方式,包括:
123.获取第一词库的第一使用频率以及第二词库的第二使用频率;
124.根据第一使用频率以及第二使用频率,从第一词库以及第二词库中选取满足预设条件的目标词库;
125.根据目标词库,确定目标使用场景。
126.可选地的实施方式中,该文本模块203获取目标使用场景的方式,还包括:
127.接收用户输入的场景配置指令;
128.根据场景配置指令,确定目标使用场景。
129.可选地实施方式中,第一得分与第二得分通过相同的评分标准对第一文本以及第二文本进行评分获得。
130.可选地实施方式中,第一模型包括声学识别层以及解码层,其中,声学识别层包括
编码层、连接时序分类层,解码层提供评分标准;第二模型包括具有词典的语言识别层。
131.该得分模块202获取第一得分的方式,包括:
132.将待识别语音输入声学识别层,获得由编码层输出的待识别语音的声学编码信息;
133.将声学编码信息输入到解码层,获得多条第一候选文本以及多条第一候选文本各自的得分;
134.根据多条第一候选文本各自的得分,获得第一文本以及第一文本的第一得分。
135.该得分模块202获取第二得分的方式,包括:
136.通过具有词典的语言识别层识别连接时序分类层输出的声学识别结果,获得多条第二候选文本;
137.将多条第二候选文本输入到解码层,获得多条第二候选文本各自的得分;
138.根据多条第二候选文本各自的得分,获得第二文本以及第二文本的第二得分。
139.本实施例还提供一种语音识别设备,语音识别设备包括处理器以及存储器,存储器存储有计算机程序,计算机程序被处理器执行时,实现所述的语音识别方法。
140.本实施例还提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时,实现所述的语音识别方法。
141.本实施例还提供一种计算机程序产品,包括计算机程序/指令,计算机程序/指令被处理器执行时实现所述的语音识别方法。
142.综上所述,本技术实施例提供的语音识别方法及相关装置中,语音识别设备配置有语音识别模型,而该语音识别模型包括完全基于神经网络原理的第一模型以及未完全基于神经网络原理的第二模型;然后,通过第一模型与第二模型分别获得待识别语音的第一文本、第二文本以及两文本各自的得分,最后,将得分最高的文本作为待识别语音的语音识别结果。由于第一模型在通用识别场景能够取的很好的识别效果,而第二模型在特定识别场景能够取的很好的识别效果,因此,能够达到同时适应这两种场景的目的。
143.在本技术所提供的实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本技术的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
144.另外,在本技术各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
145.所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计
算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read

only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
146.以上所述,仅为本技术的各种实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应所述以权利要求的保护范围为准。