基于bs架构的音频数据识别方法、系统及可读存储介质
技术领域
1.本发明涉及语音识别技术领域,尤其涉及一种基于bs架构的音频数据识别方法、系统及可读存储介质。
背景技术:2.随着互联网技术的发展,手机、平板电脑等智能终端已成为人们生活必不可少的一部分。智能终端支持实现的功能也越来越多,如即时通讯、购物、阅读、支付、游戏、人脸识别、语音识别等功能。
3.当前,语音识别主要依赖于c/s(client/server)架构实现,c/s架构即客户端/服务器架构,该架构中客户端和服务器端的程序不同,用户的程序主要在客户端,服务器端主要提供数据管理、数据共享、数据及系统维护和并发控制等,客户端程序主要完成用户的具体的业务。开发比较容易,操作简便,但应用程序的升级和客户端程序的维护较为困难;维护成本高,发生一次升级,则所有客户端的程序都需要改变。
4.对于用于实现语音识别的客户端和服务器同样存在上述问题,因此,如何借助轻量化的框架来实现语音识别,降低语音识别框架维护成本,是当前亟待解决的技术问题。
技术实现要素:5.本发明的主要目的在于提供一种基于bs架构的音频数据识别方法、系统及可读存储介质,旨在解决现有技术中如何借助轻量化的框架来实现语音识别,降低语音识别框架维护成本的技术问题。
6.为实现上述目的,本发明提供一种基于bs架构的音频数据识别方法,应用于服务器,所述服务器与浏览器通信连接,所述音频数据识别方法包括:
7.当服务器接收到浏览器发送的音频识别请求时,从所述音频识别请求中读取出预设格式字段,并识别所述预设格式字段中的音频数据;
8.识别所述音频数据的编码类型,并根据与所述编码类型对应的解码算法,对所述音频数据进行还原,获得音频文件;
9.将所述音频文件识别为文字信息,并确定所述文字信息中的关键词,将所述关键词和所述文字信息一并返回到所述浏览器显示。
10.可选地,所述将所述音频文件识别为文字信息,并确定所述文字信息中的关键词的步骤包括:
11.对所述音频文件进行语音识别,获得文字信息,并对所述文字信息进行分词处理,获得多个分词;
12.对多个所述分词进行去噪,并基于预设分析模型对去噪后的多个所述分词进行关键词提取,获得所述文字信息中的多个关键词。
13.可选地,所述基于预设分析模型对去噪后的多个所述分词进行关键词提取,获得所述文字信息中的多个关键词的步骤之后包括:
14.读取所述音频数据中携带的场景标识,并从预设参考词库中查找与所述场景标识对应的参考词组;
15.将所述关键词与所述参考词组对比,判断所述关键词与所述参考词组在词组类型和词组时间戳上是否匹配;
16.若与所述参考词组在词组类型和词组时间戳上匹配,则执行所述将所述关键词和所述文字信息一并返回到所述浏览器的步骤。
17.可选地,所述对所述音频文件进行语音识别,获得文字信息的步骤包括:
18.调用预设语音识别模型识别与所述音频文件对应的语音类型是否为标准语音类型;
19.若为标准语音类型,则基于所述预设语音识别模型对所述音频文件进行语音识别,获得文字信息;
20.若非标准语音类型,则识别与所述语音类型对应的方言类型,并基于所述方言类型与所述标准语音类型之间的转换关系,对所述音频文件进行转换;
21.基于所述预设语音识别模型对转换的所述音频文件进行语音识别,获得文字信息。
22.可选地,所述调用预设语音识别模型识别与所述音频文件对应的语音类型是否为标准语音类型的步骤之前包括:
23.采集训练样本数据,并将所述训练样本数据传输到预设初始模型进行训练,计算所述预设初始模型的损失函数值;
24.判断所述损失函数值是否小于预设阈值,若小于预设阈值,则将所述预设初始模型生成为预设语音识别模型;
25.若所述损失函数值大于或等于预设阈值,则调整所述预设初始模型的模型参数,并基于所述训练样本数据对调整模型参数后的预设初始模型迭代训练,生成新的所述损失函数值,直到新的所述损失函数值小于预设阈值。
26.可选地,所述将所述关键词和所述文字信息一并返回到所述浏览器显示的步骤包括:
27.判断所述关键词对应的类数是否超过预设类数,若超过预设类数,则统计每一类所述关键词在所述文字信息中出现的数量;
28.根据所述数量,对每一类所述关键词排序,生成关键词序列,其中,数量越多的关键词在所述关键词序列中排列的位置越靠前;
29.从所述关键词序列中读取出多个目标关键词,并将多个所述目标关键词和所述文字信息一并返回到所述浏览器显示,其中,读取所述目标关键词的数量与所述预设类数一致。
30.进一步地,为实现上述目的,本发明还提供一种基于bs架构的音频数据识别方法,应用于浏览器,所述浏览器与服务器通信连接,所述音频数据识别方法包括:
31.当采集到原始音频时,对所述原始音频分别进行去噪、编码和组合的预处理,获得预设格式字段;
32.基于所述预设格式字段向服务器发起音频识别请求,以供所述服务器从所述音频识别请求中提取出音频数据还原为音频文件,并将所述音频文件识别为文字信息,以及确
定所述文字信息中的关键词;
33.接收所述服务器返回的所述关键词和所述文字信息,并对所述关键词和所述文字信息进行显示。
34.进一步地,为实现上述目的,本发明还提供一种基于bs架构的音频数据识别系统,所述音频数据识别系统包括服务器和浏览器;其中,
35.所述服务器包括:
36.读取模块,用于当服务器接收到浏览器发送的音频识别请求时,从所述音频识别请求中读取出预设格式字段,并识别所述预设格式字段中的音频数据;
37.识别模块,用于识别所述音频数据的编码类型,并根据与所述编码类型对应的解码算法,对所述音频数据进行还原,获得音频文件;
38.确定模块,用于将所述音频文件识别为文字信息,并确定所述文字信息中的关键词,将所述关键词和所述文字信息一并返回到所述浏览器显示;
39.所述浏览器包括
40.预处理模块,用于当采集到原始音频时,对所述原始音频分别进行去噪、编码和组合的预处理,获得预设格式字段;
41.发起模块,用于基于所述预设格式字段向服务器发起音频识别请求,以供所述服务器从所述音频识别请求中提取出音频数据还原为音频文件,并将所述音频文件识别为文字信息,以及确定所述文字信息中的关键词;
42.接收模块,用于接收所述服务器返回的所述关键词和所述文字信息,并对所述关键词和所述文字信息进行显示。
43.进一步地,为实现上述目的,本发明还提供一种基于bs架构的音频数据识别系统,所述音频数据识别系统包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的控制程序,所述控制程序被所述处理器执行时实现如上所述的基于bs架构的音频数据识别方法的步骤。
44.进一步地,为实现上述目的,本发明还提供一种可读存储介质,所述可读存储介质上存储有控制程序,所述控制程序被处理器执行时实现如上所述的基于bs架构的音频数据识别方法的步骤。
45.本发明的基于bs架构的音频数据识别方法、系统及可读存储介质,应用于与浏览器通信连接的服务器,服务器与浏览器之间形成bs(browser/server)架构,即浏览器/服务器架构。服务器一旦接收到浏览器发送的音频识别请求,则从音频识别请求中读取出预设格式字段,并对预设格式字段中的音频数据进行识别,进而确定音频数据的编码类型,并依据与该编码类型对应的解码算法,对音频数据进行解码还原,获得音频文件。此后,将音频文件识别为文字信息,并确定出文字信息中包含的关键词和文字信息一并返回到浏览器显示。其中,因bs架构中的客户端基本上没有专门的应用程序,应用程序基本上都在服务器端,而使得应用程序的升级和维护都可以在服务器端完成,升级维护方便。用户只要安装一个浏览器并触发向服务器发起音频识别请求,由服务器读取其中的音频数据并解码识别处理,即可实现将音频数据识别为文字。因此,实现了以轻量化的框架进行语音识别,降低了语音识别框架的维护成本。
附图说明
46.图1为本发明基于bs架构的音频数据识别系统实施例方案涉及的硬件运行环境的结构示意图;
47.图2为本发明基于bs架构的音频数据识别方法第一实施例的流程示意图;
48.图3为本发明基于bs架构的音频数据识别方法另一实施例的流程示意图;
49.图4为本发明基于bs架构的音频数据识别系统一实施例的功能模块示意图。
50.本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
51.应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
52.本发明提供一种基于bs架构的音频数据识别系统。
53.请参照图1,图1为本发明基于bs架构的音频数据识别系统实施例方案涉及的硬件运行环境的结构示意图。
54.如图1所示,该基于bs架构的音频数据识别系统可以包括处理器1001,例如cpu,通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。存储器1005可以是高速ram存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。
55.本领域技术人员可以理解,图1中示出的基于bs架构的音频数据识别系统硬件结构并不构成对基于bs架构的音频数据识别系统的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
56.如图1所示,作为一种可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及控制程序。其中,操作系统是管理和控制基于bs架构的音频数据识别系统与软件资源的程序,支持网络通信模块、用户接口模块、控制程序以及其他程序或软件的运行;网络通信模块用于管理和控制网络接口1004;用户接口模块用于管理和控制用户接口1003。
57.在图1所示的基于bs架构的音频数据识别系统硬件结构中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;处理器1001可以调用存储器1005中存储的控制程序,并执行以下操作:
58.当服务器接收到浏览器发送的音频识别请求时,从所述音频识别请求中读取出预设格式字段,并识别所述预设格式字段中的音频数据;
59.识别所述音频数据的编码类型,并根据与所述编码类型对应的解码算法,对所述音频数据进行还原,获得音频文件;
60.将所述音频文件识别为文字信息,并确定所述文字信息中的关键词,将所述关键词和所述文字信息一并返回到所述浏览器显示。
61.进一步地,所述将所述音频文件识别为文字信息,并确定所述文字信息中的关键
词的步骤包括:
62.对所述音频文件进行语音识别,获得文字信息,并对所述文字信息进行分词处理,获得多个分词;
63.对多个所述分词进行去噪,并基于预设分析模型对去噪后的多个所述分词进行关键词提取,获得所述文字信息中的多个关键词。
64.进一步地,所述基于预设分析模型对去噪后的多个所述分词进行关键词提取,获得所述文字信息中的多个关键词的步骤之后;处理器1001可以调用存储器1005中存储的控制程序,并执行以下操作:
65.读取所述音频数据中携带的场景标识,并从预设参考词库中查找与所述场景标识对应的参考词组;
66.将所述关键词与所述参考词组对比,判断所述关键词与所述参考词组在词组类型和词组时间戳上是否匹配;
67.若与所述参考词组在词组类型和词组时间戳上匹配,则执行所述将所述关键词和所述文字信息一并返回到所述浏览器的步骤。
68.进一步地,所述对所述音频文件进行语音识别,获得文字信息的步骤包括:
69.调用预设语音识别模型识别与所述音频文件对应的语音类型是否为标准语音类型;
70.若为标准语音类型,则基于所述预设语音识别模型对所述音频文件进行语音识别,获得文字信息;
71.若非标准语音类型,则识别与所述语音类型对应的方言类型,并基于所述方言类型与所述标准语音类型之间的转换关系,对所述音频文件进行转换;
72.基于所述预设语音识别模型对转换的所述音频文件进行语音识别,获得文字信息。
73.进一步地,所述调用预设语音识别模型识别与所述音频文件对应的语音类型是否为标准语音类型的步骤之前;处理器1001可以调用存储器1005中存储的控制程序,并执行以下操作:
74.采集训练样本数据,并将所述训练样本数据传输到预设初始模型进行训练,计算所述预设初始模型的损失函数值;
75.判断所述损失函数值是否小于预设阈值,若小于预设阈值,则将所述预设初始模型生成为预设语音识别模型;
76.若所述损失函数值大于或等于预设阈值,则调整所述预设初始模型的模型参数,并基于所述训练样本数据对调整模型参数后的预设初始模型迭代训练,生成新的所述损失函数值,直到新的所述损失函数值小于预设阈值。
77.进一步地,所述将所述关键词和所述文字信息一并返回到所述浏览器显示的步骤包括:
78.判断所述关键词对应的类数是否超过预设类数,若超过预设类数,则统计每一类所述关键词在所述文字信息中出现的数量;
79.根据所述数量,对每一类所述关键词排序,生成关键词序列,其中,数量越多的关键词在所述关键词序列中排列的位置越靠前;
80.从所述关键词序列中读取出多个目标关键词,并将多个所述目标关键词和所述文字信息一并返回到所述浏览器显示,其中,读取所述目标关键词的数量与所述预设类数一致。
81.进一步地,处理器1001可以调用存储器1005中存储的控制程序,并执行以下操作:
82.当采集到原始音频时,对所述原始音频分别进行去噪、编码和组合的预处理,获得预设格式字段;
83.基于所述预设格式字段向服务器发起音频识别请求,以供所述服务器从所述音频识别请求中提取出音频数据还原为音频文件,并将所述音频文件识别为文字信息,以及确定所述文字信息中的关键词;
84.接收所述服务器返回的所述关键词和所述文字信息,并对所述关键词和所述文字信息进行显示。
85.本发明基于bs架构的音频数据识别系统的实施方式与下述基于bs架构的音频数据识别方法各实施例基本相同,在此不再赘述。
86.本发明提供一种基于bs架构的音频数据识别方法,参照图2,图2为本发明基于bs架构的音频数据识别方法第一实施例的流程示意图。
87.本发明实施例提供了基于bs架构的音频数据识别方法的实施例,需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。具体地,本实施例基于bs架构的音频数据识别方法应用于服务器,包括:
88.步骤s10,当服务器接收到浏览器发送的音频识别请求时,从所述音频识别请求中读取出预设格式字段,并识别所述预设格式字段中的音频数据;
89.本实施例基于bs架构的音频数据识别方法应用于音频数据识别系统的服务器,音频数据识别系统为包含服务器和浏览器的bs架构系统,用户通过其智能终端上安装的浏览器,将需要识别的音频数据传输到服务器,由服务器进行识别。具体地,用户通过浏览器上传需要识别的音频数据,并发起识别请求,将该类用户在浏览器上发起的用于识别音频数据的请求作为音频识别请求。服务器在接收到该音频识别请求后,先从其中读取出预设格式字段,再对预设格式字段中的音频数据进行识别。
90.需要说明的是,本实施例的音频识别请求优选以post请求的形式存在,通过post请求向服务器传送数据。其包括application/x-www-form-urlencoded、multipart/form-data、application/json和text/xml四种请求方式,为了请求的安全性,优选以application/json方式进行请求。对于application/json方式,将需要识别的音频数据设置为json字段,由post请求发送到服务器。服务器所读取的预设格式字段即为json格式字段,其中包含需要识别的音频数据。
91.步骤s20,识别所述音频数据的编码类型,并根据与所述编码类型对应的解码算法,对所述音频数据进行还原,获得音频文件;
92.可理解地,原始的音频需要编码转换为二进制字节码才支持传输,并且,编码转换的方式多种多样,本实施例浏览器对于上传的音频数据可选择任意一种转换方式进行编码,得到音频数据的二进制字节码,并形成为预设格式字段向服务器发起音频识别请求。
93.相应地,服务器从预设格式字段中识别的音频数据以二进制字节码形式存在,需要解码先为音频文件再进行识别。其中,服务器可与浏览器预先预定编码和解码方式,在获
得二进制字节码的音频数据后,依据约定的解码方式对音频数据进行解码还原,即可获得音频文件。此外,为了安全性考虑,也可以与服务器约定多个对应的编码和解码方式,不同的方式由不同的标识表征,浏览器选择约定方式中的一种进行编码,并将所选择方式的标识添加到音频识别请求中。服务器通过该标识即可识别音频数据采用的编码类型,进而调用对应的解码算法对音频数据进行解码还原,即可获得音频文件。
94.步骤s30,将所述音频文件识别为文字信息,并确定所述文字信息中的关键词,将所述关键词和所述文字信息一并返回到所述浏览器显示。
95.进一步地,服务器预先训练有用于文字识别的预设语音识别模型,通过该预设语音识别模型对音频文件进行文字识别,将音频文件识别为文字信息。并且,对文字信息进行关键词分析,获得文字信息中关键词,用以体现音频数据的关键点。进而将关键词和文字信息一并返回到浏览器显示,完成对音频数据的识别。
96.其中,为了明确体现关键点,本实施例对返回到浏览器的关键词的数量进行了限制。具体地,所述将所述关键词和所述文字信息一并返回到所述浏览器显示的步骤包括:
97.步骤s31,判断所述关键词对应的类数是否超过预设类数,若超过预设类数,则统计每一类所述关键词在所述文字信息中出现的数量;
98.步骤s32,根据所述数量,对每一类所述关键词排序,生成关键词序列,其中,数量越多的关键词在所述关键词序列中排列的位置越靠前;
99.步骤s33,从所述关键词序列中读取出多个目标关键词,并将多个所述目标关键词和所述文字信息一并返回到所述浏览器显示,其中,读取所述目标关键词的数量与所述预设类数一致。
100.进一步地,若从文字信息中选择的关键词数量较多,则可能某些关键词难以准确体现音频数据的关键点,即关键词体现的内容并非音频数据的关键点。为此,本实施例预先设置预设类数,将分析得到单个关键词作为一类关键词,通过统计关键词的个数确定关键词对应的类数,进而将关键词对应的类数与预设类数对比,判断关键词对应的类数是否超过预设类数,若超过预设类数,则说明选择的关键词数量较多,需要从多个关键词中筛选出与文字信息关联性更强的关键词返回到浏览器。
101.更进一步地,对每个关键词在文字信息中出现的次数进行统计,得到每类关键词在文字信息中出现的数量,进而依据所有关键词各自所具有的数量,对每类关键词排序,生成关键词序列。并且,对于关键词序列,可将数量多的关键词排列在前,也可将数量少的关键词排列在前,本实施例优选将数据量多的关键词排列在前。
102.进一步地,对关键词序列进行关键词读取操作,读取其中排列在前的多个关键词作为目标关键词,并将读取的目标关键词和文字信息一并返回到浏览器。其中,读取的数量与预设类数一致,如预设类数为5类,则从关键词序列中读取排列在前5个的关键词作为目标关键词。以此,使得返回关键词的数量满足预设类数的要求,以明确体现音频数据的关键点。
103.需要说明的是,若选择的关键词数量较少,则可能遗漏音频数据的关键点。对此,设定表征关键词类数较少的预设类数下限,若经对比关键词的类数不超过预设类数,也不小于预设类数下限,则将关键词和文字信息返回到浏览器。若关键词的类数小于或等于预设类数下限,则重新分析文字信息中的关键词。并且,设定重新分析的次数上限,若重新分
析后,关键词的类数大于预设类数下限,则将关键词和文字信息返回到浏览器。若分析的次数达到该次数上限,分析得到的关键词类数仍然小于或等于预设类数下限,则停止关键词的分析,并将得到的关键词和文字信息返回到浏览器,完成对音频数据的识别。
104.本发明的基于bs架构的音频数据识别方法,应用于与浏览器通信连接的服务器,服务器与浏览器之间形成bs(browser/server)架构,即浏览器/服务器架构。服务器一旦接收到浏览器发送的音频识别请求,则从音频识别请求中读取出预设格式字段,并对预设格式字段中的音频数据进行识别,进而确定音频数据的编码类型,并依据与该编码类型对应的解码算法,对音频数据进行解码还原,获得音频文件。此后,将音频文件识别为文字信息,并确定出文字信息中包含的关键词和文字信息一并返回到浏览器显示。其中,因bs架构中的客户端基本上没有专门的应用程序,应用程序基本上都在服务器端,而使得应用程序的升级和维护都可以在服务器端完成,升级维护方便。用户只要安装一个浏览器并触发向服务器发起音频识别请求,由服务器读取其中的音频数据并解码识别处理,即可实现将音频数据识别为文字。因此,实现了以轻量化的框架进行语音识别,降低了语音识别框架的维护成本。
105.进一步地,基于本发明基于bs架构的音频数据识别方法的第一实施例,提出本发明基于bs架构的音频数据识别方法第二实施例。
106.所述基于bs架构的音频数据识别方法第二实施例与所述基于bs架构的音频数据识别方法第一实施例的区别在于,所述将所述音频文件识别为文字信息,并确定所述文字信息中的关键词的步骤包括:
107.步骤s34,对所述音频文件进行语音识别,获得文字信息,并对所述文字信息进行分词处理,获得多个分词;
108.可理解地,预先训练的预设语音识别模型,可以是训练为支持对各种类型语音进行识别的模型,如支持纯乡音、带口音的普通话或标准普通话等语音的识别,也可以训练为支持对标准普通话的语音进行识别。为了训练和识别的便捷性,优选为支持对标准普通话的语音进行识别;此外,还支持将其他类型的语音转换为标准普通话的语音,通过转换实现其他类型语音的识别。
109.进一步地,服务器在还原得到音频文件后,则可对音频文件进行语音识别,获得文字信息。并且,在语音识别过程中,先判断语音的类型是否为标准语音类型,由语音类型确定是否需要先转换再识别。具体地,所述对所述音频文件进行语音识别,获得文字信息的步骤包括:
110.步骤s341,调用预设语音识别模型识别与所述音频文件对应的语音类型是否为标准语音类型;
111.步骤s342,若为标准语音类型,则基于所述预设语音识别模型对所述音频文件进行语音识别,获得文字信息;
112.步骤s343,若非标准语音类型,则识别与所述语音类型对应的方言类型,并基于所述方言类型与所述标准语音类型之间的转换关系,对所述音频文件进行转换;
113.步骤s344,基于所述预设语音识别模型对转换的所述音频文件进行语音识别,获得文字信息。
114.更进一步地,服务器调用预设语音识别模型,由预设语音识别模型检测音频文件
对应的语音类型是否为标准语音类型,即是否为标准普通话的语音。若是标准语音类型,则说明可由预设语音识别模型直接对音频文件进行语音识别处理,不需要进行转换,通过识别即可得到文字信息。反之,若非标准语音类型,则先识别该语音类型对应的方言类型,即识别音频文件中的音频属于何种方言,进而依据方言类型与标准语音类型之间的转换关系,对音频文件进行转换,将非标准语音类型的音频文件转换为标准语音类型的音频文件,并通过预设语音识别模型对转换后的音频文件进行识别,获得文字信息。
115.需要说明的是,对于标准语音类型的识别,可以是音频文件的全检测识别,即检测音频文件的所有内容,判断其是否为标准语音类型;也可以是音频文件的部分检测识别,即抽取音频文件中的部分内容进行检测,判断其是否为标准语音类型。并且,无论是全检测还是部分检测,对于其中少量的非标准语音,并不影响其标准语音类型的判定。即,若音频文件中存在少量的口音,但其他内容属于标准普通话,则仍然可判定为标准语音类型。其中,可预先设置表征少量的数值,对于全检测,则统计非标准语音的量与该预设的数值比较,若少于则判定为标准语音类型,反之则判定非标准语音类型;对于部分检测,则从部分检测所包含的非标准语音的量占比推测总量,若总量少于预设的数值则判定为标准语音类型,反之则判定非标准语音类型。
116.此外,预设语音识别模型预先通过大量的训练样本数据训练生成。具体地,所述调用预设语音识别模型识别与所述音频文件对应的语音类型是否为标准语音类型的步骤之前包括:
117.步骤a1,采集训练样本数据,并将所述训练样本数据传输到预设初始模型进行训练,计算所述预设初始模型的损失函数值;
118.步骤a2,判断所述损失函数值是否小于预设阈值,若小于预设阈值,则将所述预设初始模型生成为预设语音识别模型;
119.步骤a3,若所述损失函数值大于或等于预设阈值,则调整所述预设初始模型的模型参数,并基于所述训练样本数据对调整模型参数后的预设初始模型迭代训练,生成新的所述损失函数值,直到新的所述损失函数值小于预设阈值。
120.进一步地,采集大量用于语音识别训练的训练样本数据,并设置预设初始模型,该预设初始模型优选为神经网络模型,进而将训练样本数据传输到预设初始模型,对预设初始模型进行训练。
121.更进一步地,预设初始模型中设置有衡量识别效果好坏的损失函数,训练样本数据带有识别参考标签,预设初始模型对训练样本数据训练生成有训练结果标签,通过损失函数计算识别参考标签与训练结果标签之间的差距,确定预设初始模型的识别效果好坏。预设初始模型每次训练结束后,都计算其中损失函数的损失函数值。并且,预先设置表征识别效果好坏的预设阈值,将计算的损失函数值和该预设阈值对比,判断损失函数值是否小于预设阈值,若小于预设阈值,则说明差距较小,识别效果较好,故可将预设初始模型生成为预设语音识别模型,用于音频文件的语音识别。
122.反之,若经对比确定损失函数值大于或等于预设阈值,则说明差距较大,识别效果较差,故依据预设规则对预设初始模型的模型参数进行调整,并由调整模型参数后的预设初始模型对训练样本数据继续处理,以对预设初始模型迭代训练,训练后再计算损失函数值判断是否小于预设阈值,若小于则生成预设语音识别模型,若不小于则再次调整模型参
数进行迭代训练,如此循环直到计算的损失函数值小于预设阈值,将预设初始模型生成为预设语音识别模型,以对音频文件进行语音识别。
123.进一步地,在通过预设语音识别模型对音频文件进行语音识别,获得文字信息之后,则对文字信息进行分句和分词处理,先通过标点符号划分得到多个语句,再识别语句中表征某一确定含义的词进行划分,获得多个分词。如“今天星期五,天气晴朗”的文字信息,则先分句为“今天星期五”和“天气晴朗”;再对两个语句分别进行分词处理,划分为“今天”、“星期五”、“天气”和“晴朗”四个分词。
124.步骤s35,对多个所述分词进行去噪,并基于预设分析模型对去噪后的多个所述分词进行关键词提取,获得所述文字信息中的多个关键词。
125.可理解地,划分的多个分词中可能包含“与”、“和”等连接词,也可能包含“地”、“的”等助词,该类词都没有实际意义,属于分词中的噪声,需要去除。为此,可将该类词形成为词库,对于划分的多个分词,分别判断是否存在于词库中,若存在于词库中则说明分词为无意义的词,将其从多个分词中去除,若不存在与词库中则说明分词不属于无意义的词而需要保留。如此对比判断,实现多个分词的去噪,将无意义的噪声词去除,保留有实际意义的分词。
126.进一步地,服务器中还设置有预设分析模型,通过该预设分析模型对去噪后剩余的多个分词进行关键词分析和提取,得到文字信息中的多个关键词,用以体现语音数据的关键点。其中,预设分析模型对多个分词的关键词分析,可依据各个分词在文字信息中出现的概率进行。出现的概率越高则说明分词在文字信息中的重要程度越高,成为关键词的可能性越大。此外,考虑到某一领域的通用词可能使得关键词分析不准确,故分析除了要考量分词在文字信息中出现的概率,还需要考量分词在其他文件中出现的概率。例如,对于通信领域的分词“传输”,通常应用程度很广,容易在各种类型文件中出现。因此,在分析出某一分词在文字信息中出现的概率之外,还需要分析该分词在其他文件中出现的概率,若两种概率都很高,则说明该分词并非文字信息中的关键词。如此,使得预设分析模型分析的关键词更为准确。
127.此外,本实施例还针对不同的语音识别场景,设定不同敏感词的提示机制。在得到关键词返回到浏览器之前,依据关键词中是否包含敏感词而进行不同的处理。具体地,所述基于预设分析模型对去噪后的多个所述分词进行关键词提取,获得所述文字信息中的多个关键词的步骤之后包括:
128.步骤b1,读取所述音频数据中携带的场景标识,并从预设参考词库中查找与所述场景标识对应的参考词组;
129.步骤b2,将所述关键词与所述参考词组对比,判断所述关键词与所述参考词组在词组类型和词组时间戳上是否匹配;
130.步骤b3,若与所述参考词组在词组类型和词组时间戳上匹配,则执行所述将所述关键词和所述文字信息一并返回到所述浏览器的步骤。
131.可理解地,对于特定语音识别的场景,需要输入特定的语音进行识别。例如,银行办理业务过程中,需要用户读一段特定的文字作为语音输入,进而识别其中是否包含特定的关键词,若包含则可继续办理业务,若不包含则不可继续办理业务。
132.为此,本实施例针对不同的场景预先设置预设参考词库,预设参考词库中包含适
用于不同场景的参考词组,不同参考词组之间通过不同的场景标识进行区分。音频识别请求中的音频数据也携带有表征其所需求场景的场景标识,故读取该音频数据中携带的场景标识与各参考词组的场景标识比对,确定各参考词组的场景标识中与音频数据携带的场景标识一致的目标场景标识,进而从预设参考词库的各个参考词组中查找出具有该目标场景标识的参考词组。
133.进一步地,将关键词与查找到的参考词组对比,判断关键词与该参考词组在词组类型和词组时间戳上是否匹配。其中,词组类型匹配表征的是关键词是否与参考词组中各个参考词元素匹配,如参考词组中包含m1、m2和m3三个参考词元素,则需判断关键词的数量是否至少为三个,且包含m1、m2和m3的关键词;词组时间戳匹配表征的是各个关键词出现的时间先后顺序,是否与参考词组中各个参考元素的参考先后顺序一致,如对于上述参考词元素m1、m2和m3,若参考先后顺序为m2、m1和m3,则需判断关键词m1、m2和m3出现的时间先后顺序是否为m2、m1和m3。
134.更进一步地,若经对比判断关键词与参考词组在词组类型和词组时间戳上匹配,则说明输入的语音经识别确定与需求的语音一致,故将识别的关键词和文字信息一并返回到浏览器展示。反之,若关键词与参考词组在词组类型和词组时间戳的任意一项上不匹配,说明输入的语音经识别确定与需求的语音不一致,则向浏览器返回输入语音不准确的提示信息,用以提示重新输入语音进行识别。
135.本实施例通过大量训练样本数据训练得到预设语音识别模型,由预设语音识别模型识别音频文件的语音类型,并对音频文件经转换识别或直接识别为文字信息;使得对种类型的音频文件均支持经转换后识别,识别范围全面广泛。并且,对于识别的文字信息在进行分词后去噪,并由预设分析模型进行关键词提取,得到多个关键词返回到浏览器,用以准确体现音频数据中的关键信息。
136.进一步地,请参照图3,图3为本发明基于bs架构的音频数据识别方法的另一实施例的流程示意图。该基于bs架构的音频数据识别方法另一实施例应用于与服务器通信连接的浏览器,包括:
137.步骤s40,当采集到原始音频时,对所述原始音频分别进行去噪、编码和组合的预处理,获得预设格式字段;
138.步骤s50,基于所述预设格式字段向服务器发起音频识别请求,以供所述服务器从所述音频识别请求中提取出音频数据还原为音频文件,并将所述音频文件识别为文字信息,以及确定所述文字信息中的关键词;
139.步骤s60,接收所述服务器返回的所述关键词和所述文字信息,并对所述关键词和所述文字信息进行显示。
140.本实施例的基于bs架构的音频数据识别方法应用于上述音频数据识别系统的浏览器。用户启动智能终端上安装的浏览器,在浏览器的显示界面中输入需要识别的音频。其中,输入可以是实时录入一段音频,也可以是传入智能终端内存储的音频数据,或者传入与智能终端外连的存储设备中存储的音频数据。
141.进一步地,浏览器将该类输入的音频作为采集到的原始音频,并对原始音频分别进行诸如去噪、编码和组合此类的预处理。其中,去噪为通过音频频率的差异性去除原始音频中包含的环境噪声的过程,编码则是将去噪后的原始音频依据编码规则编码为二进制字
节码的过程,组合是将除了音频数据本身之外的其他信息,如编码标识、场景标识等与音频数据组合的过程。
142.更进一步地,将预处理后的原始音频形成为预设格式字段,并由该预设格式字段向服务器发起音频识别请求。服务器接收该音频识别请求,并从其中提取出音频数据按照与编码规则对应的解码方式进行解码,将音频数据还原为音频文件,进而通过上述预设语音识别模型将音频文件识别为文字信息,并由预设分析模型从文字信息中提取出关键词与文字信息一并返回到浏览器。
143.进一步地,浏览器对服务器返回的关键词和文字信息进行接收和显示。并且,可预先依据不同的场景设定不同的显示模板,在接收到关键词和文字信息后,调用需求的显示模板,进而将关键词和文字信息添加到显示模板中显示。以此,在将原始音频识别为文字信息后,通过将体现原始音频关键点的关键词和文字信息一并显示,实现快速查看到原始音频中的关键信息。
144.本实施例通过服务器与浏览器之间形成的bs(browser/server)架构实现音频数据的识别,由浏览器将采集的原始音频通过去噪、编码和组合的预处理形成预设格式字段向服务器发起音频识别请求,由服务器从音频识别请求中提取出音频数据还原并识别为文字信息,以及确定文字信息中的关键词和文字信息一并返回到浏览器显示。以此,通过bs架构,用户只要安装一个浏览器并触发向服务器发起音频识别请求,由服务器读取其中的音频数据并解码识别处理,即可实现将音频数据识别为文字。因此,实现了以轻量化的框架进行语音识别,降低了语音识别框架的维护成本。
145.请参照图4,本发明实施例还提出一种基于bs架构的音频数据识别系统。在本发明基于bs架构的音频数据识别系统一实施例中,所述音频数据识别系统包括服务器10和浏览器20;其中,
146.所述服务器10包括:
147.读取模块11,用于当服务器接收到浏览器发送的音频识别请求时,从所述音频识别请求中读取出预设格式字段,并识别所述预设格式字段中的音频数据;
148.识别模块12,用于识别所述音频数据的编码类型,并根据与所述编码类型对应的解码算法,对所述音频数据进行还原,获得音频文件;
149.确定模块13,用于将所述音频文件识别为文字信息,并确定所述文字信息中的关键词,将所述关键词和所述文字信息一并返回到所述浏览器显示;
150.所述浏览器20包括
151.预处理模块21,用于当采集到原始音频时,对所述原始音频分别进行去噪、编码和组合的预处理,获得预设格式字段;
152.发起模块22,用于基于所述预设格式字段向服务器发起音频识别请求,以供所述服务器从所述音频识别请求中提取出音频数据还原为音频文件,并将所述音频文件识别为文字信息,以及确定所述文字信息中的关键词;
153.接收模块23,用于接收所述服务器返回的所述关键词和所述文字信息,并对所述关键词和所述文字信息进行显示。
154.进一步地,所述确定模块还包括:
155.识别单元,用于对所述音频文件进行语音识别,获得文字信息,并对所述文字信息
进行分词处理,获得多个分词;
156.去噪单元,用于对多个所述分词进行去噪,并基于预设分析模型对去噪后的多个所述分词进行关键词提取,获得所述文字信息中的多个关键词。
157.进一步地,所述确定模块还包括:
158.读取单元,用于读取所述音频数据中携带的场景标识,并从预设参考词库中查找与所述场景标识对应的参考词组;
159.对比单元,用于将所述关键词与所述参考词组对比,判断所述关键词与所述参考词组在词组类型和词组时间戳上是否匹配;
160.执行单元,用于若与所述参考词组在词组类型和词组时间戳上匹配,则执行所述将所述关键词和所述文字信息一并返回到所述浏览器的步骤。
161.进一步地,所述识别单元还用于:
162.调用预设语音识别模型识别与所述音频文件对应的语音类型是否为标准语音类型;
163.若为标准语音类型,则基于所述预设语音识别模型对所述音频文件进行语音识别,获得文字信息;
164.若非标准语音类型,则识别与所述语音类型对应的方言类型,并基于所述方言类型与所述标准语音类型之间的转换关系,对所述音频文件进行转换;
165.基于所述预设语音识别模型对转换的所述音频文件进行语音识别,获得文字信息。
166.进一步地,所述确定模块还包括:
167.采集单元,用于采集训练样本数据,并将所述训练样本数据传输到预设初始模型进行训练,计算所述预设初始模型的损失函数值;
168.判断单元,用于判断所述损失函数值是否小于预设阈值,若小于预设阈值,则将所述预设初始模型生成为预设语音识别模型;
169.调整单元,用于若所述损失函数值大于或等于预设阈值,则调整所述预设初始模型的模型参数,并基于所述训练样本数据对调整模型参数后的预设初始模型迭代训练,生成新的所述损失函数值,直到新的所述损失函数值小于预设阈值。
170.进一步地,所述确定模块还包括:
171.统计单元,用于判断所述关键词对应的类数是否超过预设类数,若超过预设类数,则统计每一类所述关键词在所述文字信息中出现的数量;
172.排序单元,用于根据所述数量,对每一类所述关键词排序,生成关键词序列,其中,数量越多的关键词在所述关键词序列中排列的位置越靠前;
173.返回单元,用于从所述关键词序列中读取出多个目标关键词,并将多个所述目标关键词和所述文字信息一并返回到所述浏览器显示,其中,读取所述目标关键词的数量与所述预设类数一致。
174.本发明基于bs架构的音频数据识别系统的具体实施方式与上述基于bs架构的音频数据识别方法各实施例基本相同,在此不再赘述。
175.本发明实施例还提出一种可读存储介质。所述可读存储介质上存储有控制程序,所述控制程序被所述处理器执行时实现如上所述基于bs架构的音频数据识别方法的步骤。
176.本发明可读存储介质可以为计算机可读存储介质,其具体实施方式与上述基于bs架构的音频数据识别方法各实施例基本相同,在此不再赘述。
177.上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,这些均属于本发明的保护之内。