首页 > 乐器声学 专利正文
基于边缘计算超算AIpass的语音识别方法、装置及系统与流程

时间:2022-02-18 阅读: 作者:专利查询

基于边缘计算超算AIpass的语音识别方法、装置及系统与流程
基于边缘计算超算aipass的语音识别方法、装置及系统
1.技术领域
2.本技术涉及语音识别技术的领域,尤其是涉及一种基于边缘计算超算aipass的语音识别方法、装置及系统。


背景技术:

3.语音识别即让机器通过识别和解析过程把语音信号转变为相应的文本的技术。语音识别技术持续需要攻克的难关一直有两个,一个是语音识别结果的准确性,另一个是语音识别的效率,语音识别的准确性提升及语音识别的效率提升的良好兼顾,是语音识别技术未来的美好愿景。


技术实现要素:

4.为了兼顾提升语音识别的效率和结果的准确性,本技术提供了一种基于边缘计算超算aipass的语音识别方法、装置及系统。
5.第一方面,本技术提供了一种基于边缘计算超算aipass的语音识别方法。该方法应用于语音识别系统中的边缘计算装置,所述系统还包括aipass识别装置和超算装置;所述方法包括:获取aipass识别装置发送的aipass信息;根据所述aipass信息携带的交互人标识,调取超算装置的指定的语音识别库;根据调取的语音识别库,对获取的语音信息进行语音识别。
6.通过采用上述技术方案,超算装置针对每个交互人标识存储有一个特定的语音识别库,该语音识别库包含的数据信息较少,且仅针对交互人标识对应的人,在针对该交互人进行语音识别时能够兼顾提升语音识别的效率和结果的准确性。
7.进一步地,所述根据所述aipass信息携带的交互人标识,调取超算装置的指定的语音识别库之前,还包括:基于携带有交互人标识的语音大数据,训练携带有个性化标识的语音识别库;所述指定的语音识别库的个性化标识与所述aipass信息的交互人标识相匹配;所述根据所述aipass信息携带的交互人标识,调取超算装置的指定的语音识别库包括:基于所述超算装置中预存储的交互人标识与个性化标识的匹配关系,查询与所述aipass信息中的交互人标识相应的个性化标识;调取携带有查询所得的个性化标识的语音识别库;或所述根据所述aipass信息携带的交互人标识,调取超算装置的指定的语音识别库还包括:查询超算装置记录的语音识别库的历史调取大数据;
根据所述历史调取大数据确定语音识别库的调取频次;根据所述调取频次的高低对所述语音识别库进行排序;基于边缘计算装置的存储空间,将指定数量的调取频次较高的语音识别库加载并存储于边缘计算装置。
8.进一步地,所述以调取的语音识别库,对获取的语音信息进行语音识别包括:基于声纹识别技术,根据所述语音识别库确定携带有交互人标识的声纹信息;根据携带有交互人标识的所述声纹信息,对所述语音信息进行降噪。
9.进一步地,所述根据携带有交互人标识的所述声纹信息,对所述语音信息进行降噪包括:增大所述语音信息的信噪比;根据所述声纹信息,识别所述语音信息;增强所述语音信息中与所述声纹信息相符的语音信息,降低语音信息中与所述声纹信息不相符的语音信息。
10.进一步地,所述aipass信息包括rfid射频识别信息、声纹信息、人脸信息、id信息、指纹信息、虹膜信息、行为特征信息中的一个或多个。
11.第二方面,本技术提供了一种基于边缘计算超算aipass的语音识别装置。该装置包括:信息获取模块,用于获取aipass识别装置发送的aipass信息;识别库调取模块,用于根据所述aipass信息携带的交互人标识,调取超算装置的指定的语音识别库;以及语音识别模块,根据调取的语音识别库,对获取的语音信息进行语音识别。
12.进一步地,还包括:识别库训练模块,用于基于携带有交互人标识的语音大数据,训练携带有个性化标识的语音识别库;所述指定的语音识别库的个性化标识与所述aipass信息的交互人标识相匹配。
13.进一步地,所述语音识别模块被进一步配置为:基于声纹识别技术,根据所述语音识别库确定携带有交互人标识的声纹信息;根据携带有交互人标识的所述声纹信息,对所述语音信息进行降噪。
14.进一步地,所述语音识别模块被进一步配置为:增大所述语音信息的信噪比;根据所述声纹信息,识别所述语音信息;增强所述语音信息中与所述声纹信息相符的语音信息,降低语音信息中与所述声纹信息不相符的语音信息。
15.第三方面,本技术提供了一种基于边缘计算超算aipass的语音识别系统。该系统包括:aipass识别装置、边缘计算装置、超算装置以及拾音装置;所述边缘计算装置包括如以上第二方面任意一项所述的语音识别装置。
16.综上所述,本技术包括以下至少一种有益技术效果:1.提供了一种基于边缘计算超算aipass的语音识别方法、装置及系统,其中针对
每个交互人配置个性化的语音识别库,语音识别库数据量较小,针对性较强,有利于兼顾提高语音识别的准确性和效率;2.基于语音识别库的声纹信息对语音信息进行降噪处理,有利于进一步提升语音识别的准确性;3.以aipass信息确定交互人身份,能够较为灵活准确的确定交互人身份。
17.应当理解,发明内容部分中所描述的内容并非旨在限定本技术的实施例的关键或重要特征,亦非用于限制本技术的范围。本技术的其它特征将通过以下的描述变得容易理解。
附图说明
18.结合附图并参考以下详细说明,本技术各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标记表示相同或相似的元素,其中:图1示出了本技术实施例中基于边缘计算超算aipass的语音识别系统的方框图。
19.图2示出了本技术实施例中基于边缘计算超算aipass的语音识别方法的流程图。
20.图3示出了本技术实施例中基于边缘计算超算aipass的语音识别装置的方框图。
具体实施方式
21.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本技术保护的范围。
22.另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
23.相关技术中,一般的语音识别为语义识别,即通过识别采集到的语音的含义,确定采集到的语音包含的命令或将采集到的语音转换为文字。语音识别技术依托于特征提取技术、模式匹配准则及模型训练技术,由于不同人的口音、语种乃至说话模式均可能存在不同,故需要语音识别技术具备较为丰富的语音特征、语音模式以及语音模型。若欲提升语音识别的准确性,需要较为丰富的语音特征、语音模式及语音模型,然而丰富的语音特征、语音模式及语音模型必将导致语音识别的语音识别库的数据量庞大,继而导致语音识别的效率降低。即传统的语音识别技术中,语音识别的准确性和效率难以兼顾。
24.为了兼顾提升语音识别的准确性和效率,本技术公开了一种基于边缘计算超算aipass的语音识别方法、装置及系统,其中,针对不同的人建立个性化的语音识别库,从而使语音识别库的针对性更强,数据量更少,从而有利于提升语音识别的准确性和效率。
25.图1示出了本技术实施例中基于边缘计算超算aipass的语音识别系统100的方框图。系统100包括aipass识别装置110、边缘计算装置120以及超算装置130,边缘计算装置120连接有拾音装置140。
26.aipass即“智能通票”技术,其本义为利用手机的nfc功能将卡、证、钥匙等各类凭证模拟到手机中,手机即可具备多种卡、证、钥匙的通证功能。在本技术中,将aipass进一步
泛化,其不仅包含手机中的模拟凭证,还可包含其他任意能够体现交互人身份的信息,例如指纹信息、人脸信息、声纹信息、rfid射频识别信息、id信息、虹膜信息、行为特征信息等。故本技术中,aipass识别装置110的功能是获取aipass信息,aipass信息可以包括rfid射频识别信息、声纹信息、人脸信息、id信息、指纹信息、虹膜信息、行为特征信息中的一个或多个,仅需aipass信息能够携带有反映交互人身份的交互人标识即可。为识别rfid射频识别信息、声纹信息、人脸信息、id信息、指纹信息、虹膜信息、行为特征信息中的一个或多个,aipass识别装置110可包括射频识别模块、声纹识别模块、人脸识别模块、id信息识别模块、指纹识别模块、行为特征识别模块中的一个或多个。在本技术实施例中,aipass识别装置110具体包括nfc模块,其能够与交互人的具备nfc功能的手机实现交互,以采集交互人的手机中存储的携带有交互人标识的模拟凭证。
27.边缘计算装置120即具备计算能力的边缘节点装置,其一般以终端设备的形式存在。在本技术实施例中,边缘计算装置120具体选择为计算机。边缘计算装置120连接aipass识别装置110,以实现aipass信息的获取。
28.为了训练和存储大量的个性化的语音识别库,需要处理能力较强的超算装置130。超算装置130连接边缘计算装置120,超算装置130主要用于实现个性化的语音识别库的训练及存储。
29.拾音装置140连接边缘计算装置120,用于采集交互人的语音信息。
30.一般来说,超算装置130部署于云端,其与边缘计算装置120网络连接,一个超算装置130能够支持多个边缘计算装置120工作。aipass识别装置110、边缘计算装置120和拾音装置140一般配置于同一地理位置,或直接集成设置,以使一个边缘计算装置120能够对应一个aipass识别装置110和拾音装置140,供一个交互人在一个交互环境使用。
31.系统100的大致工作原理为:边缘计算装置120能够根据aipass识别装置110采集的aipass信息确定交互人标识,尔后根据交互人标识由超算装置130调取并加载相应的个性化语音识别库。之后,实时接收到交互人的语音信息时,即可以该个性化语音识别库对语音信息进行语音识别。
32.下面对系统100的具体实施原理进行详细介绍。
33.图2示出了本技术实施例中基于边缘计算超算aipass的语音识别方法200的流程图。方法200可以由图1中的边缘计算装置120执行。在图1中的边缘计算装置120执行方法200时,系统100即可进行功能实现,故系统100的具体实施原理结合方法200进行介绍。
34.方法200包括以下步骤:s210:获取aipass识别装置110发送的aipass信息。
35.边缘计算装置120获取aipass信息的过程即接收aipass识别装置110发送的aipass信息的过程,系统100中对aipass识别装置110采集aipass信息及发送至边缘计算装置120的过程已然将本步骤的方法公开充分,故此处不作重复公开。
36.s220:根据aipass信息携带的交互人标识,调取超算装置130的指定的语音识别库。
37.指定的语音识别库即携带有与交互人标识相应的个性化标识的语音识别库,超算装置130中具有多个携带有个性化标识的语音识别库,一个携带有个性化标识的语音识别库对应一个交互人。为了方便得知交互人标识与个性化标识的匹配关系,超算装置130中还
存储有交互人标识和个性化标识的匹配关系。
38.下面对携带有个性化标识的语音识别库的形成过程以及交互人标识与个性化标识的匹配关系的确定过程进行介绍。
39.语音识别库的形成过程主要为:超算装置130基于携带有交互人标识的语音大数据,训练携带有个性化标识的语音识别库。
40.具体来说,超算装置130根据交互人标识对语音大数据进行分组,确定携带有交互人标识的语音分组数据,尔后基于语音分组数据进行语音识别库训练,训练得到携带有个性化标识的语音识别库。
41.此时交互人标识与个性化标识的匹配关系应为一一对应,故根据训练过程直接生成该匹配关系即可,即用于训练的语音分组数据携带的交互人标识与训练得到的语音识别库的个性化标识相对应。
42.上述情况主要应用于交互人较少、每个交互人的语音信息均较多的场景,例如医院、课堂等,交互人较少有利于减少超算装置130需要训练及存储的语音识别库的数量,每个交互人的语音信息较多有利于使每个语音识别库均基于包含较多数据的语音分组数据训练得到,使语音识别库的识别结果较为准确。
43.当然,在交互人较多的场景下,也可使一个携带有个性化标识的语音识别库对应一类口音、语种、说话方式的交互人标识,以降低需要的语音识别库的数量,降低超算装置130的存储能力和处理能力需求。
44.在此种情况下,超算装置130基于携带有交互人标识的语音大数据,训练携带有个性化标识的语音识别库的具体实施原理为:调取预设的交互人标识与交互人类标识的从属关系,根据该从属关系对语音大数据进行分组,得到多组语音分组信息;一组语音分组信息包含携带有从属于一交互人类标识的交互人标识的语音信息;尔后根据每一组语音分组信息训练得到一携带有个性化标识的语音识别库。
45.一个个性化标识对应一个交互人类标识,即一个个性化标识对应一类多个交互人标识,同样的,根据训练过程直接生成该匹配关系即可,即用于训练的语音分组数据携带的交互人标识与训练得到的语音识别库的个性化标识对应。
46.应理解,交互人标识与交互人类标识的从属关系可人为确定,也可根据语音大数据中每条语音数据的交互人信息携带的户籍所在地、经常住所所在地或经历地履历(交互人居住经历过哪些地区)等自动确定。在交互人的数量量级相对不大的情况下,优选人为确定的方式,以便于交互人标识与交互人类标识的匹配结果更为准确,在交互人的数量庞大时,优选采用自动确定的方式,例如直接将户籍所在地或经常住所所在地相同的交互人归于一类,生成反映该同一户籍所在地或经常住所所在地的交互人类标识;再例如根据经历地履历确定交互人经历过的地区以及每个地区的居住时间,以一定的置信度模型,将经历地履历一致的交互人归于一类,生成反映该一类经历地履历的交互人类标识。当然,也结合交互人的语言教育经历等综合考虑该从属关系,此处不作一一赘述。
47.基于本步骤以上所述,边缘计算装置120在获知aipass信息携带的交互人标识后,根据该交互人标识由超算装置130查询交互人标识与个性化标识的匹配关系,并根据该匹配关系由超算装置130调取并加载携带有与aipass信息携带的交互人标识相应的个性化标识的语音识别库。
48.考虑到边缘计算装置120本身具备一定的存储及处理能力,并且携带有个性化标识的语音识别库的数据量较小,边缘计算装置120也可以预存储有一个或有限几个的语音识别库,预存储的语音识别库不需要由超算装置130调取加载,故能够节约相应的工作成本。
49.预存储的语音识别库的数量根据边缘计算装置的存储能力确定,预存的语音识别库可以为该边缘计算装置120前若干次应用的语音识别库,或预设时长内该边缘计算装置使用频次最高的语音识别库,总之,以减少边缘计算装置120长期使用过程中由超算装置130调取语音识别库的频次即可。
50.当然,在边缘计算装置120预存储语音识别库时,同样会预存储这些语音识别库的个性化标识与交互人标识的匹配关系。在边缘计算装置120由超算装置130调取语音识别库之前,首先基于本地的匹配关系查询调取的语音识别库是否预存储于本地,若是,直接由本地调取即可,无需由超算装置130调取。
51.另外,边缘计算装置120根据aipass信息携带的交互人标识信息调取超算装置130的语音识别库的过程基于一定的模式进行,例如在应用边缘计算装置120时,默认启动aipass识别装置110,请求获取一个aipass信息,在aipass识别装置110获取到aipass信息后,aipass识别装置110即关闭,尔后基于该aipass信息执行本步骤的方法即可;在边缘计算装置120关闭后或通过主动操作边缘计算装置120启动aipass识别装置110,请求获取另一aipass信息后获取的aipass信息重置;再例如边缘计算装置120启动时,aipass识别装置110持续启动,并以实时获取的aipass信息执行本步骤的方法,若停止获取的aipass信息则停止运行本步骤的方法并自动关闭边缘计算装置120,若aipass信息变换,以新的aipass信息再次执行本步骤的方法即可。其他具体实施原理不作一一展开说明,仅需边缘计算装置120能够合理、实时确定对应实际的交互人的aipass信息即可。
52.s230:根据调取的语音识别库,对获取的语音信息进行语音识别。
53.在边缘计算装置120调取到目标语音识别库后,基于该语音识别库对拾音装置140实时采集所得并发送至边缘计算装置120的语音信息进行识别即可,基于语音识别库识别语音信息为成熟技术,此处不做赘述。
54.为进一步提高语音识别的准确性,本步骤的方法还包括对语音信息的前置降噪处理,具体来说,边缘计算装置120首先基于声纹识别技术,根据语音识别库确定携带有交互人标识的声纹信息,尔后根据该声纹信息对拾音装置140采集所得的语音信息进行降噪即可。
55.具体来说,边缘计算装置120中预存储有声纹识别模型,并且超算装置130中预存储有声纹信息和交互人标识的对应关系。在边缘计算装置120根据aipass信息确定交互人标识后,边缘计算装置120由超算装置130查询声纹信息与交互人标识的对应关系,确定与aipass信息携带的交互人标识对应的声纹信息,并调取和加载该声纹信息,该声纹信息即为交互人标识对应的声纹信息。
56.对语音信息的降噪处理主要有二:一为增大语音信息的信噪比,以增强语音信息的信号强度,降低环境噪声的信号强度,降低环境噪声对语音识别的影响;二为根据调取加载的声纹信息和声纹识别模型识别语音信息,增强与该声纹信息相符的部分语音信息,降低与该声纹信息不相符的部分语音信息,以增强指定的交互人发出的语音信息,降低其他
人员发出的语音信息。通过降噪处理,交互人的语音信息会被增强,其他人员的语音信息及环境噪声会被降低,使交互人的语音信息更为清晰,有利于提升语音识别的准确性。
57.需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本技术并不受所描述的动作顺序的限制,因为依据本技术,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作和模块并不一定是本技术所必须的。
58.以上是关于方法实施例的介绍,以下通过装置实施例,对本技术所述方案进行进一步说明。
59.图3示出了根据本技术的实施例的基于边缘计算超算aipass的语音识别装置300的方框图。装置300可以被包括在图1的边缘计算装置120中或者被实现为边缘计算装置120。如图3所示,装置300包括:信息获取模块310,用于获取aipass识别装置110发送的aipass信息;识别库调取模块320,用于根据aipass信息携带的交互人标识,调取超算装置130的指定的语音识别库;以及语音识别模块330,根据调取的语音识别库,对获取的语音信息进行语音识别。
60.装置300还可以包括:识别库训练模块340,用于基于携带有交互人标识的语音大数据,训练携带有个性化标识的语音识别库;该指定的语音识别库的个性化标识与该aipass信息的交互人标识相匹配。
61.所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,所述描述的模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
62.以上描述仅为本技术的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本技术中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离前述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本技术中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。