1.本公开涉及语音技术领域,尤其涉及一种语音交互方法、语音交互装置、计算机可读存储介质及终端。
背景技术:2.语音交互类应用安装于终端,如手机、平板、笔记本、智能家居、机器人等,其具体用于与用户进行对话。其中,对话类型包括任务导向类对话(如,对用户提出的问题提供问题解决方案等),和开放类对话(如,与用户进行聊天等)。
3.相关技术提供的语音交互方案中,一般先获取分析语音文本,进一步地提供语音文本对应的答复内容。然而,相关技术提供的语音交互方案对所有用户提出的相同问题均通过同一内容进行应答。
4.需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现要素:5.本公开的目的在于提供一种语音交互方法、语音交互装置、计算机可读存储介质及终端,可以提升语音交互的多样性,有利于增加语音交互内容的个性化程度以及针对性。
6.本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
7.根据本公开的一个方面,提供一种语音交互方法,该方法包括:接收语音信息,并根据所述语音信息确定目标用户特征,以及根据所述语音信息确定槽位信息;根据所述目标用户特征,在预先设置的多个应答库中确定出至少一个目标应答库,其中,不同的用户特征对应于不同的应答库;根据所述槽位信息,在所述至少一个目标应答库中确定出目标应答内容;将所述目标应答内容确定为对所述语音信息的答复内容。
8.根据本公开的另一个方面,提供一种语音交互装置,该装置包括:用户特征确定单元,用于接收语音信息,并根据所述语音信息确定目标用户特征,以及根据所述语音信息确定槽位信息;应答库确定单元,用于根据所述目标用户特征,在预先设置的多个应答库中确定出至少一个目标应答库,其中,不同的用户特征对应于不同的应答库;应答内容确定单元,用于根据所述槽位信息,在所述至少一个目标应答库中确定出目标应答内容;答复单元,用于将所述目标应答内容确定为对所述语音信息的答复内容。
9.根据本公开的再一个方面,提供一种终端,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述实施例中的语音交互方法。
10.根据本公开的又一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上述实施例中的语音交互方法。
11.本公开的实施例所提供的语音交互方法、语音交互装置、计算机可读存储介质及
终端,具备以下技术效果:
12.本技术方案中,根据语音信息确定目标用户特征以及槽位信息,并根据目标用户特征确定与其相对应的应答库,进一步地,根据所述槽位信息,在所述至少一个目标应答库中确定出对所述语音信息的应答内容。由于不同的用户特征对应于不同的应答库,且上述目标应答库是根据目标用户特征确定的,因此应答内容中能够在一定程度上提升对给用户上述语音信息的针对性应答,从而一定程度上提高了语音交互的多样性,有利于增加语音交互内容的个性化程度,提高用户使用体验。
13.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
14.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
15.图1示出了根据本公开一示例性实施例中语音交互方法的流程示意图。
16.图2示出了可以应用本公开一示例性实施例中语音交互方案的示例性应用环境的系统架构的示意图。
17.图3示出了根据本公开一示例性实施例中语音交互方法的流程示意图。
18.图4示出了根据本公开另一示例性实施例中语音交互方法的流程示意图。
19.图5示出了根据本公开另一示例性实施例中语音交互方法的流程示意图。
20.图6示出了根据本公开一示例性实施例中用户特征的确定方法的流程示意图。
21.图7示出了根据本公开一实施例中应答库的确定方法的流程示意图。
22.图8示出了根据本公开一实施例中应道库的结构示意图以及年龄段与用户特征之间的关联关系示意图。
23.图9示出了可以应用本公开一实施例的语音交互装置的结构示意图。
24.图10示意性示出了根据本公开的另一实施例的语音交互装置的结构示意图。
25.图11示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。
具体实施方式
26.为使本公开的目的、技术方案和优点更加清楚,下面将结合附图对本公开实施例方式作进一步地详细描述。
27.下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
28.现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结
构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。
29.此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
30.通过人机语音交互能够协助用户完成如下任务:系统设置项的操控、信息类的查询、将用户输入转为文本记录,以及,和用户进行聊天等。
31.在示例性的实施例中,图1示出了根据本公开一示例性实施例中语音交互方法的流程示意图。基于图1介绍语音交互过程中所涉及的技术术语。
32.参考图1,语音交互过程中所涉及以下模块:
33.语音识别模块asr 11:通过自动语音识别(automatic speech recognition,简称:asr)技术将用户发出的语音输入转化为文本信息。
34.自然语音理解模块nlu 12:通过自然语言处理(natural language processing,简称:nlp)技术对文本信息输入进行理解转换为机器可以理解的语义表示,并得到结构化的意图和槽位。
35.对话管理模块dm 13:对话管理(dialog management,简称:dm)用于将人机对话过程中的历史内容进行保持和记忆,并基于对话的状态判断系统下一步应该采取什么动作。其中,上述动作可以理解为机器需要表达什么意思。
36.自然语言生成模块nlg 14:通过自然语言生成(natural language generation,简称:nlg)技术将系统动作转变成自然语言文本,即反馈生成人可以理解的文本信息。
37.文本转语音模块tts 15:从文本到语音(texttospeech,简称:tts)将文本信息转为音频,以通过终端设备反馈给用户。
38.相关技术提供的语音交互方案通常包括:(1)将用户的输入音频转换为对应的文本;(2)将转换出来的文本输入使用分类、相似度检索等方式理解用户的输入,从而将非结构化的输入转化为预设的反馈结果;(3)根据预设的反馈结果执行对应的指令。
39.相关技术提供的语音交互流程中,仅对用户输入音频转换得到的文本内容进行处理(而没有使用相关用户的任何特征)。然而,不同用户的语音输入可能转换为相同的文本内容,导致对不同用户的语音输入将做出相同的反馈。也就是说,相关技术中语音交互内容缺乏个性化及针对性,影响用户的使用体验。
40.针对相关技术中存在的技术问题,本技术方案提供一种语音交互方法、语音交互装置,以及实现上述方法的计算机可读存储介质和终端。以下先对本公开提供的语音交互方案的示例性应用环境的系统架构进行介绍:
41.示例性的,图2示出了可以应用本公开一实施例的语音交互方案的示例性应用环境的系统架构的示意图。
42.如图2所示,系统架构100可以包括终端210、网络220以及服务器230。其中,终端210、网络220以及服务器230之间通过网络220连接。
43.示例性的,终端210为可以安装有手机助手应用的在智能手机、平板电脑、智能音箱等,但并不局限于此。网络220可以是能够在终端210和服务器230之间提供通信链路的各种连接类型的通信介质,例如可以是有线通信链路、无线通信链路或者光纤电缆等等,本技术在此不做限制。服务器230可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、以及大数据和人工智能平台等基础云计算服务的云服务器。
44.本公开实施例所提供的语音交互方法可以由服务器230中的任何一个节点执行。相应地,语音交互装置一般设置于服务器230中。但本领域技术人员容易理解的是,本公开实施例所提供的语音交互方法也可以由终端210执行,相应的,语音交互装置也可以设置于相应的终端210中,本示例性实施例中对此不做特殊限定。
45.示例性的,在本公开实施例所提供的语音交互方法也可以由终端210执行的情况下,终端210接收语音信息,并根据语音信息确定目标用户特征,以及根据语音信息确定槽位信息。进一步地,终端210根据目标用户特征,在预先设置的多个应答库中确定出至少一个目标应答库,其中,不同的用户特征对应于不同的应答库。进一步地,根据上述槽位信息,在上述至少一个目标应答库中确定出对语音信息的应答内容。该方案中,根据用户的语音信息确定该用户的特征,进一步地,根据该用户的用户特征确定出目标应答库。从而使得对该目标用户的应答内容根据贴合该用户需求,提升了语音交互内容的个性化程度及针对性,最终提升了用户的使用体验。
46.基于上述示例性的应用环境的系统架构,介绍本公开提供的语音交互方法实施例:
47.其中,图3出本公开一示例性实施例中语音交互方法的流程示意图。参考图3该方法包括:
48.s310,接收语音信息,并根据语音信息确定目标用户特征,以及根据语音信息确定槽位信息。
49.示例性的,上述语音信息为用户对语音交互应用软件(如,语音助手)发起的聊天内容或咨询的问题,如,“几点了”、“麻烦帮我设置闹钟”等。上述目标用户特征可以是任一向语音助手发起上述聊天内容/咨询问题的用户的特征,本实施例中通过“目标用户特征”标识“目标用户”的特征。示例性的,用户特征可以是用户年龄、性别、职业等。
50.s320,根据目标用户特征,在预先设置的多个应答库中确定出至少一个目标应答库,其中,不同的用户特征对应于不同的应答库。
51.s330,根据槽位信息,在至少一个目标应答库中确定出目标应答内容。
52.示例性的,在上述槽位信息为用于收集“提供娱乐方式”的关键信息。本实施例中上述目标应答库为儿童年龄段对应的应答库,所以确定出的“提供娱乐方式”的关键信息可以是儿童游乐场。本实施例中上述目标应答库为成人年龄段对应的应答库,所以确定出的“提供娱乐方式”的关键信息可以是电影院等。
53.s340,将目标应答内容确定为对语音信息的答复内容。
54.示例性的,将上述目标应答内容以文字的形式显示在终端显示屏中,还可以将上述目标应答内容以音频方式通过终端扩音器发出。示例性的,为了增加语音交互过程中应答方式的个性化程度,在上述目标应答库为儿童年龄段对应的应答库的情况下,对上述音频信息的答复内容可以是儿童声音。在上述目标应答库为成人年龄段对应的应答库的情况下,语对上述音频信息的答复内容可以是成人声音。
55.在本图3所示实施例所提供的语音交互方案中,根据语音信息确定槽位信息以及目标用户特征,并根据目标用户特征确定与其相对应的应答库,进一步地,根据所述槽位信息在所述至少一个目标应答库中,确定出对所述语音信息的应答内容。由于不同的用户特征对应于不同的应答库,且上述目标应答库是根据目标用户特征确定的,因此应答内容中能够在一定程度上提升对给用户上述语音信息的针对性应答,从而一定程度上提高了语音交互的多样性,有利于增加语音交互内容及应答方式的个性化程度,提高用户使用体验。
56.同时,上述多个应答库是预先设置的因此根据用户特征可以迅速确定上述目标应答库,从而可以实现实时地根据槽位信息在该目标应答库中确定出对应答内容。
57.在示例性的实施例中,图4示出了根据本公开另一示例性实施例中语音交互方法的流程示意图。图4所示内容具体为在图1的基础上进行改进确定的,包含本技术方案提供的语音交互方案的多个改进点。
58.示例性的,图5出本公开另一示例性实施例中语音交互方法的流程示意图。以下结合图5对图4中本技术方案提供的语音交互方案的各个改进点进行依次介绍。
59.参考图5,在s510中,将语音信息转换为文本信息。
60.示例性的,参考图4,通过语音识别模块11将语音信息转换为文本信息。具体地,asr技术将用户发出的语音输入转化为文本信息。
61.在s510’中,提取语音信息的第一类音频特征,并根据提取到的第一类音频特征筛选语音信息。
62.示例性的,参考图4,通过音频筛选模块41提取语音信息的第一类音频特征,并根据提取到的第一类音频特征对上述语音信息进行筛选。
63.同前所述,本技术方案中根据用户特征确定应答内容,以在一定程度上提升对给用户上述语音信息的针对性应答,从而一定程度上提高了语音交互的多样性。然而,语音质量的等级有高有低,且语音种类分为人声与非人声。因此安装有语音交互应用软件的终端所接收到的语音信息有可能存在较多噪音(非人声音与低质量等级声音,如环境杂音、动物叫声等),为了保证语音交互过程中应答内容的准确度,本技术方案将进行音频筛选,再将筛选后的音频用于确定用户特征。
64.示例性的,图6出本公开一示例性实施例中用户特征的确定方法的流程示意图。其中,s610
‑
s630用于进行音频筛选。具体地,参考图6:
65.在s610中,提取语音信息的第一类音频特征。
66.本实施例中,对语音信息进行分帧处理得到多个音频帧。进一步地对上述音频帧确定上述第一类音频特征。为了提升音频筛选效率,上述第一类音频特征为预设类型的静态特征。示例性的,上述第二音频特征可以是低等级描述(low level descriptors,简称:lld)特征、在llds特征的基础上统计而得到的(high level statistics functions,简称:hsfs)特征,还可以是由多个hsf特征构成的gemaps特征集、gemaps的扩展egemaps特征集,
以及compare特征集。
67.在s620中,将提取到的第一类音频特征输入训练后的音频质量分类模型。以及,在s630中,根据音频质量分类模型的输出对语音信息进行筛选。
68.本实施例中,提取的compare特征和egemaps特征确定为上述第一类音频特征。进一步地,对提取到的音频特征进行拼接处理之后输入训练后的音频质量分类模型(如,决策树模型),通过该模型对上述第一类音频特征进行分类,不同类别对应于不同的音频质量等级。
69.本实施例中,将音频质量等级较低对应的语音筛除,实现对所接收到的语音信息的筛选。从而将非人声音等噪音筛除提升了音频质量,有利于提升应答内容的确定准确度。同时还减少无效音频,有利于降低后续计算量,节省计算资源还有利于语音交互过程中确定应答内容的实时性。
70.需要说明的是,一般的,与通过asr技术将相同的语音转化为文本信息的效率相比,上述第一类音频特征的提取效率较高。因此,上述音频筛选模块41的音频筛选过程与语音识别模块11的处理过程并行实施,从而有利于提升语音交互过程中应答的实时性。
71.继续参考图5,在s520中,将文本信息进行结构化处理得到槽位信息。
72.示例性的,参考图4,通过自然语言理解模块12将文本信息进行结构化处理得到意图与槽位信息。具体地,确定文本信息对应的意图的过程,实质是确定用户发出语音目的的分类。则根据预先设置的多个分类(如,天气预报、设置闹钟、提供娱乐方式、订购车票/机票等)对文本信息进行结构化,再判断结构化后的信息是否属于预先设置分类中的一个。例如,该语音是用于设置闹钟,或者该语音适用于订购机票等。进一步地,根据意图中语音目的的分类确定该类别任务进一步需要收集的信息,即槽位信息。具体的,对于意图为设置闹钟的语音,则槽位信息包括:设定闹钟的时间、闹钟提醒方式等信息。对于意图为订购机票的语音,则槽位信息可以包括:出发地、目的地、出发时间等信息。
73.在s520’中,提取筛选后的语音信息的第二类音频特征,并根据第二类音频特征确定目标用户特征。
74.示例性的,参考图4,通过特征检测模块42提取筛选后的语音信息的第二类音频特征,并根据第二类音频特征确定目标用户特征。
75.示例性的,图6中s640
‑
s660用于确定目标用户特征。其中,上述目标用户特征是指属于“目标用户”的特征,上述目标用户是指任一与语音交互应用软件进行信息交互的用户。具体地,参考图6:
76.在s640中,提取筛选后的语音信息的第二类音频特征。
77.其中,提取梅尔倒谱系数特征mfcc的过程中为根据人类听觉的非线性接受范围设计了对应的滤波器,从而能够有效提取对人类重要的音频信息。为了提升用户特征的确定准确度,本实施例中上述第二类音频特征采用mfcc。
78.示例性的,关于mfcc特征的提取:通过滑窗的方式将筛选后的语音进行切分,比如对于1000ms长的一个音频,切分为100个10ms长的帧。对于每一个10ms的帧,计算mfcc特征,得到如13维的mfcc特征。从而上述时长为1000ms的音频则转换为100个13维的特征。即一定时长的语音被转为一个维度包含多个时间段以及每个时间段对应的mfcc特征的二维矩阵。其中,每一帧的长度,相邻两帧之间的步长,以及每一帧内计算的mfcc特征数量等,都可以
根据应用和试验效果自己调节,本文不做限定。
79.需要说明的是,上述第二类音频特征还可以是其他类型的音频特征,如上文提到的egemaps和compare特征等,本文不做限定。本文鉴于mfcc特征有利于提升用户特征的确定准确度,因此采用mfcc特征。
80.在s650中,将提取到的第二类音频特征输入训练后的用户特征分类模型,其中,用户特征分类模型用于根据输入音频特征预测用户的年龄段和/或用户的性别。以及,在s660中,根据所述用户特征分类模型的输出确定所述目标用户特征。
81.鉴于上述第二类音频特征为二维矩阵形式,上述用户特征分类模型可以采用卷积神经网络。将上述第二类音频特征输入上述训练后的用户特征分类模型之后,可以根据模型输出确定目标用户特征,包括该目标用户所属的年龄段以及性别等特征。
82.通过上述实施例根据确定目标用户特征,以进而根据目标用户特征确定对目标用户的应答内容,能够在一定程度上提升对给用户上述语音信息的针对性应答,从而一定程度上提高了语音交互的多样性。
83.需要说明的是,上述特征检测模块42的用户特征确定过程与自然语言理解模块12的处理过程并行实施,以进一步提升语音交互过程中应答的实时性。
84.在本技术方案示例性的实施例中,通过预先设置应答库,应答库中包含多个用户特征标识以及每个用户特征标识对应的应答库。并将应答库中每个用户特征标识与其对应的用户特征相关联。从而对于不同的用户特征,均可以根据当前的目标用户特征(如,目标用户的年龄段、性别等)在应答库中确定出与之相匹配的目标应答库。进而基于目标应答库与槽位确定对目标用户所发出语音的应答内容。
85.因此,在介绍s530的具体实施方式之前,先通过图7和图8介绍上述预先设置的应答库的确定实施例。本实施例中,用户特征包括:第1年龄段(如,5岁
‑
15岁)、
…
第i年龄段、
…
第n年龄,n个年龄段,还包括第一性别(如,男性)以及第二性别(如,女性)。基于此,图7示出了根据本公开一实施例中应答库的确定方法的流程示意图。参考图7,包括s710
‑
s730。
86.在s710中,确定针对第i个年龄段的第i应答库,并将第i年龄段的用户特征与第i应答库关联,i为不大于n的正整数,n为正整数。
87.示例性的,第1年龄段(如,5岁
‑
15岁)对应于儿童,若语音转换后的文本为“今天想出去玩”,则应答策略可以推荐附近的游乐场、儿童公园等,从而收集信息确定第1年龄段对应的第1应答库。第3年龄段(如,25岁
‑
35岁)对应于成人,若语音转换后的文本为“今天想出去玩”,则应答策略可以其他潮流的娱乐,从而收集信息确定第3年龄段对应的第3应答库。以此类推确定各个年龄段对应的应答库。参考图8,得到分别于n个年龄段相关联的n个应答库。
88.在s720中,确定针对第一性别的第n+1应答库,并将第一性别的用户特征与第n+1应答库关联。以及,在s730中,确定针对第二性别的第n+2应答库,并将第二性别的用户特征与第n+2应答库关联,得到预先设置的多个应答库430。
89.示例性的,第一性别(如,女性),若语音转换后的文本为“想给对象准备礼物”,则应答策略可以推荐男士用品等,从而收集信息确定与第一性别相关联的第n+1应答库(参考图8)。对应的,第二性别(如,男性),若语音转换后的文本为“想给对象准备礼物”,则应答策
略可以推荐女士用品等,从而收集信息确定第二性别对应的第n+2应答库(参考图8)。
90.需要说明的是,s710
‑
s730的执行顺序不分先后,可以同时并行执行。
91.为了使得应答内容更加贴合不同用户的自身需求以优化语音交互过程中的反馈内容,相关技术中采用为不同用户生成用户画像的方式。具体地:对于不同的用户,通过记录用户的使用情况而生成对应的用户画像。如对于这样的文本输入“我饿了”,如果用户画像显示这个用户经常使用外卖等饮食相关的功能,则可以给用户反馈附近的餐厅;而对于进场和安装有语音交互应用软件的终端进行闲聊互动的用户,则可以通过聊天能力和用户进行交流,而不做功能性的反馈。然而,相关技术提供的确定用户画像的方式,需要积长期累不同用户的用户数据,不能对用户的问询给出精细且实时的内容反馈,从而不利于实现语音交互的多样性。
92.而本技术方案通过图7所示实施例确定多个应答库,则用户与安装有语音交互应用软件的终进行信息交互时,可以直接调用预先设置的多个应答库430,从而有利于提升语音交互过程中确定应答内容的效率,使得用户实时获取答复内容。
93.继续参考图5,在示例性的实施例中,基于图7所示实施例确定的多个应答库,以及在确定目标用户的用户特征(即“目标用户特征”)之后,通过对话管理模块13执行s530:根据目标用户特征,在预先设置的多个应答库获取与目标用户特征关联的至少一个应答库,得到至少一个目标应答库。
94.参考图4,根据所述目标用户特征,在预先设置的多个应答库430获取与目标用户特征关联的至少一个应答库,得到至少一个目标应答库43。
95.示例性的,参考图8,第i年龄段用户特征食欲“第i年龄段”相关联的,因此在确定“目标用户特征”之后,可以确定对应的用户特征标识,进一步地则可以确定所关联的应答库(即上述目标应答库)。假如上述目标用户特征为“第3年龄段用户特征”以及“第二性别用户特征”,则可以确定“第3年龄段”所关联的“第3特征库”,以及“第二性别”所关联的“第n+2应答库”为上述目标应答库43。
96.进一步地,参考图5,通过对话管理模块13执行s540:根据槽位信息在至少一个目标应答库中,确定出目标应答内容,并将目标应答内容确定为对语音信息的答复内容。
97.继续参考图4,对话管理模块13从筛选出的目标应答库43中确定上述意图及槽位对应的信息,并发送至自然语言生成模块14,通过nlg技术将系统动作转变成自然语言文本,即根据上述意图及槽位收集到的目标应答内容反馈为人可以理解的文本信息。进一步地的,可以直接将文本信息作为答复内容,在终端显示屏中进行显示。而不需要通过再文本转语音模块15将文本信息转为音频。
98.示例性的,还可以通过文本转语音模块15将上述文本信息转为音频,再通过终端设备反馈给上述目标用户。例如通过扩音器将上述音频发出,以供目标用户接收。
99.通过上述技术方案,根据目标用户的自身特征在预先设置的应答库中筛选出相对应的目标应答库,从而确定出符合用户年龄性别等自身特征的应答库,再从筛选出的目标应答库中确定上述意图及槽位对应的信息,即得到语音信息对应的应答内容。可见,本技术方案能够有效提升应答内容准确度,提升用户体验。
100.由于不同的用户特征对应于不同的应答库,且上述目标应答库是根据目标用户特征确定的,因此针对相同文本的问题,对于不同特征的用户该方案确定的应答内容是不同
的。基于用户各自特征的应答内容中能够在一定程度上提升对给用户上述语音信息的针对性应答,从而一定程度上提高了语音交互的多样性,有利于增加语音交互内容的个性化程度,提高用户使用体验。
101.需要注意的是,上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
102.下述为本公开装置实施例,可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节,请参照本公开方法实施例。
103.其中,图9示出了可以应用本公开一实施例的语音交互装置的结构示意图。请参见图9,该图所示的语音交互装置可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分,还可以作为独立的模块集成于终端中或服务器上。
104.本公开实施例中的语音交互装置900包括:用户特征确定单元910、应答库确定单元920、应答内容确定单元930和答复单元340,其中:
105.上述用户特征确定单元910,用于接收语音信息,并根据上述语音信息确定目标用户特征,以及根据上述语音信息确定槽位信息;上述应答库确定单元920,用于根据上述目标用户特征,在预先设置的多个应答库中确定出至少一个目标应答库,其中,不同的用户特征对应于不同的应答库;上述应答内容确定单元930,用于根据所述槽位信息,在所述至少一个目标应答库中确定出目标应答内容;以及,答复单元940,用于将所述目标应答内容确定为对上述语音信息的答复内容。
106.在示例性的实施例中,图10示意性示出了根据本公开另一示例性的实施例中语音交互装置的结构图。请参见图10:
107.在示例性的实施例中,基于前述方案,上述装置还包括:槽位确定单元950。
108.其中,上述槽位确定单元950,用于:将上述语音信息转换为文本信息;以及,将上述文本信息进行结构化处理得到上述槽位信息。
109.在示例性的实施例中,基于前述方案,上述装置还包括:音频特征筛选单元960。
110.其中,上述音频特征筛选单元960,具体用于:提取上述语音信息的第一类音频特征,并根据提取到的第一类音频特征对上述语音信息进行筛选;以及,上述用户特征确定单元910,具体还用于:提取筛选后的语音信息的第二类音频特征,并根据上述第二类音频特征确定上述目标用户特征。
111.在示例性的实施例中,基于前述方案,上述槽位确定单元950,具体用于:通过语音识别模块将上述语音信息转换为文本信息;上述音频特征筛选单元960,具体用于:通过音频筛选模块提取上述语音信息的第一类音频特征,并根据提取到的第一类音频特征对上述语音信息进行筛选;其中,上述音频筛选模块与上述语音识别模块并行处理。
112.在示例性的实施例中,基于前述方案,上述槽位确定单元970,还具体用于:通过自然语言理解模块将上述文本信息进行结构化处理得到上述槽位信息;上述用户特征确定单元910,具体还用于:通过特征检测模块提取筛选后的语音信息的第二类音频特征,并根据上述第二类音频特征确定上述目标用户特征;其中,上述特征检测模块与上述自然语言理解模块并行处理。
113.在示例性的实施例中,基于前述方案,上述用户特征确定单元910,具体用于:提取
上述语音信息的第二类音频特征;将提取到的第二类音频特征输入训练后的用户特征分类模型,其中,上述用户特征分类模型用于根据输入音频特征预测用户的年龄段和/或用户的性别;以及,根据上述用户特征分类模型的输出确定上述目标用户特征。
114.在示例性的实施例中,上述音频特征筛选单元960,具体用于:在上述用户特征确定单元910上述根据上述语音信息确定目标用户特征之前,提取上述语音信息的第一类音频特征;将提取到的第一类音频特征输入训练后的音频质量分类模型;以及,根据上述音频质量分类模型的输出对上述语音信息进行筛选,以通过筛选后的语音信息确定上述目标用户特征。
115.在示例性的实施例中,基于前述方案,上述装置还包括:应答库确定单元970。上述用户特征包括:n个年龄段分别对应的用户特征,以及第一性别和第二性别。
116.其中,上述应答库确定单元970,用于:确定针对第i个年龄段的第i应答库,并将上述第i年龄段的用户特征与上述第i应答库关联,i为不大于n的正整数,n为正整数;确定针对第一性别的第n+1应答库,并将上述第一性别的用户特征与上述第n+1应答库关联;以及,确定针对第二性别的第n+2应答库,并将上述第二性别的用户特征与上述第n+2应答库关联,得到预先设置的多个应答库。
117.在示例性的实施例中,基于前述方案,上述应答库确定单元920,具体用于:从上述预先设置的多个应答库获取与上述目标用户特征关联的至少一个应答库,得到上述至少一个目标应答库。
118.在示例性的实施例中,基于前述方案,上述第一类音频特征包括预设类型的静态特征,上述第二类音频特征包括梅尔倒谱系数特征。
119.需要说明的是,上述实施例提供的语音交互装置在执行语音交互方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的语音交互装置与语音交互方法实施例属于同一构思,因此对于本公开装置实施例中未披露的细节,请参照本公开上述的语音交互方法的实施例,这里不再赘述。
120.上述本公开实施例序号仅仅为了描述,不代表实施例的优劣。
121.本公开实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述任一实施例方法的步骤。其中,计算机可读存储介质可以包括但不限于任何类型的盘,包括软盘、光盘、dvd、cd
‑
rom、微型驱动器以及磁光盘、rom、ram、eprom、eeprom、dram、vram、闪速存储器设备、磁卡或光卡、纳米系统(包括分子存储器ic),或适合于存储指令和/或数据的任何类型的媒介或设备。
122.本公开实施例还提供了一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现上述任一实施例方法的步骤。
123.图11示意性示出了根据本公开一示例性的实施例中终端的结构图。请参见图11所示,终端1100包括有:处理器1101和存储器1102。
124.本公开实施例中,处理器1101为计算机系统的控制中心,可以是实体机的处理器,也可以是虚拟机的处理器。处理器1101可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器1101可以采用dsp(digital signal processing,数字信号处理)、
fpga(field-programmable gate array,现场可编程门阵列)、pla(programmable logic array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1101也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称cpu(central processing unit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。
125.在本公开实施例中,所述处理器1101具体用于:
126.接收语音信息,并根据上述语音信息确定目标用户特征,以及根据上述语音信息确定槽位信息;根据上述目标用户特征,在预先设置的多个应答库中确定出至少一个目标应答库,其中,不同的用户特征对应于不同的应答库;以及,根据上述槽位信息,在上述至少一个目标应答库中确定出目标应答内容;以及,将所述目标应答内容确定为对上述语音信息的答复内容。
127.进一步地,上述根据上述语音信息确定槽位信息,包括:将上述语音信息转换为文本信息;以及,将上述文本信息进行结构化处理得到上述槽位信息。
128.进一步地,上述根据上述语音信息确定目标用户特征,包括:提取上述语音信息的第一类音频特征,并根据提取到的第一类音频特征对上述语音信息进行筛选;以及,提取筛选后的语音信息的第二类音频特征,并根据上述第二类音频特征确定上述目标用户特征。
129.进一步地,上述根据上述语音信息确定槽位信息,包括:通过语音识别模块将上述语音信息转换为文本信息;上述提取上述语音信息的第一类音频特征,并根据提取到的第一类音频特征对上述语音信息进行筛选,包括:通过音频筛选模块提取上述语音信息的第一类音频特征,并根据提取到的第一类音频特征对上述语音信息进行筛选;其中,上述音频筛选模块与上述语音识别模块并行处理。
130.进一步地,上述将上述文本信息进行结构化处理得到上述槽位信息,包括:通过自然语言理解模块将上述文本信息进行结构化处理得到上述槽位信息;上述提取筛选后的语音信息的第二类音频特征,并根据上述第二类音频特征确定上述目标用户特征,包括:通过特征检测模块提取筛选后的语音信息的第二类音频特征,并根据上述第二类音频特征确定上述目标用户特征;其中,上述特征检测模块与上述自然语言理解模块并行处理。
131.进一步地,上述根据上述语音信息确定目标用户特征,包括:提取上述语音信息的第二类音频特征;将提取到的第二类音频特征输入训练后的用户特征分类模型,其中,上述用户特征分类模型用于根据输入音频特征预测用户的年龄段和/或用户的性别;以及,根据上述用户特征分类模型的输出确定上述目标用户特征。
132.进一步地,在上述根据上述语音信息确定目标用户特征之前,上述方法还包括:提取上述语音信息的第一类音频特征;将提取到的第一类音频特征输入训练后的音频质量分类模型;以及,根据上述音频质量分类模型的输出对上述语音信息进行筛选,以通过筛选后的语音信息确定上述目标用户特征。
133.进一步地,上述用户特征包括:n个年龄段分别对应的用户特征,以及第一性别和第二性别;上述方法还包括:确定针对第i个年龄段的第i应答库,并将上述第i年龄段的用户特征与上述第i应答库关联,i为不大于n的正整数,n为正整数;确定针对第一性别的第n+1应答库,并将上述第一性别的用户特征与上述第n+1应答库关联;以及,确定针对第二性别的第n+2应答库,并将上述第二性别的用户特征与上述第n+2应答库关联,得到预先设置的
多个应答库。
134.进一步地,上述根据上述目标用户特征确定预先设置的至少一个目标应答库,包括:从上述预先设置的多个应答库获取与上述目标用户特征关联的至少一个应答库,得到上述至少一个目标应答库。
135.进一步地,上述第一类音频特征包括预设类型的静态特征,上述第二类音频特征包括梅尔倒谱系数特征。
136.存储器1102可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器1102还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在本公开的一些实施例中,存储器1102中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器1101所执行以实现本公开实施例中的方法。
137.一些实施例中,终端1100还包括有:外围设备接口1103和至少一个外围设备。处理器1101、存储器1102和外围设备接口1103之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1103相连。具体地,外围设备包括:显示屏1104、摄像头1105和音频电路1106中的至少一种。
138.外围设备接口1103可被用于将i/o(input/output,输入/输出)相关的至少一个外围设备连接到处理器1101和存储器1102。在本公开的一些实施例中,处理器1101、存储器1102和外围设备接口1103被集成在同一芯片或电路板上;在本公开的一些其他实施例中,处理器1101、存储器1102和外围设备接口1103中的任意一个或两个可以在单独的芯片或电路板上实现。本公开实施例对此不作具体限定。
139.显示屏1104用于显示ui(user interface,用户界面)。该ui可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1104是触摸显示屏时,显示屏1104还具有采集在显示屏1104的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1101进行处理。此时,显示屏1104还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在本公开的一些实施例中,显示屏1104可以为一个,设置终端1100的前面板;在本公开的另一些实施例中,显示屏1104可以为至少两个,分别设置在终端1100的不同表面或呈折叠设计;在本公开的再一些实施例中,显示屏1104可以是柔性显示屏,设置在终端1100的弯曲表面上或折叠面上。甚至,显示屏1104还可以设置成非矩形的不规则图形,也即异形屏。显示屏1104可以采用lcd(liquid crystal display,液晶显示屏)、oled(organic light
‑
emitting diode,有机发光二极管)等材质制备。
140.摄像头1105用于采集图像或视频。可选地,摄像头1105包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及vr(virtual reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在本公开的一些实施例中,摄像头1105还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
141.音频电路1106可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并
将声波转换为电信号输入至处理器1101进行处理。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端1100的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。
142.电源1107用于为终端1100中的各个组件进行供电。电源1107可以是交流电、直流电、一次性电池或可充电电池。当电源1107包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
143.本公开实施例中示出的终端结构框图并不构成对终端1100的限定,终端1100可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
144.在本公开的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本公开中的具体含义。此外,在本公开的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
145.以上所述,仅为本公开的具体实施方式,但本公开的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本公开的保护范围之内。因此,依本公开权利要求所作的等同变化,仍属本公开所涵盖的范围。