1.本技术涉及人工智能技术领域,特别是涉及一种语音播报处理方法、装置、计算机设备和存储介质。
背景技术:2.随着计算机技术的发展,出现了智能客服服务。其中在智能客服存在播报打断的场景,在该场景下目前存在以下几种解决方案:
3.第一种是基于半双工的语音交互方案,该方案中用户与系统的交互过程处于整个流程最后阶段,即语音播报结束之后才能进入用户交互轮次,如用户需要打断播报中止本次流程,提前进入用户轮次,需要手动操作按键,系统接收到用户按键操作后立即做打断处理。
4.第二种是检测用户侧声音触发打断的方案,该方案能够支持语音播报的时候同时接收用户侧的语音输入,具备播报打断能力,其原理一般为通过用户侧的语音信号的特征,用能量、过零率、熵(entropy)、高音(pitch)等参数以及他们的衍生参数来判断是否为语音信号,即端点检测vad(voice activity detector)技术,当信号流检测到语音信号后由系统触发打断,即当检测到用户侧发出声音即打断播报。
5.第三种是基于用户侧语音流字数阈值触发打断的方案,该方案在用户与语音机器人进行交互流程中语音机器人在输出语音的同时检测用户发出的呼入语音流,并对呼入的语音流进行检测,统计语音流中文字的个数,如语音流个数超过预设文字阈值则执行打断语音操作。
6.然而,基于半双工的语音交互方案不符合用户对语音智能客服的认知,只能通过按键方式打断语音播报不能真正反映用户意图,用户期望能够像与人工客服一样,通过语音表达打断意愿。检测用户侧声音触发打断的方案无法区分复杂的语音场景。基于用户侧语音流字数阈值触发打断的方案尽管在用户侧对用户输出语音进行了识别,但仅统计了识别出的文字个数,当用户侧输出较多无意义的语句或者其他噪声干扰导致识别到的文字个数超过阈值依然会打断当前对话流程,因此该方案误触打断的几率依然较大。
技术实现要素:7.基于此,有必要针对上述技术问题,提供一种能够提高打断处理准确性的语音播报处理方法、装置、计算机设备和存储介质。
8.一种语音播报处理方法,所述方法包括:
9.在语音机器人与用户终端通话的过程中,采集所述用户终端的语音信息;
10.对所述语音信息进行意图识别得到意图识别结果;
11.获取与所述意图识别结果对应的处理逻辑;
12.执行所述处理逻辑。
13.在其中一个实施例中,所述对所述语音信息进行意图识别得到意图识别结果,包
括:
14.提取所述语音信息对应的语义特征;
15.将所述语义特征与标准特征进行匹配得到相似度满足要求的预设数量的标准特征;
16.统计所述相似度满足要求的预设数量的标准特征对应的意图分类作为所述语音信息对应的意图识别结果。
17.在其中一个实施例中,所述将所述语义特征与标准特征进行匹配得到相似度满足要求的预设数量的标准特征之前,还包括:
18.接收意图配置指令,所述意图配置指令携带有标准文本以与所述标准文本对应的意图名称;
19.根据所述标准文本以与所述标准文本对应的意图名称进行意图配置得到标准意图,并根据所述标准文本生成标准特征。
20.在其中一个实施例中,所述接收意图配置指令之前,还包括:
21.接收意图类型选择指令,根据意图类型选择指令显示对应的意图配置界面;
22.通过所述意图配置界面接收意图配置指令。
23.在其中一个实施例中,所述获取与所述意图识别结果对应的处理逻辑之前,还包括:
24.接收会话逻辑配置指令;
25.根据所述会话逻辑配置指令配置得到会话逻辑,所述会话逻辑包括正常处理逻辑以及所述标准意图对应的参考处理逻辑。
26.在其中一个实施例中,所述参考处理逻辑包括打断处理逻辑以及与所述打断处理逻辑对应的话术;所述执行所述处理逻辑,包括:
27.打断所述语音机器人的当前语音播报,并继续播报与所述打断处理逻辑对应的话术。
28.在其中一个实施例中,所述参考处理逻辑包括非打断处理逻辑;所述执行所述处理逻辑,包括:
29.继续所述语音机器人的当前语音播报。
30.一种语音播报处理装置,所述装置包括:
31.采集模块,用于在语音机器人与用户终端通话的过程中,采集所述用户终端的语音信息;
32.识别模块,用于对所述语音信息进行意图识别得到意图识别结果;
33.逻辑获取模块,用于获取与所述意图识别结果对应的处理逻辑;
34.执行模块,用于执行所述处理逻辑。
35.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法的步骤。
36.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法的步骤。
37.上述语音播报处理方法、装置、计算机设备和存储介质,在语音机器人与用户终端通话的过程中,采集用户终端的语音信息,并对语音信息进行识别以得到意图识别结果,从
recognition),以对语音信息进行识别得到语音文本,再将语音文本与预先配置的意图进行匹配以得到意图识别结果。
57.s206:获取与意图识别结果对应的处理逻辑。
58.具体地,处理逻辑是预先配置的完整对话流程框架,其中呼叫中心可以预先根据对话来进行配置得到完整对话流程框架,该对话流程框架中包括了正常语音机器人的播放话术流程,以及在每个话术流程中所增加的新的意图以及该意图对应的处理流程,以图3中所示的完整对话流程框架为例进行说明,在开场白之后,后续存在等待2,并且在等待2之后存在多个处理分支,例如号码错误,其中在该实施例中,在语音机器人播报了开场白之后,呼叫中心可以接收到用户终端侧采集的语音信息,并进行意图识别得到了号码错误的意图,此时直接查询号码错误的意图对应的处理逻辑,即可打断,则呼叫中心根据号码错误的处理逻辑打断语音机器人当前的语音播报,并获取与号码错误对应的话术,从而播报新的话术。
59.s208:执行处理逻辑。
60.具体地,此处的执行处理逻辑是执行与意图识别结果对应的处理逻辑,包括在意图识别结果是可打断的时候,则直接获取可打断对应的话术,从而播报新的话术,若是不可打断,则语音机器人继续当前的语音播报。
61.其中需要说明的是,本实施例中呼叫中心在获取到意图识别结果后,确定该意图识别结果为打断意图时,则呼叫中心生成一个打断标识,该打断标识触发呼叫中心一方面打断语音机器人当前所播报的语音,另一方面获取与打断意图对应的答复话术,即获取与意图识别结果对应的处理逻辑,并执行该处理逻辑。若是为非打断意图时,则直接获取与意图识别结果对应的处理逻辑,并执行该处理逻辑。
62.上述语音播报处理方法,在语音机器人与用户终端通话的过程中,采集用户终端的语音信息,并对语音信息进行识别以得到意图识别结果,从而可以查询与意图识别结果对应的处理逻辑,按照该处理逻辑对语音播报进行处理,避免误打断。
63.在其中一个实施例中,对语音信息进行意图识别得到意图识别结果,包括:提取语音信息对应的语义特征;将语义特征与标准特征进行匹配得到相似度满足要求的预设数量的标准特征;统计相似度满足要求的预设数量的标准特征对应的意图分类作为语音信息对应的意图识别结果。
64.其中,为了能正确理解用户终端语音输入的含义并准确命中不同意图配置,流程框架采用了knn算法来解决对话时出现语义理解分类的问题。
65.具体地,呼叫中心通过语音模块提取语音信息对应的语义特征,以是得语音信息与标准意图对应的标准特征处于同一特征空间,从而选取相似度满足要求的预设数量的标准特征,并统计相似度满足要求的预设数量的标准特征对应的意图分类作为语音信息对应的意图识别结果。
66.具体地,如果一个语音特征在特征空间中的k个最近似(即特征空间中最近邻)的标准特征中的大多数属于某一个类别,则该语音特征也属于这个类别,其中k通常时不大于20的整数。算法步骤如下:
67.首先假定标准特征集为t={(x1,y1),(x2,y2),
…
,(xn,yn)},其中为n维的标准特征向量。yi∈y={c1,c2,ck}为实例的类别,其中,i=1,2,
…
,n,语义特征为x。
68.根据欧氏距离度量方法在标准特征集t中找出与x最相近的k个标准特征,并将这k个标准特惠总能表示的集合记为n_k(x),欧氏距离如(1)式所示。
[0069][0070]
根据如下所示的多数投票的原则确定实例x所属类别y:
[0071][0072]
式(2)中i为指示函数:
[0073][0074]
上述实施例中,给出了意图识别结果的识别方法。
[0075]
在其中一个实施例中,将语义特征与标准特征进行匹配得到相似度满足要求的预设数量的标准特征之前,还包括:接收意图配置指令,意图配置指令携带有标准文本以与标准文本对应的意图名称;根据标准文本以与标准文本对应的意图名称进行意图配置得到标准意图,并根据标准文本生成标准特征。
[0076]
在其中一个实施例中,接收意图配置指令之前,还包括:接收意图类型选择指令,根据意图类型选择指令显示对应的意图配置界面;通过意图配置界面接收意图配置指令。
[0077]
具体地,本实施例中主要介绍意图配置的方法,其中在语音播报过程中当用户终端有语音流输入时需要提前确定用户哪些表达应该进行打断处理,并进行相应的意图配置,根据语义识别内容匹配相应意图并触发相关操作。
[0078]
在本实施例中,意图配置主要包括语义级无打断意向配置和打断意图配置。
[0079]
结合图4所示,图4为一个实施例中语义级无打断意向配置的界面图,在该实施例中,在智能语音客服在播报当前话术时,若检测到用户终端有语音流输入并经过asr语义识别后结果若为“我知道”、“是的”、“行”等词汇时,这些词虽为用户主动说出,但为语气词或并没有具体含义,根据日常对话逻辑不应做打断。
[0080]
据此,如4所示,在系统的意图列表里设立“水词”、“语气词”等语义级无打断意向的意图配置,其中“水词”是指没有特定含义的词汇,如“好”、“是的”等;“语气词”指的是删掉不产生歧义的语气助词,如“哦哦”、“额”等词汇。因此根据配置的意图信息,系统触发到该意图,不会打断本次播报,反之会跳回当前话术播报直至下一次用户侧语音流输入。
[0081]
结合图5所示,图5为一个实施例中的打断意向配置的界面图。在该实施例中,当系统识别到用户终端的语音流,并经过语义识别后表达出已参与过相关业务的信息或其他会触发打断意图的信息后执行打断操作,结束本次播报流程,进入下一话术节点,即进入与打断处理对应的下一话术节点。
[0082]
上述实施例中,给出了两种类型的意图配置方式。
[0083]
在其中一个实施例中,获取与意图识别结果对应的处理逻辑之前,还包括:接收会话逻辑配置指令;根据会话逻辑配置指令配置得到会话逻辑,会话逻辑包括正常处理逻辑
以及标准意图对应的参考处理逻辑。
[0084]
具体地,结合图6所示,图6为一个实施例中的会话逻辑配置的界面图,在该实施例中,呼叫中心预先配置整个会话逻辑,在其他实施例中可以通过其他的服务器来配置整个会话逻辑,并与呼叫中心进行交互。呼叫发起前需要对整个会话逻辑进行配置,呼叫过程中当语义识别模块902识别到了不打断意图或打断意图时,其他服务器会向呼叫中心返回特殊打断事件以及对应流程的回复。
[0085]
结合图6所示,其中用户可以对会话逻辑进行预先配置,例如对于简介1.2可打断节点,可以配置对应的打断后的会话话术,如图6中跳回话术文本“中银理财惠享天天增益版,我给您介绍下吧”,并基于跳回话说继续后续的语音信息采集,并进行意图识别,重复上述过程,直至整个会话结束。
[0086]
在其中一个实施例中,参考处理逻辑包括打断处理逻辑以及与打断处理逻辑对应的话术;执行处理逻辑,包括:打断语音机器人的当前语音播报,并继续播报与打断处理逻辑对应的话术。
[0087]
在其中一个实施例中,参考处理逻辑包括非打断处理逻辑;执行处理逻辑,包括:继续语音机器人的当前语音播报。
[0088]
结合图3,整个话术执行顺序为自上而下、自左向右的原则执行,从开场白节点开始,当播报完对应的开场白后进入等待用户侧语音流输入,若用户终端语音流经过语义识别结果确认为本人接听,则进入下一节点话术,即简单介绍相关业务,完成当前话术播报后,根据用户语音语义识别结果决定进入哪个下一节点话术。
[0089]
若在语音机器人播报开场白过程中检测到用户侧有语音流输入,并且经过asr语义识别后结果为“嗯嗯”、“好”等不可断意图后,对话流程框架会进行节点跳回操作,即跳回到原来的语音播报环节,继续开场白的播报,直至开场白播报完成。同时等待用户侧语音流入。
[0090]
具体地,为了使得本领域技术人员充分理解本技术,请参见图7和图8所示,其中图7为一个实施例中的语音信息处理流程的打断逻辑的流程图,图8为一个实施例中的语音信息处理流程的原理图。
[0091]
在该实施例中,呼叫中心需要采用全双工的交互方式,在语音机器人播报tts(由文本合成语音)的同时,实时接收用户侧的音频流,mrcp将音频流传给asr(automatic speech recognition)识别为文本结果。
[0092]
呼叫中心在将asr识别的结果传给对话流程框架的同时,还会带来一个标识,该标识记录了客户说的话有没有对机器人播报的话术进行打断,对话流程框架在拿到标识后会做出判断,如果客户表达的意图符合语义打断逻辑,则返回相应的机器人话术;若客户所表达意图不符合预期,则返回呼叫中心一个空值,呼叫中心拿到空值则默认继续播报当前tts话术,不做打断。
[0093]
结合图8,当语音机器人在播报tts时,则呼叫中心接受到用户终端的音频流,并将音频流进行asr语音识别,将识别结果反馈给呼叫中心,呼叫中心首先通过语义识别部分识别是否命中打断业务意图,若是,命中,则对话流程框架返回特殊的打断事件和相应的答复话术,根据上一步打断意图类型,确定是否停止播放上一段tts,或播报答复话术。
[0094]
应该理解的是,虽然图2的流程图中的各个步骤按照箭头的指示依次显示,但是这
些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
[0095]
在一个实施例中,如图9所示,提供了一种语音播报处理装置,包括:采集模块901、识别模块902、逻辑获取模块903和执行模块904,其中:
[0096]
采集模块901,用于在语音机器人与用户终端通话的过程中,采集用户终端的语音信息;
[0097]
识别模块902,用于对语音信息进行意图识别得到意图识别结果;
[0098]
逻辑获取模块903,用于获取与意图识别结果对应的处理逻辑;
[0099]
执行模块904,用于执行处理逻辑。
[0100]
在其中一个实施例中,上述识别模块902包括:
[0101]
提取单元,用于提取语音信息对应的语义特征;
[0102]
匹配单元,用于将语义特征与标准特征进行匹配得到相似度满足要求的预设数量的标准特征;
[0103]
输出单元,用于统计相似度满足要求的预设数量的标准特征对应的意图分类作为语音信息对应的意图识别结果。
[0104]
在其中一个实施例中,上述识别模块902还包括:
[0105]
第一接收单元,用于接收意图配置指令,意图配置指令携带有标准文本以与标准文本对应的意图名称;
[0106]
配置单元,用于根据标准文本以与标准文本对应的意图名称进行意图配置得到标准意图,并根据标准文本生成标准特征。
[0107]
在其中一个实施例中,上述识别模块902还包括:
[0108]
第二接收单元,用于接收意图类型选择指令,根据意图类型选择指令显示对应的意图配置界面;
[0109]
第三接收单元,用于通过意图配置界面接收意图配置指令。
[0110]
在其中一个实施例中,上述语音播报处理装置还包括:
[0111]
接收模块,用于接收会话逻辑配置指令;
[0112]
配置模块,用于根据会话逻辑配置指令配置得到会话逻辑,会话逻辑包括正常处理逻辑以及标准意图对应的参考处理逻辑。
[0113]
在其中一个实施例中,参考处理逻辑包括打断处理逻辑以及与打断处理逻辑对应的话术;上述执行模块用于打断语音机器人的当前语音播报,并继续播报与打断处理逻辑对应的话术。
[0114]
在其中一个实施例中,参考处理逻辑包括非打断处理逻辑;上述执行模块用于继续语音机器人的当前语音播报。
[0115]
关于语音播报处理装置的具体限定可以参见上文中对于语音播报处理方法的限定,在此不再赘述。上述语音播报处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以
以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0116]
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储会话处理逻辑。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音播报处理方法。
[0117]
本领域技术人员可以理解,图10中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0118]
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:在语音机器人与用户终端通话的过程中,采集用户终端的语音信息;对语音信息进行意图识别得到意图识别结果;获取与意图识别结果对应的处理逻辑;执行处理逻辑。
[0119]
在一个实施例中,处理器执行计算机程序时所实现的对语音信息进行意图识别得到意图识别结果,包括:提取语音信息对应的语义特征;将语义特征与标准特征进行匹配得到相似度满足要求的预设数量的标准特征;统计相似度满足要求的预设数量的标准特征对应的意图分类作为语音信息对应的意图识别结果。
[0120]
在一个实施例中,处理器执行计算机程序时所实现的将语义特征与标准特征进行匹配得到相似度满足要求的预设数量的标准特征之前,还包括:接收意图配置指令,意图配置指令携带有标准文本以与标准文本对应的意图名称;根据标准文本以与标准文本对应的意图名称进行意图配置得到标准意图,并根据标准文本生成标准特征。
[0121]
在一个实施例中,处理器执行计算机程序时所实现的接收意图配置指令之前,还包括:接收意图类型选择指令,根据意图类型选择指令显示对应的意图配置界面通过意图配置界面接收意图配置指令。
[0122]
在一个实施例中,处理器执行计算机程序时所实现的获取与意图识别结果对应的处理逻辑之前,还包括:接收会话逻辑配置指令;根据会话逻辑配置指令配置得到会话逻辑,会话逻辑包括正常处理逻辑以及标准意图对应的参考处理逻辑。
[0123]
在一个实施例中,处理器执行计算机程序时所涉及的参考处理逻辑包括打断处理逻辑以及与打断处理逻辑对应的话术;处理器执行计算机程序时所实现的执行处理逻辑,包括:打断语音机器人的当前语音播报,并继续播报与打断处理逻辑对应的话术。
[0124]
在一个实施例中,处理器执行计算机程序时所涉及的参考处理逻辑包括非打断处理逻辑;处理器执行计算机程序时所实现的执行处理逻辑,包括:继续语音机器人的当前语音播报。
[0125]
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:在语音机器人与用户终端通话的过程中,采集用户终端的语音信息;对语音信息进行意图识别得到意图识别结果;获取与意图识别结果对应
的处理逻辑;执行处理逻辑。
[0126]
在一个实施例中,计算机程序被处理器执行时所实现的对语音信息进行意图识别得到意图识别结果,包括:提取语音信息对应的语义特征;将语义特征与标准特征进行匹配得到相似度满足要求的预设数量的标准特征;统计相似度满足要求的预设数量的标准特征对应的意图分类作为语音信息对应的意图识别结果。
[0127]
在一个实施例中,计算机程序被处理器执行时所实现的将语义特征与标准特征进行匹配得到相似度满足要求的预设数量的标准特征之前,还包括:接收意图配置指令,意图配置指令携带有标准文本以与标准文本对应的意图名称;根据标准文本以与标准文本对应的意图名称进行意图配置得到标准意图,并根据标准文本生成标准特征。
[0128]
在一个实施例中,计算机程序被处理器执行时所实现的接收意图配置指令之前,还包括:接收意图类型选择指令,根据意图类型选择指令显示对应的意图配置界面通过意图配置界面接收意图配置指令。
[0129]
在一个实施例中,计算机程序被处理器执行时所实现的获取与意图识别结果对应的处理逻辑之前,还包括:接收会话逻辑配置指令;根据会话逻辑配置指令配置得到会话逻辑,会话逻辑包括正常处理逻辑以及标准意图对应的参考处理逻辑。
[0130]
在一个实施例中,计算机程序被处理器执行时所涉及的参考处理逻辑包括打断处理逻辑以及与打断处理逻辑对应的话术;计算机程序被处理器执行时所实现的执行处理逻辑,包括:打断语音机器人的当前语音播报,并继续播报与打断处理逻辑对应的话术。
[0131]
在一个实施例中,计算机程序被处理器执行时所涉及的参考处理逻辑包括非打断处理逻辑;计算机程序被处理器执行时所实现的执行处理逻辑,包括:继续语音机器人的当前语音播报。
[0132]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory,rom)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(random access memory,ram)或外部高速缓冲存储器。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(static random access memory,sram)或动态随机存取存储器(dynamic random access memory,dram)等。
[0133]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0134]
以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术专利的保护范围应以所附权利要求为准。