首页 > 乐器声学 专利正文
在人机交互中对语音对话进行标注的方法和装置、设备和介质与流程

时间:2022-02-17 阅读: 作者:专利查询

在人机交互中对语音对话进行标注的方法和装置、设备和介质与流程

1.本公开涉及自然语言处理技术,尤其是一种在人机交互中对语音对话进行标注的方法和装置、设备和介质。


背景技术:

2.人机交互是指人与计算机之间使用某种对话语言,以一定的交互方式,为完成确定任务的人与计算机之间的信息交换过程。传统的人机交互主要通过键盘、鼠标、显示器等输入输出设备实现,而随着语音识别、自然语言处理(naturelanguage processing,nlp)等技术的发展,人与机器之间已经能够通过类似于自然语言的方式进行交互。
3.随着智能生活概念的逐步推广、人机交互技术的不断提升,对nlp技术也提出了更高的要求。例如,当用户给出一个诸如语音会话以期望机器给出相应的回复或者执行相关的任务时,这一会话内容将通过信号处理、语音识别等技术转换为文本,作为nlp系统的输入,由nlp系统理解用户的会话含义,并在此基础上给出相应的回复或者执行相关的任务。
4.因此,nlp系统对用户会话含义理解的准确度,直接影响了nlp系统针对用户会话的回复效率和准确性,或者任务执行效率和准确性,从而影响了人机交互效果。


技术实现要素:

5.为了解决上述技术问题,提出了本公开。本公开的实施例提供了一种在人机交互中对语音对话进行标注的方法和装置、电子设备和介质。
6.根据本公开实施例的一个方面,提供了一种在人机交互中对语音对话进行标注的方法,包括:
7.确定人机交互系统针对用户的前一次语音做出的机器语音回复;
8.确定所述用户针对所述机器语音回复做出的本次语音时的情绪特征;
9.基于所述情绪特征,确定所述用户针对所述机器语音回复的第一满意度;
10.若所述本次语音为多轮对话中的结束语音,确定所述多轮对话中位于所述本次语音所属的本轮对话之前的历史轮对话中,所述用户针对所述人机交互系统输出的机器语音回复的至少一个第二满意度,其中,一个机器语音回复对应所述用户的一次语音;
11.基于所述第一满意度和所述至少一个第二满意度,对所述多轮对话进行标注。
12.根据本公开实施例的一个方面,提供了一种在人机交互中对语音对话进行标注的装置,包括:
13.第一确定模块,用于确定人机交互系统针对用户的前一次语音做出的机器语音回复;
14.第二确定模块,用于确定所述用户针对所述机器语音回复做出的本次语音时的情绪特征;
15.第三确定模块,用于基于所述情绪特征,确定所述用户针对所述机器语音回复的
第一满意度;
16.第四确定模块,用于若所述本次语音为多轮对话中的结束语音,确定所述多轮对话中位于所述本次语音所属的本轮对话之前的历史轮对话中,所述用户针对所述人机交互系统输出的机器语音回复的至少一个第二满意度,其中,一个机器语音回复对应所述用户的一次语音;
17.标注模块,用于基于所述第一满意度和所述至少一个第二满意度,对所述多轮对话进行标注。
18.根据本公开实施例的又一个方面,提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行本公开上述任一实施例所述在人机交互中对语音对话进行标注的方法。
19.根据本公开实施例的再一个方面,提供了一种电子设备,所述电子设备包括:
20.处理器;
21.用于存储所述处理器可执行指令的存储器;
22.所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现本公开上述任一实施例所述在人机交互中对语音对话进行标注的方法。
23.基于本公开上述实施例提供的在人机交互中对语音对话进行标注的方法和装置、电子设备和介质,通过确定人机交互系统针对用户的前一次语音做出的机器语音回复,并确定用户针对该机器语音回复做出的本次语音时的情绪特征,然后,基于该情绪特征确定用户针对该机器语音回复的第一满意度,若本次语音为多轮对话中的结束语音,确定多轮对话中位于本次语音所属的本轮对话之前的历史轮对话中,用户针对人机交互系统输出的机器语音回复的至少一个第二满意度,进而,基于第一满意度和至少一个第二满意度对多轮对话进行标注。本公开实施例通过用户针对机器语音回复做出的本次语音时的情绪特征来确定用户针对机器语音回复的满意度,基于用户与人机交互系统的多轮对话中用户针对各次机器语音回复的满意度来确定人机交互系统对应的语义理解的准确度,从而实现了对多轮对话的自动标注,提高了人机交互系统的语料标注的准确性和效率,有助于提高人机交互系统的语义理解的准确度,进而有助于提高人机交互系统针对用户会话的回复效率和准确性、或者任务执行效率和准确性,从而提高人机交互效果。
24.下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。
附图说明
25.通过结合附图对本公开实施例进行更详细的描述,本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解,并且构成说明书的一部分,与本公开实施例一起用于解释本公开,并不构成对本公开的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
26.图1是本公开所适用的场景图。
27.图2是本公开一示例性实施例提供的在人机交互中对语音对话进行标注的方法的流程示意图。
28.图3是本公开另一示例性实施例提供的在人机交互中对语音对话进行标注的方法的流程示意图。
29.图4是本公开又一示例性实施例提供的在人机交互中对语音对话进行标注的方法的流程示意图。
30.图5是本公开再一示例性实施例提供的在人机交互中对语音对话进行标注的方法的流程示意图。
31.图6是本公开一示例性应用实施例的流程示意图。
32.图7是本公开一示例性实施例提供的在人机交互中对语音对话进行标注的装置的结构示意图。
33.图8是本公开另一示例性实施例提供的在人机交互中对语音对话进行标注的装置的结构示意图。
34.图9是本公开一示例性实施例提供的电子设备的结构图。
具体实施方式
35.下面,将参考附图详细地描述根据本公开的示例实施例。显然,所描述的实施例仅仅是本公开的一部分实施例,而不是本公开的全部实施例,应理解,本公开不受这里描述的示例实施例的限制。
36.应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
37.本领域技术人员可以理解,本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
38.还应理解,在本公开实施例中,“多个”可以指两个或两个以上,“至少一个”可以指一个、两个或两个以上。
39.还应理解,对于本公开实施例中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。
40.另外,本公开中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本公开中字符“/”,一般表示前后关联对象是一种“或”的关系。
41.还应理解,本公开对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。
42.同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
43.以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
44.对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
45.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
46.本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电
子设备一起使用的众所周知的终端设备、计算系统、环境和/ 或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
47.终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
48.申请概述
49.相关在基于nlp的人机交互中,未考虑人关于机器语言的真实反馈,是准确、错误还是一般,因而需要投入大量的人力对学习语料进行人工标注来训练 nlp系统,需要消耗较高的人力成本和较长时间,且无法在具体应用中实时收集学习语料进行标注,无法实现学习语料的实时更新。
50.有鉴于此,本公开实施例提供一种在人机交互中对语音对话进行标注的方法和装置、电子设备和介质,通过用户针对机器语音回复做出的本次语音时的情绪特征来确定用户针对机器语音回复的满意度,基于用户与人机交互系统的多轮对话中用户针对各次机器语音回复的满意度来确定人机交互系统对应的语义理解的准确度,从而实现了对多轮对话的自动标注,提高了人机交互系统的语料标注的准确性和效率。
51.示例性系统
52.本公开实施例可应用于车机、用户终端、以及应用(app)等各种有语音交互的场景中。
53.图1是本公开所适用的一个场景图。如图1所示,本公开实施例的系统包括:音频采集模块101、前端信号处理模块102、语音识别模块103、视频传感器104、人机交互系统105、情绪感知系统(eps)106、存储器107和扬声器108。其中,eps106可以包括语音参数采集模块1061、表情识别模块1062、情绪确定模块1063 和满意度确定模块1604。
54.本公开实施例应用于语音交互场景时,由音频采集模块(例如麦克风、麦克风阵列等)101采集本次语音交互场景中用户发起的语音的音频信号,经前端信号处理模块102处理后,由语音识别模块103进行语音识别,得到文本信息并输入人机交互系统105,由人机交互系统105理解用户的会话含义,并在此基础上输出相应的回复转换成语音,得到机器语音回复并由扬声器108播放。
55.之后,再由音频采集模块101采集用户针对人机交互系统105输出的机器语音回复做出的本次语音,并执行上述前端信号处理模块102、语音识别模块103、人机交互系统105的处理流程,同时将本次语音输入eps106;另外,在音频采集模块101采集用户针对人机交互系统105输出的机器语音回复做出的本次语音时,同时由视频传感器(例如摄像头)104采集用户针对人机交互系统105输出的机器语音回复做出本次语音时的人脸图像并输入eps106。eps106中的语音参数采集模块1061获取音频采集模块101采集的本次语音的语音参数,表情识别模块1062识别人脸图像中的人脸表情;然后,情绪确定模块1063基于语音参
数和人脸表情确定用户做出的本次语音时的情绪特征,进而,由满意度确定模块 1064基于该情绪特征确定用户针对机器语音回复的满意度,将上一轮对话(包括用户的前一次语音、人机交互系统105针对该前一次语音的机器语音回复)以及对应的满意度存储在存储器107中;重复执行上述流程,确定用户针对每次机器语音回复的满意度,直至本次语音交互场景结束,基于满意度确定模块1064得到的用户针对各次机器语音回复的满意度对本次语音交互场景中的多轮对话进行标注,并将多轮对话及对应的满意度存储在存储器107中。其中的一轮会话是指,用户的一次语音以及人机交互系统针对该一次语音做出的一个机器语音。
56.示例性方法
57.图2是本公开一示例性实施例提供的在人机交互中对语音对话进行标注的方法的流程示意图。本实施例可应用在车机、或者用户终端等电子设备上,如图2 所示,该实施例在人机交互中对语音对话进行标注的方法包括如下步骤:
58.步骤201,确定人机交互系统针对用户的前一次语音做出的机器语音回复。
59.其中,一个机器语音回复对应用户的一次语音,即,每个机器回复是人机交互系统针对用户的一次语音输出的回复。
60.在具体应用中,可以将用户的一次语音(例如:请到abc商场)以及人机交互系统针对该一次语音做出的一个机器语音回复(例如:哪个abc商场)称为一轮对话。当用户给出一个诸如语音会话以期望机器给出相应的回复或者执行相关的任务时,可能触发多轮对话。
61.可选地,在其中一些实施方式中,可以由音频采集设备(例如麦克风或麦克风阵列)采集用户的语音,经前端信号处理处理后进行语音识别,得到文本信息并输入人机交互系统,由人机交互系统理解用户的前一次语音的含义,在此基础上输出机器语音回复,因此,该步骤201中,可以获取由人机交互系统输出的机器语音回复。
62.步骤202,确定用户针对上述机器语音回复做出的本次语音时的情绪特征。
63.本公开实施例中的情绪特征,为用于表示用户的情绪的相关特征。
64.步骤203,基于上述情绪特征,确定用户针对上述机器语音回复的第一满意度。
65.其中的第一满意度用于表示用户针对上述机器语音回复的满意程度,也可以认为是用户针对上一轮对话(包括用户的前一次语音和人机交互系统针对用户的前一次语音做出的机器语音回复)的满意度。
66.可选地,在其中一些实施方式中,本公开实施例中的满意度可以表示为一个具体的分值,可以设定分值越高,表示用户针对上述机器语音回复的满意程度越高。
67.可选地,在另一些实施方式中,本公开实施例中的满意度可以具体表示为满意度级别。在具体应用中,可以根据实际需求,将用户的满意程度分为多个(例如5个)级别,该多个级别对应用户的满意程度逐渐从满意过渡到不满意、或者从不满意过渡到满意,例如,用户的满意程度分为5个级别时,可以分别为:非常不满意,不满意,一般,满意,非常满意。本公开实施例对满意度级别的具体数量和与用户满意程度的过渡关系上不做限制。
68.步骤204,若本次语音为用户与人机交互系统之间的多轮对话中的结束语音,确定该多轮对话中位于本次语音所属的本轮对话之前的历史轮对话中,用户针对人机交互系统输出的机器语音回复的至少一个第二满意度。
69.本公开实施例中,针对每轮对话,都会生成一个满意度,针对本轮对话之前的各轮对话可以称为历史轮对话,其满意度可以称为第二满意度,根据历史轮对话的轮次,本轮对
话之前的历史轮对话具有至少一个第二满意度。
70.步骤205,基于上述第一满意度和至少一个第二满意度,对上述多轮对话进行标注。
71.基于本实施例,通过确定人机交互系统针对用户的前一次语音做出的机器语音回复,并确定用户针对该机器语音回复做出的本次语音时的情绪特征,然后,基于该情绪特征确定用户针对该机器语音回复的第一满意度,若本次语音为多轮对话中的结束语音,确定多轮对话中位于本次语音所属的本轮对话之前的历史轮对话中,用户针对人机交互系统输出的机器语音回复的至少一个第二满意度,进而,基于第一满意度和至少一个第二满意度对多轮对话进行标注。本公开实施例通过用户针对机器语音回复做出的本次语音时的情绪特征来确定用户针对机器语音回复的满意度,基于用户与人机交互系统的多轮对话中用户针对各次机器语音回复的满意度来确定人机交互系统对应的语义理解的准确度,从而实现了对多轮对话的自动标注,提高了人机交互系统的语料标注的准确性和效率,有助于提高人机交互系统的语义理解的准确度,进而有助于提高人机交互系统针对用户会话的回复效率和准确性、或者任务执行效率和准确性,从而提高人机交互效果。
72.图3是本公开另一示例性实施例提供的在人机交互中对语音对话进行标注的方法的流程示意图。如图3所示,在上述图2所示实施例的基础上,步骤202可包括如下步骤:
73.步骤2021,确定用户针对机器语音回复做出的本次语音时的语音参数。
74.可选地,在其中一些实施方式中,上述语音参数例如可以包括但不限于以下任意一项或多项:音调、音量(又称响度)等,本公开实施例对语音参数的具体参数不做限制。
75.其中,音调用于表示声音的高低,一个声音音调的高低由产生这种声音的振动频率决定,振动越快,音调就越高。音量用于表示声音的大小,一个声音音量的大小由产生这种声音的振动幅度决定,振动的幅度越大,响度越大。通俗地说,音调是指声音的尖细,而音量是指声音的大小,例如,小孩的窃窃私语声,音调高、但音量小;而大人的厉声斥吓声,音调低、但音量大。
76.步骤2022,确定用户针对机器语音回复做出的本次语音时的人脸表情。
77.可选地,在其中一些实施方式中,上述人脸表情例如可以包括但不限于以下任意一项或多项:满意、不满意、开心、中性、生气、烦躁等,本公开实施例对人脸表情的具体类型不做限制。
78.步骤2023,基于上述语音参数和人脸表情,确定用户针对机器语音回复做出的本次语音时的情绪特征。
79.可选地,在其中一些实施方式中,可以将语音参数和人脸表情作为情绪特征;或者,也可以分别对语音参数和人脸表情进行特征提取,将提取到的特征进行融合得到情绪特征,本公开实施例对由语音参数和人脸表情确定情绪特征的具体实现方式不做限定。
80.基于本公开实施例,通过用户做出的本次语音时的语音参数和人脸表情,来确定用户针对机器语音回复时的情绪特征,从而可以客观、真实的确定用户的情绪,以便确定用户对机器语音回复的满意度。
81.可选地,在其中一些实施方式中,可以在检测到用户针对机器语音回复做出的本次语音的起始时间点开始,以音节为单位确定用户在本次语音中的每一个音节对应的语音参数分量,即每个音节对应一个语音参数分量(也可以称为单位语音参数),然后,基于在本
次语音的持续期间得到的语音参数分量,确定用户针对机器语音回复做出的本次语音时的语音参数。例如,将在本次语音的持续期间得到的语音参数分量进行累加或者平均,得到用户针对机器语音回复做出的本次语音时的语音参数。本公开实施例对由本次语音的持续期间对应的语音参数分量确定本次语音时的语音参数的具体方式不做限制。
82.基于本实施例,以音节为单位确定本次语音的持续期间各音节的语音参数分量,基于各音节的语音参数分量确定整个语音时的语音参数,对语音参数的确定更客观,有助于获得更准确整个语音的语音参数,从而准确确定用户做出本次语音时的情绪特征。
83.图4是本公开又一示例性实施例提供的在人机交互中对语音对话进行标注的方法的流程示意图。如图4所示,在上述图3所示实施例的基础上,步骤2022 可包括如下步骤:
84.步骤20221,获取用户针对机器语音回复做出本次语音时的人脸图像。
85.步骤20222,将上述人脸图像输入预先训练得到的第一神经网络,经第一神经网络输出该人脸图像对应的人脸表情。
86.在其中一些实施方式中,可以在用户针对机器语音回复做出本次语音时,通过视觉传感器(摄像头)采集用户做出本次语音时的人脸图像,并将该人脸图像输入一个预先训练好的第一神经网络,经该第一神经网络输出该人脸图像对应的人脸表情。例如,可以在音频采集设备(例如麦克风或麦克风阵列)采集到用户针对机器语音回复做出本次语音时,触发摄像头采集该用户此时的人脸图像并输入第一神经网络,然后,由该第一神经网络识别该人脸图像中的人脸表情并输出。
87.本公开实施例中,可以预先基于具有人脸表情标注信息的人脸图像样本训练得到第一神经网络,该第一神经网络训练完成后,可以识别输入的人脸图像对应的人脸表情。
88.基于本实施例,可以通过神经网络来快速、准确的识别人脸图像对应的人脸表情,提高人脸表情的识别效率和准确性,从而有助于准确确定用户做出本次语音时的情绪特征。
89.可选地,在其中一些实施方式中,在上述任一实施例的步骤203中,可以通过将上述情绪特征输入预先训练得到的第二神经网络,经该第二神经网络输出第一满意度。
90.本公开实施例中,可以预先基于具有满意度标注信息的情绪特征样本训练得到第二神经网络,该第二神经网络训练完成后,可以识别输入各情绪特征对应的满意度(即第一满意度)。
91.基于本实施例,可以通过神经网络来快速、准确的确定情绪特征对应的满意度,从而使得可以快速、准确、客观的确定用户针对机器语音回复的满意度。
92.可选地,在另一些实施方式中,在上述任一实施例的步骤203中,也可以通过确定语音参数对应的第一情绪分值,确定人脸表情对应的第二情绪分值,然后,按照预设方式,对第一情绪分值和第二情绪分值进行加权求和,得到第一满意度。
93.例如,可以通过预先训练得到的第三神经网络,确定语音参数对应的第一情绪分值;可以通过预先训练得到的第四神经网络,确定人脸表情对应的第二情绪分值;然后,通过a*p+b*q=s,对第一情绪分值和第二情绪分值进行加权求和,得到第一满意度。其中,a、b分别表示第一情绪分值和第二情绪分值的权重,取值分别大于0,a、b的具体取值可以预先设定,并可以根据实际需求更新;p、q 分别表述第一情绪分值和第二情绪分值,取值分别大于0;s表示第一满意度。
94.基于本实施例,可以分别确定语音参数对应的第一情绪分值、人脸表情对应的第二情绪分值,根据需求合理确定第一情绪分值和第二情绪分值的权重值,采用对第一情绪分值和第二情绪分值进行加权求和的方式来获得第一满意度,使得满意度的确定更符合实际需求。
95.可选地,在其中一些实施方式中,在上述任一实施例的步骤205中,可以基于上述第一满意度和至少一个第二满意度,确定多轮对话的综合满意度,然后,对该多轮对话标注综合满意度。
96.基于本实施例,可以综合考虑本次业务场景中各轮对话的满意度来确定用户对整个本次业务场景中机器语音回复的综合满意度,以便从整体上确定本次业务场景中人机交互系统对应的语义理解的准确度,实现了对多轮对话的自动标注,有助于提高人机交互系统的语料标注的准确性和效率。
97.可选地,在其中一些实施方式中,在上述任一实施例的步骤205之后,还可以对本轮对话标注第一满意度,从而实现对各轮对话满意度的标注,有助于在本次业务场景的人机结束时,基于本次业务场景中各轮对话满意度对本次业务场景中的各轮对话进行标注。
98.图5是本公开再一示例性实施例提供的在人机交互中对语音对话进行标注的方法的流程示意图。如图5所示,在上述图2所示实施例的基础上,步骤201可包括如下步骤:
99.步骤2011,对上述前一次语音进行语音识别,得到第一文字识别结果。
100.步骤2012,基于本轮对话之前的历史轮对话,对第一文字识别结果进行语义分析,得到第一语义分析结果。
101.步骤2013,根据第一语义分析结果获取回复内容。
102.步骤2014,将上述回复内容转换成语音,得到机器语音回复。
103.基于本实施例,通过对用户做出的前一次语音进行语音识别,得到第一文字识别结果,基于本轮对话之前的历史轮对话,对第一文字识别结果进行语义分析,得到第一语义分析结果,再根据第一语义分析结果获取回复内容,并将该回复内容转换成语音得到机器语音回复,结合历史轮对话对用户的前一次语音对应的第一文字识别结果进行语义分析,来获取机器语音回复,可以提高人机交互系统对用户语音的语义理解的准确度,可以准确理解用户的会话含义,从而可以输出准确的回复或者正确执行相关的任务,从而提高人机交互效果。
104.图6是本公开一示例性应用实施例的流程示意图。如图6所示,该应用实施例以在导航app中的应用场景为例,对本公开实施例的应用进行说明。该应用实施例包括如下步骤:
105.步骤301,用户发起第一次语音“abc商场”,请求导航至导航目的地abc 商场。
106.步骤302,麦克风阵列采集第一次语音“abc商场”的音频信号,该音频信号依次经前端信号处理、语音识别得到第一文本信息,输入人机交互系统。
107.步骤303,人机交互系统理解用户的会话含义,并在此基础上输出相应的第一机器语音回复“哪个abc商场?”。
108.上述第一次语音“abc商场”和第一机器语音回复“哪个abc商场?”作为一轮对话,可以称为第一轮对话。
109.步骤304,用户针对第一机器语音回复发出第二次语音“x地的abc商场”。
110.在用户发出该第二次语音“x地的abc商场”的过程中,同时执行步骤305 和306。
111.步骤305,麦克风阵列采集第二次语音“x地的abc商场”的音频信号,将该第二次语音的音频信号输入eps;同时,该音频信号依次经前端信号处理、语音识别得到第二文本信息,输入人机交互系统。
112.之后,执行步骤310。
113.步骤306,摄像头采集用户的人脸图像,并将该人脸图像输入eps。
114.步骤307,eps确定麦克风阵列采集到的第二次语音时的语音参数,包括音调和音量;并利用预先训练得到的第一神经网络识别该人脸图像对应的人脸表情。
115.步骤308,eps基于上述语音参数和人脸表情,确定用户发出第二次语音时的情绪特征。
116.步骤309,eps基于上述情绪特征,确定用户针对上述第一机器语音回复的第一满意度,该第一满意度对应于第一轮对话的满意度。
117.步骤310,人机交互系统理解用户的会话含义,并在此基础上输出相应的第二机器语音回复“是x地第一abc商场吗?”。
118.上述第二次语音“x地的abc商场”和第二机器语音回复“是x地第一abc 商场吗?”作为一轮对话,可以称为第二轮对话。
119.步骤311,用户针对第二机器语音回复发出第三次语音“笨!”。
120.在用户发出该第三次语音“笨!”的过程中,同时执行步骤312和313。
121.步骤312,麦克风阵列采集第三次语音“笨!”的音频信号,将该第三次语音的音频信号输入eps;同时,该音频信号依次经前端信号处理、语音识别得到第三文本信息,输入人机交互系统。
122.之后,执行步骤317。
123.步骤313,摄像头采集用户的人脸图像,并将该人脸图像输入eps。
124.步骤314,eps确定麦克风阵列采集到的第三次语音时的语音参数,包括音调和音量;并利用预先训练得到的第一神经网络识别该人脸图像对应的人脸表情。
125.步骤315,eps基于上述语音参数和人脸表情,确定用户发出第三次语音时的情绪特征。
126.步骤316,eps基于上述情绪特征,确定用户针对上述第二机器语音回复的第一满意度,该第一满意度对应于第二轮对话的满意度。
127.此时,第二轮对话即为本轮对话,第一轮对话变成本轮对话之前的历史轮对话,第一轮对话的满意度变成第二满意度。
128.步骤317,人机交互系统理解用户的会话含义,并在此基础上输出相应的第三机器语音回复“是x地第一abc商场吗?”。
129.上述第三次语音“x地的abc商场”和第三机器语音回复“是x地的d商场吗??”作为一轮对话,可以称为第三轮对话。
130.步骤318,用户针对第三机器语音回复发出第四次语音“对”。
131.之后,针对该第四次语音,执行上述步骤305

309或者步骤312

316的操作,得到用户针对第三机器语音回复的第一满意度。
132.步骤319,人机交互系统理解用户的会话含义,输出第四机器语音回复“好的”,并
在此基础上获取用户的当前位置作为起始位置,x地的d商场作为导航目的地,执行导航任务。
133.步骤320,麦克风阵列在预设时间内未采集到用户发出的语音,则eps在预设时间内未再次接收到音频信号和人脸图像,确认第四次语音为用户与人机交互系统之间的多轮对话中的结束语音,确定第一轮对话至第三轮对话对应的三个第二满意度。
134.步骤321,基于第四次语音对应的第一满意度和第一轮对话至第三轮对话对应的三个第二满意度,对上述四轮对话进行标注。
135.本公开实施例提供的任一种在人机交互中对语音对话进行标注的方法可以由任意适当的具有数据处理能力的设备执行,包括但不限于:终端设备和服务器等。或者,本公开实施例提供的任一种在人机交互中对语音对话进行标注的方法可以由处理器执行,如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种在人机交互中对语音对话进行标注的方法。下文不再赘述。
136.示例性装置
137.图7是本公开一示例性实施例提供的在人机交互中对语音对话进行标注的装置的结构示意图。该在人机交互中对语音对话进行标注的装置可以设置于车机、用户终端等电子设备中,执行本公开上述任一实施例在人机交互中对语音对话进行标注的方法。如图7所示,该实施例在人机交互中对语音对话进行标注的装置包括:第一确定模块401,第二确定模块402,第三确定模块403,第四确定模块 404和标注模块405。其中:
138.第一确定模块401,用于确定人机交互系统针对用户的前一次语音做出的机器语音回复。
139.第二确定模块402,用于确定所述用户针对机器语音回复做出的本次语音时的情绪特征。
140.第三确定模块403,用于基于情绪特征,确定用户针对机器语音回复的第一满意度。
141.第四确定模块404,用于若本次语音为多轮对话中的结束语音,确定多轮对话中位于本次语音所属的本轮对话之前的历史轮对话中,用户针对人机交互系统输出的机器语音回复的至少一个第二满意度,其中,一个机器语音回复对应用户的一次语音。
142.标注模块405,用于基于第一满意度和至少一个第二满意度,对多轮对话进行标注。
143.基于本实施例,通过确定人机交互系统针对用户的前一次语音做出的机器语音回复,并确定用户针对该机器语音回复做出的本次语音时的情绪特征,然后,基于该情绪特征确定用户针对该机器语音回复的第一满意度,若本次语音为多轮对话中的结束语音,确定多轮对话中位于本次语音所属的本轮对话之前的历史轮对话中,用户针对人机交互系统输出的机器语音回复的至少一个第二满意度,进而,基于第一满意度和至少一个第二满意度对多轮对话进行标注。本公开实施例通过用户针对机器语音回复做出的本次语音时的情绪特征来确定用户针对机器语音回复的满意度,基于用户与人机交互系统的多轮对话中用户针对各次机器语音回复的满意度来确定人机交互系统对应的语义理解的准确度,从而实现了对多轮对话的自动标注,提高了人机交互系统的语料标注的准确性和效率,有助于提高人机交互系统的语义理解的准确度,进而有助于提高人机交互系统针对用户会话的回复效
率和准确性、或者任务执行效率和准确性,从而提高人机交互效果。
144.图8是本公开另一示例性实施例提供的在人机交互中对语音对话进行标注的装置的结构示意图。如图8所示,在图7所示实施例的基础上,该实施例中,第二确定模块402可以包括:第一确定单元4021,用于确定用户针对机器语音回复做出的本次语音时的语音参数;第二确定单元4022,用于确定用户针对机器语音回复做出的本次语音时的人脸表情;第三确定单元4023,用于基于语音参数和人脸表情,确定用户针对机器语音回复做出的本次语音时的情绪特征。
145.可选地,在其中一些实施方式中,第一确定单元4021,具体用于:在检测到用户针对机器语音回复做出的本次语音的起始时间点开始,以音节为单位确定用户在本次语音中的每一个音节对应的语音参数分量;基于在本次语音的持续期间得到的语音参数分量,确定用户针对机器语音回复做出的本次语音时的语音参数。
146.可选地,再参见图8,在进一步示例性实施例中,第二确定模块402还可以包括:第一获取单元4024,用于获取用户针对机器语音回复做出本次语音时的人脸图像。相应地,该实施例中,第二确定单元4022,具体用于:将人脸图像输入预先训练得到的第一神经网络,经第一神经网络输出人脸图像对应的人脸表情。
147.可选地,在其中一些实施方式中,第三确定模块403,具体用于:将情绪特征输入预先训练得到的第二神经网络,经第二神经网络输出第一满意度。
148.可选地,再参见图8,在其中一些实施方式中,第三确定模块403可以包括:第三确定单元4031,用于确定语音参数对应的第一情绪分值;第四确定单元4032,用于确定人脸表情对应的第二情绪分值;加权处理单元4033,用于按照预设方式,对第一情绪分值和第二情绪分值进行加权求和,得到第一满意度。
149.可选地,再参见图8,在其中一些实施方式中,标注模块405可以包括:第五确定单元4051,用于基于第一满意度和至少一个第二满意度,确定多轮对话的综合满意度;标注单元4052,用于对多轮对话标注综合满意度。
150.可选地,再参见图8,在其中一些实施方式中,标注模块405,还可用于:对本轮对话标注第一满意度。
151.可选地,再参见图8,在其中一些实施方式中,第一确定模块401可以包括:语音识别单元4011,用于对前一次语音进行语音识别,得到第一文字识别结果;语义分析单元4012,用于基于历史轮对话,对第一文字识别结果进行语义分析,得到第一语义分析结果;第二获取单元4013,用于根据第一语义分析结果获取回复内容;转换单元4014,用于将回复内容转换成语音,得到机器语音回复。
152.示例性电子设备
153.下面,参考图9来描述根据本公开实施例的电子设备。该电子设备可以是第一设备和第二设备中的任一个或两者、或与它们独立的单机设备,该单机设备可以与第一设备和第二设备进行通信,以从它们接收所采集到的输入信号。
154.图9图示了根据本公开实施例的电子设备的框图。如图9所示,电子设备包括一个或多个处理器11和存储器12。
155.处理器11可以是中央处理单元(cpu)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备10中的其他组件以执行期望的功能。
156.存储器12可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(ram)和/或高速缓冲存储器 (cache)等。所述非易失性存储器例如可以包括只读存储器(rom)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器11可以运行所述程序指令,以实现上文所述的本公开的各个实施例的在人机交互中对语音对话进行标注的方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
157.在一个示例中,电子设备还可以包括:输入装置13和输出装置14,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
158.例如,在该电子设备是第一设备100或第二设备200时,该输入装置13可以是上述的麦克风或麦克风阵列,用于捕捉声源的输入信号。在该电子设备是单机设备时,该输入装置13可以是通信网络连接器,用于从第一设备和第二设备接收所采集的输入信号。
159.此外,该输入设备13还可以包括例如键盘、鼠标等等。
160.该输出装置14可以向外部输出各种信息,包括确定出的距离信息、方向信息等。该输出设备14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
161.当然,为了简化,图9中仅示出了该电子设备中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备还可以包括任何其他适当的组件。
162.示例性计算机程序产品和计算机可读存储介质
163.除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的在人机交互中对语音对话进行标注的方法中的步骤。
164.所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如java、c++等,还包括常规的过程式程序设计语言,诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
165.此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的在人机交互中对语音对话进行标注的方法中的步骤。
166.所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘
只读存储器 (cd

rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
167.以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
168.本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
169.本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
170.可能以许多方式来实现本公开的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
171.还需要指出的是,在本公开的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。
172.提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
173.为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。