人机交互方法、装置、设备以及存储介质与流程

1.本公开涉及计算机技术领域，具体涉及人工智能技术领域，尤其涉及人机交互方法、装置、设备以及存储介质。

背景技术：

2.目前智能电视上的语音基本存在两种交互模式，单轮交互和多轮交互。单轮交互，即一次唤醒，一次交互。多轮交互，即一次唤醒，多次交互。单轮交互需要每次唤起语音后才能进行语音拾音，多轮交互即使不需要每次激活语音，但在唤起语音后也只能支持有限的几次免唤醒多轮语音输入。在用户使用电视时，需要频繁地通过激活词来唤起语音，才能进行新的语音指令的输入，无法让用户无障碍、连续顺畅的通过语音操作电视。

技术实现要素：

3.本公开提供了一种人机交互方法、装置、设备以及存储介质。
4.根据第一方面，提供了一种人机交互方法，包括：响应于满足预设条件，在预设时长内监听用户的语音指令；对语音指令进行分析，确定是否为无效指令；响应于确定语音指令为无效指令，忽略语音指令，继续监听用户的语音指令。
5.根据第二方面，提供了一种人机交互装置，包括：指令监听单元，被配置成响应于满足预设条件，在预设时长内监听用户的语音指令；指令分析单元，被配置成对语音指令进行分析，确定是否为无效指令；持续监听单元，被配置成响应于确定语音指令为无效指令，忽略语音指令，继续监听用户的语音指令。
6.根据第三方面，提供了一种电子设备，包括：至少一个处理器；以及与上述至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，上述指令被至少一个处理器执行，以使至少一个处理器能够执行如第一方面所描述的方法。
7.根据第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，上述计算机指令用于使计算机执行如第一方面所描述的方法。
8.根据第五方面，一种计算机程序产品，包括计算机程序，上述计算机程序在被处理器执行时实现如第一方面所描述的方法。
9.根据本公开的技术可以在预设条件满足时，进入连续对话模式，避免用户在人机交互过程中的多次唤醒，提高人机交互的效率和用户体验。
10.应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
11.附图用于更好地理解本方案，不构成对本公开的限定。其中：
12.图1是本公开的一个实施例可以应用于其中的示例性系统架构图；
13.图2是根据本公开的人机交互方法的一个实施例的流程图；
14.图3是根据本公开的人机交互方法的一个应用场景的示意图；
15.图4是根据本公开的人机交互方法的另一个实施例的流程图；
16.图5是根据本公开的人机交互装置的一个实施例的结构示意图；
17.图6是用来实现本公开实施例的人机交互方法的电子设备的框图。
具体实施方式
18.以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。
19.需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
20.图1示出了可以应用本公开的人机交互方法或人机交互装置的实施例的示例性系统架构100。
21.如图1所示，系统架构100可以包括智能终端设备101、102、103，网络104和服务器105。网络104用以在智能终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。
22.用户可以使用智能终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。智能终端设备101、102、103上可以安装有各种通讯客户端应用，例如语音识别类应用、语音生成类应用等。智能终端设备101、102、103上还可以安装有图像采集装置、麦克风阵列、扬声器等。
23.智能终端设备101、102、103可以是硬件，也可以是软件。当智能终端设备101、102、103为硬件时，可以是各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、车载电脑、膝上型便携计算机和台式计算机等等。当智能终端设备101、102、103为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块。在此不做具体限定。
24.服务器105可以是提供各种服务的服务器，例如对智能终端设备101、102、103上提供支持的后台服务器。后台服务器可以向智能终端设备101、102、103提供语音处理模型，得到处理结果，并将处理结果反馈给智能终端设备101、102、103。
25.需要说明的是，服务器105可以是硬件，也可以是软件。当服务器105为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器105为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块。在此不做具体限定。
26.需要说明的是，本公开实施例所提供的人机交互方法一般由智能终端设备101、102、103执行。相应地，人机交互装置一般设置于智能终端设备101、102、103中。
27.应该理解，图1中的智能终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的智能终端设备、网络和服务器。
28.继续参考图2，其示出了根据本公开的人机交互方法的一个实施例的流程200。本实施例的人机交互方法，包括以下步骤：
29.步骤201，响应于满足预设条件，在预设时长内监听用户的语音指令。
30.本实施例中，人机交互方法的执行主体可以实时检测预设条件是否满足。这里，预设条件可以是指用于开启连续对话的条件，其可以包括但不限于：用户说出预设的关键词、当前所处的场景属于预设的场景集合。如果预设条件满足，则执行主体可以在预设时长内监听用户的语音指令。上述预设时长可以是技术人员根据实际应用场景设定的，例如可以是60秒。执行主体可以通过通讯连接的声音采集装置监听用户的语音指令。
31.步骤202，对语音指令进行分析，确定是否为无效指令。
32.本实施例中，执行主体如果在预设时长内监听到用户的语音指令，则可以判断语音指令是否为无效指令。具体的，执行主体首先可以确定语音指令的有效时长，如果有效时长小于预设的时长阈值，则认为语音指令为无效指令。这里，有效时长可以是只对语音指令进行vad(voice activity detection，语音端点检测)后，确定语音指令的起始点和结束点之间的时长。或者，执行主体还可以对语音指令进行语音识别，判断得到的文本是否为病句。如果是病句，则认为是无效指令。
33.步骤203，响应于确定语音指令为无效指令，忽略语音指令，继续监听用户的语音指令。
34.如果执行主体认定语音指令为无效指令，则可以忽略语音指令，并继续监听用户的语音指令。这里，可以继续在预设时长内监听，也可以从上次监听到有效指令起的预设时长内监听。
35.继续参见图3，其示出了根据本公开的人机交互方法的一个应用场景的示意图。在图3的应用场景中，用户通过智能电视搜索歌曲，智能电视认定当前满足预设条件，开启连续对话模式。智能电视自连续对话模式开启后60秒内监听用户的语音指令。用户说出“播放xxx的歌曲”。智能电视回复“好的，为您播放xxx的歌曲aa”。用户在上述歌曲的播放过程中，继续说出“声音大一点”。智能电视继续调高音量，并显示音量值。
36.本公开的上述实施例提供的人机交互方法，可以在预设条件满足时，进入连续对话模式，避免用户在人机交互过程中的多次唤醒，提高人机交互的效率和用户体验。
37.继续参见图4，其示出了根据本公开的人机交互方法的另一个实施例的流程400。如图4所示，本实施例的方法可以包括以下步骤：
38.步骤401a，响应于当前场景属于预设的场景集合，确定满足预设条件。
39.本实施例中，执行主体可以判断当前场景是否属于预设的场景集合。如果属于，则认为满足预设条件。这里，预设的场景集合中的场景可以包括但不限于：电视搜索、歌曲搜索、音量调节、有声内容搜索等。执行主体默认上述场景一般需要用户进行多轮交互才能实现最终内容的播放，所以默认在上述场景下开启连续对话模式。
40.步骤401b，响应于接收到用户发送的预设语音指令，确定满足预设条件。
41.本实施例中，执行主体还可以判断是否接收到用户发送的预设语音指令。如果执行主体接收到上述语音指令，则认定预设条件满足，可以进入连续对话模式。上述预设语音指令可以是用于开启连续对话的语音指令(例如可以是“开启连续对话模式”)，也可以是进入预设的场景集合中的各场景的语音指令(例如可以是“我要搜索电视剧”)。
42.步骤402，响应于满足预设条件，在预设时长内监听用户的语音指令。
43.步骤403，对语音指令进行意图识别，确定用户意图；响应于确定用户意图不属于
预设的意图集合，确定语音指令为无效指令。
44.本实施例中，执行主体可以对指令进行意图识别，确定用户意图。具体的，执行主体可以利用预先训练的意图识别模型，上述意图识别模型可以用于表征语音指令与用户意图的对应关系。上述意图识别模型可以是卷积神经网络等。执行主体在确定用户意图后，可以判断用户意图是否属于预设的意图集合。如果属于预设的意图集合，则认为语音指令属于有效指令。如果不属于预设的意图集合，则认为语音指令属于无效指令。这里，预设的意图集合可以是执行主体可以提供的各种服务对应的意图，可以包括但不限于：看电视剧、听歌、听相声、查天气等等。不属于意图集合的意图可以包括但不限于：闲聊意图、不明意图等等。
45.步骤404，响应于确定语音指令为无效指令，忽略语音指令，继续监听用户的语音指令。
46.步骤405，响应于确定语音指令为有效指令，输出响应信息。
47.本实施例中，如果执行主体确定上述语音指令为有效指令，则可以输出响应信息。上述响应信息可以包括图片、音频、视频、界面等等。执行主体可以将预先存储的语音作为响应信息，或者可以根据语音指令动态生成响应信息并输出。
48.在本实施例的一些可选的实现方式中，执行主体可以通过图4中未示出的以下步骤生成响应信息：从语音指令中提取出与回复模板中的槽位对应的词语；将词语填入槽位，得到回复文本；基于回复文本，生成以及输出响应信息。
49.本实现方式中，执行主体内部可以设置有回复模板。回复模板可以为“为你播放xxx的yyy，你可以语音切换或控制播放”。上述回复模板中“xxx”和“yyy”可以理解为槽位。执行主体可以首先对语音指令进行语音识别，得到对应的文本。然后，将上述文本输入到预先训练的模型中，确定槽位标签。然后，将上述槽位标签作为与槽位对应的词语。再将上述词语填入上述槽位中，得到回复文本。最后，基于回复文本，生成响应信息。具体的，执行主体可以生成回复文本的语音，也称语音合成。并将合成的语音作为响应信息。
50.语音识别的输入为一段时域的语音信号，用编码为向量表示，输出是对应的文本。一段音频输入后，在开始语音识别之前，有时需要把首尾端的静音切除，降低对后续步骤造成干扰，因此需要进行语音激活检测(vad)。通过语音激活检测，执行主体可以确定语音指令的起始点和结束点。然后，执行主体可以对起始点和结束点之间的语音进行数字化，并进行特征提取。这里先将音频数字化，获取梅尔频率倒谱系数(mfcc)语音特征。执行主体可以将获取到的mfcc语音特征输入到wavenet网络中进行处理。wavenet模型融合了dilated cnn、残差网络、ctc和lstm。其中，dilated cnn模型可以增加卷积核的感受野，利用更长距离的上下文信息。最后，利用解码器(decoder)解码，并输出最终的识别结果。
51.在意图识别和槽位检测时，执行主体可以利用slotrefine模型(来源于论文emnlp2020的一篇文章)进行意图检测以及槽位填充。该模型融合了意图检测和槽位(slot)填充两项任务，在意图理解上能够取得较优效果，并且在解码速度上优于现有的其他模型。
52.在进行语音合成时，执行主体可以利用clarinet模型。clarinet模型使用基于注意力机制(attention)的编码器
‑
解码器模块来学习文本字符与频谱帧之间的对齐关系。解码器的隐状态(hidden states)被送给bridge
‑
net来进行时序信息处理和升采样。最终bridge
‑
net的隐状态被送给音频波形生成模块(vocoder)，用来合成音频波形。最后音频波
形，输出响应文本对应的语音。clarinet打通了从文本到原始音频波形的端到端输出，实现了对整个tts系统的联合优化，比起其他模型，在语音合成的自然度上有大幅提升。另外，clarinet是全卷积模型，性能要优于其他基于rnn的模型。
53.在本实施例的一些可选的实现方式中，执行主体可以利用预先训练的意图识别模型对语音指令进行意图识别，以确定用户意图。
54.步骤406，响应于接收到针对响应信息的负向反馈信息，根据语音指令生成训练样本，再次训练意图识别模型。
55.本实施例中，如果执行主体接收到针对响应信息的负向反馈信息。则可以根据语音指令，生成训练样本，再次训练意图识别模型，以提高意图识别模型的准确度。上述负向反馈信息可以是用户说出的语音“返回”或者“错了”。执行主体可以通过对用户的反馈信息进行情绪分析，判断其中的情绪是正向的还是负向的。如果是负向的，则认定用户认定当前识别的意图不准确。也就是说，意图识别模型的输出结果不准确。这种情况下，执行主体可以根据语音指令生成训练样本，以再次训练意图识别模型。具体的，执行主体可以将语音指令和识别出的用户意图作为训练样本。
56.在本实施例的一些可选的实现方式中，执行主体可以通过图4中未示出的以下步骤生成训练样本，再次训练意图识别模型：将语音指令作为样本语音，将意图识别模型识别出的意图作为与样本语音对应的错误意图；根据样本语音以及错误意图作为负样本训练意图识别模型。
57.本实现方式中，执行主体可以将语音指令作为样本语音，将意图识别模型输出的用户意图作为与样本语音对应的错误意图。这样，就得到了负样本。在训练时，可以利用负样本对意图识别模型进行训练。
58.步骤407，响应于在预设时长内未监听到语音指令，进入休眠状态。
59.本实施例中，如果执行主体在预设时长内未监听到语音指令，可以认定当前用户不需要操作智能电视等智能设备，则执行主体可以进入休眠状态，或者结束连续对话模式。用户在需要操作智能电视等智能设备时，可以再次唤醒智能设备。
60.本公开的上述实施例提供的人机交互方法，可以在识别为有效指令时，及时响应。并在识别意图错误时，利用生成的负样本再次训练意图识别模型，提高准确度。还可以在用户未及时响应时，进入休眠状态，节省电能。
61.进一步参考图5，作为对上述各图所示方法的实现，本公开提供了一种人机交互装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。
62.如图5所示，本实施例的人机交互装置500包括：指令监听单元501、指令分析单元502和持续监听单元503。
63.指令监听单元501，被配置成响应于满足预设条件，在预设时长内监听用户的语音指令。
64.指令分析单元502，被配置成对语音指令进行分析，确定是否为无效指令。
65.持续监听单元503，被配置成响应于确定语音指令为无效指令，忽略语音指令，继续监听用户的语音指令。
66.在本实施例的一些可选的实现方式中，装置500还可以进一步包括图5中未示出的
条件判断单元，被配置成：响应于当前场景属于预设的场景集合，确定满足预设条件。
67.在本实施例的一些可选的实现方式中，装置500还可以进一步包括图5中未示出的条件判断单元，被配置成：响应于接收到用户发送的预设语音指令，确定满足预设条件。
68.在本实施例的一些可选的实现方式中，指令分析单元502可以进一步被配置成：对语音指令进行意图识别，确定用户意图；响应于确定用户意图不属于预设的意图集合，确定语音指令为无效指令。
69.在本实施例的一些可选的实现方式中，装置500还可以进一步包括图5中未示出的响应输出单元，被配置成：响应于确定语音指令为有效指令，输出响应信息。
70.在本实施例的一些可选的实现方式中，响应输出单元进一步被配置成：从语音指令中提取出与回复模板中的槽位对应的词语；将词语填入槽位，得到回复文本；基于回复文本，生成以及输出响应信息。
71.在本实施例的一些可选的实现方式中，指令分析单元502可以进一步被配置成：利用预先训练的意图识别模型对语音指令进行意图识别，确定用户意图。相应地，装置500还可以进一步包括图5中未示出的模型训练单元，被配置成：响应于接收到针对响应信息的负向反馈信息，根据语音指令生成训练样本，再次训练意图识别模型。
72.在本实施例的一些可选的实现方式中，模型训练单元进一步被配置成：将语音指令作为样本语音，将意图识别模型识别出的意图作为与样本语音对应的错误意图；根据样本语音以及错误意图作为负样本训练意图识别模型。
73.在本实施例的一些可选的实现方式中，装置500还可以进一步包括图5中未示出的休眠单元，被配置成：响应于在预设时长内未监听到语音指令，进入休眠状态。
74.应当理解，人机交互装置500中记载的单元501至单元503分别与参考图2中描述的方法中的各个步骤相对应。由此，上文针对人机交互方法描述的操作和特征同样适用于装置500及其中包含的单元，在此不再赘述。
75.本公开的技术方案中，所涉及的用户个人信息的获取、存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。
76.根据本公开的实施例，本公开还提供了还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
77.图6示出了根据本公开实施例的执行人机交互方法的电子设备600的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。
78.如图6所示，电子设备600包括处理器601，其可以根据存储在只读存储器(rom)602中的计算机程序或者从存储器608加载到随机访问存储器(ram)603中的计算机程序，来执行各种适当的动作和处理。在ram603中，还可存储电子设备600操作所需的各种程序和数据。处理器601、rom 602以及ram 603通过总线604彼此相连。i/o接口(输入/输出接口)605也连接至总线604。
79.电子设备600中的多个部件连接至i/o接口605，包括：输入单元606，例如键盘、鼠
标等；输出单元607，例如各种类型的显示器、扬声器等；存储器608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许电子设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
80.处理器601可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器601的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。处理器601执行上文所描述的各个方法和处理，例如人机交互方法。例如，在一些实施例中，人机交互方法可被实现为计算机软件程序，其被有形地包含于机器可读存储介质，例如存储器608。在一些实施例中，计算机程序的部分或者全部可以经由rom 602和/或通信单元609而被载入和/或安装到电子设备600上。当计算机程序加载到ram603并由处理器601执行时，可以执行上文描述的人机交互方法的一个或多个步骤。备选地，在其他实施例中，处理器601可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行人机交互方法。
81.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
82.用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。上述程序代码可以封装成计算机程序产品。这些程序代码或计算机程序产品可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器601执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
83.在本公开的上下文中，机器可读存储介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读存储介质可以是机器可读信号存储介质或机器可读存储介质。机器可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd
‑
rom)、光学存储设备、磁存储设备、或上述内容的任何合适组合。
84.为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，crt(阴极射线管)或者lcd(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的
反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
85.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(lan)、广域网(wan)和互联网。
86.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端
‑
服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与vps服务(“virtual private server”，或简称“vps”)中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以是分布式系统的服务器，或者是结合了区块链的服务器。
87.应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开的技术方案所期望的结果，本文在此不进行限制。
88.上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开的保护范围之内。