1.本公开涉及人机交互领域,尤其涉及一种语音交互方法、设备和系统。
背景技术:2.随着语音识别技术和无线网络的发展,诸如智能音箱等具备语音交互功能的设备得到普及。在这些具有语音交互功能的设备中,专门的语音交互设备(诸如,智能音箱)通常需要使用唤醒词进入开启状态,并录入音频加以识别与反馈。而对于非专门语音交互设备(诸如,智能手机、车载系统、智能家电等),则通常需要用户进行专门的操作(例如,点击物理或虚拟按键),才能够进入开启状态。
3.无论上述的何种唤醒方式,由于每次使用都需要重复的唤醒操作(例如,说出唤醒词或是点击交互按钮),因此会让使用者觉得操作繁琐且无趣。进一步地,由于开启后关闭麦克风的时间固定,或是需要用户等待一个相当长的静默期,因此有可能收录比如其他人说话声的不相关声音,或是无谓增加用户等待时间。
4.为此,需要一种更为智能地收录语音交互信息的方案。
技术实现要素:5.本公开要解决的一个技术问题是提供一种语音交互方案,该方案能够通过人工智能基于收集的图像信息,或者是优选的音画信息,判定用户的交互意图,并据此进行交互信息的智能收录。
6.根据本公开的第一个方面,提供了一种语音交互方法,包括:开启摄像头获取图像信息,同时开启麦克风获取声音信息;将获取的所述图像信息和所述声音信息输入交互判定模型;以及基于所述交互判定模型的输出,使用麦克风获取用于语音交互的声音信息。
7.根据本公开的第二个方面,提供了一种语音交互方法,包括:判定有人接近并获取图像信息;将所述图像信息输入交互判定模型;以及基于所述交互判定模型的输出,获取声音信息用于语音交互。
8.根据本公开的第三个方面,提供了一种语音交互方法,包括:获取图像信息;将所述图像信息输入交互判定模型;基于所述交互判定模型的输出,获取声音信息用于语音交互。
9.根据本公开的第四个方面,提供了一种语音交互方法,包括:获取多模态信息,所述多模态信息包括同时获取的至少两路信息;将所述多模态信息输入交互判定模型;以及基于所述交互判定模型的输出,获取声音信息用于语音交互。
10.根据本公开的第五个方面,提供了一种语音交互设备,包括:摄像头,用于获取图像信息,麦克风,用于获取声音信息,处理器,用于:将所述摄像头获取的图像信息输入交互判定模型;基于所述交互判定模型的输出,经由所述麦克风获取用于语音交互的声音信息。
11.根据本公开的第六个方面,提供了一种语音交互系统,包括:根据如上第四方面所述的语音交互设备;以及与所述语音交互设备通信的计算节点,所述计算节点存储有所述
模型,并为所述语音交互设备提供模型输出。
12.根据本公开的第七个方面,提供了一种语音交互模型训练方法,包括:使用说话的人的图像作为正标签,不说话的人的图像作为负标签训练交互判定模型,使得所述交互判定模型基于录制开始阈值和录制结束阈值,根据输入的图像信息判定用于语音交互的声音信息的录制开始和录制接收时刻。
13.根据本公开的第八个方面,提供了一种计算设备,包括:处理器;以及存储器,其上存储有可执行代码,当可执行代码被处理器执行时,使处理器执行如上述第一方面至第四方面所述的方法。
14.根据本公开的第九个方面,提供了一种非暂时性机器可读存储介质,其上存储有可执行代码,当可执行代码被电子设备的处理器执行时,使处理器执行如上述第一方面至第四方面所述的方法。
15.由此,本发明的语音交互方案能够通过人工智能基于图像信息,或者是优选的音画信息,判定用户的交互意图,并据此直接进行交互信息的智能收录。具体地,可以使用交互判定模型来进行录制开始和结束时间的判定,可以进一步使用意图识别模型动态调整交互判定模型的录制开始和结束判定阈值,还可以使用动态阈值模型进行基于动态学习的阈值调整。由此,能够在免于说出唤醒词或是免于开启语音功能的操作的情况下,实现自然直接的语音交互。
附图说明
16.通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。
17.图1示出了根据本发明一个实施例的语音交互方法的示意性流程图。
18.图2示出了根据本发明的交互判定模型的判定例。
19.图3示出了根据本发明的意图识别模型的识别例。
20.图4示出了根据本发明的动态阈值模型的输出例。
21.图5示出了根据本发明的多模态自调节录入系统的三模型交互例。
22.图6示出了根据本发明另一个实施例的语音交互方法的示意性流程图。
23.图7示出了根据本发明另一个实施例的语音交互方法的示意性流程图。
24.图8示出了根据本发明一个实施例的语音交互设备的组成框图。
25.图9示出了根据本发明一个实施例可用于实现上述语音交互方法的计算设备的结构示意图。
具体实施方式
26.下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
27.随着语音识别技术和无线网络的发展,诸如智能音箱等具备语音交互功能的设备
得到普及。在这些具有语音交互功能的设备中,专门的语音交互设备(诸如,智能音箱)通常需要使用唤醒词进入开启状态,并录入音频加以识别与反馈。而对于非专门语音交互设备(诸如,智能手机、车载系统、智能家电等),则通常需要用户进行专门的操作(例如,点击物理或虚拟按键),才能够进入开启状态。
28.无论上述的何种唤醒方式,由于每次使用都需要重复的唤醒操作(例如,说出唤醒词或是点击交互按钮),因此会让使用者觉得操作繁琐且无趣。进一步地,由于开启后关闭麦克风的时间固定,或是需要用户等待一个相当长的静默期,因此有可能收录比如其他人说话声的不相关声音,或是无谓增加用户等待时间。
29.为此,本技术提供一种语音交互方案,该方案能够通过人工智能基于图像信息,或者是优选的音画信息,判定用户的交互意图,并据此直接进行交互信息的智能收录。具体地,可以使用交互判定模型来进行录制开始和结束时间的判定,可以进一步使用意图识别模型动态调整交互判定模型的录制开始和结束判定阈值,还可以使用动态阈值模型进行基于动态学习的阈值调整。由此,能够在免于说出唤醒词或是免于开启语音功能的操作的情况下,实现自然直接的语音交互。
30.图1示出了根据本发明一个实施例的语音交互方法的示意性流程图。该方法可以由语音交互设备,尤其是包括图像获取功能(例如,配备有摄像头)的语音交互设备执行。
31.在步骤s110,开启摄像头获取图像信息,同时开启麦克风获取声音信息。在步骤s120,将获取的所述图像信息和所述声音信息输入交互判定模型。随后,在步骤s130,基于所述交互判定模型的输出,使用麦克风获取用于语音交互的声音信息。
32.由此,利用经训练的模型对包括图像和声音信息的多模态数据进行处理,能够直接基于模型的输出结果来开启对用户交互信息的采集,从而避免对用户额外说出唤醒词或是手动开启语音交互功能的需要。
33.例如,语音交互设备可以按照预订间隔开启摄像头和麦克风以获取音画信息,或是可以在接近传感器或是其他机构通知有人接近的情况下开启摄像头和麦克风以获取音画信息。上述音画信息被实时送入交互判定模型,交互判定模型可以根据输入的音画信息进行处理判定,例如在判定人脸朝向设备并且准备开口说话时(例如,输入的图像帧被判定为人在说话,并且输入的音频帧同样被判定为人在说话,或是准备说话),开启对用于交互的声音信息的获取。随后,摄像头和麦克风获取的音画信息可被继续送入该交互判定模型,并且基于该模型的输出来确定声音信息获取的结束时间。由此获取的一段音频信息(例如,从开启用于交互声音的获取到结束获取之间录制的音频信息)可以在本地或交由服务器或是边缘计算节点进行语义解析并基于处理结果给出反馈。
34.上述交互判定模型可以包括或是实现为有监督学习的深度神经网络模型。具体地,训练该深度神经网络模型的正标签包括说话的人的图像,负标签包括不说话的人的图像。由此,使得经过训练的所述交互判定模型在后续进行推理时,可以基于获取的图像表征人在说话而开启用于交互的录音。
35.可以理解的是,为了动态确定收音的结束时刻,可以在使用麦克风获取用于语音交互的声音信息的同时,使用摄像头继续获取图像信息。由此方便基于所述交互判定模型的输出,确定使用麦克风录制用于语音交互的声音信息的录制开始时间和/或录制结束时间。例如,在时刻t0(例如,第0秒),摄像头和麦克风开始采集图像和声音信息,并将上述信
息持续送入交互判定模型。在时刻t1(例如,第1秒),交互判定模型判定用户有交互意图(例如,基于该t1时刻获取的用户打算说话的图像帧,以及带有人声的音频帧),则可以基于该交互判定模型的输出,开始获取声音信息用户语音交互。在时刻t2(例如,第12秒),交互判定模型判定用户交互意图结束(例如,基于该t2时刻获取的用户转头的图像帧,以及不带人声的音频帧),则可以结束获取声音信息用户语音交互。
36.换句话说,在从时刻t0到时刻t2的12秒的时间内,摄像头和麦克风始终采集图像和声音信息,并将上述信息持续送入交互判定模型。而在判定用户具有交互意图的时间段(即,从时刻t1到时刻t2的11秒的时间内),麦克风采集的声音信息还可以复用做用于语音交互的声音信息。例如,语音交互设备可以在本机处理或上传上述11秒的声音信息,对上述声音进行自然语言处理(nlp),提取语义、分析意图并给出相应的反馈。针对上述11秒的声音信息,可以分段传输,分段处理,也可以等录制结束后进行一次性的传输和处理。
37.具体地,交互判定模型的判定可以基于阈值进行。具体地,交互判定模型可以基于当前的图像信息和所述声音信息输入,在输出满足录制开始时间阈值时开始录制和/或在输出满足录制结束阈值时束录制。
38.图2示出了根据本发明的交互判定模型的判定例。如图2所述,例如由语音交互设备所配备的摄像头和麦克风所采集的音画数据,例如,带有音频信息的视频帧(如图所示的包括人脸的图像),可以分别作为图像序列(例如,图像帧序列)和音频(例如,音频帧)输入本发明的交互判定模型。上述交互判定模型可以基于输入的图像和音频来计算记录开始分值,并在开始分值大于阈值1(录制开始阈值)时,开始进行用于语音交互的音视频记录。在开始记录的过程中,该交互判定模型可以持续获取图像和音频,并计算记录结束分值。当计算得到的记录结束分值大于阈值2(录制结束阈值)时,则停止用于语音交互的音视频记录。
39.在此,应该理解的是,虽然示出了能够基于音画输入计算开始分值和结束分值两者的一个交互判定模型,在其他实施例中,也可以利用不同的模型或是模型中的不同子模型来分别计算开始分值和结束分值。另外,在不同的实施例中,上述阈值可以是固定阈值,基于经验调整的阈值,也可以是如下基于其他模型的输出进行动态自调节的阈值。
40.由于使用了图像和声音两种模态信息,并且例如只有当声音(在说话)和图像(嘴巴开始动的时候)同时被触发时,且存在大致的语音频率,语义上的相似性时,才会开启录音功能。当两种模态中的一种不满足时,收音系统会自动关闭,由此能够准确判断用户的交互意图,允许用户在无需进行额外操作(例如,说出唤醒词或是手动开启语音交互功能)的情况下进行语音交互,同时避免了大量无意义的视频声音被收录。
41.另外,为了提升对用户交互意图的准确判断,本发明的语音交互方案还可以进一步引入其他模型,来增强该方案应对不同环境和使用者状态的能力。
42.为此,在一个实施例中,所述语音交互方法还可以包括将获取的所述声音信息输入意图识别模型,并基于所述意图识别模型的输出调整所述录制开始时间阈值和/或录制结束阈值的取值。意图识别模型可以根据输入的声音信息来识别使用者的意图,并在例如判断使用者有与语音设备进行交互的意图时调低录制开始阈值,并在例如背景音嘈杂的情况下更改录制结束阈值等。在此,应该明确的是,在不同的实施例中,可以是阈值越高,需要满足的开始和结束条件越高,也可以是阈值越低,需要满足的开始和结束条件越高。本发明对阈值的方向不做限制。例如,在意图识别模型根据声音判断环境嘈杂时,可以调高录音开
始阈值,并且交互判断模型需要在接收到更为明确的交互音画数据时才开始录音,并基于更为明确的结束意图音画数据时才结束录音。例如,意图识别模型还可以对输入声音信息的语义进行识别,并在语义与交互无关时调高录音开始阈值。
43.在一个优选实施例中,意图识别模型还可以包括图像输入,由此基于多模态的声音图像联合信息,进行意图判定。例如,用户虽然语义判定上具有交互意图,但图像判定用户正在打电话,此时仍然应该调高录音开始阈值。
44.图3示出了根据本发明的意图识别模型的识别例。如图所示,意图识别模型同样可以采用图像序列和音频作为输入,并且输出相应的特征向量(embedding1),上述向量可以与数据库中的已有特征向量(embedding2)进行比较,例如,送入情境相关函数来判定两个向量的关联性,例如,基于cosin(embedding1,embedding2)来判定向量的相关性,并且基于计算的结果输出“是”和“否”。在此,例如可以使用噪音强度、噪音频率、人的行为或是姿态等作为标签来对意图识别模型进行训练。在后续推理阶段,输入的图像和音频可以经由意图识别模型的处理而作为具有多个维度的特征向量(embedding1)进行输出,上述向量可以与数据库中存储的用于表示意图的一个或多个情境特征向量(embedding2)进行比较以判定相关性。
45.在此,如果输出“是”,可以表示用户具有交互意图,并且据此调低交互判定模型的阈值,由此,可以使得交互判定模型更容易判定用户想要交互。如果输出“否”,则可表示用户不具备交互意图(虽然可能交互判定模型看来用户具有意图),并据此调高交互判定模型的阈值。
46.虽然可以直接基于意图识别模型的输出来进行阈值调整,但在优选实施例中,还可以引入第三个模型,即,动态阈值模型。该模型可以获取所述意图识别模型的输出,动态调整所述录制开始阈值和/或所述录制结束阈值的取值。
47.图4示出了根据本发明的动态阈值模型的输出例。如图所示,本发明中的动态阈值模型可以是强化学习模型。
48.机器学习是人工智能的一个重要的研究领域,根据是否从系统中获得反馈,可以把机器学习分为有监督、无监督和强化学习三大类。有监督学习也称有导师学习,给定系统一组输入时,需要给定一组对应的输出,系统在一种已知输入-输出数据集的环境中学习。本发明的交互判定模型和意图识别模型都可以通过有监督学习实现。
49.与监督学习相反的是无监督学习,也称无导师学习。无监督学习中,只需要给定一组输出,不需要给定对应的输出,系统自动根据给定输入的内部结构来进行学习。有监督和无监督的机器学习模式可以解决绝大多数的机器学习问题,但这两种机器学习模式同人类学习、生物进化的过程有很大的不同。生物的进化是一种主动对环境进行试探,并根据试探后,环境反馈回来的结果进行评价、总结,以改进和调整自身的行为,然后环境会根据新的行为做出新的反馈,持续调整的学习过程。体现这一思想的学习模式在机器学习领域称为强化学习(reinforcement learning,rl),又可称为增强学习。因此,强化学习是一种同有监督学习、无监督学习并列的机器学习模式。
50.整个强化学习系统由智能体(agent)、状态(state)、奖赏(reward)、动作(action)和环境(environment)五部分组成。
51.智能体(agent)是整个强化学习系统核心。它能够感知环境的状态(state),并且
根据环境提供的强化信号(reward si),通过学习选择一个合适的动作(action),来最大化长期的reward值。简而言之,agent就是根据环境提供的reward作为反馈,学习一系列的环境状态(state)到动作(action)的映射,动作选择的原则是最大化未来累积的reward的概率。选择的动作不仅影响当前时刻的reward,还会影响下一时刻甚至未来的reward,因此,agent在学习过程中的基本规则是:如果某个动作(action)带来了环境的正回报(reward),那么这一动作会被加强,反之则会逐渐削弱,类似于物理学中条件反射原理。
52.在本发明中,用作动态阈值模型的所述强化学习模型采用图像信息、声音信息和所述说话意图的识别结果作为输入(状态),并基于用于语音交互获取的声音信息的正确与否(奖赏),实时调整作为行为的所述录制开始阈值和/或所述录制结束阈值的取值(行动)。如图4所示,动态阈值模型可以具有n个行为,以对应于不同的录制开始和结束阈值取值。动态阈值模型可以基于当前输入的图像和音频数据,以及意图识别模型输出的意图输出(例如,对应于有意图和没意图的“是”或“否”)来给出相应的一组取值,上述取值给到交互判定模型,并据此获取用于进行交互的语音数据。随后,上述语音数据的交互顺畅与否用于评价上述行为的选取正确性,并实时修改阈值的选取,甚至是行为本身。
53.图5示出了根据本发明的多模态自调节录入系统的三模型交互例。
54.本系统由三个大模块组成,分别是三个模型:交互判定模型、动态阈值模型、意图识别模型,这三个模块都优选采用摄像头和麦克风获取的图像和声音数据作为输入。
55.交互判定模型是整个系统的最主要模块,通过同时对图像和声音进行特征的提取以及融合,确定开始时间和结束时间,从而都得一个音频片段(也可以优选为音视频片段)的输出。在这其中,开始时间和结束时间是对于一段音视频中,使用者说话开始和停止的时间点,并且可以以视频段的形式存储。开始时间和结束时间的输出通过两个阈值参数录制开始阈值和录制结束阈值来决定。当交互判定模型输出的开始时间分值大于录制开始阈值,就从此刻开始输出。同理当交互判定模型输出的结束时间分值大于录制结束阈值,就从此刻结束输出。
56.动态阈值模型是一个参数调节模块,通过同时输入图像和声音以及意图识别模型的输出(比如噪音的强度,噪音的频率,人使用时的状态等等),输出的是阈值参数:参数录制开始阈值和录制结束阈值。这两个参数用于交互判定模型是否需要输出开始时间和结束时间这两个参数,从而决定是否需要保存音视频片段。
57.意图识别模型是一个内容/意图相关模块。通过对图像声音的同时输入(比如声音中含有的语义,图像中使用者是否有长时间注视屏幕等等信息),判断当前使用者是否有对设备进行有意识的操作。如果判断有,则输出“是”,没有则输出“否”。
58.由于我们使用了图像和声音两种模态信息,因此只有当声音(在说话)和图像(嘴巴开始动的时候)同时被触发,且存在大致的语音频率,语义上的相似性时,才会开启录音功能。当两种模态中的一种不满足时,收音系统会自动关闭,从而在方便用户在无需额外操作(例如,说出唤醒词或是点击语音交互按钮等)的同时,避免了大量无意义的视频声音被收录。
59.另外,通过加入意图识别模型以及动态阈值调节模型,使得能够根据环境的变化以及使用者当时的状态而动态调整模型参数。
60.比如环境噪音很大时,设备会由于环境的影响从而很容易被误唤醒,此时动态阈
值模型会自动的增加交互判定模型被激活的阈值,从而增加交互判定模型被唤醒录制视频的难度。而当使用者在打电话时,意图识别模型通过使用者拿着电话和说话里的声音语义判断使用者此时没有在操控设备,从而把不相关性的结果传给动态阈值模型,让交互判定模型的阈值增加的更大,从而更加增加交互判定模型的唤醒难度。这种框架的自调节设计保证了设备可以在当使用者真正想用设备时被充分激活,同时尽量的减少环境(背景音等)的干扰从而增加误触发录音的概率。
61.在本发明的语音交互方法中,还可以包括对图像信息进行至少部分的模糊化处理的步骤。由此,使得无法从经由模糊化处理的图像信息中提取出完整的用户人脸信息,从而保护个人隐私。例如,可以模糊化对判定用户交互意图无意义的部分,例如鼻子和耳朵部分,也可以利用算法对图像整体进行模糊化,但保留能够对用户意图进行判定的信息。
62.在一个实施例中,可以在摄像头获取图像的步骤,就直接进行图像模糊化处理。在另一个实施例中,可以在将图像信息送入模型之前进行模糊化处理。在其他实施例中,可以对送入云上的信息进行模糊化处理,并且在必要时删除本地的图像信息。
63.如上结合图1-5描述了根据本发明的一种语音交互方法及其优选实现。图6示出了根据本发明另一个实施例的语音交互方法的示意性流程图。
64.在步骤s610,判定有人接近并获取图像信息。在步骤s620,将所述图像信息输入交互判定模型。在步骤s630,基于所述交互判定模型的输出,获取声音信息用于语音交互。
65.在此,向交互判定模型输入数据可以是基于用户接近语音交互设备而做出的。在不同的实施例中,可以基于不同的机制来判断有人接近。例如,摄像头可以不定期的开启,以获取图像信息,并基于诸如关键点提取技术等的较为简单的计算识别出人脸。在其他实施例中,还可以基于联网单元接收接近信息。例如,家庭物联网中基于其他设备的接近信息来进行判定。还可以使用接近传感器来感测接近。上述接近传感器可以安装在语音交互设备上,也可以是能够与语音设备通信的物联网设备。
66.在识别出人脸后,可以点亮屏幕并显示交互内容。在显示交互内容时,获取用于输入所述交互判定模型的图像信息。例如,语音交互设备可以基于关键点提取技术判定有人接近。此时,设备的显示屏(例如,触摸屏)可以自动点亮,并将获取到图像信息输入交互判定模型。此时,只要该交互判定模型从图像上判定用户有开口说话的意图,或是正在望向屏幕的方向,就可以开启用于语音交互的录音。为此,可以使用说话的人的图像作为正标签训练所述交互判定模型;和/或使用望向拍摄方向的人的图像作为正标签训练所述交互判定模型。
67.在此,交互判定模型可以仅利用图像信息进行判定。在优选实施例中,也可以如上所述采用多模态信息(例如,还包括音频信息)进行判定。另外,该实施例也可以利用意图识别模型和/或动态阈值模型,由此对用户意图进行更为精准的判定。
68.图7示出了根据本发明另一个实施例的语音交互方法的示意性流程图。该方法相比于在前的语音交互方法,有着更为广泛的应用场景。
69.在步骤s710,获取图像信息。在步骤s720,将所述图像信息输入交互判定模型。在步骤s730,基于所述交互判定模型的输出,获取声音信息用于语音交互。由此,使用经训练的深度学习模型,基于输入图像判定录音。进一步地,该方法还包括:在获取图像信息的同时获取声音信息;以及将所述声音信息输入所述交互判定模型。由此,深度模型可以基于图
像和声音联合判定录音的开始和结束。
70.在一个实施例中,基于交互判定模型的输出,获取声音信息用于语音交互可以包括:在所述交互判定模型的输出大于录制开始阈值的情况下,录制声音信息用于语音交互。进一步地,可以在所述交互判定模型的输出大于录制结束阈值的情况下,结束录制用于语音交互的声音信息。由此,通过引入阈值,调节录制开启和结束所需满足的条件。
71.在一个实施例中,还可以基于对说话意图的识别,调整所述录制开始阈值和/或所述录制结束阈值的取值。上述意图识别可由机器学习模型实现,为此对说话意图的识别包括:将获取的所述声音信息输入意图识别模型;以及获取所述意图识别模型的输出。相应地,基于对说话意图的识别,调整所述录制开始阈值和/或所述录制结束阈值的取值包括:在识别出有意识的交互操作时,调低所述录制开始阈值和/或所述录制结束阈值。进一步地,可以引入第三个模型,动态阈值模型,该模型可以获取针对所述说话意图的识别结果,动态调整所述录制开始阈值和/或所述录制结束阈值的取值。
72.另外,除了基于所述交互判定模型的输出,在获取用于语音交互的声音信息之外,还可以获取图像信息,以帮助提升交互准确度,或是用于判定录音结束时间。
73.本发明的语音交互方案还可以实现为一种语音交互设备。图8示出了根据本发明一个实施例的语音交互设备的组成框图。设备800可以包括摄像头810、麦克风820和处理器830。
74.摄像头810用于获取图像信息,麦克风820用于获取声音信息,处理器830可以用于将摄像头810获取的图像信息输入交互判定模型;并且基于所述交互判定模型的输出,经由所述麦克风820获取用于语音交互的声音信息。
75.处理器830可以控制摄像头和麦克风的开启和关闭,例如,开启麦克风并将所述麦克风获取的声音信息输入所述交互判定模型。
76.在不同实施例中,上述模型可以是本地存储,或是联网存储,或是两者兼而有之的。为此,该设备还可以包括:联网单元,用于发送获取的图像信息和/或声音信息,并接收针对所述图像信息和/或声音信息的处理结果。由此,可以利用例如存储在云端服务器、边缘计算设备或是其他中心计算节点的模型进行例如录制开始和结束的判定。作为替换或者补充,该设备还可以包括存储单元,用于存储对获取的图像信息和/或声音信息进行处理的模型。
77.进一步地,该设备还可以包括:屏幕,用于与用户进行交互。例如,可以包括触摸屏,并在判定用户接近时点亮。例如,显示一个小人与用户打招呼,并在后续交互判定模型判定用户望向屏幕时开启录音。
78.进一步地,该设备还可以包括:语音输出单元,用于输出所述语音交互的语音反馈。该语音输出单元可以包括扬声器或是有线或是无线连接的耳机或是音箱等。
79.该设备还可以包括用于判定有人接近的接近判定单元。在不同的实现中,所述接近判定单元可以包括:所述摄像头,用于开启摄像头获取图像信息,并基于关键点提取技术识别出人脸;联网单元,用于接收接近信息;接近传感器,用于感测有人接近。
80.本发明的语音交互设备尤其可以实现为一种智能音箱,例如,带屏幕和摄像头的智能音箱。该智能音箱可以实现如上描述的语音交互方法,已实行无需唤醒词启动的语音交互,在用户位于智能音箱前并准备开口说话时判定用户的交互意图,并进行相应的信息
录制。
81.结合上述语音交互设备,本发明还可以包括一种语音交互系统,该系统可以包括如上所述的语音交互设备;以及与所述语音交互设备通信的计算节点,所述计算节点存储有所述模型,并为所述语音交互设备提供模型输出。
82.在不同的实现中,计算节点可以具有不同的身份。例如,在该语音交互系统是本地实现的物联网系统时,该计算节点可以是本地的计算节点,例如,作为物联网中心节点的智能音箱,或是商用条件下具备更高性能的计算设备。此时,该物联网系统中,除了连接语音交互设备、中心计算节点之外,还可以连接其他物联网设备。各设备之间可以进行信息共享,以满足其中一个或多个设备执行本发明的语音交互方法的需求。
83.在一个更大范围的实现中,该计算节点可以是边缘计算设备。该边缘计算设备可以支持更大范围网络,例如,一个工业园区的网络,一个校园网等,并作为该网络内各语音交互设备中上述模型的存储和处理服务器。
84.在一个更大范围的实现中,该计算节点可以是位于云端的服务器。该服务器可以为海量的语音交互设备提供如上基于用户意图识别的语音交互服务。
85.计算节点可以后续获取用于语音交互的声音信息;生成并下发所述语音交互的反馈。
86.本发明还可以实现为一种语音交互模型训练方法,包括:使用说话的人的图像作为正标签,不说话的人的图像作为负标签训练交互判定模型,使得所述交互判定模型基于录制开始阈值和录制结束阈值,根据输入的图像信息判定用于语音交互的声音信息的录制开始和录制接收时刻。
87.进一步地,还可以使用声音信息(优选地,包括图像信息)训练意图识别模型,其中,可以基于所述意图识别模型的输出,动态调节所述录制开始阈值和录制结束阈值。
88.进一步地,还可以构造作为强化学习模型的动态阈值模型,所述强化学习模型采用图像信息、声音信息和所述说话意图的识别结果作为输入,并基于用于语音交互获取的声音信息的正确与否,实时调整作为行为的所述录制开始阈值和/或所述录制结束阈值的取值。
89.图9示出了根据本发明一个实施例可用于实现上述语音交互方法的计算设备的结构示意图。
90.参见图9,计算设备900包括存储器910和处理器920。
91.处理器920可以是一个多核的处理器,也可以包含多个处理器。在一些实施例中,处理器920可以包含一个通用的主处理器以及一个或多个特殊的协处理器,例如图形处理器(gpu)、数字信号处理器(dsp)等等。在一些实施例中,处理器920可以使用定制的电路实现,例如特定用途集成电路(asic,application specific integrated circuit)或者现场可编程逻辑门阵列(fpga,field programmable gate arrays)。
92.存储器910可以包括各种类型的存储单元,例如系统内存、只读存储器(rom),和永久存储装置。其中,rom可以存储处理器920或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中,永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中,永久性存
储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备,例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外,存储器910可以包括任意计算机可读存储媒介的组合,包括各种类型的半导体存储芯片(dram,sram,sdram,闪存,可编程只读存储器),磁盘和/或光盘也可以采用。在一些实施方式中,存储器910可以包括可读和/或写的可移除的存储设备,例如激光唱片(cd)、只读数字多功能光盘(例如dvd-rom,双层dvd-rom)、只读蓝光光盘、超密度光盘、闪存卡(例如sd卡、min sd卡、micro-sd卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。
93.存储器910上存储有可执行代码,当可执行代码被处理器920处理时,可以使处理器920执行上文述及的语音交互方法。
94.上文中已经参考附图详细描述了根据本发明的语音交互方案。本发明的语音交互方案能够通过人工智能基于图像信息,或者是优选的音画信息,判定用户的交互意图,并据此直接进行交互信息的智能收录。具体地,可以使用交互判定模型来进行录制开始和结束时间的判定,可以进一步使用意图识别模型动态调整交互判定模型的录制开始和结束判定阈值,还可以使用动态阈值模型进行基于动态学习的阈值调整。由此,能够在免于说出唤醒词或是免于开启语音功能的操作的情况下,实现自然直接的语音交互。通过使用图像和声音两个模态完成视频录制过程,并且设计动态阈值模型和意图识别模型,可以让录制过程更加个性化和智能化。
95.在一个更为广义的实现中,本发明可以利用音画信息之外的其他信息组合,即多模态信息来确定用户的交互意图。于是,本发明可以实现为一种语音交互方法,包括:获取多模态信息,所述多模态信息包括同时获取的至少两路信息;将所述多模态信息输入交互判定模型;以及基于所述交互判定模型的输出,获取声音信息用于语音交互。
96.在一个实施例中,所述多模态信息中的一路信息包括获取的声音信息。在另一个实施例中,所述多模态信息中的一路信息包括经由传感器获取的用户状态信息。例如,可以利用如上所述的音画信息进行模型意图判断,也可以利用诸如用户佩戴的设备(例如,智能手表)所获取的位置信息,联合声音信息进行判断。在其他实施例中,也可以利用其他能够获取反映用户交流意图的传感器来进行模型判断。
97.此外,根据本发明的方法还可以实现为一种计算机程序或计算机程序产品,该计算机程序或计算机程序产品包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。
98.或者,本发明还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质),其上存储有可执行代码(或计算机程序、或计算机指令代码),当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时,使所述处理器执行根据本发明的上述方法的各个步骤。
99.本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。
100.附图中的流程图和框图显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的
逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
101.以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。