首页 > 乐器声学 专利正文
语音交互方法、装置及设备与流程

时间:2022-02-24 阅读: 作者:专利查询

语音交互方法、装置及设备与流程

1.本公开涉及语音交互领域,特别是涉及一种语音交互方法、装置及设备。


背景技术:

2.语音交互属于人机交互的范畴,是人机交互发展到目前一种较为前沿的交互方式。语音交互就是用户通过自然语言给机器下指令,以达成自己的目的的过程。目前的语音交互方案主要考虑的是如何提高语音识别的准确率,而忽视了语音交互的本质是为用户提供便利,使得现有的语音交互方案对用户并不友好。
3.以智能音箱为例,智能音箱作为家庭智能伴侣,音乐播放功能使用比较频繁,在家庭成员比较多的情况下,如何在为特定家庭成员提供音频播放功能的同时,使其他不想听音乐的家庭成员能够享受声音免打扰服务,是目前语音交互方案所欠缺的。


技术实现要素:

4.本公开要解决的一个技术问题是提供一种能够提高用户私密性语音交互体验的语音交互方案。
5.根据本公开的第一个方面,提出了一种语音交互方法,包括:确定音频接收区域;将音频输出调制到第一声波和第二声波,第一声波和第二声波的频率均超过可听频率范围,并且第一声波的频率和第二声波的频率的差值在可听频率范围之内;向音频接收区域所在方向发射第一声波和第二声波。
6.根据本公开的第二个方面,还提出了一种语音交互方法,包括:将目标用户所在区域作为第一音频接收区域;将针对第一内容的音频输出调制到第一声波和第二声波,所述第一声波和所述第二声波的频率均超过可听频率范围,并且所述第一声波的频率和所述第二声波的频率的差值在所述可听频率范围之内;向所述第一音频接收区域所在方向发射所述第一声波和所述第二声波;响应于输出音频切换为针对第二内容的音频输出,将偏离所述目标用户的区域作为第二音频接收区域;将针对所述第二内容的音频输出调制到第三声波和第四声波,所述第三声波和所述第四声波的频率均超过可听频率范围,并且所述第三声波的频率和所述第四声波的频率的差值在所述可听频率范围之内;向所述第二音频接收区域所在方向发射所述第三声波和所述第四声波。
7.根据本公开的第三个方面,还提出了一种语音交互装置,包括:确定模块,用于确定音频接收区域;调制模块,用于将音频输出调制到第一声波和第二声波,第一声波和第二声波的频率均超过可听频率范围,并且第一声波的频率和第二声波的频率的差值在可听频率范围之内;发射模块,用于向音频接收区域所在方向发射第一声波和第二声波。
8.根据本公开的第四个方面,还提出了一种语音交互装置,包括:第一确定模块,用于将目标用户所在区域作为第一音频接收区域;第一调制模块,用于将针对第一内容的音频输出调制到第一声波和第二声波,所述第一声波和所述第二声波的频率均超过可听频率范围,并且所述第一声波的频率和所述第二声波的频率的差值在所述可听频率范围之内;
第一发射模块,用于向所述第一音频接收区域所在方向发射所述第一声波和所述第二声波;第二确定模块,用于响应于输出音频切换为针对第二内容的音频输出,将偏离所述目标用户的区域作为第二音频接收区域;第二调制模块,用于将针对所述第二内容的音频输出调制到第三声波和第四声波,所述第三声波和所述第四声波的频率均超过可听频率范围,并且所述第三声波的频率和所述第四声波的频率的差值在所述可听频率范围之内;第二发射模块,用于向所述第二音频接收区域所在方向发射所述第三声波和所述第四声波。
9.根据本公开的第五个方面,还提出了一种语音交互设备,包括:麦克风和/或摄像头,麦克风用于采集音频输入,摄像头用于对周围环境进行拍摄以得到周围环境的图像信息;扬声器;以及处理器,用于根据音频输入和/或图像信息确定音频接收区域,将音频输出调制到第一声波和第二声波,第一声波和所述第二声波的频率均超过可听频率范围,并且第一声波的频率和第二声波的频率的差值在可听频率范围之内,并控制扬声器向音频接收区域所在方向发射第一声波和第二声波。
10.根据本公开的第六个方面,还提出了一种计算设备,包括:处理器;以及存储器,其上存储有可执行代码,当可执行代码被处理器执行时,使处理器执行如上述第一方面或第二方面所述的方法。
11.根据本公开的第七个方面,还提出了一种非暂时性机器可读存储介质,其上存储有可执行代码,当可执行代码被电子设备的处理器执行时,使处理器执行如上述第一方面或第二方面所述的方法。
12.由此,本公开借助音频定向传播技术可以使语音交互设备发出的音频信号只被音频接收区域内的目标用户听到,在为目标用户提供语音交互服务的同时,使其他用户免受声音打扰,同时还可以增强用户私密性语音交互体验。
附图说明
13.通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。
14.图1示出了根据本公开一个实施例的语音交互方法的原理示意图。
15.图2示出了根据本公开一个实施例的语音交互设备的结构的示意图。
16.图3示出了语音交互设备中的扬声器的一种结构示意图。
17.图4示出了对音乐信号进行定向传播的示意性流程图。
18.图5示出了根据本公开另一个实施例的语音交互方法的原理示意图。
19.图6示出了根据本公开一个实施例的语音交互装置的结构框图。
20.图7示出了根据本公开一个实施例的计算设备的结构框图。
具体实施方式
21.下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
22.本公开提出,可以利用音频定向传播技术使语音交互设备发出的音频信号只在一定角度、一定区域可被用户听到,以在为目标用户提供语音交互服务的同时,使其他用户免受声音打扰,同时还可以增强用户私密性语音交互体验。其中,音频定向传播技术是指声音以波束形式在一定方向空气中传播的新声源技术,可以是但不限于基于超声的声频定向传播技术。
23.图1示出了根据本公开一个实施例的语音交互方法的原理示意图。本公开的语音交互方法可以由但不限于智能音箱、智能电视执行。
24.参见图1,以语音交互设备为智能音箱,采用基于超声的声频定向传播技术为例,智能音箱可以向目标用户所在的音频接收区域发射频率超过可听频率范围的超声波f1和超声波f2,超声波f1和超声波f2可以被配置为频率之差(即f
1-
f2)在可听频率范围之内。
25.在空气介质的非线性作用下,这些信号会发生交互作用和解耦,进而产生频率为原超声频率之和(和频)与频率之差(差频)的新声波。其中,频率之差的新声波为可听声波,可听声波落在音频接收区域,可被目标用户听到,而处于音频接收区域之外的其他用户则听不到。
26.图2示出了根据本公开一个实施例的语音交互设备的结构的示意图。其中,语音交互设备200可以是但不限于智能音箱、智能电视、智能手机、车辆、交通信号灯等具备发音功能的设备。
27.参见图2,语音交互设备200可以包括麦克风210和/或摄像头220、处理器230以及扬声器240。
28.麦克风210也即拾音器,用于采集音频输入,音频输入中可以包括发音人的语音输入以及环境噪音。摄像头220用于对周围环境进行拍摄以得到图像信息,摄像头220拍摄得到的图像信息中可以包括一个或多个用户。
29.处理器230可以根据麦克风210采集到的音频输入确定音频接收区域,也可以根据摄像头220采集到的图像信息确定音频接收区域。
30.1、基于音频输入确定音频接收区域
31.音频接收区域,也即目标用户所在区域。目标用户是指需要收听语音交互设备发出的音频输出的用户。
32.作为本公开的一个示例,处理器230可以根据麦克风210采集到的音频输入(如语音输入)计算声源位置,如麦克风210可以是由多个麦克风组成的麦克风阵列,可以根据多个麦克风采集到的音频输入中语音输入的信号强度的差异来计算声源位置。然后基于声源位置确定音频接收区域,如可以将声源位置作为音频接收区域。由此,目标用户可以是指发音人。
33.作为本公开的另一个示例,用户也可以发出用于指示音频接收区域的语音输入,此时处理器230可以对麦克风210采集到的语音输入进行语义识别,根据语音输入的语义识别结果,确定音频接收区域。由此,音频接收区域可以由用户指定,也即目标用户可以由发音人指定,如此用户可以利用语音交互设备实现传音入耳的语音交互效果。举例来说,假如用户a希望将歌曲《沙漠骆驼》单独分享给同一场景中的用户b,那么用户a可以根据用户b与语音交互设备之间的相对位置关系,发出诸如“向左前方播放歌曲《沙漠骆驼》”的语音指令,语音交互设备在接收到该语音指令后,可以根据语音识别结果确定音频接收区域为设
备的左前方,然后可以利用音频定向传播技术向左前方发射相应的声波信号,以使得歌曲《沙漠骆驼》仅能够被用户b收听。
34.可选地,处理器230还可以根据麦克风采集到的音频输入(如语音输入)确定音频输出。例如,处理器230可以识别语音输入,根据识别结果确定适于向用户反馈的音频输出。再例如,处理器230也可以将麦克风采集到的音频输入上传至服务器,接收服务器反馈的音频输出。
35.为了提升私密性语音交互体验的门槛,增强用户的语音交互体验,处理器230还可以基于音频输入中的语音输入判断当前用户是否具备语音交互权限,如可以根据语音输入识别当前用户的身份,根据识别结果判断当前用户是否为已注册用户。如果为已注册用户,则执行本公开的语音交互方法,为用户提供私密性语音交互体验,如果不为已注册用户,则不做任何处理,或者按照正常语音交互方式输出能够被全方位收听的语音。
36.2、基于图像信息确定音频接收区域
37.摄像头采集到的图像信息可以是包括目标用户在内的图像信息。处理器230可以基于图像信息,确定目标用户与设备之间的相对位置关系。如处理器230可以基于摄像头的拍摄参数、目标用户在图像信息中的位置及大小,确定目标用户与设备之间的相对位置关系。在得到目标用户与设备之间的相对位置关系后,即可确定音频接收区域,音频接收区域也即目标用户所在区域。
38.摄像头采集到的图像信息中可能存在一个或多个用户。处理器230可以利用生物特征识别技术(如人脸识别技术)识别图像信息中各个用户的身份信息;基于识别出的用户的身份信息,将符合预设条件的用户作为目标用户;然后基于图像信息,确定目标用户与设备之间的相对位置关系;如此基于所确定的相对位置关系即可确定音频接收区域。其中,预设条件可以是但不限于与用户年龄相关的判断条件、与音频输出相关的判断条件。例如,预设条件可以是用户是否成年、用户是否属于当前音频输出所针对的受众等等。
39.以语音交互设备为智能音箱为例,摄像头采集到的图像信息中可以包括父母、老人、孩童等家庭成员,处理器230在识别出图像信息中各个用户的身份信息后,可以将成人(如父母、老人)作为目标用户,而将儿童排除在外,然后计算目标用户与智能音箱之间的相对位置关系,基于计算得到的相对位置关系即可确定音频接收区域。由此,在音频定向传输技术的作用下,可以使得智能音箱仅向家庭成员内的成人所在区域输出音频。
40.再例如,处理器230在识别出图像信息中各个用户的身份信息后,还可以根据音频输出的内容,确定音频输出所针对的受众(如成年男性、成年女性、学生等等),将身份符合该受众的用户作为目标用户,而将身份不符合该受众的用户排除在外,然后计算目标用户与智能音箱之间的相对位置关系,基于计算得到的相对位置关系即可确定音频接收区域。由此,在音频定向传输技术的作用下,可以使得智能音箱仅向适于收听该音频内容的用户输出音频。
41.处理器230可以包括dsp芯片(数字信号处理芯片)。处理器230可以基于非线性超声调制将音频输出调制到第一声波和第二声波,第一声波和第二声波的频率均超过可听频率范围,并且第一声波的频率和第二声波的频率的差值在可听频率范围之内。可听频率范围可以是指人耳能够听到的声音频率范围,即20hz至2000hz。
42.音频输出是指向用户输出的音频内容,可以是但不限于音乐、向用户反馈的语音
指令。音频输出可以是可听声音信号,处理器230可以利用特定算法,选取合适的超声波频段,以将音频输出调制到第一声波和第二声波之上。其中,第一声波、第二声波也即超声载波信号。
43.扬声器240为语音交互设备200的音频输出装置。处理器230可以控制扬声器240向音频接收区域所在方向发射第一声波和第二声波,音频接收区域也即期望收听音频的目标用户所在区域。作为示例,扬声器240可以是搭载了超声换能器的喇叭,在将可听声音信号调制到超声载波信号之上后,可以经过算法控制的喇叭形成超声波束,并由超声换能器发射到空气中。
44.语音交互设备200可以包括由多个放音方向不同的扬声器240组成的扬声器阵列。即,语音交互设备200可以包括多个放音方向不同的音频输出装置。在调制完成后,处理器230可以从扬声器阵列中选择放音方向指向音频接收区域的扬声器,并控制该扬声器发射第一声波和第二声波。
45.如图3所示,扬声器240可以设计为矩阵喇叭模组。其中,矩阵喇叭模组可以携带用于执行本公开语音交互方法涉及的算法部分的dsp芯片。
46.语音交互设备200也可以仅包括一个扬声器240。其中,扬声器240可以设置为可移动结构。在调制完成后,处理器240可以根据音频接收区域控制扬声器240进行移动,以使得移动后的扬声器240的放音方向指向音频接收区域。
47.如图4所示,以语音交互设备输出音乐信号为例,可以将音乐信号调制到超声载波信号(对应于上文述及的第一声波、第二声波)之上,经过算法控制的矩阵喇叭形成超声波束,并由超声换能器发射到空气中,不同频率的超声波在空气中传播的过程中,由于空气的非线性声学效应,这些信号会发生交互作用和自解调,进而产生频率为原超声频率之和(和频)与频率之差(差频)的新声波;通过算法的校正,系统自动选取合适的超声波频段,生成可落在可听声区域的差频声波。这些差频音乐信号只在一定角度、一定区域可以听到,从而增加用户的私密性体验度。
48.图5示出了根据本公开另一个实施例的语音交互方法的原理示意图。本公开的语音交互方法可以由但不限于智能音箱、智能电视等语音交互设备执行。
49.在本实施例中,对于语音交互设备输出的目标用户感兴趣的音频信号(如音乐),可以利用音频定向传播技术向目标用户所在区域发送,使得该音频信号只被目标用户收听。对于语音交互设备输出的目标用户不感兴趣的音频信号(如广告),则可以利用音频定向传播技术向偏离目标用户的区域发送,使得该音频信号不被目标用户收听。
50.作为示例,可以将目标用户所在区域作为第一音频接收区域;将针对第一内容的音频输出调制到第一声波和第二声波,第一声波和第二声波的频率均超过可听频率范围,并且第一声波的频率和第二声波的频率的差值在可听频率范围之内;向第一音频接收区域所在方向发射第一声波和第二声波。第一内容为用户感兴趣的内容,如可以是但不限于音乐、小说、相声、小品等音频作品。
51.响应于输出音频切换为针对第二内容的音频输出,将偏离目标用户的区域作为第二音频接收区域;将针对第二内容的音频输出调制到第三声波和第四声波,第三声波和第四声波的频率均超过可听频率范围,并且第三声波的频率和第四声波的频率的差值在可听频率范围之内;向第二音频接收区域所在方向发射第三声波和第四声波。第二内容为用户
不感兴趣的内容,如可以是广告。
52.响应于输出音频重新切换为针对第一内容的音频输出,可以重新将目标用户所在区域作为第一音频接收区域,并按照上述方式向第一音频接收区域所在方向发射针对第一内容的第一声波和第二声波。
53.如图5所示,智能音箱在输出音乐信号时,可以将音乐信号调制到频率超过可听频率范围的超声波f1和超声波f2,并向目标用户所在区域发射超声波f1和超声波f2,超声波f1和超声波f2可以被配置为频率之差(如f
1-
f2)在可听频率范围之内。在空气介质的非线性作用下,频率之差的新声波为可听声波,可听声波可以落在目标用户所在的区域,被目标用户听到。
54.智能音箱在输出广告信号时,可以将广告信号调制到频率超过可听频率范围的超声波f3和超声波f4,并向偏离目标用户的区域发射超声波f3和超声波f4,超声波f3和超声波f4可以被配置为频率之差(如f
3-
f4)在可听频率范围之内。在空气介质的非线性作用下,频率之差的新声波为可听声波,可听声波落在偏离目标用户的区域,无法被目标用户听到。
55.由此,用户在利用语音交互设备收听音乐、小品、评书等音频作品的过程中,不仅可以在不戴耳机的情况下实现私密性音频收听体验,还可以屏蔽音频作品播过程中穿插的广告。
56.本公开的语音交互方法,还可以实现为一种语音交互装置。图6示出了根据本公开示例性实施例的语音交互装置的结构框图。其中,语音交互装置的功能单元可以由实现本发明原理的硬件、软件或硬件和软件的结合来实现。本领域技术人员可以理解的是,图6所描述的功能单元可以组合起来或者划分成子单元,从而实现上述发明的原理。因此,本文的描述可以支持对本文描述的功能单元的任何可能的组合、或者划分、或者更进一步的限定。
57.下面就语音交互装置可以具有的功能单元以及各功能单元可以执行的操作做简要说明,对于其中涉及的细节部分可以参见上文相关描述,这里不再赘述。
58.参见图6,语音交互装置600包括确定模块610、调制模块620和发射模块630。
59.确定模块610用于确定音频接收区域。调制模块620用于将音频输出调制到第一声波和第二声波,第一声波和第二声波的频率均超过可听频率范围,并且第一声波的频率和第二声波的频率的差值在所述可听频率范围之内。发射模块630用于向音频接收区域所在方向发射第一声波和第二声波。
60.语音交互装置600还可以包括音频接收模块。音频接收模块用于接收语音输入,确定模块610可以根据语音输入确定音频接收区域。例如,确定模块610可以根据语音输入,计算声源位置,基于声源位置确定音频接收区域。或者确定模块610也可以利用语音识别技术识别语音输入,根据语音输入的语义识别结果确定音频接收区域。可选地,确定模块610还可以用于根据语音输入确定音频输出。
61.语音交互装置600还可以包括图像采集模块。图像采集模块可以用于采集周围环境的图像信息。确定模块610可以识别图像信息中各个用户的身份信息;基于识别出的用户的身份信息,将符合预设条件的用户作为目标用户;基于图像信息,确定目标用户与设备之间的相对位置关系;基于相对位置关系确定音频接收区域。
62.语音交互装置600还可以包括可移动的音频输出装置,语音交互装置500还可以包括控制器,用于根据音频接收区域移动音频输出装置,以使得移动后的音频输出装置的放
音方向指向音频接收区域。
63.语音交互装置600还可以包括多个放音方向不同的音频输出装置,以及切换装置。切换装置可以从多个音频输出装置中选择放音方向指向音频接收区域的音频输出装置发射第一声波和第二声波。
64.作为示例,确定模块610可以将目标用户所在区域作为第一音频接收区域;调制模块620可以将针对第一内容的音频输出调制到第一声波和第二声波,第一声波和第二声波的频率均超过可听频率范围,并且第一声波的频率和第二声波的频率的差值在可听频率范围之内;发射模块630可以向第一音频接收区域所在方向发射第一声波和第二声波。响应于输出音频切换为针对第二内容的音频输出,确定模块610将偏离目标用户的区域作为第二音频接收区域;调制模块620将针对第二内容的音频输出调制到第三声波和第四声波,第三声波和第四声波的频率均超过可听频率范围,并且第三声波的频率和第四声波的频率的差值在可听频率范围之内;发射模块630向第二音频接收区域所在方向发射第三声波和第四声波。
65.图7示出了根据本公开一实施例可用于实现上述语音交互方法的计算设备的结构示意图。
66.参见图7,计算设备700包括存储器710和处理器720。
67.处理器720可以是一个多核的处理器,也可以包含多个处理器。在一些实施例中,处理器720可以包含一个通用的主处理器以及一个或多个特殊的协处理器,例如图形处理器(gpu)、数字信号处理器(dsp)等等。在一些实施例中,处理器720可以使用定制的电路实现,例如特定用途集成电路(asic,application specific integrated circuit)或者现场可编程逻辑门阵列(fpga,field programmable gate arrays)。
68.存储器710可以包括各种类型的存储单元,例如系统内存、只读存储器(rom),和永久存储装置。其中,rom可以存储处理器720或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中,永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中,永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备,例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外,存储器710可以包括任意计算机可读存储媒介的组合,包括各种类型的半导体存储芯片(dram,sram,sdram,闪存,可编程只读存储器),磁盘和/或光盘也可以采用。在一些实施方式中,存储器710可以包括可读和/或写的可移除的存储设备,例如激光唱片(cd)、只读数字多功能光盘(例如dvd-rom,双层dvd-rom)、只读蓝光光盘、超密度光盘、闪存卡(例如sd卡、min sd卡、micro-sd卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。
69.存储器710上存储有可执行代码,当可执行代码被处理器720处理时,可以使处理器720执行上文述及的语音交互方法。
70.上文中已经参考附图详细描述了根据本公开的语音交互方法、装置及设备。
71.此外,根据本公开的方法还可以实现为一种计算机程序或计算机程序产品,该计算机程序或计算机程序产品包括用于执行本公开的上述方法中限定的上述各步骤的计算
机程序代码指令。
72.或者,本公开还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质),其上存储有可执行代码(或计算机程序、或计算机指令代码),当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时,使所述处理器执行根据本公开的上述方法的各个步骤。
73.本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。
74.附图中的流程图和框图显示了根据本公开的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
75.以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。