首页 > 乐器声学 专利正文
信息交互方法和信息交互装置与流程

时间:2022-02-20 阅读: 作者:专利查询

信息交互方法和信息交互装置与流程

1.本公开涉及人机交互和音频技术领域,尤其涉及一种利用用户声音的声学特征来执行信息交互的方法和装置。


背景技术:

2.随着音视频技术的发展,基于图像的检测和识别技术已被充分利用到各种相机拍照和视频录制场景中,这些技术一方面提升了拍摄图像的质量,例如对检测出的人脸部分进行有针对性的美化,另一方面也为用户提供了更加丰富的图像或视频创作空间,例如给检测出的眼睛戴上虚拟墨镜等。此外,一些短视频和直播应用为用户提供了生动形象且有趣的魔法表情功能,用户不仅可以拍摄动态的视频表情,还可以与多种多样的虚拟形象互动或参与人机交互小游戏。然而,这些人机交互方式都只使用了基于图像的技术,没有充分利用采集到的音频数据。
3.另外,使用类似于智能音箱或者智能语音助手的语音识别来进行人机交互,其中,可分为传统语音识别和基于深度学习的语音识别,传统语音识别的声学模型基于高斯混合模型,而深度学习方法的声学模型基于神经网络,通过把语音信息转换为文字指令以进行人机交互。然而,无论是传统语音识别还是深度学习语音识别,都需要依赖一个先验语音数据集,根据该数据集训练出一个识别模型,这样的技术面临高成本和高复杂度的问题。


技术实现要素:

4.本公开提供一种信息交互方法和信息交互装置,以至少解决上述问题。本公开的技术方案如下:
5.根据本公开实施例的第一方面,提供一种信息交互方法。所述信息交互方法可包括以下步骤:获取用户的人声信号;通过对所述人声信号进行特征提取以得到所述人声信号的声学信息,其中,所述声学信息包括用户声音的音色、音调和响度中的至少一个;基于所述声学信息来控制与用户进行交互的电子设备的交互操作。
6.可选地,基于所述声学信息来控制与用户进行交互的电子设备的交互操作的步骤可包括:基于所述声学信息中的音色来标识用户的身份信息;并且基于标识的用户的身份信息生成控制命令并且根据控制命令来调用所述电子设备中的特定控件。
7.可选地,基于所述声学信息来控制与用户进行交互的电子设备的交互操作的步骤可包括:基于所述声学信息中的音调和响度中的至少一个生成控制命令并且根据控制命令来控制所述电子设备中的特定控件的状态和移动方位中的至少一个。
8.可选地,所述特定控件可包括虚拟人物控件和动画画风控件中的至少一个。
9.可选地,获取用户的人声信号的步骤可包括:采集音频信号,其中,所述音频信号包括所述人声信号、噪声信号和背景音乐信号;通过对所述音频信号进行回声消除处理和噪声消除处理来获得所述人声信号。
10.可选地,通过对所述音频信号进行回声消除处理和噪声消除处理来获得所述人声
信号的步骤可包括:以所述背景音乐信号作为参考信号对所述音频信号进行回声消除以得到消除背景音乐的音频信号;
11.对所述消除背景音乐的音频信号进行噪声消除处理以得到所述人声信号。
12.可选地,基于所述声学信息中的音色来标识用户的身份信息的步骤可包括:计算所述人声信号的基频和共振峰;根据所述基频来标识用户的性别信息并且根据所述共振峰来标识用户的年龄信息。
13.可选地,通过对所述人声信号进行特征提取以得到所述人声信号的声学信息的步骤可包括:计算所述人声信号的音调数值来得到用户声音的音调;对所述人声信号进行平滑处理并且利用平滑处理后的人声信号来得到用户声音的响度。
14.根据本公开实施例的第二方面,提供一种信息交互装置。所述信息交互装置可包括:音频处理模块,被配置为获取用户的人声信号,并且通过对所述人声信号进行特征提取以得到所述人声信号的声学信息,其中,所述声学信息包括用户声音的音色、音调和响度中的至少一个;控制模块,被配置为基于所述声学信息来控制与用户进行交互的电子设备的交互操作。
15.可选地,控制模块可被配置为:基于所述声学信息中的音色来标识用户的身份信息;并且基于标识的用户的身份信息生成控制命令并且根据控制命令来调用所述电子设备中的特定控件。
16.可选地,控制模块可被配置为:基于所述声学信息中的音调和响度中的至少一个生成控制命令并且根据控制命令来控制所述电子设备中的特定控件的状态和移动方位中的至少一个。
17.可选地,所述特定控件可包括虚拟人物控件和动画画风控件中的至少一个。
18.可选地,音频处理模块可被配置为:采集音频信号,其中,所述音频信号包括所述人声信号、噪声信号和背景音乐信号;通过对所述音频信号进行回声消除处理和噪声消除处理来获得所述人声信号。
19.可选地,音频处理模块可被配置为:以所述背景音乐信号作为参考信号对所述音频信号进行回声消除以得到消除背景音乐的音频信号;对所述消除背景音乐的音频信号进行噪声消除处理以得到所述人声信号。
20.可选地,音频处理模块可被配置为:计算所述人声信号的基频和共振峰;根据所述基频来标识用户的性别信息并且根据所述共振峰来标识用户的年龄信息。
21.可选地,音频处理模块可被配置为:计算所述人声信号的音调数值来得到用户声音的音调;对所述人声信号进行平滑处理并且利用平滑处理后的人声信号来得到用户声音的响度。
22.根据本公开实施例的第三方面,提供一种电子设备,所述电子设备可包括:至少一个处理器;至少一个存储计算机可执行指令的存储器,其中,所述计算机可执行指令在被所述至少一个处理器运行时,促使所述至少一个处理器执行如上所述的信息交互方法。
23.根据本公开实施例的第四方面,提供一种存储指令的计算机可读存储介质,当所述指令被至少一个处理器运行时,促使所述至少一个处理器执行如上所述的信息交互方法。
24.根据本公开实施例的第五方面,提供一种计算机程序产品,所述计算机程序产品
中的指令被电子装置中的至少一个处理器运行以执行如上所述的信息交互方法。
25.本公开的实施例提供的技术方案至少带来以下有益效果:
26.对人声信号利用音色识别、音调检测和响度检测技术来获取用户的身份信息、音调信息和响度信息,利用识别出的信息生成人机交互控制命令来构建人机交互场景应用,不仅提高了用户体验,而且降低了时间成本和实现人机交互的复杂度。
27.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
28.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
29.图1是根据一示例性实施例示出的一种信息交互方法的流程图。
30.图2是根据一示例性实施例示出的一种信息交互方法的流程示意图。
31.图3是根据一示例性实施例示出的一种信息交互装置的框图。
32.图4是根据一示例性实施例示出的一种电子设备的框图。
33.图5是根据一示例性实施例示出的一种信息交互设备的结构示意图。
具体实施方式
34.为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
35.提供参照附图的以下描述以帮助对由权利要求及其等同物限定的本公开的实施例的全面理解。包括各种特定细节以帮助理解,但这些细节仅被视为是示例性的。因此,本领域的普通技术人员将认识到在不脱离本公开的范围和精神的情况下,可对描述于此的实施例进行各种改变和修改。此外,为了清楚和简洁,省略对公知的功能和结构的描述。
36.以下描述和权利要求中使用的术语和词语不限于书面含义,而仅由发明人用来实现本公开的清楚且一致的理解。因此,本领域的技术人员应清楚,本公开的各种实施例的以下描述仅被提供用于说明目的而不用于限制由权利要求及其等同物限定的本公开的目的。
37.需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
38.在相关技术中,基于人脸关键点检测算法和人脸识别算法的人机交互方法/信息交互方法可通过检测人脸关键部位,诸如眼睛、鼻子、嘴巴等,或识别人脸表情变化、性别、年龄等,来提供用于人机交互的关键信息,诸如状态、方位等,从而实现人机交互。然而,当前诸如短视频和直播应用的人机交互场景基本都是基于图像检测和识别技术实现的,缺少使用音频数据提取的声学信息进行人机交互的场景,这使得人机交互的丰富性受到了一定的限制,也浪费了视频中包含的音频信息。
39.基于此,本技术旨在通过提取基于声学特征的信息来构建更加丰富多样的人机交互场景应用,即根据用户当前的应用场景利用用户声音的声学特征来进行人机交互,诸如添加魔法表情、控制小游戏中的虚拟人物等。
40.本公开不仅能够充分利用视频中的音频数据,也可降低收集用于训练模型的先验语音数据集的时间成本以及高复杂度。
41.在下文中,根据本公开的各种实施例,将参照附图对本公开的方法、装置进行详细描述。
42.图1是根据一示例性实施例示出的一种信息交互方法的流程图,如图1所示,该信息交互方法可用于用户与电子设备的人机交互场景。例如,用户在拍摄视频时,可利用视频中的人声信号在视频中显示特定的虚拟人物或特定的动画画风,或者利用人声信号给视频中的人物或物品添加特定表情。又例如,用户在玩游戏时,可利用人声信号控制游戏界面中的控件的移动方位、状态等。或者,可利用人声信号来生成相应的控制命令来控制特定控件或执行特定操作。然而上述示例仅是用于说明,本公开不限于此。
43.电子设备可以是包括如下中的至少一个,例如,智能电话、平板个人计算机(pc)、移动电话、视频电话、电子书阅读器(e

book reader)、桌上型pc、膝上型pc、上网本计算机、工作站、服务器、个人数字助理(pda)、便携式多媒体播放器(pmp)、运动图像专家组(mpeg

1或mpeg

2)音频层3(mp3)播放器、相机和可穿戴装置等。
44.参照图1,在步骤s101,获取用户的人声信号。根据本公开的实施例,利用用户的人声信号来进行人机交互,因此,获取的人声信号越纯净,进行人机交互的控制信号越准确且越灵敏。
45.在实际操作中,电子设备获取的音频信号不仅包括用户的人声信号,还会掺杂播放的背景音乐、环境噪声等。因此,在电子设备采集到音频信号后,需要对采集到的音频信号进行处理,以得到纯净的人声信号。例如,人声信号可以是视频中的音频数据,诸如在主播在直播过程中的人声信号。
46.可通过对采集的音频信号进行回声消除处理和噪声消除处理来获得纯净的人声信号。可以以背景音乐信号作为参考信号对采集的音频信号进行回声消除以得到消除背景音乐的音频信号,然后对消除背景音乐的音频信号进行噪声消除处理以得到更加纯净的人声信号。这里,电子设备可在系统播放背景音乐时,对背景音乐进行内录,从而获得纯净的背景音乐。这样,可对采集的音频信号更好地进行回声消除。
47.例如,可利用基于归一化最小均方的时域自适应滤波的回声消除、基于分块频域自适应滤波的回声消除、基于自带分解的回声消除等来对采集的音频信号进行回声消除。可利用普通降噪方法和深度降噪方法来对经过回声消除的音频信号进行噪声消除。例如,可先利用基于加强性噪声假设的谱减法降噪、基于维纳滤波的降噪、基于最大似然或最小均分估计的统计模型法降噪、基于特征值和奇异值分解的子空间法降噪等来执行普通降噪,然后再利用基于rnn、cnn、dcunet等模型的降噪方法来执行深度降噪。然而,上述示例仅是示例性的,可选择性地使用深度降噪方法。
48.在步骤s102,通过对获取的人声信号进行特征提取以得到人声信号的声学信息。这里,声学信息可包括诸如声音的音色、音调和响度等的声学特征。根据本公开的实施例,可利用人声的音色、音调和响度中的至少一个来执行人机交互。
49.作为示例,可计算人声信号的基频和共振峰,然后根据基频来标识用户的性别信息并且根据共振峰来标识用户的年龄信息。例如,可通过对用于判别性别的阈值与获取的人声信号的基频进行比较来确定用户的性别。可通过对用于判别是为老人、青年还是儿童的阈值与获取的人声信号的共振峰进行比较来确定用户的大致年龄。
50.作为另一示例,可计算获取的人声信号的音调数值来得到用户声音的音调。可对获取的人声信号进行平滑处理并且利用平滑处理后的人声信号来得到用户声音的响度。
51.根据本公开的实施例,不需要依赖先验语音数据集来训练模型,而是直接获取人声的声学特征,从而减低了方法复杂度。
52.在步骤s103,基于提取的声学信息来控制与用户进行交互的电子设备的交互操作。
53.根据本公开的实施例,可利用提取的声学特征根据当前的应用场景来生成各种类型的交互控制命令。这里,应用场景可以是例如直播场景、游戏场景、视频场景等各种用于人机交互的场景。也就是说,本公开的实施例的方法可根据当前的应用场景结合用户声音的声学特征来生成的相应的交互控制命令。
54.可基于声学信息中的音色来标识用户的身份信息,基于标识的用户的身份信息生成控制命令并且根据控制命令来调用电子设备中的特定控件。这里,特定控件可包括虚拟人物控件和动画画风控件中的至少一个。例如,在拍摄视频时,电子设备可根据用户声音的音色来调用对应的虚拟人物,并且更换当前的动画画风,使得在视频中显示与用户当前的声音相匹配的虚拟人物和/或动画画风。这里,可提前准备和设置与特定音色对应的虚拟人物或者动画画风,并且将其存储在电子设备中,当电子设备识别出用户的音色后,可直接调用对应的虚拟人物和动画画风。上述示例仅是用于说明,但不限于此。
55.可基于声学信息中的音调和响度中的至少一个生成控制命令并且根据控制命令来控制电子设备中的特定控件的状态(诸如动作)和移动方位中的至少一个。这里,特定控件可包括虚拟人物控件和动画画风控件中的至少一个。例如,用户在玩游戏时,电子设备可根据用户声音的音调和/或响度的大小来控制游戏界面中的控件(诸如游戏人物)的动作、移动方位和状态中的至少一个,或者可在游戏界面中显示用户声音的音色对应的小控件,并且根据用户声音的音调和/或响度的大小来控制该小控件,以丰富游戏场景的趣味性。上述示例仅是用于说明,但不限于此。
56.根据本公开的实施例,可使用一种声学特征/声学信息来进行人机交互,或者使用多种声学特征的组合来进行人机交互。下面将参照图2更加详细地描述本公开。
57.图2是根据一示例性实施例示出的一种信息交互方法的流程示意图。
58.参照图2,将含有背景音乐的人声信号main(t)以及纯净背景音乐信号background(t)输入到回声消除模块,以backhround(t)作为参考信号对main(t)中残留的backgroundmain(t)信号进行消除,以获得没有背景音乐的人声信号spkmain(t)。对于纯净背景音乐信号,可由播放该背景音乐的电子设备直接获取,例如,利用音频内录的方式来获得纯净的背景音乐。
59.其中,main(t)可由以下等式(1)表示:
60.main(t)=spkmain(t)+backgroundmain(t)
ꢀꢀ
(1)
61.回声消除模块有多种实现方式,例如,基于归一化最小均方的时域自适应滤波的
回声消除、基于分块频域自适应滤波的回声消除、基于自带分解的回声消除等,然而本公开不限于此。回声消除模块可减弱main(t)中的backgroundmain(t)分量,一般可达到10db

20db的减弱量。经过回声消除模块的输出信号可由以下等式(2)表示:
62.spkmainaecout(t)=spkmain(t)+backgroundmainattenuate(t)
ꢀꢀ
(2)
63.其中,backgroundmainattenuate(t)为减弱后的背景音乐。
64.将从回声消除模块输出的消除了背景音乐的人声信号spkmainaecout(t)输入到噪声消除模块中,以进一步消除经过回声消除处理后仍然残留的噪声noise(t),以获得纯净的人声信号cleanspkmain(t),此时的人声信号可由以下等式(3)表示:
65.spkmainaecout(t)=cleanspkmain(t)+noise(t)
ꢀꢀ
(3)
66.根据本公开的实施例的噪声消除模块可由普通降噪子模块和深度降噪子模块两部分组成,其中,为了减少实现复杂度,可省去深度降噪子模块。普通降噪子模块有多种实现方式,例如,基于加强性噪声假设的谱减法降噪、基于维纳滤波的降噪、基于最大似然或最小均分估计的统计模型法降噪、基于特征值和奇异值分解的子空间法降噪等。深度降噪子模块也有多种实现方式,例如基于rnn、cnn、dcunet等模型的降噪方法,然而上述示例仅是示例性的,本公开不限于此。通过噪声消除模块可最大程度地消除与人机交互无关的信号,以获得更加纯净的人声语音,从而增强控制的准确性和灵敏性。经过噪声消除模块的输出信号可由下面的等式(4)表示:
67.spkmainnsout)t)=morecleanspkmain(t)+noiseattenuate(t)
ꢀꢀ
(4)
68.其中,morecleanspkmain(t)表示经过噪声消除后更加纯净的人声信号,noiseattenuate(t)表示经过噪声消除后残留的微量噪声。应理解,微量噪声不会对后续处理产生影响,可忽略不计。即:
69.spkmainnsout(t)≈morecleanspkmain(t)≈cleanspkmain(t)
70.可将噪声消除模块输出的纯净人声信号cleanspkmain(t)进行短时傅里叶变换(stft),例如由下面的等式(5)表示:
71.cleanspkmain(n)=stft(cleanspkmain(t))
ꢀꢀ
(5)
72.其中,cleanspkmain(t)表示纯净人声的时域音频信号,cleanppkmain(n)表示纯净人声的频域音频信号,n为帧序列编号,0<n≤n,n为总帧数。
73.将cleanspkmain(n)信号输入到音色识别模块,计算cleanspkmain(n)的基频fundamental_frequency与共振峰formant,然后根据fundamental_frequency和formant的数值对说话人的身份进行识别。
74.可将说话人的身份分为六类,例如分别是男性儿童、女性儿童、男性青年、女性青年、男性老人、女性老人。具体音色识别的分类方法如下:
75.如果fundamental_frequency<male_female_threshold,并且在fundamental_frequency的m1倍、m2倍、m3倍左右处产生三个共振峰,则判定说话人的性别为男性。
76.如果fundamental_frequency≥male_female_threshold,并且在fundamental_frequency的f1倍、f2倍、f3倍左右处产生三个共振峰,则判定说话人的性别为女性。
77.其中,male_female_threshold为判别说话人性别的阈值,也是男性与女性的基频均值,一般可取228
±
30hz,男性基频均值一般是160
±
25hz,女性基频均值一般是296
±
35hz。m1、m2、m3一般分别取值为4.5、8.6、17.1,f1、f2、f3一般分别取值为2.1、4.9、7.2。上述
取值仅是示例性的,可根据不同场景进行不同设置。
78.如果formant<old_adult_threshold,则判定说话人为老人,如果old_adult_threshold≤formant<adult_child_threshold,则判定说话人为青年,若formant≥adult_child_threshold,则判定说话人为儿童。
79.其中,old_adult_threshold为判别说话人是否是老人或青年的阈值,adult_child_threshold为判别说话人是否是青年或儿童的阈值。上述阈值可根据不同场景进行不同设置。
80.可从音色识别模块输出分类结果class。
81.此外,可将纯净人声信号cleanspkmain(t)输入到音调检测模块,通过对该时域信号的计算处理,可获得音调数值pitch(t),经过音调检测模块的输出结果可由下面的等式(6)表示:
82.pitch(t)=calpitch(cleanspkmain(t))
ꢀꢀ
(6)
83.其中,calpitch()为音调计算过程。
84.另外,可将纯净人声信号cleanspkmain(t)输入到响度检测模块,通过对该时域信号的计算处理,可获得响度数值loudness(t),经过响度检测模块的输出结果可由下面的等式(7)表示:
85.loudness(t)=calloudness(cleanspkmain(t))
ꢀꢀ
(7)
86.其中,calloudness()为响度计算过程。
87.由于计算平均响度帧长有限导致变化剧烈,所以在计算响度数值时,可对纯净人声信号进行平滑处理,这样,可获得具有更好的连贯性和稳定性的响度信息。
88.将音色识别模块的输出class、音调检测模块的输出pitch(t)、响度检测模块的输出loudness(t)输入声学信息控制模块,根据应用场景生成各种类型的人机交互控制命令,例如,包括但不限于根据class调用特定性别和年龄的虚拟人物形象和动画画风,根据pitch(t)或loudness(t)大小控制特定控件的状态和移动方位等。
89.根据本公开的实施例,根据不同的应用场景结合用户声音的声学特征/声学信息来生成不同交互控制命令,可使用生成的交互控制命令在当前的应用场景中进行相应的人机交互。
90.图3是根据一示例性实施例示出的一种信息交互装置的框图。
91.参照图3,信息交互装置300可包括音频采集模块301、回声消除模块302、噪声消除模块303、音色识别模块304、音调检测模块305、响度检测模块306以及声学信息控制模块307。信息交互装置300中的每个模块可由一个或多个模块来实现,并且对应模块的名称可根据模块的类型而变化。例如,音频采集模块301、回声消除模块302、噪声消除模块303、音色识别模块304、音调检测模块305和响度检测模块306可由一个音频处理模块实现。
92.在各种实施例中,可省略信息交互装置300中的一些模块,或者还可包括另外的模块。此外,根据本公开的各种实施例的模块/元件可被组合以形成单个实体,并且因此可等效地执行相应模块/元件在组合之前的功能。
93.音频采集模块301可采集音频信号,其中,采集的音频信号可包括用户的人声信号、环境噪声信号和背景音乐信号。例如,音频采集模块301可以是电子设备中的麦克风。
94.回声消除模块302可对采集的音频信号进行回声消除处理。例如,回声消除模块
302可以以纯净的背景音乐信号作为参考信号对采集的音频信号进行回声消除以得到消除背景音乐的音频信号。回声消除模块302可对电子设备的扬声器播放的背景音乐进行内录以得到纯净的背景音乐。
95.噪声消除模块303可对消除背景音乐的音频信号进行噪声消除处理以得到较为纯净的人声信号。
96.音色识别模块304可从人声信号提取用户声音的音色。例如,音色识别模块304可计算人声信号的基频和共振峰,然后根据基频来标识用户的性别并且根据共振峰来确定用户的年龄。
97.音调检测模块305可从人声信号提取用户声音的音调。例如,音调检测模块305可计算人声信号的音调数值来得到用户声音的音调。
98.响度检测模块306可从人声信号提取用户声音的响度。例如,响度检测模块306可对人声信号进行平滑处理并且利用平滑处理后的人声信号来得到用户声音的响度。
99.声学信息控制模块307可利用上述声学特征中的一个或多个的组合来生成控制命令并且根据控制命令来执行与用户的人机交互。
100.声学信息控制模块307可基于声学特征中的音色来标识用户的身份信息,并且利用标识的用户的身份信息来调用特定控件,诸如虚拟人物控件、动画画风控件等。
101.声学信息控制模块307可基于声学特征中的音调和响度中的至少一个来控制特定控件的状态、动作和移动方位中的至少一个。
102.本公开可利用识别出的声学特征信息生成人机交互控制命令以支持更多人机交互场景应用。
103.根据本公开的实施例,可提供一种电子设备。图4是根据本公开实施例的电子设备的框图,该电子设备400可包括至少一个存储器402和至少一个处理器401,所述至少一个存储器402存储有计算机可执行指令集合,当计算机可执行指令集合被至少一个处理器401执行时,执行根据本公开实施例的信息交互方法。
104.处理器401可包括中央处理器(cpu)、音频处理器、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制,处理器401还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。
105.作为一种存储介质的存储器402可包括操作系统(例如mac操作系统)、数据存储模块、网络通信模块、用户接口模块、音频处理程序、人机交互程序以及数据库。
106.存储器402可与处理器401集成为一体,例如,可将ram或闪存布置在集成电路微处理器等之内。此外,存储器402可包括独立的装置,诸如,外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器402和处理器401可在操作上进行耦合,或者可例如通过i/o端口、网络连接等互相通信,使得处理器401能够读取存储在存储器402中的文件。
107.此外,电子设备400还可包括视频显示器(诸如,液晶显示器)和用户交互接口(诸如,键盘、鼠标、触摸输入装置等)。电子设备400的所有组件可经由总线和/或网络而彼此连接。
108.作为示例,电子设备400可以是pc计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里,电子设备400并非必须是单个的电子设备,还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备400
还可以是集成控制系统或系统管理器的一部分,或者可被配置为与本地或远程(例如,经由无线传输)以接口互联的便携式电子设备。
109.本领域技术人员可理解,图4中示出的结构并不构成对的限定,可包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
110.图5是本公开实施例的硬件运行环境的信息交互设备的结构示意图。
111.如图5所示,信息交互设备500可包括:处理组件501、通信总线502、网络接口503、输入输出接口504、存储器505以及电源组件506。其中,通信总线502用于实现这些组件之间的连接通信。输入输出接口504可以包括视频显示器(诸如,液晶显示器)、麦克风和扬声器以及用户交互接口(诸如,键盘、鼠标、触摸输入装置等),可选地,输入输出接口504还可包括标准的有线接口、无线接口。网络接口503可选的可包括标准的有线接口、无线接口(如无线保真接口)。存储器505可以是高速的随机存取存储器,也可以是稳定的非易失性存储器。存储器505可选的还可以是独立于前述处理组件501的存储装置。
112.本领域技术人员可以理解,图5中示出的结构并不构成对信息交互设备500的限定,可包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
113.如图5所示,作为一种存储介质的存储器505中可包括操作系统(诸如mac操作系统)、数据存储模块、网络通信模块、用户接口模块、人机交互处理程序以及数据库。
114.在图5所示的信息交互设备500中,网络接口503主要用于与外部设备/终端进行数据通信;输入输出接口504主要用于与用户进行数据交互;信息交互设备500中的处理组件501、存储器505可被设置在信息交互设备500中,信息交互设备500通过处理组件501调用存储器505中存储的音频处理程序以及由操作系统提供的各种api,执行本公开实施例提供的信息交互方法。
115.处理组件501可以包括至少一个处理器,存储器505中存储有计算机可以执行指令集合,当计算机可以执行指令集合被至少一个处理器执行时,执行根据本公开实施例的信息交互方法。此外,处理组件501可执行编码操作和解码操作等。然而,上述示例仅是示例性的,本公开不限于此。
116.处理组件501可从采集到的含有背景音乐的人声音频中提取出较为纯净的带噪人声,然后进一步消除带噪人声中的噪音以获得更为纯净的人声,利用更为纯净的人声来确定说话人的大致身份,并且获得人声的音调数值以及人声的响度数值,最后根据当前的应用场景来生成各种类型的交互控制命令。
117.信息交互设备500可经由输入输出接口504接收或输出视频和/或音频。例如,信息交互设备500根据用户的声音信号来调用虚拟人物或动画画风,并且经由输入输出接口504显示该虚拟人物或动画画风。此外,信息交互设备500可根据用户的声音信号来控制显示的虚拟人物的动作、状态和移动方位等,从而利用用户的声音信号进行人机交互。
118.作为示例,信息交互设备500可以是pc计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里,信息交互设备500并非必须是单个的电子设备,还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。信息交互设备500还可以是集成控制系统或系统管理器的一部分,或者可以被配置为与本地或远程(例如,经由无线传输)以接口互联的便携式电子设备。
119.在信息交互设备500中,处理组件501可包括中央处理器(cpu)、图形处理器(gpu)、
可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制,处理组件501还可以包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。
120.处理组件501可运行存储在存储器中的指令或代码,其中,存储器505还可以存储数据。指令和数据还可以经由网络接口503而通过网络被发送和接收,其中,网络接口503可以采用任何已知的传输协议。
121.存储器505可以与处理器集成为一体,例如,将ram或闪存布置在集成电路微处理器等之内。此外,存储器505可包括独立的装置,诸如,外部盘驱动、存储阵列或任何数据库系统可以使用的其他存储装置。存储器和处理器可以在操作上进行耦合,或者可以例如通过i/o端口、网络连接等互相通信,使得处理器能够读取存储在存储器中的文件。
122.根据本公开的实施例,还可提供一种存储指令的计算机可读存储介质,其中,当指令被至少一个处理器运行时,促使至少一个处理器执行根据本公开的信息交互方法。这里的计算机可读存储介质的示例包括:只读存储器(rom)、随机存取可编程只读存储器(prom)、电可擦除可编程只读存储器(eeprom)、随机存取存储器(ram)、动态随机存取存储器(dram)、静态随机存取存储器(sram)、闪存、非易失性存储器、cd

rom、cd

r、cd+r、cd

rw、cd+rw、dvd

rom、dvd

r、dvd+r、dvd

rw、dvd+rw、dvd

ram、bd

rom、bd

r、bd

r lth、bd

re、蓝光或光盘存储器、硬盘驱动器(hdd)、固态硬盘(ssd)、卡式存储器(诸如,多媒体卡、安全数字(sd)卡或极速数字(xd)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置,所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行,此外,在一个示例中,计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上,使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。
123.根据本公开的实施例中,还可提供一种计算机程序产品,该计算机程序产品中的指令可由计算机设备的处理器执行以完成上述信息交互方法。
124.本公开能够利用回声消除技术和降噪技术获取不含背景音乐和环境噪声的纯净人声信号,并对此信号利用音色识别、音调检测和响度检测技术获取说话人的大致身份类别、音调信息和响度信息,利用识别出的这些声学特征信息生成人机交互控制命令以支持构建种类更新颖多样、体验更丰富有趣的人机交互场景应用,例如包括但不限于添加魔法表情或小游戏等。
125.本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本技术旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
126.应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。