首页 > 乐器声学 专利正文
一种智能语音交互系统、方法及介质与流程

时间:2022-02-15 阅读: 作者:专利查询

一种智能语音交互系统、方法及介质与流程

1.本发明涉及ai语音处理技术领域,特别是涉及一种智能语音交互系统、方法及介质。


背景技术:

2.现有技术中,应用于平板、智慧屏或移动端的语音识别交互技术还不成熟,其无法根据用户的语音指令和实时环境智能的选择适用于不同情境的语音交互模式以及语音反馈数据,进而会极大的降低用户的体验感和产品的竞争力;因此,需要一种可以根据用户的语音指令和实时环境智能选择适用于不同情境的语音交互模式以及语音反馈数据的智能化语音交互系统。


技术实现要素:

3.本发明的主要目的是,设计一种可以根据用户的语音指令和实时环境智能选择适用于不同情境的语音交互模式以及语音反馈数据的智能化语音交互系统。
4.为解决上述技术问题,本发明采用的一个技术方案是:提供一种智能语音交互系统,包括:
5.云平台模块和智慧屏模块;所述云平台模块与所述智慧屏模块通信连接;
6.所述云平台模块用于配置基准图像信息集和语音指令数据库;
7.所述智慧屏模块用于获取第一场景图像和第一语音指令;所述智慧屏模块基于所述基准图像信息集和所述第一场景图像设定第一语音交互模式;所述智慧屏模块基于所述语音指令数据库、所述第一语音指令和所述第一语音交互模式生成第一操作关联项和第一语音反馈数据包;所述智慧屏模块基于所述第一操作关联项和所述第一语音反馈数据包执行语音交互操作。
8.作为一种改进的方案,所述云平台模块包括:容器搭建模块、信息集搭建模块和数据库搭建模块;所述信息集搭建模块和所述数据库搭建模块均通过io t技术与所述智慧屏模块通信连接;
9.所述容器搭建模块用于配置第一存放容器和第二存放容器;
10.所述信息集搭建模块用于配置若干基准场景图像,并设置与若干所述基准场景图像分别匹配的若干语音交互模式信息,所述信息集搭建模块将若干所述场景图像和若干所述语音交互模式信息置入所述第一存放容器,得到所述基准图像信息集;
11.所述数据库搭建模块用于分别提取若干所述语音交互模式信息中的若干模式关键字;所述数据库搭建模块配置与若干所述模式关键字分别匹配的若干语音数据包,所述数据库搭建模块将若干所述语音数据包置入所述第二存放容器,得到所述语音指令数据库。
12.作为一种改进的方案,所述智慧屏模块包括:图像识别模块、ai语音识别模块和业务处理模块;所述业务处理模块中配置有匹配表创建程序,所述匹配表创建程序用于创建
关联项匹配表;
13.所述图像识别模块用于获取所述第一场景图像,并基于所述基准图像信息集和所述第一场景图像执行模式设定操作,得到所述第一语音交互模式;
14.所述ai语音识别模块用于获取所述第一语音指令,所述ai语音识别模块基于所述语音指令数据库、所述第一语音指令和所述第一语音交互模式执行语音包筛选操作,得到所述第一语音反馈数据包;
15.所述业务处理模块用于根据所述第一语音指令和所述关联项匹配表获取所述第一操作关联项,所述业务处理模块基于所述第一操作关联项和所述第一语音反馈数据包执行所述语音交互操作。
16.作为一种改进的方案,所述图像识别模块包括:图像捕捉设备、特征识别设备和模式设定设备;所述图像捕捉设备中配置有第一算法编译程序,所述第一算法编译程序用于编译图像处理算法;所述特征识别设备中配置有第二算法编译程序,所述第二算法编译程序用于编译ai深度学习算法;
17.所述图像捕捉设备用于获取第一待处理图像,所述图像捕捉设备调用所述图像处理算法去除所述第一待处理图像中的人物图像,得到所述第一场景图像;
18.所述模式设定操作通过所述特征识别设备和所述模式设定设备之间的相互配合进行实现:
19.所述特征识别设备用于调用所述ai深度学习算法在所述基准图像信息集中筛选出与所述第一场景图像的图像特征相匹配的第一基准场景图像;所述特征识别设备在所述基准图像信息集中筛选出与所述第一基准场景图像相匹配的第一语音交互模式信息;
20.所述模式设定设备用于识别所述第一语音交互模式信息的第一模式关键字,所述模式设定设备基于所述第一模式关键字设定所述第一语音交互模式。
21.作为一种改进的方案,所述ai语音识别模块包括:语音唤醒设备、语音识别设备、语音合成设备和数据包筛选设备;所述语音唤醒设备中配置有时序控制器、语音特征配置器和拾音器,所述时序控制器用于设置检测时间段,所述语音特征配置器用于设置语音特征;所述语音合成设备中配置有对照表设置程序,所述对照表设置程序用于设置模糊音对照表;所述数据包筛选设备中配置有训练集配置程序,所述训练集配置程序用于配置语音反馈信息训练集;
22.所述语音唤醒设备用于每隔所述检测时间段调用所述拾音器检测是否存在与所述语音特征相匹配的语音指令,若存在,则所述语音唤醒设备调用所述拾音器保存该语音指令,所述语音唤醒设备设定该语音指令为所述第一语音指令;
23.所述语音包筛选操作由所述语音识别设备、所述语音合成设备和所述数据包筛选设备之间的相互配合进行实现:
24.所述语音识别设备用于识别所述第一语音指令中的语音关键字和模糊音关键字;所述语音合成设备用于在所述模糊音对照表中筛选出与所述模糊音关键字相匹配的近似关键字;所述语音合成设备整合所述语音关键字和所述近似关键字,得到语音文字信息;所述语音识别设备还用于将所述语音文字信息发送至所述业务处理模块;
25.所述数据包筛选设备用于在所述语音指令数据库中筛选出与所述第一语音交互模式相匹配的第一语音数据包;所述数据包筛选设备还用于在所述语音反馈信息训练集中
筛选出与所述语音文字信息相匹配的第一语音反馈信息;所述数据包筛选设备去除所述第一语音数据包中与所述第一语音反馈信息非匹配的语音数据,得到所述第一语音反馈数据包。
26.作为一种改进的方案,所述业务处理模块包括:关联项识别设备和交互操作执行设备;所述交互操作执行设备中配置有显示交互屏和语音功放器;所述关联项识别设备中配置有界面设置程序和第三算法编译程序,所述界面设置程序用于设置选项显示位置、若干用户关联选项和若干跳转界面;所述第三算法编译程序用于编译筛选算法;所述筛选算法包括正则匹配算法;
27.所述关联项识别设备用于接收所述语言文字信息,并调用所述筛选算法在所述关联项匹配表筛选出与所述语音文字信息相匹配的所述第一操作关联项;
28.所述语音交互操作通过所述交互操作执行设备对所述显示交互屏和所述语音功放器的调用进行实现:
29.所述交互操作执行设备用于调用所述筛选算法在若干所述用户关联选项和若干所述跳转界面中分别筛选出均与所述第一操作关联项相匹配的第一用户关联选项和第一跳转界面;
30.所述交互操作执行设备调用所述显示交互屏输出所述第一跳转界面,并按照所述选项显示位置将所述第一用户关联选项输出至所述第一跳转界面中;
31.所述交互操作执行设备提取所述第一语音反馈数据包中的若干反馈语音,所述交互操作执行设备调用所述语音功放器基于若干所述反馈语音与用户进行交互。
32.作为一种改进的方案,所述交互操作执行设备中还配置有信息获取设备、音量匹配设备和音量调节设备;所述音量匹配设备中配置有音量体积匹配表设置程序,所述音量体积匹配表设置程序用于设置音量体积匹配表;
33.所述交互操作执行设备还用于在执行所述语音交互操作时,调用所述信息获取设备获取空间体积信息,所述交互操作执行设备调用所述音量匹配设备根据所述音量体积匹配表设置与所述空间体积信息相匹配的第一音量;所述交互操作执行设备调用所述音量调节设备将所述语音功放器的输出音量调整至与所述第一音量相匹配。
34.作为一种改进的方案,所述第一模式关键字包括:会议、家庭和工作;所述第一语音交互模式包括:会议模式、家庭模式和工作模式。
35.本发明还提供一种智能语音交互系统的智能语音交互方法,所述智能语音交互方法包括以下步骤:
36.初始配置步骤:配置基准图像信息集和语音指令数据库;
37.语音交互步骤:获取第一场景图像和第一语音指令;基于所述基准图像信息集和所述第一场景图像设定第一语音交互模式;基于所述语音指令数据库、所述第一语音指令和所述第一语音交互模式生成第一操作关联项和第一语音反馈数据包;基于所述第一操作关联项和所述第一语音反馈数据包执行语音交互操作。
38.本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述智能语音交互方法的步骤。
39.本发明的有益效果是:
40.1、本发明所述的智能语音交互系统,可以通过云平台模块和智慧屏模块的相互配
合,进而实现在智慧屏上智能的感应当前的环境以及智能的检测用户的语音指令,并根据当前环境和语音指令选择最佳的语音交互模式和语音反馈数据,最终不仅实现了用户相关语音指令所对应的业务处理,同时还会根据该语音交互模式和语音反馈数据与用户进行进一步的交互,提升用户的体验,弥补了现有技术的不足,具有极高的产品竞争力和市场价值。
41.2、本发明所述的智能语音交互方法,可以实现在智慧屏上智能的感应当前的环境以及智能的检测用户的语音指令,并根据当前环境和语音指令选择最佳的语音交互模式和语音反馈数据,最终不仅实现了用户相关语音指令所对应的业务处理,同时还会根据该语音交互模式和语音反馈数据与用户进行进一步的交互,提升用户的体验,弥补了现有技术的不足,具有极高的产品竞争力和市场价值。
42.3、本发明所述的计算机可读存储介质,可以实现引导云平台模块和智慧屏模块进行配合,进而实现在智慧屏上智能的感应当前的环境以及智能的检测用户的语音指令,并根据当前环境和语音指令选择最佳的语音交互模式和语音反馈数据,最终不仅实现了用户相关语音指令所对应的业务处理,同时还会根据该语音交互模式和语音反馈数据与用户进行进一步的交互,提升用户的体验,弥补了现有技术的不足,具有极高的产品竞争力和市场价值,并有效提高所述智能语音交互方法的可操作性。
附图说明
43.为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
44.图1是本发明实施例1所述智能语音交互系统的架构图;
45.图2是本发明实施例2所述智能语音交互方法的流程图;
46.图3是本发明实施例2所述智能语音交互方法的具体流程示意图。
具体实施方式
47.下面结合附图对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
48.在本发明的描述中,需要说明的是,本发明所描述的实施例是本发明一部分实施例,而不是全部的实施例;基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
49.在本发明的描述中,需要说明的是,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
50.在本发明的描述中,需要说明的是:iot是物联网技术;ai(artificial int elligence)是人工智能。
51.实施例1
52.本实施例提供一种智能语音交互系统,如图1和图2所示,包括:云平台模块和智慧屏模块;所述云平台模块与所述智慧屏模块通信连接;
53.所述智能语音交互系统中,云平台模块用于配置基准图像信息集和语音指令数据库;在本实施例中,云平台模块主要用于配置相关的语音指令识别所用的基准数据内容,同时其还可以设置相关的智慧屏内语音识别的控制逻辑;对应的,可设置更新时间段,每隔更新时间段调用云平台模块更新基准图像信息集和语音指令数据库;
54.具体的,所述云平台模块包括:容器搭建模块、信息集搭建模块和数据库搭建模块;所述信息集搭建模块和所述数据库搭建模块均通过iot技术与所述智慧屏模块通信连接;在本实施例中,基于iot技术的通信连接还同时基于以太网的网络传输技术;同时,通信连接还可以采用蓝牙传输技术,但在本实施例中,涉及过多的人机交互,故采用iot技术更加便捷和智能,使用效率更高;
55.所述容器搭建模块用于配置第一存放容器和第二存放容器;在本实施例中,存放容器即为数据存放空间、数据库架构、文件夹、数据包或空数据模板等;
56.所述信息集搭建模块用于配置若干基准场景图像,在本实施例中基准场景图像为拍摄的若干会议室图像、家庭内景图像、咖啡馆图像、外界环境图像和若干机构和场所的内景图像;该图像用于后期的实时场景适配方面,对应的,并设置与若干所述基准场景图像分别匹配的若干语音交互模式信息,所述信息集搭建模块将若干所述场景图像和若干所述语音交互模式信息置入所述第一存放容器,得到所述基准图像信息集;例如:当基准场景图像为会议室图像时,语音交互模式信息为会议模式信息;
57.所述数据库搭建模块用于分别提取若干所述语音交互模式信息中的若干模式关键字;在本实施例中,模式关键字来源于语音交互模式;例如,当语音交互模式信息为会议模式信息时,模式关键字即为会议;当语音交互模式信息为大型会议模式信息时,模式关键字即为大型会议;所述数据库搭建模块配置与若干所述模式关键字分别匹配的若干语音数据包,所述数据库搭建模块将若干所述语音数据包置入所述第二存放容器,得到所述语音指令数据库;在本实施例中,语音数据包即为用于和用户进行语音交互的预设的若干语音数据,例如:“请问下一步执行内容是什么?”、“请问还有别的要求吗?”对应的,语音数据包的配置通过网络下载或通过操作人员采用录音设备录入;因语音数据包是与模式关键字匹配的,故语音数据包与语音交互模式信息相匹配,进而与场景图像相匹配,最终与场景相匹配;本发明的着重点在于,不同的语音数据包对应不同的场景,而语音数据包的具体内容不同在于配置若干与场景相匹配且带有不同书面语和称谓的语音交互数据;例如:当语音交互模式信息为会议模式信息时,语音数据包中的语音数据为包含更多书面语的语音数据,且同时与用户之间的交流称谓为“经理”、“董事长”等根据级别划分的称谓;对应的,当语音交互模式信息为家庭模式时,语音数据包中的语音数据为包含更多口语化的语音数据,且同时与用户之间的交流称谓为“朋友”、“业主”或一些亲昵称谓,进而提升用户的体验感,体现出了极高的智能性。
58.对应的,所述智能语音交互系统中,相关的执行操作均集成于智慧屏模块中,而智慧屏模块用于获取第一场景图像和第一语音指令;所述智慧屏模块基于所述基准图像信息集和所述第一场景图像设定第一语音交互模式;所述智慧屏模块基于所述语音指令数据库、所述第一语音指令和所述第一语音交互模式生成第一操作关联项和第一语音反馈数据包;所述智慧屏模块基于所述第一操作关联项和所述第一语音反馈数据包执行语音交互操作;
59.具体的,所述智慧屏模块包括:图像识别模块、ai语音识别模块和业务处理模块;所述业务处理模块中配置有匹配表创建程序,所述匹配表创建程序用于创建关联项匹配表;关联项匹配表即为包含有若干智慧屏中的操作关联项以及与若干智慧屏中的操作关联项分别匹配的语音信息;主要用于区分和辨认用户语音指令的操作目的;
60.在本实施例中,所述图像识别模块用于获取所述第一场景图像,所述图像识别模块基于所述基准图像信息集和所述第一场景图像执行模式设定操作,得到所述第一语音交互模式;具体的,所述图像识别模块包括:图像捕捉设备、特征识别设备和模式设定设备;所述图像捕捉设备中配置有第一算法编译程序,所述第一算法编译程序用于编译图像处理算法;图像处理算法包括但不限于ai深度学习抠图算法;所述特征识别设备中配置有第二算法编译程序,所述第二算法编译程序用于编译ai深度学习算法;图像捕捉设备包括但不限于集成在智慧屏上的3d摄像头或广角摄像头;特征识别设备为搭载中央处理芯片的计算设备;所述图像捕捉设备用于获取第一待处理图像,所述图像捕捉设备调用所述图像处理算法去除所述第一待处理图像中的人物图像,得到所述第一场景图像;第一待处理图像为智慧屏模块所在的当前环境的广角图像;对应的,为了提高图像匹配的精准度,故采用ai深度学习抠图算法将第一待处理图像中的人像去除,进而只留下环境图像,便于对比;所述模式设定操作通过所述特征识别设备和所述模式设定设备之间的相互配合进行实现:所述特征识别设备用于调用所述ai深度学习算法在所述基准图像信息集中筛选出与所述第一场景图像的图像特征相匹配的第一基准场景图像;对应的,具体筛选过程利用ai深度学习算法的图像特征筛选,图像特征包括但不限于:场景中的标识物、场景中墙体环境等;所述特征识别设备在所述基准图像信息集中筛选出与所述第一基准场景图像相匹配的第一语音交互模式信息;所述模式设定设备用于识别所述第一语音交互模式信息的第一模式关键字,所述模式设定设备基于所述第一模式关键字设定所述第一语音交互模式;在本实施例中,所述第一模式关键字包括:会议、家庭和工作;所述第一语音交互模式包括:会议模式、家庭模式和工作模式;基于所述第一模式关键字设定所述第一语音交互模式即为根据关键字设定模式标识,而该模式标识是用于后续操作中的数据包筛选;通过此步骤,对实时环境进行了适应,并做出了相应的语音交互模式设定,提升了用户部分体验,极其智能。
61.所述ai语音识别模块用于获取所述第一语音指令,所述ai语音识别模块基于所述语音指令数据库、所述第一语音指令和所述第一语音交互模式执行语音包筛选操作,得到所述第一语音反馈数据包;具体的,所述ai语音识别模块包括:语音唤醒设备、语音识别设备、语音合成设备和数据包筛选设备;所述语音唤醒设备中配置有时序控制器、语音特征配置器和拾音器,所述时序控制器用于设置检测时间段,在本实施例中,为了达到实时检测的效果,检测时间段设置为1s;所述语音特征配置器用于设置语音特征;在本实施例中,语音特征包括但不限于声色特征、声音音量特征和文字发音特征等;所述语音合成设备中配置有对照表设置程序,所述对照表设置程序用于设置模糊音对照表;在本实施例中,模糊音对照表中配置有若干不同模糊音的若干近似语音文字;例如:模糊音yo对应的近似语音文字为有、右、又等;所述数据包筛选设备中配置有训练集配置程序,所述训练集配置程序用于配置语音反馈信息训练集;
62.所述语音唤醒设备用于每隔所述检测时间段调用所述拾音器检测是否存在与所述语音特征相匹配的语音指令,若存在,则所述语音唤醒设备调用所述拾音器保存该语音
指令,所述语音唤醒设备设定该语音指令为所述第一语音指令;
63.所述语音包筛选操作由所述语音识别设备、所述语音合成设备和所述数据包筛选设备之间的相互配合进行实现:
64.所述语音识别设备用于识别所述第一语音指令中的语音关键字和模糊音关键字;语音关键字为第一语音指令中可以清晰识别出的语音文字信息;模糊音关键字为第一语音指令中无法清晰识别出的语音文字信息,包括若干不规则发音所导致的模糊发音拼写信息;所述语音合成设备用于在所述模糊音对照表中筛选出与所述模糊音关键字相匹配的近似关键字;所述语音合成设备整合所述语音关键字和所述近似关键字,对应的,在本实施例中,整合的步骤同时采用ai深度学习算法进行整合,即将语音关键字和近似关键字进行多种类型的不同组合,最终通过句意分析,得到最贴合的语音文字信息;所述语音识别设备还用于将所述语音文字信息发送至所述业务处理模块;
65.所述数据包筛选设备用于在所述语音指令数据库中筛选出与所述第一语音交互模式相匹配的第一语音数据包;对应的,第一语音数据包中包括的语音数据较多,而用户的第一语音指令通常不是完全需要这么多的语音数据,为了进一步提高反馈效率同时减少智慧屏中的运行内存占用,故所述数据包筛选设备还用于在所述语音反馈信息训练集中筛选出与所述语音文字信息相匹配的第一语音反馈信息;对应的,数据包筛选设备的筛选操作通过ai深度学习算法搭配语音反馈信息训练集进行训练筛选得出,对应的,可以针对该ai深度学习算法将该语音反馈信息训练集添加至该算法的训练框架中,进而提高筛选的效率;对应的,第一语音反馈信息是与语音文字信息相匹配且会在后期进行使用的信息,例如:第一语音数据包中有如下语音数据:“您好,音乐已关闭”、“您好,视频会议已接通”,若用户的第一语音指令为“开启视频会议”,则该“您好,音乐已关闭”的语音数据必然是后期不会进行使用的,故需要进行去除,而该“您好,视频会议已接通”即为所述第一语音反馈信息;对应的,所述数据包筛选设备去除所述第一语音数据包中与所述第一语音反馈信息非匹配的语音数据,得到所述第一语音反馈数据包,第一语音反馈数据包即为第一语音反馈信息的集合;对应的,上述ai语音识别模块中各个设备的操作逻辑基于ai语音识别技术进行编译实现;通过上述设备之间的配合,进一步匹配了适合用户当前语音指令和操作情景的语音数据包,极其的智能化,弥补了现有技术中单调的语音智能系统的不足。
66.所述业务处理模块用于根据所述第一语音指令和所述关联项匹配表获取所述第一操作关联项,所述业务处理模块基于所述第一操作关联项和所述第一语音反馈数据包执行所述语音交互操作;具体的,所述业务处理模块包括:关联项识别设备和交互操作执行设备;所述交互操作执行设备中配置有显示交互屏和语音功放器;在本实施例中,显示交互屏即为智慧屏的整块输出显示屏;语音功放器为集成在智慧屏上的喇叭功放模块;所述关联项识别设备中配置有界面设置程序和第三算法编译程序,所述界面设置程序用于设置选项显示位置、若干用户关联选项和若干跳转界面;对应的,若干用户关联选项是与操作关联项相匹配的,若干跳转界面是智慧屏中若干应用的若干操作界面;所述第三算法编译程序用于编译筛选算法;所述筛选算法包括正则匹配算法;
67.所述关联项识别设备用于接收所述语言文字信息,并调用所述筛选算法在所述关联项匹配表筛选出与所述语音文字信息相匹配的所述第一操作关联项;对应的,此步骤即为根据用户的语音指令分析用户需要进行的逻辑操作;第一操作关联项包括但不限于:打
开xx应用、播放xx视频等;所述语音交互操作通过所述交互操作执行设备对所述显示交互屏和所述语音功放器的调用进行实现:所述交互操作执行设备用于调用所述筛选算法在若干所述用户关联选项和若干所述跳转界面中分别筛选出均与所述第一操作关联项相匹配的第一用户关联选项和第一跳转界面;对应的,此步骤即为根据用户需要进行的逻辑操作智能的执行并给予用户一些建议操作;例如:第一操作关联项为:打开xx应用;则第一用户关联选项则包括:选择xx应用中的xx信息;打开xx应用中的xx界面等;所述交互操作执行设备调用所述显示交互屏输出所述第一跳转界面,并按照所述选项显示位置将所述第一用户关联选项输出至所述第一跳转界面中;对应的,此步骤存在的底层逻辑为,所述交互操作执行设备先运行第一跳转界面所对应的应用,进而再输出第一跳转界面;对应的,选项显示位置在第一跳转界面的右下角,便于用户观察同时也不影响界面的显示;对应的,在本实施例中,还存在如下逻辑,在每个第一用户关联选项上标识一个显示字母或阿拉伯数字,用户只需念出“执行a”、“执行b”即可实现第一用户关联选项的调用,进而交互操作执行设备进行响应和处理,极其的方便。
68.所述交互操作执行设备提取所述第一语音反馈数据包中的若干反馈语音,所述交互操作执行设备调用所述语音功放器基于若干所述反馈语音与用户进行交互;对应的,具体的交互操作即为根据用户的语音指令反复执行本系统中的若干逻辑,并根据反馈语音向用户反馈与语音指令相匹配的信息。
69.具体的,考虑到不同的应用场景,智慧屏输出的音量会影响用户的体验,故所述交互操作执行设备中还配置有信息获取设备、音量匹配设备和音量调节设备;所述音量匹配设备中配置有音量体积匹配表设置程序,所述音量体积匹配表设置程序用于设置音量体积匹配表;所述交互操作执行设备还用于在执行所述语音交互操作时,调用所述信息获取设备获取空间体积信息,空间体积信息可以通过预设置进行录入,也可以通过ai深度学习算法和图像捕捉设备的结合进行实时分析智慧屏所处空间内的空间内体积大小;对应的,知晓了空间体积的大小,即可控制相应的音量大小,使音量与空间大小匹配,防止造成交互音量过大和交互音量过小而降低用户体验的问题;所述交互操作执行设备调用所述音量匹配设备根据所述音量体积匹配表设置与所述空间体积信息相匹配的第一音量;音量体积匹配表为根据人体在不同大小空间下对于功放音源的感知程度进行具体设置的;所述交互操作执行设备调用所述音量调节设备将所述语音功放器的输出音量调整至与所述第一音量相匹配,进而实现音量的智能化调节,又进一步提升了用户的体验感,提升了本系统的适用性和智能性。
70.实施例2
71.本实施例提供一种智能语音交互系统的智能语音交互方法,如图3所示,包括以下步骤:
72.s100初始配置步骤,具体包括:
73.s110、配置基准图像信息集和语音指令数据库;
74.具体的,配置第一存放容器和第二存放容器;配置若干基准场景图像,并设置与若干所述基准场景图像分别匹配的若干语音交互模式信息,将若干所述场景图像和若干所述语音交互模式信息置入所述第一存放容器,得到所述基准图像信息集;分别提取若干所述语音交互模式信息中的若干模式关键字;配置与若干所述模式关键字分别匹配的若干语音
数据包,将若干所述语音数据包置入所述第二存放容器,得到所述语音指令数据库。
75.s200、语音交互步骤,具体包括:
76.s210、获取第一场景图像和第一语音指令;基于所述基准图像信息集和所述第一场景图像设定第一语音交互模式;基于所述语音指令数据库、所述第一语音指令和所述第一语音交互模式生成第一操作关联项和第一语音反馈数据包;基于所述第一操作关联项和所述第一语音反馈数据包执行语音交互操作;
77.具体的,创建关联项匹配表;获取所述第一场景图像,并基于所述基准图像信息集和所述第一场景图像执行模式设定操作,得到所述第一语音交互模式;获取所述第一语音指令,基于所述语音指令数据库、所述第一语音指令和所述第一语音交互模式执行语音包筛选操作,得到所述第一语音反馈数据包;根据所述第一语音指令和所述关联项匹配表获取所述第一操作关联项,基于所述第一操作关联项和所述第一语音反馈数据包执行所述语音交互操作;
78.具体的,编译图像处理算法和ai深度学习算法;获取第一待处理图像,调用所述图像处理算法去除所述第一待处理图像中的人物图像,得到所述第一场景图像;所述模式设定操作包括:调用所述ai深度学习算法在所述基准图像信息集中筛选出与所述第一场景图像的图像特征相匹配的第一基准场景图像;在所述基准图像信息集中筛选出与所述第一基准场景图像相匹配的第一语音交互模式信息;识别所述第一语音交互模式信息的第一模式关键字,基于所述第一模式关键字设定所述第一语音交互模式;所述第一模式关键字包括:会议、家庭和工作;所述第一语音交互模式包括:会议模式、家庭模式和工作模式。
79.具体的,设置检测时间段、语音特征和模糊音对照表;配置语音反馈信息训练集;每隔所述检测时间段检测是否存在与所述语音特征相匹配的语音指令,若存在,则保存该语音指令,设定该语音指令为所述第一语音指令;所述语音包筛选操作包括:识别所述第一语音指令中的语音关键字和模糊音关键字;在所述模糊音对照表中筛选出与所述模糊音关键字相匹配的近似关键字;整合所述语音关键字和所述近似关键字,得到语音文字信息;在所述语音指令数据库中筛选出与所述第一语音交互模式相匹配的第一语音数据包;在所述语音反馈信息训练集中筛选出与所述语音文字信息相匹配的第一语音反馈信息;去除所述第一语音数据包中与所述第一语音反馈信息非匹配的语音数据,得到所述第一语音反馈数据包;
80.具体的,配置显示交互屏和语音功放器;设置选项显示位置、若干用户关联选项和若干跳转界面;编译筛选算法;调用所述筛选算法在所述关联项匹配表筛选出与所述语音文字信息相匹配的所述第一操作关联项;所述语音交互操作包括:调用所述筛选算法在若干所述用户关联选项和若干所述跳转界面中分别筛选出均与所述第一操作关联项相匹配的第一用户关联选项和第一跳转界面;调用所述显示交互屏输出所述第一跳转界面,并按照所述选项显示位置将所述第一用户关联选项输出至所述第一跳转界面中;提取所述第一语音反馈数据包中的若干反馈语音,基于若干所述反馈语音与用户进行交互。
81.具体的,本方法还包括:设置音量体积匹配表;在执行所述语音交互操作时,调用所述信息获取设备获取空间体积信息,调用所述音量匹配设备根据所述音量体积匹配表设置与所述空间体积信息相匹配的第一音量;调用所述音量调节设备将输出音量调整至与所述第一音量相匹配。
82.实施例3
83.本实施例提供一种计算机可读存储介质,包括:
84.所述存储介质用于储存将上述实施例2所述的智能语音交互方法实现所用的计算机软件指令,其包含用于执行上述为所述智能语音交互方法所设置的程序;具体的,该可执行程序可以内置在实施例1所述的智能语音交互系统中,这样,智能语音交互系统就可以通过执行内置的可执行程序实现所述实施例2所述的智能语音交互方法。
85.此外,本实施例具有的计算机可读存储介质可以采用一个或多个可读存储介质的任意组合,其中,可读存储介质包括电、光、电磁、红外线或半导体的系统、装置或器件,或者以上任意组合。
86.区别于现有技术,采用本技术一种智能语音交互系统、方法及介质可以通过本系统实现在智慧屏上智能的感应当前的环境以及智能的检测用户的语音指令,并根据当前环境和语音指令选择最佳的语音交互模式和语音反馈数据,最终不仅实现了用户相关语音指令所对应的业务处理,同时还会根据该语音交互模式和语音反馈数据与用户进行进一步的交互,通过本方法为本系统提供了巧妙的技术构思,提升了用户的体验,弥补了现有技术的不足,具有极高的产品竞争力和市场价值。
87.上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。
88.本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
89.以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。