首页 > 乐器声学 专利正文
一种语音控制方法、装置、电子设备及存储介质与流程

时间:2022-02-24 阅读: 作者:专利查询

一种语音控制方法、装置、电子设备及存储介质与流程

1.本技术涉及人工智能领域,尤其涉及智能语音控制领域。


背景技术:

2.带屏语音交互设备已经出现在越来越多的家庭中,现有技术支持对一些技能的语音控制,例如查询天气、查询时间等。当开启带屏语音交互设备的一些应用例如购物类应用时,往往无法对这些应用的页面进行语音控制,而需要用户手动点击屏幕进行控制;这种控制方式不够便利,用户体验较差。


技术实现要素:

3.本技术实施例提供一种语音控制方法、装置、电子设备及存储介质,以解决现有技术中的一个或多个技术问题。
4.第一方面,本技术提供一种语音控制方法,包括以下步骤:
5.在带屏语音交互设备显示预设应用的页面的情况下,对接收到的语音信息进行识别,得到识别结果;
6.根据所述识别结果生成针对所述页面的第一控制指令;
7.采用所述第一控制指令对所述页面进行控制。
8.采用上述方案,可以实现对应用程序页面的语音控制,在带屏语音交互设备开启预设应用的情况下,无需用户手动控制页面,这种控制方式更为便利,能够提高用户体验。
9.第二方面,本技术提供一种语音控制装置,包括:
10.识别模块,用于在带屏语音交互设备显示预设应用的页面的情况下,对接收到的语音信息进行识别,得到识别结果;
11.指令生成模块,用于根据所述识别结果生成针对所述页面的第一控制指令;
12.页面控制模块,用于采用所述第一控制指令对所述页面进行控制。
13.第三方面,本技术实施例提供一种电子设备,包括:
14.至少一个处理器;以及
15.与至少一个处理器通信连接的存储器;其中,
16.存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本技术任意一项实施例所提供的方法。
17.第四方面,本技术实施例提供一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行本技术任意一项实施例所提供的方法。
18.上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。
附图说明
19.附图用于更好地理解本方案,不构成对本技术的限定。其中:
20.图1为根据本技术一实施例的语音控制方法的实现流程图一;
21.图2为根据本技术一实施例的语音控制方法中,步骤s102的一种实现流程图;
22.图3为根据本技术一实施例的语音控制方法的实现流程图二;
23.图4为根据本技术一实施例的语音控制方法的实现流程图三;
24.图5为根据本技术一实施例的语音控制装置的结构示意图一;
25.图6为根据本技术一实施例的语音控制装置的结构示意图二;
26.图7是用来实现本技术实施例的语音控制方法的电子设备的框图。
具体实施方式
27.以下结合附图对本技术的示范性实施例做出说明,其中包括本技术实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本技术的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
28.本技术实施例提出一种语音控制方法,可以应用于带屏带屏语音交互设备,对带屏语音交互设备的显示页面或设备的硬件功能进行语音控制。图1为根据本技术一实施例的语音控制方法的实现流程图一,包括以下步骤:
29.s101:在带屏语音交互设备显示预设应用的页面的情况下,对接收到的语音信息进行识别,得到识别结果;
30.s102:根据上述识别结果生成针对上述页面的第一控制指令;
31.s103:采用上述第一控制指令对上述页面进行控制。
32.本技术实施例的上述方法可以由带屏智能语音控制设备执行或由云端服务器执行。以云端服务器执行为例,带屏智能语音控制设备在接收到语音信息后,将语音信息发送至云端服务器;由云端服务器对语音信息进行识别,得到识别结果。如果带屏语音交互设备当前正在显示预设应用的页面,则云端服务器根据该识别结果生成针对该页面的第一控制指令,并将该第一控制指令下发至带屏语音交互设备,从而实现对该页面的控制。此外,带屏语音交互设备在上报语音信息的同时,也可以同步上报用户的标识信息、用户的语音特征等信息。云端服务器可以预先存储不同用户的语音特征,在接收到用户的标识信息时,根据该标识信息查找该用户的语音特征;或者,云端服务器可以接收用户上报的语音特征。在对该用户的语音信息进行识别时,云端服务器可以参考该语音特征进行语音识别,从而得到更为准确的识别结果。
33.另外,对语音信息的识别结果还有可能是噪音,例如环境背景音或用户的电话声音等。如果识别出语音信息为噪音,则在此情况下不生成对应的控制指令。
34.在一些实施方式中,上述预设应用包括购物类应用。本技术实施例可以在带屏语音交互设备的操作系统的快速启动栏(quick start bar,qsb)或快速启动面板(launch pad)中增加该预设应用程序包的入口。
35.图2为根据本技术一实施例的语音控制方法中,步骤s102的一种实现流程图,包括以下步骤:
36.s201:将识别结果与页面中的各元素进行匹配检测;
37.s202:在匹配成功的情况下,根据该识别结果生成针对页面中匹配成功的元素的第一控制指令。
38.可选地,上述页面中的元素为可读元素。以预设应用为购物类应用为例,在一些应用场景中,带屏语音交互设备当前显示某购物类应用的主页。主页中显示有不同的商品类别,如数码电器、图书、生鲜等;如果识别出语音信息对应的识别结果为“数码电器”,则可以生成对主页中“数码电器”类别的点击操作,从而打开“数码电器”类别对应的页面。
39.在一些实施方式中,上述步骤s102还可以包括:根据上述识别结果,生成用于浏览上述页面的第一控制指令。
40.不同于上述实施例中打开其他页面的情况,本实施例是对当前显示的页面进行控制,从而实现对当前显示页面的浏览。例如,如果识别出语音信息对应的识别结果为“上一页”、“下一页”、“翻页”、“上一个”、“下一个”,则可以根据该识别结果生成对当前页面的第一控制指令。
41.可见,采用本技术实施例提出的语音控制方法,可以模拟对预设应用页面的触碰操作,实现对预设应用的页面进行控制。
42.图3为根据本技术一实施例的语音控制方法的实现流程图二。如图3所示,在一些实施方式中,上述步骤s103之后还包括:
43.s304:在根据识别结果无法生成针对页面的第一控制指令的情况下,生成针对带屏语音交互设备的第二控制指令;
44.s305:采用第二控制指令对带屏语音交互设备进行控制。
45.可选地,上述第二控制指令是针对带屏语音交互设备的全局功能的控制指令,例如对带屏语音交互设备的扬声器或显示屏幕的控制。
46.例如,如果识别出语音信息对应的识别结果为“声音大一点”、“调高亮度”等,则可以根据该识别结果生成对带屏语音交互设备相应的第二控制指令,从而实现对带屏语音交互设备全局功能的语音控制,以模拟对带屏语音交互设备的手动操作。
47.可见,上述控制指令包括第一控制指令和第二控制指令,分别用于对预定应用(如购物类应用)的页面进行控制、以及对带屏语音交互设备全局功能进行控制。将本技术实施例提出的语音控制方式应用于购物类应用时,能够实现语音导购方式,在交互方式上能够更加便捷地满足用户在智能音箱上的购物需求,
48.图4为根据本技术一实施例的语音控制方法的实现流程图三。如图4所示,包括以下步骤:
49.s401:接收语音信号。
50.s402:对语音信号进行识别结果,得到识别结果。
51.s403:在带屏语音交互设备显示预设应用的页面的情况下,将上述识别结果与页面中的可读元素进行匹配检测,如果匹配成功,则继续执行步骤404;否则,执行步骤s405。
52.s404:根据上述识别结果生成针对页面中匹配成功的元素的控制指令,采用该控制指令对页面进行控制。
53.例如,预设应用为购物类应用,当前界面显示购物类应用的界面。对语音信号的识别结果为“数码”,将识别结果与该页面中的可读元素进行匹配,发现页面中存在可读元素“数码产品”;前述识别结果与该可读元素可以匹配成功,则生成针对页面中的可读元素“数码产品”的控制指令。该控制指令用于打开可读元素“数码产品”对应的页面。前述例子中,可读元素“数码产品”与识别结果“数码”在字面上并非完全一致,但二者含义相同,因此能
够匹配成功。本技术实施例可以预先设置一定的匹配条件,用于对识别结果与页面中可读元素的匹配检测。
54.s405:判断上述识别结果是否对应页面浏览的指令;如果是,则执行步骤s406;否则,执行步骤s407。
55.s406:根据上述识别结果生成用于浏览页面的控制指令。该控制指令例如:翻页、下一页、下一个等。采用该控制指令对页面进行控制。
56.s407:判断上述识别结果是否对应针对带屏语音交互设备的指令;如果是,则执行步骤s408。
57.s408:根据上述识别结果生成针对带屏语音交互设备全局功能的控制指令。该控制指令例如:调高声音播放设备的音量、调高显示屏幕的亮度等。采用该控制指令对带屏语音交互设备进行控制。
58.上述实施例是以判断是否与页面中元素匹配成功(s403)、判断是否为针对页面浏览的指令(s405)、判断是否为针对带屏语音交互设备的指令(s407)的顺序为例进行介绍的,以上顺序仅为举例。在本技术实施例中,也可以采用其他的顺序进行判断及生成控制指令,本技术实施例对此不作限制。
59.另外,如果经过上述过程之后仍未生成对应的控制指令,则上述语音信息可能是噪音等无关信息;带屏语音交互设备可以采用相应话术或流程进行响应。
60.本技术实施例还提出一种语音控制装置。图5为根据本技术一实施例的语音控制装置的结构示意图一,包括:
61.识别模块510,用于在带屏语音交互设备显示预设应用的页面的情况下,对接收到的语音信息进行识别,得到识别结果;
62.指令生成模块520,用于根据所述识别结果生成针对所述页面的第一控制指令;
63.页面控制模块530,用于采用所述第一控制指令对所述页面进行控制。
64.图6为根据本技术一实施例的语音控制装置的结构示意图二。如图6所示,在一些实施方式中,上述指令生成模块520包括:
65.匹配子模块521,用于将所述识别结果与所述页面中的各元素进行匹配检测;
66.第一生成子模块522,用于在匹配成功的情况下,根据所述识别结果生成针对所述页面中匹配成功的元素的第一控制指令。
67.如图6所示,在一些实施方式中,上述指令生成模块520包括:
68.第二生成子模块523,用于根据所述识别结果,生成用于浏览所述页面的第一控制指令。
69.如图6所示,在一些实施方式中,上述指令生成模块520包括:
70.第三生成子模块524,用于在根据所述识别结果无法生成针对所述页面的第一控制指令的情况下,生成针对所述带屏语音交互设备的第二控制指令;
71.上述装置还包括:
72.设备控制模块540,用于采用所述第二控制指令对所述带屏语音交互设备进行控制。
73.可选地,上述预设应用包括购物类应用。
74.本技术实施例各装置中的各模块的功能可以参见上述方法中的对应描述,在此不
再赘述。
75.根据本技术的实施例,本技术还提供了一种电子设备和一种可读存储介质。
76.如图7所示,是根据本技术实施例的语音控制的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本技术的实现。
77.如图7所示,该电子设备包括:一个或多个处理器710、存储器720,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示gui的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图7中以一个处理器710为例。
78.存储器720即为本技术所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本技术所提供的语音控制的方法。本技术的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本技术所提供的语音控制的方法。
79.存储器720作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本技术实施例中的语音控制的方法对应的程序指令/模块(例如,附图5所示的识别模块510、指令生成模块520和页面控制模块530)。处理器710通过运行存储在存储器720中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的语音控制的方法。
80.存储器720可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据语音控制的电子设备的使用所创建的数据等。此外,存储器720可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器720可选包括相对于处理器710远程设置的存储器,这些远程存储器可以通过网络连接至语音控制的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
81.语音控制的方法的电子设备还可以包括:输入装置730和输出装置740。处理器710、存储器720、输入装置730和输出装置740可以通过总线或者其他方式连接,图7中以通过总线连接为例。
82.输入装置730可接收输入的数字或字符信息,以及产生与语音控制的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置740可以包括显示设备、辅助照明装置(例如,led)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但
不限于,液晶显示器(lcd)、发光二极管(led)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
83.此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用asic(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
84.这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(pld)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
85.为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
86.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。
87.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
88.应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本技术中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本技术公开的技术方案所期望的结果,本文在此不进行限制。
89.上述具体实施方式,并不构成对本技术保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本技术的精神和原则之内所作的修改、等同替换和改进等,均应包含在本技术保护范围之内。