一种语音交互方法及系统与流程

1.本发明属于通讯技术领域，具体涉及一种语音交互方法、系统、计算机设备和存储介质。

背景技术：

2.近年来，随着网络科技的不断发展和通讯技术的不断进步，针对终端设备的操作模式也逐渐由传统的手动操作方式转向智能语音控制。但是，由于智能终端中的可包含的应用软件越来越多，这些应用软件的可触发对象可以展示在用户界面上，可触发对象可以是图标、文字等等，使得用户可以通过点选可触发对象的方式点击打开应用软件，以使终端设备触发该应用软件进行操作。
3.但是，由于智能终端中包含有大量的应用软件可触发对象，有些应用软件可触发对象通过归类的方式隐藏于多种文件夹内，导致用户难易快速准确的在终端界面中查找到所需的应用软件可触发对象。在遇到终端界面中软件仅具有可触发对象，不具有文字标识，或者具有文字标识，但需要遍历终端设备的所有显示可触发对象或隐藏于归类文件中的可触发对象方可找出。无法通过语音的方式替代触摸控制进行精准查找以显示所需可触发对象。

技术实现要素：

4.为解决现有技术中终端设备可触发对象需要触摸点选逐一筛查的问题，本发明提供了一种语音交互方法、系统、计算机设备和存储介质，使用语音指令的方式进行人机交互，实现语音辅助用户精准查找到软件可触发对象，为用户提供便捷的筛选方式。
5.本发明至少一个实施例提供了一种语音交互方法，在终端设备的处理器上执行安装的应用软件，并在终端设备的终端界面上显示有用以触发应用软件的可触发对象，所述终端界面所呈现的内容包含应用软件的可触发对象或应用软件可触发对象和文字，所述该方法包括：
6.获取终端界面上的可触发对象，所述可触发对象包括有文字对象和非文字对象，可触发对象可以是图标、文字等等，例如可触发对象为软件图标；
7.根据所述可触发对象的类型生成对应语音标签，得到语音数据库，其中，所述语音标签包括所述有文字对象对应的文字标签和所述非文字对象对应的数字标签；
8.获取语音源的语音信息；
9.遍历整个所述语音数据库，提取所述语音信息中包含的语音标签信息，得到包含语音标签信息的语音指令；
10.发送所述语音指令至终端设备，将所述语音指令所对应的可触发对象显示在终端界面上，并触发对应的可触发对象工作。
11.可选的，在获取终端界面上的可触发对象之前，所述语音交互方法还包括：
12.获取终端设备上安装的软件列表，其中，所述软件列表中包括每款可触发对象；
13.读取终端界面上的可触发对象，将读取的可触发对象进行排序生成界面可触发对象列表；
14.遍历所述软件列表和所述界面可触发对象列表，比对筛选出所述软件列表中在所述终端界面上未生成可触发对象的子项；
15.将所述子项对应的可触发对象生成于所述终端界面上。
16.可选的，比对筛选出的所述子项在终端界面上生成的可触发对象还用于：将比对筛选出所述子项的可触发对象添加至所述界面可触发对象列表中，得到界面可触发对象更新列表。
17.可选的，所述可触发对象的类型生成对应语音标签的方法，包括：
18.识别所述终端界面上可触发对象对应的视觉可读的名称；
19.将识别的所述名称的文字添加至所述界面可触发对象更新列表中对应的所述可触发对象的子项；
20.提取出界面可触发对象更新列表中含有名称的子项，生成有文字对象队列；
21.将有文字对象队列中可触发对象对应的名称合成为语音的所述文字标签；
22.提取出界面可触发对象更新列表中仅含有可触发对象的子项，生成非文字对象队列；
23.将非文字对象队列中的可触发对象进行编号，得到每个可触发对象所对应的编号信息，编号信息合成为语音的非文字对象对应的数字标签。
24.可选的，获取语音源的语音信息的方法，包括：
25.根据自定义设定语音激活指令；
26.当触发所述语音激活指令时，激活语音获取状态；
27.获取语音源发出的语音；
28.对获取的所述语音进行解析，将解析的语音结果反馈至语音数据库进行识别提取对应语音标签。
29.可选的，对获取的所述语音进行解析的方法，包括：
30.获取待解析的语音；
31.将待解析的语音进行分帧处理，得到若干分帧处理的语音帧片段；
32.根据时间顺序将若干所述语音帧片段排序，得到待识别语音序列；
33.将待识别语音序列反馈至语音数据库进行识别提取语音标签，并将识别提取的语音标签转化为语音指令。
34.根据本发明其中一实施例，提供了还包括一种语音交互系统，在终端设备的处理器上激活待执行软件应用前，在终端设备的终端界面上语音控制得到应用软件的目标可触发对象，实现语音控制终端界面可触发对象显示，所述语音交互系统包括：
35.第一获取模块，用于获取终端界面上的可触发对象；
36.标签生成模块，用于根据获取的所述可触发对象的类型不同生成与所述可触发对象相对应语音标签，并建立语音数据库；
37.第二获取模块，用于获取语音源的语音信息；
38.标签提取模块，用于遍历整个所述语音数据库，提取所述语音信息中包含的语音标签信息，得到包含语音标签信息的语音指令；以及
39.控制模块，用于发送所述语音指令至终端设备，控制终端将所述语音指令所对应的可触发对象显示在终端界面上，并触发对应的可触发对象工作。
40.可选的，所述语音交互系统还包括：
41.筛查模块，用于获取终端设备安装的软件列表及所述软件列表的可触发对象，与终端界面上的可触发对象比对，筛选出未添加的可触发对象并添加至终端界面上；以及
42.语音解析模块，用于对获取的语音解析生成若干语音帧片段，按时间排序得到待识别语音序列，用以反馈至所述语音数据库进行识别提取语音标签。
43.本发明其中一实施例还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现语音交互方法的步骤。
44.本发明还包括一种存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现语音交互方法的步骤。
45.本发明提供的技术方案，具有如下有益效果：
46.本发明提供的技术方案在获取到终端界面的可触发对象后，根据软件可触发对象的类型生成并建立含有文字标签和数字标签的数据库，在触发语音激活指令时，获取语音源的语音信息，并提取其中的目标标签，将目标标签对应的可触发对象显示在终端界面上，并触发对应的可触发对象工作。通过语音控制方式识别待显示可触发对象的标签信息，对有无名称的可触发对象均能够识别，语音控制的精确度高，使得用户在进行语音控制时，针对即便不具有名称的标签也可以进行语音控制显示，快速显示出用户所需的目标图形，无法手动逐一翻阅查找，提高了目标可触发对象的显示效率。
附图说明
47.附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：
48.图1为本发明一个实施例中一种语音交互方法的流程图。
49.图2为本发明一个实施例中一种语音交互方法中补全可触发对象的流程图。
50.图3为本发明一个实施例中一种语音交互方法中语音标签生成方法的流程图。
51.图4为本发明一个实施例中一种语音交互方法中获取语音源的语音信息的方法的流程图。
52.图5为本发明一个实施例中一种语音交互方法中对语音进行解析的方法的流程图。
53.图6为本发明一个实施例中一种语音交互方法的执行架构图。
54.图7为本发明一个实施例中一种语音交互系统的系统框图。
55.图8为本发明另一个实施例中一种语音交互方法的流程图。
56.图9为本发明的一种语音交互方法及系统中语音交互装置的结构示意图。
57.图10为本发明的一种语音交互方法及系统中语音交互装置的穿戴示意图。
具体实施方式
58.为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不
用于限定本发明。
59.本发明提供的一种语音交互方法、系统、计算机设备和存储介质，使用户不需要专注于逐一翻阅查找所需可触发对象，只需要通过语音方式调用所需可触发对象的标签功能，就能在终端界面快速显示出用户所需的目标图形，提高了目标可触发对象的显示效率，简化了所需可触发对象的显示流程。
60.为了便于理解本技术的以下实施例，以下将参考附图对本技术的以下实施例进行详细描述。
61.在本技术的一些实施例中，所述终端设备可以是电子设备，该电子设备包括但不局限于智能手机、个人电脑、移动电话、电子书阅读器、便携式多媒体播放器、音频/视频播放器、摄像机、虚拟现实设备和可穿戴设备等中的一种或几种的组合；其中，个人电脑包括但不局限于平板电脑、台式电脑、笔记本、上网本、掌上电脑等pc设备中的一种或几种的组合；音频/视频播放器包括但不局限于mp3/mp4中的一种或几种的组合；所述可穿戴设备包括但不局限于手表、戒指、手环、眼镜、服饰等中的一种或几种的组合。在本技术的一些实施例中，“用户”可代指使用终端设备的人或物，例如使用终端设备的人工智能设备，如机器人或机械臂。
62.图1是根据本技术一示例性实施例示出的一种语音交互方法的流程图。参阅图1所示，本技术的该实施例提供了一种语音交互方法，该方法在终端设备的处理器上执行安装的应用软件，并在终端设备的终端界面上显示有用以触发应用软件的可触发对象，所述终端界面所呈现的内容包含应用软件的可触发对象或应用软件可触发对象和文字；该方法包括如下步骤：
63.s1：获取终端界面上的可触发对象。其中，所述可触发对象包括有文字对象和非文字对象。
64.在本实施例中，所述终端设备上安装有的每一种软件均在所述终端界面定义有用于进行交互进而触发相应软件操作的可触发对象。其中，软件可触发对象既包括有文字对象，也包括非文字对象。所述可触发对象包括用于进行交互进而触发软件操作的图形、图像和图形/图像与文字相结合中的一种或多种可触发对象。
65.在本实施例中，考虑到所述终端设备上安装软件可能存在可触发对象为定义在终端界面或者从终端界面上删除的情况，导致在后续无法对该软件触发的情况，在获取终端界面上的可触发对象之前，参见图2所示，该语音交互方法还包括：
66.s101、获取终端设备上安装的软件列表，其中，所述软件列表中包括每款可触发对象；
67.s102、读取终端界面上的可触发对象，将读取的可触发对象进行排序生成界面可触发对象列表；
68.s103、遍历所述软件列表和所述界面可触发对象列表，比对筛选出所述软件列表中在所述终端界面上未生成可触发对象的子项；
69.s104、将所述子项对应的可触发对象生成于所述终端界面上。
70.其中，比对筛选出所述子项的可触发对象还用于添加至所述界面可触发对象列表中，得到界面可触发对象更新列表。
71.在本实施例中，在读取所述终端设备上安装的所有软件时，将所有软件进行排序
生成软件列表，所述软件列表中的每一子项中均包含该软件自带的可触发对象；在读取终端界面上的可触发对象后，将生成的界面可触发对象列表与所述软件列表比对，筛选出界面可触发对象列表中不具备的可触发对象，该类可触发对象属于定义在终端界面或者从终端界面上删除的情况。通过将该类可触发对象生成于所述终端界面上的方式进行补全，并将该类可触发对象更新于界面可触发对象列表中，形成界面可触发对象更新列表，可以表明遗漏可触发对象的情况出现，保证获取终端界面上的可触发对象为全部软件的可触发对象。
72.s2：根据所述可触发对象的类型生成对应语音标签，得到语音数据库。其中，所述语音标签包括所述有文字对象对应的文字标签和所述非文字对象对应的数字标签。
73.在本发明实施例中，针对软件可触发对象包括用于进行交互进而触发软件操作的图形、图像和图形/图像与文字相结合中的一种或多种可触发对象，根据划分的有文字对象和非文字对象的类型不同，生成相对应的文字标签和数字标签。其中，参见图3所示，所述有文字对象和非文字对象生成相对应的文字标签和数字标签的方法，包括：
74.s201、识别所述终端界面上可触发对象对应的视觉可读的名称。
75.在本实施例中，识别可触发对象对应的视觉可读的名称的方法为：对所述终端界面中每一可触发对象所在区域进行检测，对包含视觉可读的名称的文字区域进行文字识别处理，得到名称的文字。在本实施例中，既可以通过对终端界面进行截图处理，也可以对终端界面上可触发对象进行生成可触发对象设置框的方式，获取每个成可触发对象设置框中包含视觉可读的名称的框区域为待检测区域。
76.在本实施例中，当获取到所述可触发对象的名称的文字区域后，可以对文字区域采用如ocr识别算法进行文字识别处理，使用成熟的ocr引擎进行文字识别处理，得到每个视觉可读的名称的所有文字内容。
77.s202、将识别的所述名称的文字添加至所述界面可触发对象更新列表中对应的所述可触发对象的子项。
78.在本实施例中，添加文字的可触发对象名称后，所述界面可触发对象更新列表中的可触发对象可分为两类，即有名称的子项和无名称的子项。
79.s203、提取出界面可触发对象更新列表中含有名称的子项，生成有文字对象队列。
80.s204、将有文字对象队列中可触发对象对应的名称合成为语音的所述文字标签。
81.在本实施例中，可以将软件名称直接生成对应的文字标签，文字标签不限字数，例如，所述终端界面上读取的软件可触发对象包含对该软件定义的名称“会议”或者“工作”，可以在设置该软件的标签时，将其标签进行文字转语音为“会议”或者“工作”的文字标签。
82.s205、提取出界面可触发对象更新列表中仅含有可触发对象的子项，生成非文字对象队列；
83.s206、将非文字对象队列中的可触发对象进行编号，得到每个可触发对象所对应的编号信息，编号信息合成为语音的非文字对象对应的数字标签。
84.在本实施例中，针对仅含有可触发对象，为进行名称定义的可触发对象，将该类子项提取后按照可触发对象在所述终端界面创建的时间或者根据界面可触发对象更新列表中读取的顺序生成非文字对象队列，采用数字等形式对非文字对象队列中的可触发对象进行编号，编号信息进行文字转语音作为非文字对象的数字标签。例如，所述终端界面上读取
的软件可触发对象不包含名称，可以将该类可触发对象进行按照数字序号进行编号，例如将该类可触发对象编号为“1”、“2”....“7”。
85.s3：获取语音源的语音信息。
86.在本实施例中，参见图4所示，所述获取语音源的语音信息的方法，包括：
87.s301、根据自定义设定语音激活指令；当触发所述语音激活指令时，激活语音获取状态。
88.在本实施例中，通过提前设置语音激活指令的方式，准确识别用户待获取标签时的语音信息，避免在非触发需求时，因语言中包含标签而被误触。例如：语音激活指令设置的方式可以为“开启语音...”或者“启用....”。
89.s302、获取语音源发出的语音；对获取的所述语音进行解析，将解析的语音结果反馈至语音数据库进行识别提取对应语音标签。
90.在本实施例中，当激活语音获取状态时，既可对用户发出的语音进行采集，对采集的语音进行分析，将语音解析处理后与标签数据库中的语音标签进行比对识别，以识别用户语音中是否含有语音标签。
91.在本实施例中，可以针对语音源发出的不同语言的语音进行获取，可以支持不同语言，例如，不管语音源发出的是中文、英文，还是法语、德语都能够识别触发对象。
92.优选的，参见图5所示，对获取的所述语音进行解析的方法，包括：
93.s3021、获取待解析的语音。
94.s3022、将待解析的语音进行分帧处理，得到若干分帧处理的语音帧片段。
95.s3023、根据时间顺序将若干所述语音帧片段排序，得到待识别语音序列。
96.s3024、将待识别语音序列反馈至语音数据库进行识别提取语音标签，并将识别提取的语音标签转化为语音指令。
97.在本实施例中，待解析的语音可以为激活语音获取状态下获取的一段完整的语音序列，根据不同时长的时间帧将完整的语音序列分帧为若干语音帧片段。例如一段完整的长度为5s语音序列，待识别语音序列可以为该1s的语音序列，也可以为该5s语音序列任一500ms的语音序列。识别每一语音序列对应的文字序列，生成基于文字特征的语音帧片段。
98.s4：遍历整个所述语音数据库，提取所述语音信息中包含的语音标签信息，得到包含语音标签信息的语音指令。
99.在本实施例中，将基于文字特征的语音帧片段与语音数据库中的合成的语音标签进行对比，得到包含语音标签信息的语音指令。其中，语音指令包含标签及标签对应的可触发对象信息。
100.s5：发送所述语音指令至终端设备，将所述语音指令所对应的可触发对象显示在终端界面上，并触发对应的可触发对象工作。
101.在本实施例中，参见图6所示，终端设备响应语音指令，根据语音指令携带的标签在终端界面显示对应的可触发对象，从而达到快速锁定待显示可触发对象的目的，无需手动逐一翻阅查找，提高了目标可触发对象的显示效率。
102.而且，对接收到的来自用户的语音后，通过与语音库比对的方式筛选出语音标签，并以语音指令的方式将携带有标签及标签对应可触发对象的信息发送至终端设备，在终端设备响应后，将对应的可触发对象显示出来，针对即便不具有名称的标签也可以进行语音
控制显示，快速显示出用户所需的目标图形。
103.如图7所示，在本发明的一个实施例中提供了一种语音交互系统包括第一获取模块11、标签生成模块12、第二获取模块13、标签提取模块14以及控制模块15。
104.其中，所述第一获取模块11用于获取终端界面上的可触发对象。
105.所述标签生成模块12用于根据获取的所述可触发对象的类型不同生成与所述可触发对象相对应语音标签，并建立语音数据库。
106.所述第二获取模块13用于获取语音源的语音信息。
107.所述标签提取模块14用于遍历整个所述语音数据库，提取所述语音信息中包含的语音标签信息，得到包含语音标签信息的语音指令。
108.所述控制模块15用于发送所述语音指令至终端设备，控制终端将所述语音指令所对应的可触发对象显示在终端界面上，并触发对应的可触发对象工作。
109.优选的，所述语音交互系统还包括筛查模块16和语音解析模块17。
110.所述筛查模块16用于获取终端设备安装的软件列表及所述软件列表的可触发对象，与终端界面上的可触发对象比对，筛选出未添加的可触发对象并添加至终端界面上。
111.所述语音解析模块17用于对获取的语音解析生成若干语音帧片段，按时间排序得到待识别语音序列，用以反馈至所述语音数据库进行识别提取语音标签。
112.其中，语音交互系统在执行时采用如前述的一种语音交互方法的步骤，因此，本实施例中对语音交互系统的运行过程不再详细介绍。
113.在本发明的一个实施例中，如图8所示，以可触发对象为软件图标为例，本实施例还提供了一种语音交互方法，该方法包括如下步骤：
114.s10、获取终端界面上的可触发软件图标。其中，所述软件图标包括有名称图标和无名称图标。
115.s20、根据所述软件图标的类型生成对应标签，得到标签数据库。其中，所述标签包括所述有名称图标对应的名称标签和所述无名称图标对应的数字标签。
116.s30、获取语音源的语音信息。
117.s40、遍历整个所述标签数据库，提取所述语音信息中包含的标签信息，得到目标标签。
118.s50、发送包含所述目标标签的显示指令至终端，将所述目标标签所对应的图标显示在终端界面上，并触发对应的可触发图标工作。
119.在本发明的一个实施例中，实现上述语音交互方法及系统还包括一种语音交互装置5，参见图9所示，该语音交互装置5为可穿戴设备的一种。该语音交互装置5包括头戴卡箍510、安装在所述头戴卡箍510上的显示可触发对象的可转动屏幕520以及安装在所述头戴卡箍510上的语音源采集的耳麦530。参见图10所示，该语音交互装置5佩戴在用户的头部，在通过语音交互装置进行获取语音源的语音信息时，通过耳麦530记录用户发出的语音信息，当采集到语音信息时，语音信息通过语音交互装置的蓝牙等无线传输组件传输至终端设备的处理器，由处理器遍历整个所述语音数据库，提取所述语音信息中包含的语音标签信息，得到包含语音标签信息的语音指令，并将语音指令至终端设备发送至终端设备，根据语音指令将所对应的可触发对象显示在可转动屏幕520的终端界面上，并触发可转动屏幕520上对应的可触发对象工作。通过头戴式的可穿戴设备即可进行对终端界面的可触发对
象控制，操作方便快捷，智能化程度高。
120.优选的，在本实施例中，所述耳麦530与头戴卡箍510采用绕性管连接，可自由灵活的调整佩戴后语音交互装置5的耳麦530位置，使得耳麦530位于用户的嘴巴附近，绕性管可弯曲、可拉伸变直，针对语音源的采集更精准。
121.在本发明实施例中，针对软件可触发对象包括用于进行交互进而触发软件操作的图形、图像和图形/图像与文字相结合中的一种或多种可触发对象，根据划分的有文字对象和非文字对象的类型不同，生成相对应的文字标签和数字标签。
122.其中，针对软件可触发对象的类型，生成对应的文字形式的文字标签和数字标签，并构建基于文字形式的标签数据库。然后，对获得语音源的语音信息进行语音转文字处理，并与标签数据库比对，提取其中的目标标签，并以显示指令的方式发送至终端设备，用以将目标标签所对应的可触发对象显示在终端界面上，并触发对应的可触发对象工作。
123.本实施例通过建立含有文字标签和数字标签的数据库，在触发语音激活指令时，获取语音源的语音信息，并提取其中的目标标签，将目标标签对应的可触发对象显示在终端界面上，并触发对应的可触发对象工作，实现语音控制可触发对象显示的目的。
124.在本发明的一个实施例中还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。
125.在本发明的一个实施例中还提供了一种存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
126.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。
127.另外，本技术的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本技术的方法和/或技术方案。而调用本技术的方法的程序指令，可能被存储在固定的或可移动的记录介质中，和/或通过广播或其他信号承载媒体中的数据流而被传输，和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。
128.综上所述，本发明提供的技术方案在获取到终端界面的可触发对象后，根据软件可触发对象的类型生成并建立含有文字标签和数字标签的数据库，在触发语音激活指令时，获取语音源的语音信息，并提取其中的目标标签，将目标标签对应的可触发对象显示在终端界面上，并触发对应的可触发对象工作。通过语音控制方式识别待显示可触发对象的标签信息，对有无名称的可触发对象均能够识别，语音控制的精确度高，使得用户在进行语音控制时，针对即便不具有名称的标签也可以进行语音控制显示，快速显示出用户所需的目标图形，无法手动逐一翻阅查找，提高了目标可触发对象的显示效率。
129.以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。