未唤醒音频的确定方法及装置、存储介质及电子装置与流程

1.本发明涉及通信领域，具体而言，涉及一种未唤醒音频的确定方法及装置、存储介质及电子装置。

背景技术：

2.随着社会的快速发展，现在越来越多的智能家电上都配备了语音模块，在搭配语音模块的家电上始终存在着一定几率(一般标准3次/24小时)的未唤醒问题，这类的未唤醒音频对唤醒模型的训练非常重要但一直没有特别行之有效的手段从用户设备上获取到。一般也都是在实验室环境模拟用户的方式获取未唤醒音频，效率效果很差。除非投入大量人力资源进行独立的唤醒录音和测试。
3.针对相关技术，传统方法采集未唤醒音频的效率较低的问题，目前尚未提出有效的解决方案。
4.因此，有必要对相关技术予以改良以克服相关技术中的所述缺陷。

技术实现要素：

5.本发明实施例提供了一种未唤醒音频的确定方法及装置、存储介质及电子装置，以至少解决传统方法采集未唤醒音频的效率较低的问题。
6.根据本发明实施例的一方面，提供一种未唤醒音频的确定方法，包括：采集第一目标音频，其中，所述第一目标音频为第一时间采集到的，且所述第一目标音频与标准音频的相似度大于第一预设阈值，所述标准音频用于唤醒目标设备；在确定所述第一目标音频未唤醒所述目标设备的情况下，采集第二目标音频，其中，所述第二目标音频为第二时间采集到的，所述第一时间与所述第二时间的时间间隔小于预设时间，所述第二目标音频与所述标准音频的相似度大于第一预设阈值；在确定所述第二目标音频唤醒所述目标设备的情况下，将所述第一目标音频确定为未唤醒音频。
7.进一步地，采集第一目标音频之后，所述方法还包括：获取所述第一目标音频与所述标准音频的相似度；在所述第一目标音频与所述标准音频的相似度大于所述第一预设阈值且小于第二预设阈值的情况下，确定所述第一目标音频未唤醒所述目标设备，其中，所述第一预设阈值小于所述第二预设阈值。
8.进一步地，在确定所述第一目标音频未唤醒目标设备的情况下，所述方法还包括：将所述第一目标音频保存至缓存区，其中，所述缓存区中的音频为所述未唤醒音频的概率超过预设概率。
9.进一步地，将所述第一目标音频确定为未唤醒音频之后，所述方法还包括：将所述缓存区中的所述第一目标音频发送至云端服务器，以使所述云端服务器根据所述第一目标音频对所述目标设备的语音唤醒模块进行训练；将所述第一目标音频从所述缓存区中删除。
10.进一步地，采集第二目标音频之后，所述方法还包括：在确定所述第二目标音频未
唤醒目标设备的情况下，将所述缓存区中的所述第一目标音频替换为所述第二目标音频。
11.进一步地，将所述缓存区中的所述第一目标音频替换为所述第二目标音频之后，所述方法还包括：采集第三目标音频，其中，所述第三目标音频为第三时间采集到的，所述第二时间早于所述第三时间，所述第二时间与所述第三时间的时间间隔小于预设时间，所述第三目标音频与所述标准音频的相似度大于第一预设阈值；在确定所述第三目标音频唤醒所述目标设备的情况下，将所述第二目标音频确定为未唤醒音频。
12.进一步地，采集第一目标音频，包括：通过所述目标设备的麦克风获取所述目标设备所在的目标环境中的多个音频；从所述多个音频中确定所述第一目标音频。
13.根据本发明实施例的另一方面，还提供了一种未唤醒音频的确定装置，包括：第一采集模块，用于采集第一目标音频，其中，所述第一目标音频为第一时间采集到的，且所述第一目标音频与标准音频的相似度大于第一预设阈值，所述标准音频用于唤醒目标设备；第二采集模块，用于在确定所述第一目标音频未唤醒所述目标设备的情况下，采集第二目标音频，其中，所述第二目标音频为第二时间采集到的，所述第一时间与所述第二时间的时间间隔小于预设时间，所述第二目标音频与所述标准音频的相似度大于第一预设阈值；确定模块，用于在确定所述第二目标音频唤醒所述目标设备的情况下，将所述第一目标音频确定为未唤醒音频。
14.根据本发明实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述未唤醒音频的确定方法。
15.根据本发明实施例的又一方面，还提供了一种电子装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，上述处理器通过计算机程序执行上述未唤醒音频的确定方法。
16.通过本发明，在第一时间采集与标准音频的相似度大于第一预设阈值的第一目标音频，并在确定第一目标音频未唤醒目标设备的情况下，在与第一时间的时间间隔小于预设时间的第二时间采集与标准音频的相似度大于第一预设阈值的第二目标音频，如果确定第二目标音频唤醒可以目标设备，则将采集到的第一目标音频确定为未唤醒音频。采用上述技术方案，解决了传统方法采集未唤醒音频的效率较低的问题。进而通过上述技术方案提高了采集未唤醒音频的效率，并节约了人力和物力成本。
附图说明
17.此处所说明的附图用来提供对本发明的进一步理解，构成本技术的一部分，本发明的示例性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：
18.图1是本发明实施例的未唤醒音频的确定方法的计算机终端的硬件结构框图；
19.图2是根据本发明实施例的未唤醒音频的确定方法的流程图(一)；
20.图3是根据本发明实施例的未唤醒音频的确定方法的流程图(二)；
21.图4是根据本发明实施例的未唤醒音频的确定方法的流程图(三)；
22.图5是根据本发明实施例的未唤醒音频的确定装置的结构框图。
具体实施方式
23.为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。
24.需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
25.本技术实施例中所提供的方法实施例可以在计算机终端或者类似的运算装置中执行。以运行在计算机终端上为例，图1是本发明实施例的未唤醒音频的确定方法的计算机终端的硬件结构框图。如图1所示，计算机终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器(microprocessor unit，简称是mpu)或可编程逻辑器件(programmable logic device，简称是pld))和用于存储数据的存储器104，在一个示例性实施例中，上述计算机终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述计算机终端的结构造成限定。例如，计算机终端还可包括比图1中所示更多或者更少的组件，或者具有与图1所示等同功能或比图1所示功能更多的不同的配置。
26.存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的未唤醒音频的确定方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
27.传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(network interface controller，简称为nic)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(radio frequency，简称为rf)模块，其用于通过无线方式与互联网进行通讯。
28.在本实施例中提供了一种未唤醒音频的确定方法，图2是根据本发明实施例的未唤醒音频的确定方法的流程图(一)，该流程包括如下步骤：
29.步骤s202，采集第一目标音频，其中，所述第一目标音频为第一时间采集到的，且所述第一目标音频与标准音频的相似度大于第一预设阈值，所述标准音频用于唤醒目标设备；
30.需要说明的是，在一个可选的实施例中，可以通过目标设备的麦克风获取所述目标设备所在的目标环境中的多个音频；从所述多个音频中确定所述第一目标音频。也就是说，在目标设备所在的目标环境中，可能会存在多个音频，例如，在目标环境中，有用户a和用户b在聊天，也可能电视正在播放节目，收音机正在播放广播。故为了确定这些音频里面哪些音频是用来唤醒目标设备的，需要进行筛选，具体的，可以降低目标设备语音识别模块的比较阈值，具体的，可以将比较阈值确定为40％，即采集到的音频与标准音频相似度为40％，进而确定哪些音频是与标准音频相似的，采集多个音频中与标准音频(目标设备的唤醒词)相似度大于第一预设阈值(相当于上述比较阈值)的第一目标音频，例如：目标环境中有音频a“你好啊”，音频b“小又小又”，音频c“今天天气为多云”，假设用来唤醒目标设备的标准音频为“小肉小肉”，则就可以从多个音频中确定，音频b可能是用来唤醒目标设备的第一目标音频，进而将音频b确定为第一目标音频。
31.步骤s204，在确定所述第一目标音频未唤醒所述目标设备的情况下，采集第二目标音频，其中，所述第二目标音频为第二时间采集到的，所述第一时间与所述第二时间的时间间隔小于预设时间，所述第二目标音频与所述标准音频的相似度大于第一预设阈值；
32.需要说明的是，通过调查用户使用语音设备的习惯可以得知：如果用户第一次向目标设备说唤醒词，但未唤醒目标设备的情况下，有很大概率会连着再说一次唤醒词(通常第二次会提高音量或者选择更近的距离说，这就会使连续的第二次唤醒成功率更高)。故利用用户的此交互习惯，需要在距离第一时间的时间间隔小于预设时间的第二时间采集到第二目标音频。需要说明的是，在一个可选的实施例中，预设时间可以设置为8秒。
33.步骤s206，在确定所述第二目标音频唤醒所述目标设备的情况下，将所述第一目标音频确定为未唤醒音频。
34.需要说明的是，如果第二目标音频唤醒了目标设备，则表明第一目标音频就是用户用来唤醒目标设备，但是没有成功唤醒目标设备的未唤醒音频。
35.需要说明的是，本技术实施例的技术方案可以应用在目标设备的语音识别模块上。
36.通过上述步骤，在第一时间采集与标准音频的相似度大于第一预设阈值的第一目标音频，并在确定第一目标音频未唤醒目标设备的情况下，在与第一时间的时间间隔小于预设时间的第二时间采集与标准音频的相似度大于第一预设阈值的第二目标音频，如果确定第二目标音频唤醒可以目标设备，则将采集到的第一目标音频确定为未唤醒音频。采用上述技术方案，解决了传统方法采集未唤醒音频的效率较低的问题。进而通过上述技术方案提高了采集未唤醒音频的效率，并节约了人力和物力成本。
37.为了判断第一目标音频能否唤醒目标设备，具体的，可以通过以下方式实现：获取所述第一目标音频与所述标准音频的相似度；在所述第一目标音频与所述标准音频的相似度大于所述第一预设阈值且小于第二预设阈值的情况下，确定所述第一目标音频未唤醒所述目标设备，其中，所述第一预设阈值小于所述第二预设阈值。
38.也就是说，语音识别模块会计算第一目标音频与标准音频的相似度，并在确定相似度大于第二预设阈值(具体的，第二预设阈值可以设置为80％)的情况下，才确定第一目标音频才可以唤醒目标设备。如果第一目标音频与标准音频的相似度小于80％，则不能唤醒目标设备。
39.可选的，如果语音识别模块确定第一目标音频没有唤醒目标设备，则会将第一目标音频保存至缓存区，其中，所述缓存区中的音频为所述未唤醒音频的概率超过预设概率。
40.也就是说，如果用户第一次使用第一目标音频没有唤醒目标设备，则语音识别模块会将第一目标音频独立保存到缓存区，节约本地的资源。需要说明的是，放在缓存区中就意味着给第一目标音频增加了一个标记，即第一目标音频为未唤醒音频的概率很大。可选的，缓存区可以设置为只能保留一次音频，如果缓存区里面本身就存在音频，则将此音频覆盖为第一目标音频。
41.需要说明的是，将所述第一目标音频确定为未唤醒音频之后，还需要将所述缓存区中的所述第一目标音频发送至云端服务器，以使所述云端服务器根据所述第一目标音频对所述目标设备的语音唤醒模块进行训练，并将所述第一目标音频从所述缓存区中删除。
42.也就是说，如果第二目标音频可以唤醒目标设备，则确定第一目标音频为未唤醒音频，此时就需要将缓存区中的第一目标音频发送到云端服务器，进而云端服务器就可以根据第一目标音频进行语音唤醒模块的训练，使得用户在下一次使用第一目标音频的时候，可以唤醒目标设备。需要说明的是，在将第一目标音频发送到云端服务器以后，就需要将缓存区中的第一目标音频删除。
43.进一步地，如果确定第二目标音频没有唤醒目标设备，则意味着第一目标音频大概率上就不是未唤醒音频，同时认为第二目标音频为未唤醒音频的概率比较大，进而将第二目标音频保存在缓存区中，即将缓存区中的第一目标音频替换为第二目标音频。
44.进一步地，将所述缓存区中的所述第一目标音频替换为所述第二目标音频之后，还需要采集第三目标音频，其中，所述第三目标音频为第三时间采集到的，所述第二时间早于所述第三时间，所述第二时间与所述第三时间的时间间隔小于预设时间，所述第三目标音频与所述标准音频的相似度大于第一预设阈值；在确定所述第三目标音频唤醒所述目标设备的情况下，将所述第二目标音频确定为未唤醒音频。
45.也就是说，如果在第三时间可以采集到第三目标音频，则需要确定第三目标音频能否唤醒目标设备，如果第三目标音频可以唤醒目标设备，则将第二目标音频确为未唤醒音频。
46.为了更好的理解上述整体的流程，图3是根据本发明实施例的未唤醒音频的确定方法的流程图(二)，具体步骤如下：
47.s302：从目标设备的目标环境中采集第一目标音频；
48.s304：确定第一目标音频能否唤醒目标设备，在确定能唤醒的情况下，执行步骤s306，在确定不能唤醒的情况下，执行步骤s308；
49.s306：确定第一目标音频不是未唤醒音频，重新执行步骤s302；
50.s308：确定第一目标音频为疑似未唤醒音频，将第一目标音频保存至缓存区；
51.需要说明的是，将为未唤醒音频的概率超过预设概率的音频定义为疑似未唤醒音频。
52.s310：在预设时间内，从目标环境中采集第二目标音频；
53.也就是说，在距离采集第一目标音频时间不超过预设时间的情况下，从目标环境中采集第二目标音频。
54.s312：确定第二目标音频能否唤醒目标设备，在确定能唤醒的情况下，执行步骤
s316，在确定不能唤醒的情况下，执行步骤s314；
55.s314：将缓存区中的第一目标音频替换为第二目标音频，重新执行步骤s302；
56.s316：确定第一目标音频为未唤醒音频。
57.采用上述步骤，解决了传统方法采集未唤醒音频的效率较低的问题。进而通过上述技术方案提高了采集未唤醒音频的效率，并节约了人力和物力成本。
58.显然，上述所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。为了更好的理解上述未唤醒音频的确定方法，以下结合实施例对上述过程进行说明，但不用于限定本发明实施例的技术方案，具体地：
59.在一个可选的实施例中，图4是根据本发明实施例的未唤醒音频的确定方法的流程图(三)，具体步骤如下：
60.步骤s402：语音模块(相当于上述实施例中的语音识别模块)连接电源后自动初始化运行(在第一次连接电源运行时需要进行配网操作)；
61.步骤s404：动态监测麦克风的输入音频，并做低阈值唤醒算法判别(相当于上述实施例中降低语音识别模块的比较阈值)。一般唤醒算法的阈值都很高，是为了保证唤醒词本身的准确率，引入低阈值就是为了把疑似唤醒的音频能够截获到做二次处理；
62.步骤s406：连着做两次唤醒的预处理，此步骤为本实施例的核心处理环节。通过大量的用户使用语音设备的调研，了解到一般用户在第一次说出唤醒词，但设备未被唤醒时，很大概率会连着再说一次唤醒词(通常第二次会提高音量或者选择更近的距离说，这就会使连续的第二次唤醒成功率更高)。利用用户的这个交互习惯，用程序实现连续2次的唤醒预处理机制；
63.步骤s408：在用户第一次进行唤醒并实际没有唤醒设备时，程序会做疑似未唤醒音频标记，并把本次疑似唤醒音频(相当于上述实施例中的第一目标音频)独立保存到缓存区，为节省本地资源，缓存区的大小只够保留一次的唤醒音频空间；在用户一次唤醒成功且缓存区没被标记时不做额外处理；
64.步骤s410：用户在规定的时间(相当于上述预设时间)内做了连续的第二次唤醒时，若这次唤醒实际发生就删除疑似音频标记，并同步把疑似音频文件上传到云端(相当于上述实施例中的云端服务器)，若连续的第二次唤醒也没有触发实际的唤醒，就更新这次截取的疑似音频到缓存区；
65.步骤s412：若用户在规定的时间内(一般是8秒内)没有做唤醒，就不做额外的操作。
66.此外，本发明实施例的上述技术方案，针对未唤醒音频的采集都是基于实验室环境下收集，或由第三方数据采集公司对各年龄段各地域的人进行录音获取，导致采集未唤醒音频的效率较低的问题，本技术实施例以实际运行在家电上的语音模块为入口，动态实时的采集判断唤醒音频，一旦判定为未唤醒音频就会自动上报云端，由此获取到不同年龄不同用户的实际未唤醒音频，进而为唤醒算法的优化提供了大批量的有效数据集。
67.同时，在家电语音模块上引入低阈值唤醒判别方法(相当于上述实施例中与标准音频的进行相似度判断的时候，降低比较阈值)，利用阈值超低的唤醒算法(算法还是原来的算法只是把阈值做了调低处理)会把疑似唤醒音频当成正常的唤醒音频进行处理，这样就可以动态的筛选出来疑似唤醒音频了；进一步地，利用用户习惯，做唤醒的连续2次预处
理机制，可以很有效的把疑似唤醒音频从正常的语音交互中抽取出来；此外，将疑似唤醒音频只在语音模块上做一条的缓存空间，可以节省语音模块内存；最后，疑似唤醒音频可以自动上传到云端，为后续的唤醒算法优化提供便利。
68.采用本技术实施例上述技术方案，可以有效且突破性的解决了实际用户未唤醒音频的采集问题。也可以通过存储在云端的大量用户多样化未唤醒音频的分布数据对特定的语音唤醒模型做唤醒率的实际评估。
69.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例的方法。
70.在本实施例中还提供了一种未唤醒音频的确定装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的设备较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。
71.图5是根据本发明实施例的未唤醒音频的确定装置的结构框图，该装置包括：
72.第一采集模块52，用于采集第一目标音频，其中，所述第一目标音频为第一时间采集到的，且所述第一目标音频与标准音频的相似度大于第一预设阈值，所述标准音频用于唤醒目标设备；
73.第二采集模块54，用于在确定所述第一目标音频未唤醒所述目标设备的情况下，采集第二目标音频，其中，所述第二目标音频为第二时间采集到的，所述第一时间与所述第二时间的时间间隔小于预设时间，所述第二目标音频与所述标准音频的相似度大于第一预设阈值；
74.确定模块56，用于在确定所述第二目标音频唤醒所述目标设备的情况下，将所述第一目标音频确定为未唤醒音频。
75.通过上述模块，在第一时间采集与标准音频的相似度大于第一预设阈值的第一目标音频，并在确定第一目标音频未唤醒目标设备的情况下，在与第一时间的时间间隔小于预设时间的第二时间采集与标准音频的相似度大于第一预设阈值的第二目标音频，如果确定第二目标音频唤醒可以目标设备，则将采集到的第一目标音频确定为未唤醒音频。采用上述技术方案，解决了传统方法采集未唤醒音频的效率较低的问题。进而通过上述技术方案提高了采集未唤醒音频的效率，并节约了人力和物力成本。
76.在一个可选的实施例中，第一采集模块52用于通过目标设备的麦克风获取所述目标设备所在的目标环境中的多个音频；从所述多个音频中确定所述第一目标音频。也就是说，在目标设备所在的目标环境中，可能会存在多个音频，例如，在目标环境中，有用户a和用户b在聊天，也可能电视正在播放节目，收音机正在播放广播。故为了确定这些音频里面哪些音频是用来唤醒目标设备的，需要进行筛选，具体的，可以降低目标设备语音识别模块的比较阈值，具体的，可以将比较阈值确定为40％，即采集到的音频与标准音频相似度为40％，进而确定哪些音频是与标准音频相似的，采集多个音频中与标准音频(目标设备的唤
醒词)相似度大于第一预设阈值(相当于上述比较阈值)的第一目标音频，例如：目标环境中有音频a“你好啊”，音频b“小又小又”，音频c“今天天气为多云”，假设用来唤醒目标设备的标准音频为“小肉小肉”，则就可以从多个音频中确定，音频b可能是用来唤醒目标设备的第一目标音频，进而将音频b确定为第一目标音频。
77.可选的，第二采集模块54还用于获取所述第一目标音频与所述标准音频的相似度；在所述第一目标音频与所述标准音频的相似度大于所述第一预设阈值且小于第二预设阈值的情况下，确定所述第一目标音频未唤醒所述目标设备，其中，所述第一预设阈值小于所述第二预设阈值。
78.也就是说，语音识别模块会计算第一目标音频与标准音频的相似度，并在确定相似度大于第二预设阈值(具体的，第二预设阈值可以设置为80％)的情况下，才确定第一目标音频才可以唤醒目标设备。如果第一目标音频与标准音频的相似度小于80％，则不能唤醒目标设备。
79.可选的，第二采集模块54还用于在确定第一目标音频没有唤醒目标设备的情况下，将第一目标音频保存至缓存区，其中，所述缓存区中的音频为所述未唤醒音频的概率超过预设概率。
80.也就是说，如果用户第一次使用第一目标音频没有唤醒目标设备，则语音识别模块会将第一目标音频独立保存到缓存区，节约本地的资源。需要说明的是，放在缓存区中就意味着给第一目标音频增加了一个标记，即第一目标音频为未唤醒音频的概率很大。可选的，缓存区可以设置为只能保留一次音频，如果缓存区里面本身就存在音频，则将此音频覆盖为第一目标音频。
81.可选的，确定模块56还用于将所述缓存区中的所述第一目标音频发送至云端服务器，以使所述云端服务器根据所述第一目标音频对所述目标设备的语音唤醒模块进行训练，并将所述第一目标音频从所述缓存区中删除。
82.也就是说，如果第二目标音频可以唤醒目标设备，则确定第一目标音频为未唤醒音频，此时就需要将缓存区中的第一目标音频发送到云端服务器，进而云端服务器就可以根据第一目标音频进行语音唤醒模块的训练，使得用户在下一次使用第一目标音频的时候，可以唤醒目标设备。需要说明的是，在将第一目标音频发送到云端服务器以后，就需要将缓存区中的第一目标音频删除。
83.进一步地，确定模块56还用于在确定第二目标音频没有唤醒目标设备的情况下，将缓存区中的第一目标音频替换为第二目标音频。
84.进一步地，确定模块56还用于采集第三目标音频，其中，所述第三目标音频为第三时间采集到的，所述第二时间早于所述第三时间，所述第二时间与所述第三时间的时间间隔小于预设时间，所述第三目标音频与所述标准音频的相似度大于第一预设阈值；在确定所述第三目标音频唤醒所述目标设备的情况下，将所述第二目标音频确定为未唤醒音频。
85.也就是说，如果在第三时间可以采集到第三目标音频，则需要确定第三目标音频能否唤醒目标设备，如果第三目标音频可以唤醒目标设备，则将第二目标音频确为未唤醒音频。
86.本发明的实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步
骤。
87.可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：
88.s1，采集第一目标音频，其中，所述第一目标音频为第一时间采集到的，且所述第一目标音频与标准音频的相似度大于第一预设阈值，所述标准音频用于唤醒目标设备；
89.s2，在确定所述第一目标音频未唤醒所述目标设备的情况下，采集第二目标音频，其中，所述第二目标音频为第二时间采集到的，所述第一时间与所述第二时间的时间间隔小于预设时间，所述第二目标音频与所述标准音频的相似度大于第一预设阈值；
90.s3，在确定所述第二目标音频唤醒所述目标设备的情况下，将所述第一目标音频确定为未唤醒音频。
91.在一个示例性实施例中，上述计算机可读存储介质可以包括但不限于：u盘、只读存储器(read
‑
only memory，简称为rom)、随机存取存储器(random access memory，简称为ram)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
92.本实施例中的具体示例可以参考上述实施例及示例性实施方式中所描述的示例，本实施例在此不再赘述。
93.本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
94.可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：
95.s1，采集第一目标音频，其中，所述第一目标音频为第一时间采集到的，且所述第一目标音频与标准音频的相似度大于第一预设阈值，所述标准音频用于唤醒目标设备；
96.s2，在确定所述第一目标音频未唤醒所述目标设备的情况下，采集第二目标音频，其中，所述第二目标音频为第二时间采集到的，所述第一时间与所述第二时间的时间间隔小于预设时间，所述第二目标音频与所述标准音频的相似度大于第一预设阈值；
97.s3，在确定所述第二目标音频唤醒所述目标设备的情况下，将所述第一目标音频确定为未唤醒音频。
98.在一个示例性实施例中，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。
99.本实施例中的具体示例可以参考上述实施例及示例性实施方式中所描述的示例，本实施例在此不再赘述。
100.显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。
101.以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。