首页 > 乐器声学 专利正文
一种语音识别方法、装置、设备及介质与流程

时间:2022-02-20 阅读: 作者:专利查询

一种语音识别方法、装置、设备及介质与流程

1.本发明实施例涉及智能家居领域,尤其涉及一种语音识别方法、装置、设备及介质。


背景技术:

2.随着语音识别技术的发展,很多智能设备实现了通过语音进行控制而无需用户手动操作的效果,给人们的生活带来了极大的便利,但是当智能设备采集用户的语音控制指令时,可能会将周围其他设备或人发出的噪音一同采集进去,给后续的语音识别过程造成影响。
3.现有技术中,为了提高语音识别成功率,智能设备在进行语音识别前,通常根据预先训练的降噪模型对接收到的语音控制指令进行降噪处理,然后再对经过降噪处理的语音控制指令进行语音识别,这种方式只能实现针对特定环境噪音的降噪,当智能设备所处环境发生变化时,降噪效果会变得不理想,从而影响语音识别的成功率。


技术实现要素:

4.本发明实施例提供一种语音识别方法、装置、设备及介质,通过在采集用户的语音指令前降低主噪音源音量以及采用语音识别模型进行语音识别,减少环境噪音对用户语音指令的影响,提高语音识别成功率。
5.第一方面,本发明实施例提供了一种语音识别方法,所述方法包括:
6.根据家电设备接收用户唤醒语音时所处的场景,确定主噪音源;
7.向所述主噪音源发送音量控制指令,所述音量控制指令用于指示所述主噪音源降低音量;
8.接收用户的语音指令,并通过语音识别模型对所述语音指令进行语音识别。
9.第二方面,本发明实施例还提供了一种语音识别装置,所述装置包括:
10.主噪音源确定模块,用于根据家电设备接收用户唤醒语音时所处的场景,确定主噪音源;
11.音量控制指令发送模块,用于向所述主噪音源发送音量控制指令,所述音量控制指令用于指示所述主噪音源降低音量;
12.语音识别模块,用于接收用户的语音指令,并通过语音识别模型对所述语音指令进行语音识别。
13.第三方面,本发明实施例还提供了一种设备,所述设备包括:
14.一个或多个处理器;
15.存储器,用于存储一个或多个程序;
16.当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明任意实施例提供的语音识别方法。
17.第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机
程序,该程序被处理器执行时实现本发明任意实施例提供的语音识别方法。
18.本发明实施例的技术方案,根据家电设备接收用户唤醒语音时所处的场景,确定主噪音源,并向主噪音源发送音量控制指令以指示主噪音源降低音量,最终接收用户的语音指令,并通过语音识别模型对语音指令进行语音识别,一方面通过降低主噪音源的音量可以降低环境中存在的主噪音对用户语音指令的干扰,在对用户正常生活影响较小的前提下,提高家电设备接收到语音指令的语音质量,从而提高语音识别成功率,另一方面,通过语音识别模型进行语音识别,提高语音识别成功率。
附图说明
19.图1是本发明实施例一中的一种语音识别方法的流程图;
20.图2是本发明实施例二中的一种语音识别方法的流程图;
21.图3是本发明实施例三中的一种语音识别装置的结构示意图;
22.图4是本发明实施例四提供的一种设备的结构示意图。
具体实施方式
23.下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
24.实施例一
25.图1为本发明实施例一中的一种语音识别方法的流程图,本实施例的技术方案适用于在接收语音指令前降低主噪音源音量的情况,该方法可以由语音识别装置执行,该装置可以由软件和/或硬件来实现,并可以集成在各种通用计算机设备中,具体包括如下步骤:
26.步骤110、根据家电设备接收用户唤醒语音时所处的场景,确定主噪音源。
27.其中,主噪音源是指对用户的语音指令影响较大的噪音源,示例性的,主噪音源可以是智能家电设备中运行噪音较大的设备,例如,智能洗衣机、智能电视机和智能油烟机等。
28.本实施例中,家电设备在接收到用户唤醒语音时,确定当前所处的场景,并根据场景确定对用户后续输入语音指令影响最大的主噪音源,其中,家电设备所处场景可以包含当前环境中处于运行状态且会发出运行噪音的设备,当前时间或者是当前用户的位置及状态等信息。
29.示例性的,在用户对智能洗衣机发送唤醒指令“嗨!智能洗衣机”时,智能洗衣机获取当前所处环境中处于运行状态的家电设备,并确定各家电设备的运行噪音,将运行噪音最大的一个家电设备或者运行噪音大于设定阈值的至少一个家电设备作为主噪音源。例如,智能洗衣机获取到当前处于运行状态的家电设备为智能电视机和智能空调,其中,智能电视机的运行噪音为90分贝,智能空调的运行噪音为30分贝,则将运行噪音最大的智能电视机作为主噪音源。
30.可选的,根据家电设备接收用户唤醒语音时所处的场景,确定主噪音源,包括:
31.当接收到用户唤醒语音时,获取当前环境中至少一个处于运行状态的目标设备;
32.获取各目标设备与用户之间的距离;
33.将与用户之间的距离小于设定阈值的至少一个目标设备作为主噪音源;或者,
34.将至少一个目标设备中运行噪音的分贝值高于设定阈值的至少一个设备作为主噪音源。
35.本可选的实施例中,提供了一种根据家电设备接收用户唤醒语音时所处的场景确定主噪音源的方式,当家电设备接收到用户唤醒语音时,可以获取当前环境中处于运行状态的设备作为目标设备,为了确定对用户语音指令影响最大的噪音源,获取各目标设备与用户之间的距离,最终将与用户之间的距离小于设定阈值的至少一个目标设备作为主噪音源,或者,可以获取各目标设备的运行噪音,并将运行噪音的分贝值高于设定阈值的至少一个设备作为主噪音源。
36.示例性的,当家电设备接收到用户唤醒语音指令时,通过网络向主控设备发送目标设备请求指令,指示主控设备向当前家电设备反馈当前环境中处于运行状态的至少一个目标设备,然后当前家电设备向各目标设备发送距离请求指令,并接收各目标设备反馈的与用户之间的距离信息,将与用户之间的距离小于设定阈值的至少一个目标设备作为主噪音源;或者,当前家电设备采集当前环境噪音,并确定各目标设备对应的运行噪音的分贝,最终将运行噪音分贝值高于设定阈值的至少一个设备作为主噪音源,具体的,当前家电设备可以根据预先录入的各目标设备的运行噪音对应的波形,确定当前环境噪音中包含的运行噪音属于哪些设备,并进一步获取各设备的运行噪音的分贝值。
37.可选的,根据家电设备接收用户唤醒语音时所处的场景,确定主噪音源,包括:
38.当接收到用户唤醒语音时,获取当前环境中至少一个处于运行状态的设备,以及各设备的运行功率;
39.将运行功率大于设定阈值的至少一个设备作为主噪音源。
40.本可选的实施例中,提供了另一种根据家电设备接收用户唤醒语音时所处的场景确定主噪音源的方式,当家电设备接收到用户唤醒语音时,为了确定对用户语音指令影响最大的噪音源,获取当前环境中处于运行状态的设备及各设备当前的运行功率,将运行功率大于设定阈值的至少一个设备作为主噪音源。
41.示例性的,当接收到用户唤醒语音时,当前家电设备向主控设备请求当前处于运行状态的至少一个设备,以及各设备的运行功率,并接收到主控设备反馈的,当前处于启动状态的设备是智能洗衣机和智能油烟机,当前运行功率分别是350瓦和200瓦,根据设备运行功率,将运行功率大于300瓦的设备作为主噪音源,也就是说此时将智能洗衣机作为主噪音源。
42.可选的,根据家电设备接收用户唤醒语音时所处的场景,确定主噪音源,包括:
43.当接收到用户唤醒语音时,获取当前时间;
44.根据设备使用时间的历史记录,查询当前时间所处时间段内各设备的运行状态;
45.将所述当前时间所处时间段内正在运行的设备作为主噪音源。
46.本可选的实施例中,提供了另一种根据家电设备接收用户唤醒语音时所处的场景确定主噪音源的方式,当家电设备接收到用户唤醒语音时,获取当前时间,然后查询设备的历史使用记录,确定当前时间所属时间段各设备的运行状态,最终将当前时间所处时间段内处于运行状态的设备作为主噪音源,具体的,可以根据各设备的使用时间的历史记录,确
定当前时间所属时间段中各设备的运行概率,将对应概率大于设定阈值的设备确定为运行状态,并作为主噪音源。
47.示例性的,家电设备接收到用户唤醒语音时,获取当前时间为19:15,然后根据设备使用时间的历史记录,查询19:00-20:00之间各设备的运行状态,例如,查询近30天内每天19:00-20:00之间各设备的运行状态,并计算出各设备当前处于运行状态的概率(设备近30天内在19:00-20:00的运行次数与天数的比值),当某一设备对应概率大于85%时,将该设备确定为运行状态,并将其作为主噪音源。
48.可选的,根据家电设备接收用户唤醒语音时所处的场景,确定主噪音源,包括:
49.当接收到用户唤醒语音时,获取用户状态以及位置;
50.根据所述用户状态以及位置确定主噪音源。
51.本可选的实施例中,提供了又一种根据家电设备接收用户唤醒语音时所处的场景确定主噪音源的方式,当家电设备接收到用户唤醒语音时,获取当前用户的状态及位置,并根据用户当前的状态和所处位置确定主噪音源,其中,用户状态可以通过采集用户当前图像并对该图像进行图像分析得到。
52.示例的,当接收到用户唤醒语音时,家电设备通过自身携带的摄像头拍摄包含用户的场景图像,最终通过对场景图像进行图像分析,确定当前用户状态及位置,例如,当图像中包含电视机时,确定用户当前所在位置为客厅,然后进一步判断当前电视机处于启动状态且用户的面部朝向电视机,则确定当前用户状态为看电视状态,则将电视机作为主噪音源。又例如,家电设备获取到包含用户的场景图像后,对场景图像进行图像分析,获取当前用户状态及位置,例如,当图像中包含油烟机时,确定用户当前所在位置为厨房,并进一步判断当前油烟机的运行状态,若处于运行状态且分析出用户面向厨灶设备,则确定当前用户状态为做饭,并将油烟机作为主噪音源。值得说明的是,当家电设备没有携带摄像头时,可以通过网络向与家庭摄像头相连的设备请求当前包含用户的场景图像。
53.步骤120、向主噪音源发送音量控制指令,音量控制指令用于指示主噪音源降低音量。
54.其中,音量控制指令是用于指示主噪音源降低音量的指令,音量控制指令可以是暂停指令、降低音量或者功率的指令。
55.本实施例中,为了提高采集到的语音指令的质量,减少环境噪音对用户语音指令的影响,当确定主噪音源后,家电设备向主噪音源发送音量控制指令,以指示主噪音源降低音量。
56.示例性的,当确定当前主噪音源为智能电视机时,可以通过网络发送音量控制指令,控制电视机降低音量或者暂停播放,并在接收语音指令完毕后,恢复智能电视机音量,或者恢复播放状态。
57.步骤130、接收用户的语音指令,并通过语音识别模型对语音指令进行语音识别。
58.本实施例中,在降低环境中主噪音源的音量后,接收的用户语音指令中仍可能存在其他非主噪音源设备或者主噪音源设备的较弱的运行噪音,仍可能对语音识别造成一定的影响,因此,在接收到用户的语音指令后,进一步通过语音识别模型对语音指令进行语音识别,其中,语音识别模型包含降噪功能,该功能可以根据当前家电设备所处环境进行实时训练优化。示例性的,当前家电设备是智能音箱,当智能音箱由卧室转移到客厅时,周围的
环境噪音会发生变化,此时,智能音箱会根据实时采集的客厅内的噪音进行语音识别模型的优化训练,使得语音识别模型能够适配于当前家电设备所处的场景。
59.本发明实施例的技术方案,根据家电设备接收用户唤醒语音时所处的场景,确定主噪音源,并向主噪音源发送音量控制指令以指示主噪音源降低音量,最终接收用户的语音指令,并通过语音识别模型对语音指令进行语音识别,一方面通过降低主噪音源的音量可以降低环境中存在的主噪音对用户语音指令的干扰,在对用户正常生活影响较小的前提下,提高家电设备接收到语音指令的语音质量,从而提高语音识别成功率,另一方面,通过语音识别模型进行语音识别,提高语音识别成功率。
60.实施例二
61.图2为本发明实施例二中的一种语音识别方法的流程图,本实施例在上述实施例的基础上进一步细化,提供了向主噪音源发送音量控制指令的具体步骤。下面结合图2对本发明实施例二提供的一种语音识别方法进行说明,包括以下步骤:
62.步骤210、根据家电设备接收用户唤醒语音时所处的场景,确定主噪音源。
63.步骤220、获取当前时间,并确定当前时间所处时间段内主噪音源包含的至少一个设备的使用频率。
64.其中,设备的使用频率是在设定天数中设定时间段内的使用次数和天数的比值,示例性的,在30天内的使用频率是指
65.本实施例中,在确定主噪音源后接收用户语音指令前,为了确定与主噪音源匹配的音量控制指令,家电设备需要获取当前时间,然后计算当前时间所处时间段内主噪音源包含的至少一个设备的使用频率。示例性的,在确定主噪音源是智能电视机和智能洗衣机后,家电设备获取当前时间为19:30,并根据智能电视机和智能洗衣机的使用时间历史记录,进一步计算智能电视机和智能洗衣机近30天内在19:00~20:00内的使用频率,并根据使用频率分别确定与智能洗衣机和智能电视机匹配的音量控制指令,具体的,智能电视机近30天内在19:00~20:00内的使用频率可以是智能电视机近30天内在19:00~20:00内的使用次数和天数的比值。
66.步骤230、当使用频率大于或者等于设定阈值时,向主噪音源包含的至少一个设备发送降低音量或者功率的指令;当使用频率小于设定阈值时,向主噪音源发送暂停指令。
67.本实施例中,提供了根据设备在当前时间所处时间段内的使用频率确定各设备对应的音量控制指令的方式,具体为,当某一设备的使用频率大于或者等于设定阈值时,表明用户习惯于在当前时间所处时间段内使用该设备,若此时为了降低环境噪音对用户语音指令的影响而强行关闭或者暂停该设备,可能会对用户正常生活造成影响,因此,对应该设备的音量控制指令可以是降低音量或者降低功率,此时对用户正常使用该设备造成的影响较小;另外,当设备使用频率小于设定阈值时,表示用户在当前时间所处时间段内使用该设备的频率并不高,可以向该设备发送暂停指令,并在接收用户语音指令后恢复设备的运行状态。
68.示例性的,当确定主噪音源为智能洗衣机和智能电视机后,获取当前时间为19:30,并分别计算近30天内在19:00~20:00之间使用智能洗衣机和智能电视机的频率,最终得到智能电视机的使用频率高于设定阈值,表明用户在当前时间段习惯于使用智能电视机,则向电视机发送降低音量的指令,此时不会影响用户正常观看电视;智能洗衣机的使用
频率低于设定阈值,则表明用户当前时间段偶尔使用智能洗衣机,并不是习惯性动作,此时可以向智能洗衣机发送暂停指令,并在接收用户语音指令完毕后,恢复洗衣机正常运行状态。
69.步骤240、接收用户的语音指令,并通过语音识别模型对语音指令进行语音识别。
70.可选的,还包括:
71.按照设定周期将至少一个设备的运行噪音与用户样本唤醒语音进行叠加,得到基准语音信息;
72.通过所述基准语音信息,对所述语音识别模型进行优化训练。
73.本可选的实施例中,为了使语音识别模型不局限与某一固定环境,而是与当前家电设备所处的环境相适配,提高语音识别成功率,家电设备按照设定周期获取当前环境中各设备的运行噪音,并将该运行噪音与用户样本唤醒语音进行叠加,得到基准语音信息,使用基准语音信息对当前语音识别模型进行优化训练,使得语音识别模型能够适配于家电设备当前所处的场景,比针对单一环境的语音识别模型能够得到更好的降噪效果,提高语音识别成功率。其中,用户样本唤醒语音是指不包含噪音的用户唤醒语音。
74.本发明实施例的技术方案,根据家电设备接收用户唤醒语音时所处的场景,确定主噪音源,然后获取当前时间,并确定当前时间所处时间段内主噪音源包含的至少一个设备的使用频率,根据使用频率确定与主噪音源匹配的音量控制指令,最终接收用户的语音指令,并通过语音识别模型对语音指令进行语音识别,实现了根据设备的使用频率确定与各设备匹配的音量控制指令,可以在对用户正常生活影响较小的同时,提高语音识别成功率。
75.实施例三
76.图3为本发明实施例三提供的一种语音识别装置的结构示意图,该语音识别装置,包括:主噪音源确定模块310、音量控制指令发送模块320和语音识别模块330。
77.主噪音源确定模块310,用于根据家电设备接收用户唤醒语音时所处的场景,确定主噪音源;
78.音量控制指令发送模块320,用于向所述主噪音源发送音量控制指令,所述音量控制指令用于指示所述主噪音源降低音量;
79.语音识别模块330,用于接收用户的语音指令,并通过语音识别模型对所述语音指令进行语音识别。
80.本发明实施例的技术方案,根据家电设备接收用户唤醒语音时所处的场景,确定主噪音源,并向主噪音源发送音量控制指令以指示主噪音源降低音量,最终接收用户的语音指令,并通过语音识别模型对语音指令进行语音识别,一方面通过降低主噪音源的音量可以降低环境中存在的主噪音对用户语音指令的干扰,在对用户正常生活影响较小的前提下,提高家电设备接收到语音指令的语音质量,从而提高语音识别成功率,另一方面,通过语音识别模型进行语音识别,提高语音识别成功率。
81.可选的,所述主噪音源确定模块310,具体用于:
82.当接收到用户唤醒语音时,获取当前环境中至少一个处于运行状态的目标设备;
83.获取各目标设备与用户之间的距离;
84.将与用户之间的距离小于设定阈值的至少一个目标设备作为主噪音源;或者,
85.将至少一个目标设备中运行噪音的分贝值高于设定阈值的至少一个设备作为主噪音源。
86.可选的,所述主噪音源确定模块310,具体用于:
87.当接收到用户唤醒语音时,获取当前环境中至少一个处于运行状态的设备,以及各设备的运行功率;
88.将运行功率大于设定阈值的至少一个设备作为主噪音源。
89.可选的,所述主噪音源确定模块310,具体用于:
90.当接收到用户唤醒语音时,获取当前时间;
91.根据设备使用时间的历史记录,查询当前时间所处时间段内各设备的运行状态;
92.将所述当前时间所处时间段内正在运行的设备作为主噪音源。
93.可选的,所述主噪音源确定模块310,具体用于:
94.当接收到用户唤醒语音时,获取用户状态以及位置;
95.根据所述用户状态以及位置确定主噪音源。
96.可选的,所述语音识别装置,还包括:
97.基准语音信息获取模块,用于按照设定周期将至少一个设备的运行噪音与用户样本唤醒语音进行叠加,得到基准语音信息;
98.语音识别模型优化模块,用于通过所述基准语音信息,对所述语音识别模型进行优化训练。
99.可选的,所述音量控制指令发送模块320,具体用于:
100.获取当前时间,并确定当前时间所处时间段内主噪音源包含的至少一个设备的使用频率;
101.当所述使用频率大于或者等于设定阈值时,向所述主噪音源包含的至少一个设备发送降低音量或者功率的指令;
102.当所述使用频率小于设定阈值时,向所述主噪音源发送暂停指令。
103.本发明实施例所提供的语音识别装置可执行本发明任意实施例所提供的语音识别方法,具备执行方法相应的功能模块和有益效果。
104.实施例四
105.图4为本发明实施例四提供的一种设备的结构示意图,如图4所示,该电子设备包括处理器40和存储器41;设备中处理器40的数量可以是一个或多个,图4中以一个处理器40为例;设备中的处理器40和存储器41可以通过总线或其它方式连接,图4中以通过总线连接为例。
106.存储器41作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的一种语音识别方法对应的程序指令/模块(例如,语音识别装置中的主噪音源确定模块310、音量控制指令发送模块320和语音识别模块330)。处理器40通过运行存储在存储器41中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述的语音识别方法。
107.该方法包括:
108.根据家电设备接收用户唤醒语音时所处的场景,确定主噪音源;
109.向所述主噪音源发送音量控制指令,所述音量控制指令用于指示所述主噪音源降
低音量;
110.接收用户的语音指令,并通过语音识别模型对所述语音指令进行语音识别。
111.存储器41可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器41可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其它非易失性固态存储器件。在一些实例中,存储器41可进一步包括相对于处理器40远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
112.实施例五
113.本发明实施例五还提供一种其上存储有计算机程序的计算机可读存储介质,所述计算机程序在由计算机处理器执行时用于执行一种语音识别方法,该方法包括:
114.根据家电设备接收用户唤醒语音时所处的场景,确定主噪音源;
115.向所述主噪音源发送音量控制指令,所述音量控制指令用于指示所述主噪音源降低音量;
116.接收用户的语音指令,并通过语音识别模型对所述语音指令进行语音识别。
117.通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、闪存(flash)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
118.值得注意的是,上述一种语音识别装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
119.注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其它等效实施例,而本发明的范围由所附的权利要求范围决定。