首页 > 乐器声学 专利正文
设备唤醒方法、装置、智能终端及设备唤醒系统与流程

时间:2022-02-06 阅读: 作者:专利查询

设备唤醒方法、装置、智能终端及设备唤醒系统与流程

1.本技术属于人工智能技术领域,具体涉及一种设备唤醒方法、装置、智能终端及设备唤醒系统。


背景技术:

2.随着互联网技术的不断发展,以及远程控制技术的不断成熟,越来越多的移动终端已经支持网络唤醒设备的功能,即通过局域网实现设备的远程唤醒。随着语音智能设备的普及,家居环境中可能包括多个设备(如电视、冰箱、空调、洗衣机等)均由同一个唤醒词唤醒,这种场景下很有可能出现“一呼百应”的情况,例如,当用户通过固定唤醒词唤醒设备a的时候,设备a附近的其他设备b、c、d也响应了唤醒词,进而为用户后续的语音操作带来干扰,降低了用户的操控体验。
3.相关技术中,根据唤醒词时间段的信号能量选择最近设备,即声音传播距离越远,能量衰减越严重,则距离用户最近的设备所接收的唤醒词能量最大,由此根据能量选择最近设备。这种方法过分依赖于唤醒词时间段内的信号能量,在噪声环境下就近响应正确率将急剧下降,若某一设备离噪声源较近且离用户较远,则其唤醒词时间段内接收的噪声能量较多高于最近设备接收的信号能量而被误判为最近设备,出现唤醒设备出错,影响用户体验。


技术实现要素:

4.为至少在一定程度上克服相关技术中根据唤醒词时间段的信号能量选择最近设备易出现唤醒出错,影响用户体验的问题,本技术提供一种设备唤醒方法、装置、智能终端及设备唤醒系统。
5.第一方面,本技术提供一种设备唤醒方法,包括:
6.获取每个设备接收的唤醒词对应声音能量值;
7.计算每个设备与人员之间的距离信息;
8.根据各个设备接收的唤醒词对应声音能量值和各个设备与人员之间的距离信息计算各个设备的响应分数;
9.根据各个设备的响应分数确定最佳设备进行唤醒。
10.进一步的,所述获取每个设备接收的唤醒词对应声音能量值,包括:
11.根据接收到的唤醒词对应声音绘制声音能量波形;
12.根据所述声音能量波形的幅度值确定声音能量值。
13.进一步的,所述计算每个设备与人员之间的距离信息,包括:
14.获取环境视频图像;
15.将所述环境视频图像输入预设人物目标识别模型得到人物目标判断结果;
16.若所述人物目标判断结果为存在人物目标,则获取人物目标框;
17.计算所述人物目标框在人物目标所在图像的占比得到设备与人员之间的距离信
息。
18.进一步的,所述预设人物目标识别模型包括多个卷积层、多个瓶颈结构和多个连接层,所述将所述环境视频图像输入预设人物目标识别模型得到人物目标判断结果,包括:
19.将所述环境视频图像输入第一卷积层处理得到所述环境视频图像的浅层纹理信息;
20.将所述浅层纹理信息依次通过多个瓶颈结构后得到深层次图像特征;
21.将所述深层次图像特征进行上采样操作确定所述环境视频图像中感兴趣区域;
22.将所述感兴趣区域输入第一连接层与第二卷积层处理得到中间处理结果;
23.将所述中间处理结果再次进行上采样操作后输入第二连接层与第三卷积层处理,得到人物目标判断结果。
24.进一步的,所述确定所述环境视频图像中感兴趣区域,包括:
25.采用opencv处理方法和/或神经网络卷积方法提取感兴趣区域;
26.基于规则或不规则原则确定感兴趣区域边界。
27.进一步的,还包括:
28.使用第一卷积压缩所述多个卷积层输入的通道数目。
29.进一步的,在所述多个卷积层计算完成后,还包括:
30.使用第二卷积复原所述多个卷积层输出的通道数目。
31.进一步的,所述多个瓶颈结构包括:
32.瓶颈结构a、瓶颈结构b、多个瓶颈结构c、多个瓶颈结构d和多个瓶颈结构e;
33.其中,瓶颈结构a、瓶颈结构b、多个瓶颈结构c、多个瓶颈结构d和多个瓶颈结构e包括的卷积数量不同。
34.进一步的,所述获取人物目标框,包括:
35.通过data配置文件中设置的anchor尺度选择与人物目标匹配的框体大小作为人物目标框。
36.进一步的,所述根据各个设备接收的唤醒词对应声音能量值和各个设备与人员之间的距离信息计算各个设备的响应分数,包括:
37.响应分数=第一权重系数*人员与设备之间的距离分数+第二权重系数*设备接收的唤醒词对应声音能量值分数,其中人员与设备之间的距离分数为设备与人员之间的距离信息归一化处理结果,设备接收的唤醒词对应声音能量值分数为设备接收的唤醒词对应声音能量值归一化处理结果。
38.第二方面,本技术提供一种设备唤醒装置,包括:
39.获取模块,用于获取每个设备接收的唤醒词对应声音能量值;
40.第一计算模块,用于计算每个设备与人员之间的距离信息;
41.第二计算模块,用于根据各个设备接收的唤醒词对应声音能量值和各个设备与人员之间的距离信息计算各个设备的响应分数;
42.唤醒模块,用于根据各个设备的响应分数确定最佳设备进行唤醒。
43.第三方面,本技术提供一种智能终端,包括:
44.一个或者多个存储器,其上存储有可执行程序;
45.一个或者多个处理器,用于执行所述存储器中的所述可执行程序,以实现第一方
面任一项所述方法的步骤。
46.第四方面,本技术提供一种设备唤醒系统,包括:
47.如第三方面所述的智能终端和多个设备;
48.所述智能终端分别与多个设备连接。
49.进一步的,所述设备,包括:
50.控制存储单元、扬声器单元、摄像头检测单元、麦克风单元和wifi通讯单元;
51.所述控制存储单元分别与所述扬声器单元、摄像头检测单元、麦克风单元和wifi通讯单元连接;
52.所述扬声器单元用于放大语音响应声音;
53.所述摄像头检测单元用于获取环境视频图像;
54.所述麦克风单元用于收集声音的能量值信息;
55.所述wifi通讯单元用于与外部iot服务器连接。
56.本技术的实施例提供的技术方案可以包括以下有益效果:
57.本发明实施例提供的设备唤醒方法、装置、智能终端及设备唤醒系统,设备唤醒方法包括获取每个设备接收的唤醒词对应声音能量值,计算每个设备与人员之间的距离信息,根据各个设备接收的唤醒词对应声音能量值和各个设备与人员之间的距离信息计算各个设备的响应分数,根据各个设备的响应分数确定最佳设备进行唤醒,可以降低噪音对唤醒设备的影响,准确地判断出唤醒最佳设备进行唤醒,提升用户体验。
58.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本技术。
附图说明
59.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理。
60.图1为本技术一个实施例提供的一种设备唤醒方法的流程图。
61.图2为本技术另一个实施例提供的一种设备唤醒方法的流程图。
62.图3为本技术一个实施例提供的一种设备唤醒方法中人物目标识别模型识别方法的流程图。
63.图4为本技术一个实施例提供的一种设备唤醒装置的功能结构图。
64.图5为本技术一个实施例提供的一种设备唤醒系统的功能结构图。
65.图6为本技术一个实施例提供的一种设备的功能结构图。
具体实施方式
66.为使本技术的目的、技术方案和优点更加清楚,下面将对本技术的技术方案进行详细的描述。显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本技术所保护的范围。
67.图1为本技术一个实施例提供的设备唤醒方法的流程图,如图1所示,该设备唤醒方法,包括:
68.s11:获取每个设备接收的唤醒词对应声音能量值;
69.s12:计算每个设备与人员之间的距离信息;
70.s13:根据各个设备接收的唤醒词对应声音能量值和各个设备与人员之间的距离信息计算各个设备的响应分数;
71.s14:根据各个设备的响应分数确定最佳设备进行唤醒。
72.传统唤醒设备方法是根据唤醒词时间段的信号能量选择最近设备,即声音传播距离越远,能量衰减越严重,则距离用户最近的设备所接收的唤醒词能量最大,由此根据能量选择最近设备,但这种方法过分依赖于唤醒词时间段内的信号能量,在噪声环境下就近响应正确率将急剧下降,若某一设备离噪声源较近且离用户较远,则其唤醒词时间段内接收的噪声能量较多高于最近设备接收的信号能量而被误判为最近设备,出现唤醒设备出错,影响用户体验。
73.本实施例中,设备唤醒方法包括获取每个设备接收的唤醒词对应声音能量值,计算每个设备与人员之间的距离信息,根据各个设备接收的唤醒词对应声音能量值和各个设备与人员之间的距离信息计算各个设备的响应分数,根据各个设备的响应分数确定最佳设备进行唤醒,可以降低噪音对唤醒设备的影响,准确地判断出唤醒最佳设备进行唤醒。
74.本发明实施例提供另一种设备唤醒方法,如图2所示的流程图,该设备唤醒方法,包括:
75.s21:根据接收到的唤醒词对应声音绘制声音能量波形;
76.s22:根据声音能量波形的幅度值确定声音能量值;
77.s23:获取环境视频图像;
78.s24:将环境视频图像输入预设人物目标识别模型得到人物目标判断结果;
79.一些实施例中,如图3所示,预设人物目标识别模型包括多个卷积层、多个瓶颈结构和多个连接层,将环境视频图像输入预设人物目标识别模型得到人物目标判断结果,包括:
80.s241:将环境视频图像输入第一卷积层处理得到所述环境视频图像的浅层纹理信息;
81.s242:将浅层纹理信息依次通过多个瓶颈结构后得到深层次图像特征;
82.s243:将深层次图像特征进行上采样操作确定所述环境视频图像中感兴趣区域;
83.进一步的,确定所述环境视频图像中感兴趣区域,包括:
84.s2431:采用opencv处理方法和/或神经网络卷积方法提取感兴趣区域;
85.s2432:基于规则或不规则原则确定感兴趣区域边界。
86.s244:将感兴趣区域输入第一连接层与第二卷积层处理得到中间处理结果;
87.s245:将中间处理结果再次进行上采样操作后输入第二连接层与第三卷积层处理,得到人物目标判断结果。
88.一些实施例中,还包括:
89.使用第一卷积压缩多个卷积层输入的通道数目。
90.第一卷积例如为1
×
1卷积,压缩多个卷积层输入的通道数目可以减少计算量,提高计算效率。
91.在多个卷积层计算完成后,还包括:
92.使用第二卷积复原所述多个卷积层输出的通道数目
93.进一步的,所述多个瓶颈结构包括:
94.瓶颈结构a、瓶颈结构b、多个瓶颈结构c、多个瓶颈结构d和多个瓶颈结构e;
95.其中,瓶颈结构a、瓶颈结构b、多个瓶颈结构c、多个瓶颈结构d和多个瓶颈结构e包括的卷积数量不同。
96.瓶颈结构可以增加网络层数,因此可以提升特征提取能力。
97.s25:若人物目标判断结果为存在人物目标,则获取人物目标框;
98.一些实施例中,获取人物目标框,包括:
99.通过data配置文件中设置的anchor尺度选择与人物目标匹配的框体大小作为人物目标框。
100.s26:计算人物目标框在人物目标所在图像的占比得到设备与人员之间的距离信息;
101.s27:根据各个设备接收的唤醒词对应声音能量值和各个设备与人员之间的距离信息计算各个设备的响应分数;
102.一些实施例中,根据各个设备接收的唤醒词对应声音能量值和各个设备与人员之间的距离信息计算各个设备的响应分数,包括:
103.响应分数=第一权重系数*人员与设备之间的距离分数+第二权重系数*设备接收的唤醒词对应声音能量值分数,其中人员与设备之间的距离分数为设备与人员之间的距离信息归一化处理结果,设备接收的唤醒词对应声音能量值分数为设备接收的唤醒词对应声音能量值归一化处理结果。
104.其中第一权重系数例如为80%,第二权重系数例如为20%,需要说明的是,本技术对人员与设备之间的距离分数与设备接收的唤醒词对应声音能量值分数对应的权重系数比值不做限定,本领域技术人员可根据实际需要设置。
105.s28:根据各个设备的响应分数确定最佳设备进行唤醒。
106.在确定最佳设备后,最佳设备接收到唤醒指令,开始响应唤醒指令,响应方法包括不限于通过语音反馈响应信息。
107.本实施例中,多台设备同时存在的家居环境下,用户进行语音唤醒设备时,多台设备同时进行声音的能量值收集,并进行人员信息的识别工作,根据识别的结果判断设备与人员之间的距离信息。并设置响应分数公式计算响应分数,最终根据各个设备获得的响应分数仲裁决定最佳设备进行唤醒,提高唤醒设备的准确率,从而提升用户体验。
108.本发明实施例提供一种设备唤醒装置,如图4所示的功能结构图,该设备唤醒装置包括:
109.获取模块41,用于获取每个设备接收的唤醒词对应声音能量值;
110.第一计算模块42,用于计算每个设备与人员之间的距离信息;
111.第二计算模块43,用于根据各个设备接收的唤醒词对应声音能量值和各个设备与人员之间的距离信息计算各个设备的响应分数;
112.唤醒模块44,用于根据各个设备的响应分数确定最佳设备进行唤醒。
113.一些实施例中,获取模块41被配置为:
114.根据接收到的唤醒词对应声音绘制声音能量波形;
115.根据所述声音能量波形的幅度值确定声音能量值。
116.第一计算模块42被配置为:
117.获取环境视频图像;
118.将环境视频图像输入预设人物目标识别模型得到人物目标判断结果;
119.若人物目标判断结果为存在人物目标,则获取人物目标框;
120.计算人物目标框在人物目标所在图像的占比得到设备与人员之间的距离信息。
121.进一步的,预设人物目标识别模型包括多个卷积层、多个瓶颈结构和多个连接层,所述将所述环境视频图像输入预设人物目标识别模型得到人物目标判断结果,包括:
122.将环境视频图像输入第一卷积层处理得到所述环境视频图像的浅层纹理信息;
123.将浅层纹理信息依次通过多个瓶颈结构后得到深层次图像特征;
124.将深层次图像特征进行上采样操作确定所述环境视频图像中感兴趣区域;
125.将感兴趣区域输入第一连接层与第二卷积层处理得到中间处理结果;
126.将中间处理结果再次进行上采样操作后输入第二连接层与第三卷积层处理,得到人物目标判断结果。
127.进一步的,确定所述环境视频图像中感兴趣区域,包括:
128.采用opencv处理方法和/或神经网络卷积方法提取感兴趣区域;
129.基于规则或不规则原则确定感兴趣区域边界。
130.进一步的,还包括:
131.使用第一卷积压缩所述多个卷积层输入的通道数目。
132.进一步的,在多个卷积层计算完成后,还包括:
133.使用第二卷积复原所述多个卷积层输出的通道数目。
134.进一步的,多个瓶颈结构包括:
135.瓶颈结构a、瓶颈结构b、多个瓶颈结构c、多个瓶颈结构d和多个瓶颈结构e;
136.其中,瓶颈结构a、瓶颈结构b、多个瓶颈结构c、多个瓶颈结构d和多个瓶颈结构e包括的卷积数量不同。
137.进一步的,获取人物目标框,包括:
138.通过data配置文件中设置的anchor尺度选择与人物目标匹配的框体大小作为人物目标框。
139.一些实施例中,第二计算模块43被配置为:
140.响应分数=第一权重系数*人员与设备之间的距离分数+第二权重系数*设备接收的唤醒词对应声音能量值分数,其中人员与设备之间的距离分数为设备与人员之间的距离信息归一化处理结果,设备接收的唤醒词对应声音能量值分数为设备接收的唤醒词对应声音能量值归一化处理结果。
141.本实施例中,通过获取模块获取每个设备接收的唤醒词对应声音能量值;第一计算模块计算每个设备与人员之间的距离信息;第二计算模块根据各个设备接收的唤醒词对应声音能量值和各个设备与人员之间的距离信息计算各个设备的响应分数;唤醒模块根据各个设备的响应分数确定最佳设备进行唤醒,可以降低噪音对唤醒设备的影响,准确地判断出唤醒最佳设备进行唤醒,从而提升用户体验。
142.本发明实施例提供一种智能终端,该智能终端包括:
143.一个或者多个存储器,其上存储有可执行程序;
144.一个或者多个处理器,用于执行所述存储器中的所述可执行程序,以实现上述实施例中所述方法的步骤。
145.本发明实施例提供一种设备唤醒系统,如图5所示的功能结构图,该设备唤醒系统,包括:
146.如上述实施例所述的智能终端51和多个设备52;
147.智能终端51分别与多个设备52连接。
148.一些实施例中,如图6所示,设备52,包括:
149.控制存储单元602、扬声器单元603、摄像头检测单元601、麦克风单元605和wifi通讯单元604;
150.控制存储单元602分别与扬声器单元603、摄像头检测单元601、麦克风单元605和wifi通讯单元604连接;
151.扬声器单元603用于放大语音响应声音;
152.摄像头检测单元601用于获取环境视频图像;
153.麦克风单元605用于收集声音的能量值信息;
154.wifi通讯单元604用于与外部iot服务器连接。
155.设备52例如为空调。一些实施例中,摄像头检测单元601在语音设备被唤醒时对检测区域范围内的人员进行检测,获取人员与设备之间的距离信息,麦克风单元605在语音设备被唤醒时用于收集声音的能量值信息。根据上述所获取的两种信息数据驱动控制单元602实现数据处理和控制指令传递,并利用设备的wifi通讯单元004将收到的信息传输到物联网云端iot(物联网,internet of things)服务器,在云端服务器进行判断决策,最终根据判决结果驱动最佳设备的扬声器单元进行语音应答。
156.可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
157.需要说明的是,在本技术的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本技术的描述中,除非另有说明,“多个”的含义是指至少两个。
158.流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本技术的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本技术的实施例所属技术领域的技术人员所理解。
159.应当理解,本技术的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。
160.本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步
骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
161.此外,在本技术各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
162.上述提到的存储介质可以是只读存储器,磁盘或光盘等。
163.在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本技术的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
164.尽管上面已经示出和描述了本技术的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本技术的限制,本领域的普通技术人员在本技术的范围内可以对上述实施例进行变化、修改、替换和变型。
165.需要说明的是,本发明不局限于上述最佳实施方式,本领域技术人员在本发明的启示下都可得出其他各种形式的产品,但不论在其形状或结构上作任何变化,凡是具有与本技术相同或相近似的技术方案,均落在本发明的保护范围之内。