数字人系统的唤醒方法和数字人系统与流程

1.本发明涉及数字人领域，特别涉及一种数字人系统的唤醒方法和数字人系统。

背景技术：

2.在一些人流比较大、人员说话比较嘈杂的环境。比如商场，银行，酒店环境中使用的数字人。语音唤醒数字人经常出现被其它声音误唤醒的情况，严重影响数字人提供数字人服务的效率和用户体验。

技术实现要素：

3.鉴于上述问题，本发明提供一种克服上述问题或者至少部分地解决上述问题的数字人系统的唤醒方法和数字人系统。
4.第一方面，本发明提供了一种数字人系统的唤醒方法，包括：
5.信号采集模块获得用户的语音信号和人脸检测信号；
6.中控模块根据语音信号和人脸检测信号，确定是否激活网络通信模块，其中，信号采集模块与中控模块通信连接；
7.若确定激活网络通信模块，则中控模块激活网络通信模块，并控制信号采集模块继续采集语音信号，并通过网络通信模块将采集到的语音信号发送至数字人系统的数字人服务器，其中，中控模块和数字人服务器均与网络通信模块通信连接；
8.数字人服务器针对语音信号，通过网络通信模块向中控模块发送相应的应答音频信号，以向用户提供相应的数字人服务。
9.结合第一方面，在某些可选的实施方式中，信号采集模块获得用户的语音信号和人脸检测信号，包括：
10.信号采集模块采集用户发出的语音信号，实时检测用户的人脸动态图像，得到用户的人脸检测信号。
11.结合上一个实施方式，在某些可选的实施方式中，中控模块根据语音信号和人脸检测信号，确定是否激活数字人系统的网络通信模块，包括：
12.中控模块确定是否语音信号中包括预先存储的关键字音频信号且人脸检测信号为活体人脸检测信号，若是，则确定激活网络通信模块，否则，确定不激活网络通信模块。
13.结合第一方面，在某些可选的实施方式中，在中控模块根据语音信号和人脸检测信号，确定是否激活网络通信模块之后，方法还包括：若确定不激活网络通信模块，则不激活网络通信模块，并在延迟第一时间阈值后继续通过信号采集模块采集语音信号和人脸检测信号。
14.结合第一方面，在某些可选的实施方式中，在数字人服务器针对语音信号，通过网络通信模块向中控模块发送相应的应答音频信号之后，方法还包括：
15.中控模块将应答音频信号发送至2d渲染模块；
16.2d渲染模块对应答音频信号进行2d渲染后，通过数字人系统的电子屏幕和声音播
放设备输出相应的2d音视频，以向用户提供相应的数字人服务。
17.结合第一方面，在某些可选的实施方式中，在数字人服务器针对语音信号，通过网络通信模块向中控模块发送相应的应答音频信号之后，方法还包括：
18.中控模块将应答音频信号发送至3d渲染模块；
19.3d渲染模块对应答音频信号进行3d渲染后，通过数字人系统的电子屏幕和声音播放设备输出相应的3d音视频，以向用户提供相应的数字人服务。
20.第二方面，一种数字人系统，包括：信号采集模块、中控模块、网络通信模块和数字人服务器，其中，中控模块与信号采集模块通信连接，并与网络通信模块通信连接，网络通信模块与数字人服务器通信连接；
21.信号采集模块包括采集单元，中控模块包括确定单元和激活单元；
22.采集单元，用于获得用户的语音信号和人脸检测信号；
23.确定单元，用于根据语音信号和人脸检测信号，确定是否激活网络通信模块；
24.激活单元，用于若确定激活网络通信模块，则激活网络通信模块，并控制信号采集模块继续采集语音信号，并通过网络通信模块将采集到的语音信号发送至数字人系统的数字人服务器；
25.数字人服务模块，用于针对语音信号，向用户提供相应的数字人服务。
26.结合第二方面，在某些可选的实施方式中，采集单元包括：采集子单元；
27.采集子单元，用于采集用户发出的语音信号，实时检测用户的人脸动态图像，得到用户的人脸检测信号。
28.结合上一个实施方式，在某些可选的实施方式中，确定单元包括：确定子单元、第一结果子单元和第二结果子单元；
29.确定子单元，用于确定是否语音信号中包括预先存储的关键字音频信号且人脸检测信号为活体人脸检测信号，若是，则触发第一结果子单元，否则，触发第二结果子单元；
30.第一结果子单元，用于激活网络通信模块；
31.第二结果子单元，用于确定不激活网络通信模块。
32.结合第二方面，在某些可选的实施方式中，中控模块还包括：不激活单元；
33.不激活单元，用于在中控模块根据语音信号和人脸检测信号，确定是否激活网络通信模块之后，若确定不激活网络通信模块，则不激活网络通信模块，并在延迟第一时间阈值后继续通过信号采集模块采集语音信号和人脸检测信号。
34.结合第二方面，在某些可选的实施方式中，所述系统还包括：2d渲染模块，中控模块还包括：第一音频发送单元；
35.第一音频发送单元，用于在数字人服务器针对语音信号，通过网络通信模块向中控模块发送相应的应答音频信号之后，将应答音频信号发送至2d渲染模块；
36.2d渲染模块，用于对应答音频信号进行2d渲染后，通过数字人系统的电子屏幕和声音播放设备输出相应的2d音视频，以向用户提供相应的数字人服务。
37.结合第二方面，在某些可选的实施方式中，所述系统还包括：3d渲染模块，中控模块还包括：第二音频发送单元；
38.第二音频发送单元，用于在数字人服务器针对语音信号，通过网络通信模块向中控模块发送相应的应答音频信号之后，将应答音频信号发送至3d渲染模块；
39.3d渲染模块，用于对应答音频信号进行3d渲染后，通过数字人系统的电子屏幕和声音播放设备输出相应的3d音视频，以向用户提供相应的数字人服务。
40.第三方面，一种计算机可读存储介质，其上存储有程序，程序被处理器执行时实现上述任一项的数字人系统的唤醒方法。
41.第四方面，一种电子设备，电子设备包括至少一个处理器、以及与处理器连接的至少一个存储器、总线；其中，处理器、存储器通过总线完成相互间的通信；处理器用于调用存储器中的程序指令，以执行上述任一项的数字人系统的唤醒方法。
42.借由上述技术方案，本发明提供的数字人系统的唤醒方法和数字人系统，可以通过信号采集模块获得用户的语音信号和人脸检测信号；中控模块根据语音信号和人脸检测信号，确定是否激活网络通信模块，其中，信号采集模块与中控模块通信连接；若确定激活网络通信模块，则中控模块激活网络通信模块，并控制信号采集模块继续采集语音信号，并通过网络通信模块将采集到的语音信号发送至数字人系统的数字人服务器，其中，中控模块和数字人服务器均与网络通信模块通信连接；数字人服务器针对语音信号，通过网络通信模块向中控模块发送相应的应答音频信号，以向用户提供相应的数字人服务。由此可以看出，本发明可以结合用户的语音信号和人脸检测信号，确定是否可以向用户提供相应的数字人服务，准确性较高，一定程度上可以降低数字人被误启动的概率，提高用户体验。
43.上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。
附图说明
44.通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：
45.图1示出了本发明提供的一种数字人系统的唤醒方法的流程图；
46.图2示出了本发明提供的一种数字人系统的结构示意图；
47.图3示出了本发明提供的一种电子设备的结构示意图；
48.图4示出了本发明提供的一种交互系统的结构示意图。
具体实施方式
49.下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。
50.如图1所示，本发明提供了一种数字人系统的唤醒方法，包括：s100、s200、s300和s400；
51.s100、信号采集模块获得用户的语音信号和人脸检测信号；
52.可选的，本发明所说的信号采集模块可以包括拾音器和拍摄装置，拾音器可以采集用户的语音信号，拍摄装置可以采集用户的人脸信号作为人脸检测信号。
53.例如，在实际的使用场景中，用户在执行本发明的设备前面，可以对着拾音器讲话以便于拾音器采集用户的语音信号。用户也可以对着摄像头，以便于摄像头采集的用户的人脸检测信号，本发明对此不做限制。
54.可选的，本发明所说的信号采集模块可以和后续步骤中的其他模块集成在一个设备上，也可以设置在一个单独的设备上，本发明对此不做限制。
55.结合图1所示的实施方式，在某些可选的实施方式中，s100包括：信号采集模块采集用户发出的语音信号，实时检测用户的人脸动态图像，得到用户的人脸检测信号。
56.可选的，信号采集模块可以采集用户在一定时长内的语音信号，也可以不断采集用户的语音信号，直到判定用户不再继续讲话为止。同理，也可以采集用户的一定时长内的人脸动态图像，本发明对此不做限制。
57.s200、中控模块根据语音信号和人脸检测信号，确定是否激活网络通信模块，其中，信号采集模块与中控模块通信连接；
58.可选的，本发明可以结合语音信号和人脸检测信号，确定是否激活网络通信模块，以降低误启动数字人的概率。例如，本发明可以通过语音信号确定用户是否需要数字人提供服务，并且还可以通过人脸检测信号，确定当前在设备面前讲话的人是否是真实的活人。甚至可以确定用户的是否是本人，即确定人脸检测信号与语音信号是否指向同一个人，本发明对此不做限制。
59.可选的，只有通过语音信号确定用户需要数字人提供服务，且通过人脸检测信号确定当前的用户是活人的时候，才确定激活网络通信模块，以便于后续向用户提供数字人服务，本发明对此不做限制。
60.可选的，本发明对于根据语音信号和人脸检测信号，确定是否激活网络通信模块的方式不做具体限制，任何可行的方式均属于本发明的保护范围。例如，结合上一个实施方式，在某些可选的实施方式中，s200包括：中控模块确定是否语音信号中包括预先存储的关键字音频信号且人脸检测信号为活体人脸检测信号，若是，则确定激活网络通信模块，否则，确定不激活网络通信模块。
61.可选的，本发明的所说的关键字音频信号可以是唤醒数字人的关键字音频信号。例如，可以是数字人、机器人和智能客服等关键字，本发明对此不做限制。
62.可选的，本发明对于确定语音信号中是否包括预先存储的关键字音频信号的方式不做具体限制，任何可行的方式均属于本发明的保护范围。例如可以将语音信号转为文字，然后通过正则匹配的方式确定，还可以直接对语音信号进行智能识别，确定语音信号中是否包括预先存储的关键字音频信号，本发明对此不做限制。
63.可选的，活体人脸检测信号指的是真实的活人的人脸检测信号。本发明对于人脸检测信号是否为活体人脸检测信号的方式不做具体限制，任何可行的方式均属于本发明的保护范围。例如，本发明可以提示用户做出相应的神态或者动作，比如做笑脸，眨眼、转头和点头等动作，若用户均按照提示做了相应的动作，则说明当前采集到的人脸检测信号是活体人脸检测信号。
64.结合图1所示的实施方式，在某些可选的实施方式中，在s200之后，所述方法还包括：若确定不激活网络通信模块，则不激活网络通信模块，并在延迟第一时间阈值后继续通过信号采集模块采集语音信号和人脸检测信号。
65.可选的，本发明对于第一时间阈值不做具体限制，可以根据实际需要进行设置。
66.s300、若确定激活网络通信模块，则中控模块激活网络通信模块，并控制信号采集模块继续采集语音信号，并通过网络通信模块将采集到的语音信号发送至数字人系统的数字人服务器，其中，中控模块和数字人服务器均与网络通信模块通信连接；
67.可选的，激活网络通信模块可以理解为：激活网络通信模块的通信功能，以便于中控模块与网络通信模块之间可以进行通信，同时也使得数字人服务器与网络通信模块之间可以进行通信，本发明对此不做限制。
68.可选的，如前所述，确定激活网络通信模块的前提是：确定用户需要数字人提供服务，且确定当前的用户是真实的活人。既然用户需要数字人提供服务，所以可以控制信号采集模块继续采集语音信号，以便于获知用户具体需要数字人提供哪些服务，以便于在后续为用户提供相应的数字人服务，进而提高向用户提供数字人服务的精确度，提高用户体验。
69.可选的，本发明的数字人服务器中可以运行各种数字人服务，以便于向用户提供相应的数字人服务，本发明对此不做限制。
70.s400、数字人服务器针对语音信号，通过网络通信模块向中控模块发送相应的应答音频信号，以向用户提供相应的数字人服务。
71.可选的，数字人服务器可以运行相应的服务，以针对语音信号做出相应的应答，并发送给网络通信模块，以通过网络通信模块向中控模块发送相应的应答音频信号，本发明对此不做限制。
72.可选的，数字人服务器针对用户提出的请求，做出相应的应答后，即可理解为向用户提供相应的数字人服务。
73.可选的，本发明可以将应答音频信号直接反馈给用户，还可以通过其他方式向用户展示，以向用户提供数字人服务。例如，结合图1所示的实施方式，在某些可选的实施方式中，在s400之后，所述方法还包括：步骤1.1和步骤1.2；
74.步骤1.1、中控模块将应答音频信号发送至2d渲染模块；
75.步骤1.2、2d渲染模块对应答音频信号进行2d渲染后，通过数字人系统的电子屏幕和声音播放设备输出相应的2d音视频，以向用户提供相应的数字人服务。
76.可选的，本发明所说的2d音视频指的是：二维的视频和音频。例如，通过二维的数字人的卡通人物形象与用户进行语音交互，以向用户提供相应的数字人服务。
77.结合图1所示的实施方式，在某些可选的实施方式中，在s400之后，所述方法还包括：步骤2.1和步骤2.2；
78.步骤2.1、中控模块将应答音频信号发送至3d渲染模块；
79.步骤2.2、3d渲染模块对应答音频信号进行3d渲染后，通过数字人系统的电子屏幕和声音播放设备输出相应的3d音视频，以向用户提供相应的数字人服务。
80.可选的，本发明所说的3d音视频指的是：三维的视频和音频。例如，通过三维的数字人的卡通人物形象与用户进行语音交互，以向用户提供相应的数字人服务。
81.如图2所示，本发明提供了一种数字人系统，包括：信号采集模块1000、中控模块2000、网络通信模块3000和数字人服务器4000，其中，中控模块2000与信号采集模块1000通信连接，并与网络通信模块3000通信连接，网络通信模块3000与数字人服务器4000通信连接；
82.信号采集模块1000包括采集单元1001，中控模块2000包括确定单元2001和激活单元2002；
83.采集单元1001，用于获得用户的语音信号和人脸检测信号；
84.确定单元2001，用于根据语音信号和人脸检测信号，确定是否激活网络通信模块3000；
85.激活单元2002，用于若确定激活网络通信模块3000，则激活网络通信模块3000，并控制信号采集模块1000继续采集语音信号，并通过网络通信模块3000将采集到的语音信号发送至数字人系统的数字人服务器4000；
86.数字人服务模块，用于针对语音信号，向用户提供相应的数字人服务。
87.结合图2所示的实施方式，在某些可选的实施方式中，采集单元1001包括：采集子单元；
88.采集子单元，用于采集用户发出的语音信号，实时检测用户的人脸动态图像，得到用户的人脸检测信号。
89.结合上一个实施方式，在某些可选的实施方式中，确定单元2001包括：确定子单元、第一结果子单元和第二结果子单元；
90.确定子单元，用于确定是否语音信号中包括预先存储的关键字音频信号且人脸检测信号为活体人脸检测信号，若是，则触发第一结果子单元，否则，触发第二结果子单元；
91.第一结果子单元，用于激活网络通信模块3000；
92.第二结果子单元，用于确定不激活网络通信模块3000。
93.结合图2所示的实施方式，在某些可选的实施方式中，中控模块2000还包括：不激活单元；
94.不激活单元，用于在中控模块2000根据语音信号和人脸检测信号，确定是否激活网络通信模块3000之后，若确定不激活网络通信模块3000，则不激活网络通信模块3000，并在延迟第一时间阈值后继续通过信号采集模块1000采集语音信号和人脸检测信号。
95.结合图2所示的实施方式，在某些可选的实施方式中，所述系统还包括：2d渲染模块，中控模块2000还包括：第一音频发送单元；
96.第一音频发送单元，用于在数字人服务器4000针对语音信号，通过网络通信模块3000向中控模块2000发送相应的应答音频信号之后，将应答音频信号发送至2d渲染模块；
97.2d渲染模块，用于对应答音频信号进行2d渲染后，通过数字人系统的电子屏幕和声音播放设备输出相应的2d音视频，以向用户提供相应的数字人服务。
98.结合图2所示的实施方式，在某些可选的实施方式中，所述系统还包括：3d渲染模块，中控模块2000还包括：第二音频发送单元；
99.第二音频发送单元，用于在数字人服务器4000针对语音信号，通过网络通信模块3000向中控模块2000发送相应的应答音频信号之后，将应答音频信号发送至3d渲染模块；
100.3d渲染模块，用于对应答音频信号进行3d渲染后，通过数字人系统的电子屏幕和声音播放设备输出相应的3d音视频，以向用户提供相应的数字人服务。
101.本发明提供了一种计算机可读存储介质，其上存储有程序，程序被处理器执行时实现上述任一项的数字人渲染方法。
102.如图3所示，本发明提供了一种电子设备70，所述电子设备70包括至少一个处理器
701、以及与所述701处理器连接的至少一个存储器702、总线703；其中，所述处理器701、所述存储器702通过所述总线703完成相互间的通信；所述处理器701用于调用所述存储器702中的程序指令，以执行上述任一项所述的数字人渲染方法。
103.可选的，请参阅图4，图4示出了一种适用于本技术实施例的应用环境示意图。本技术实施例提供的数据处理方法可以应该用于如图4所示的交互系统100。交互系统100包括终端设备101以及服务器102，服务器102与终端设备101通信连接。其中，服务器102可以是传统服务器，也可以是云端服务器，在此不做具体限定。
104.其中，终端设备101可以是具有显示屏、具有数据处理模块、具有拍摄相机、具有音频输入/输出等功能，且支持数据输入的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机、自助服务终端和可穿戴式电子设备等。具体的，数据输入可以是基于电子设备上具有的语音模块输入语音、字符输入模块输入字符等。
105.其中，终端设备101上可以安装有客户端应用程序，用户可以基于客户端应用程序(例如app，微信小程序等)，其中，本实施例的对话机器人也是配置于终端设备101中的一个客户端应用程序。用户可以基于客户端应用程序在服务器102注册一个用户账号，并基于该用户账号与服务器102进行通信，例如用户在客户端应用程序登录用户账号，并基于该用户账号通过客户端应用程序进行输入，可以输入文字信息或语音信息等，客户端应用程序接收到用户输入的信息后，可以将该信息发送至服务器102，使得服务器102可以接收该信息并进行处理及存储，服务器102还可以接收该信息并根据该信息返回一个对应的输出信息至终端设备101。
106.在一些实施方式中，对待识别数据进行处理的装置也可以设置于终端设备101上，使得终端设备101无需依赖于服务器102建立通信即可实现与用户的交互，此时交互系统100可以只包括终端设备101。
107.在本技术中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
108.本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
109.对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
110.以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在
本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。