首页 > 乐器声学 专利正文
基于语音的图像生成方法、装置、设备及介质与流程

时间:2022-01-19 阅读: 作者:专利查询

基于语音的图像生成方法、装置、设备及介质与流程

1.本技术涉及计算机技术领域,尤其涉及一种基于语音的图像生成方法、装置、设备及介质。


背景技术:

2.数字人,是一种利用信息科学的方法对人体在不同水平的形态和功能进行虚拟仿真。随着计算机技术的快速发展,数字人的生成技术越来越成熟。
3.在实际处理中,如果数字人生成技术想要应用在商业,实现实时交互,则数字人生成方案至少需要满足两点:生成效果好和推理速度快;其中,数字人的生成效果好是必要的前提,推理速度快是商业的需要。目前出现的大量生成技术,主要是基于诸如于pix2pix,pix2pixhd,vid2vid,few shot video2video,nerf,stylegan等图像翻译模型,实现数字人视频的生成。
4.具体的,现有这些图像翻译模型均是采用68个人脸关键点生成声音对应的边缘(canny)线图输入到生成器(gan)生成模型,以通过gan生成模型生成数字人图片,而从视频帧的图片帧中提取所需采用的68个人脸关键点需要花费大量时间,导致gan生成模型推理生成数字人图片的效率比较低,影响数字人图片的推理生成速度。


技术实现要素:

5.有鉴于此,本技术提供了一种基于语音的图像生成方法、装置、设备及介质,以在保证图像生成效果的同时提升图像推理生成效率,解决了现有技术中推理生成数字人图像所存在的推理生成速度慢的问题。
6.第一方面,本技术实施例提供了一种基于语音的图像生成方法,包括:
7.获取待处理语音的音频信息,并针对所述音频信息获取目标样本图像;
8.依据所述音频信息,通过预先训练的第一模型,生成目标嘴区域特征信息;
9.依据所述目标嘴区域特征信息和所述目标样本图像,通过预先训练的第二模型,生成所述音频信息对应的目标图像信息,其中,所述第二模型是基于所述第一模型的权重信息训练而成的图像生成器模型。
10.可选的,所述依据所述目标嘴区域特征信息和所述目标样本图像,通过预先训练的第二模型,生成所述音频信息对应的目标图像信息,包括:
11.从所述目标样本图像中提取目标非嘴区域图像信息;
12.将所述目标嘴区域特征信息和所述目标非嘴区域图像信息输入所述第二模型,得到所述第二模型输出的所述目标图像信息。
13.可选的,所述第二模型包含第一卷积神经网络模型、第二卷积神经网络模型和解码器,所述将所述目标嘴区域特征信息和所述目标非嘴区域图像信息输入所述第二模型,得到所述第二模型输出的所述目标图像信息,包括:
14.通过所述第一卷积神经网络,对所述目标嘴区域特征信息进行处理,得到目标嘴
区域特征向量;
15.通过所述第二卷积神经网络,对所述目标非嘴区域图像信息进行处理,得到目标非嘴区域特征向量;
16.依据所述目标嘴区域特征向量和所述目标非嘴区域特征向量进行合成,得到目标合成图像向量;
17.通过所述解码器,对所述目标合成图像向量进行解码处理,生成目标图像信息。
18.可选的,所述依据所述音频信息,通过预先训练的第一模型,生成目标嘴区域特征信息,包括:
19.针对音频信息获取目标3d信息,并提取所述音频信息的音频特征信息;
20.将所述目标3d信息和所述音频特征信息输入所述第一模型,得到第一模型生成的目标嘴区域特征信息。
21.可选的,所述第一模型包含编码器和目标神经网络模型,所述将所述目标3d信息和所述音频特征信息输入所述第一模型,得到第一模型生成的目标嘴区域特征信息,包括:
22.通过所述编码器,对所述目标3d信息和所述音频特征信息进行处理,得到目标嘴型特征向量;
23.将目标嘴型特征向量输入所述目标神经网络模型,得到所述目标神经网络生成的目标嘴区域特征信息。
24.可选的,所述编码器包含第三卷积神经网络模型和第一神经网络模型,所述通过所述编码器,对所述目标3d信息和所述音频特征信息进行处理,得到目标嘴型特征向量,包括:
25.将所述目标3d信息输入所述第三卷积神经网络模型,得到所述第三神经网络模型生成的第一隐藏特征向量;
26.将所述音频特征信息输入所述第一神经网络模型,得到所述第一神经网络模型生成的第二隐藏特征向量;
27.依据所述第一隐藏特征向量和所述第二隐藏特征向量进行合成,得到所述目标嘴型特征向量。
28.可选的,所述待处理语音的音频信息包含从所述待处理语音中提取到的各音频帧数据,所述目标图像信息用于生成所述各音频帧数据对应的视频帧,所述视频帧用于生成所述待处理语音对应的目标视频。
29.可选的,所述获取待处理语音的音频信息之前,还包括:
30.获取用于模型训练的视频数据;
31.从所述视频数据中,提取待训练音频数据和所述待训练音频数据对应的视频图像数据;
32.依据所述视频图像数据,通过预设3d模型生成所述视频图像数据对应的目标3d信息;
33.依据所述目标3d信息、所述待训练音频数据以及所述视频图像数据的对象关键点信息进行模型训练,得到关键点模型;
34.基于所述关键点模型的全连接层参数,通过所述第一模型中预设的解码器,生成所述待训练音频数据对应的第一嘴区域图片信息,以依据所述第一嘴区域图片信息和所述
视频图像数据的嘴区域信息进行模型训练,得到所述第一模型;
35.基于所述第一模型的权重信息,依据所述视频图像数据的非嘴区域信息进行模型训练,得到所述第二模型。
36.可选的,所述依据所述目标3d信息、所述待训练音频数据以及所述视频图像数据的对象关键点信息进行模型训练,包括:
37.提取所述待训练音频数据的音频特征信息,并通过预设的第一神经网络模型对提取到的音频特征信息进行处理,得到训练音频特征向量;
38.通过预设的第三神经网络模型,对所述目标3d信息进行处理,得到中间隐藏特征向量;
39.依据所述训练音频特征向量和所述中间隐藏特征向量进行结合,得到对象特征向量,并依据所述对象特征向量生成对应的虚拟对象关键点信息;
40.依据所述虚拟对象关键点信息和所述视频图像数据的对象关键点信息,确定第一损失值;
41.若所述第一损失值不符合预设的第一收敛条件,则基于所述第一损失值更新所述第一神经网络模型的参数和/或所述第三神经网络模型的参数,并基于更新参数后的第一神经网络模型和第三神经网络模型进行迭代训练,直到所述第一损失值符合预设的第一收敛条件。
42.可选的,所述基于所述关键点模型的全连接层参数,通过所述第一模型中预设的解码器,生成所述待训练音频数据对应的第一嘴区域图片信息,包括:
43.获取所述关键点模型的全连接层参数;
44.将所述全连接层参数输入预设的目标神经网络模型,得到所述待训练音频数据对应的嘴区域特征信息;
45.通过所述第一模型中预设的解码器,对所述嘴区域特征信息进行处理,生成所述第一嘴区域图片信息。
46.可选的,所述所述第一模型的权重信息包含目标神经网络模型的权重参数信息,所述基于所述第一模型的权重信息,依据所述视频图像数据的非嘴区域信息进行模型训练,包括:
47.通过预设的第一卷积神经网络,对所述目标神经网络模型的权重参数信息进行处理,得到样本嘴区域特征向量;
48.通过预设的第二卷积神经网络,对所述视频图像数据的非嘴区域信息进行处理,得到待训练非嘴区域特征向量;
49.依据所述样本嘴区域特征向量和所述待训练非嘴区域特征向量进行合成,得到训练合成图像向量;
50.通过所述第二模型中预设的解码器,对所述训练合成图像向量进行解码处理,得到生成图像信息;
51.依据所述生成图像信息和所述视频图像数据,确定第二损失值;
52.若所述第二损失值不符合预设的第二收敛条件,则基于所述第二损失值更新所述第二卷积神经网络的参数,并基于更新参数后的第二卷积神经网络模型进行迭代训练,直到所述第二损失值符合预设的第二收敛条件。
53.第二方面,本技术实施例提供了一种基于语音的图像生成装置,包括:
54.获取模块,用于获取待处理语音的音频信息,并针对所述音频信息获取目标样本图像;
55.嘴区域特征生成模块,用于依据所述音频信息,通过预先训练的第一模型,生成目标嘴区域特征信息;
56.目标图像生成模块,用于依据所述目标嘴区域特征信息和所述目标样本图像,通过预先训练的第二模型,生成所述音频信息对应的目标图像信息,其中,所述第二模型是基于所述第一模型的权重信息训练而成的图像生成器模型。
57.第三方面,本技术实施例提供了一种基于语音的图像生成设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现如第一方面任一项所述的基于语音的图像生成方法的步骤。
58.第四方面,本技术实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面任一项所述的基于语音的图像生成方法的步骤。
59.本技术实施例通过获取待处理语音的音频信息,并依据音频信息生成目标嘴区域特征信息,以依据目标嘴区域特征信息和获取到的标样本图像,通过预先训练的第二模型生成音频信息对应的目标图像信息,从而可以在保证目标图像的生成效果的前提下提升目标图像的推理生成效率,进而解决了现有数字人生成技术中由于提取人脸关键点所导致的推理生成速度慢的问题。
附图说明
60.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理。
61.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
62.图1是本技术实施例提供的一种基于语音的图像生成方法的步骤流程图;
63.图2为本技术一个可选实施例提供的一种基于语音的图像生成方法的步骤流程图;
64.图3为本技术可选实施例提供的一种基于语音的图像生成方法的步骤流程图;
65.图4为本技术实施例提供的一种基于语音的图像生成装置的结构框图。
具体实施方式
66.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术的一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本技术保护的范围。
67.参照图1,示出了本技术实施例提供的一种基于语音的图像生成方法的步骤流程
图。具体的,本技术提供的基于语音的图像生成方法可以适用于基于语音的图像生成情况,具体可以包括如下步骤:
68.步骤110,获取待处理语音的音频信息,并针对所述音频信息获取目标样本图像。
69.其中,待处理语音可以是指待处理的语音,如可以是用户录制视频中的声音或用户录制的音频等,本实施对此不作限制。在实际处理中,待处理语音可以包含一个多个音频帧数据,本技术实施例可以将获取到的待处理语音中所包含的音频帧数据确定为该待处理语音的音频信息,并可针对该待处理语音的音频信息从预设的样本图像集中获取任一样本图像,以作为该待处理语音的音频信息对应的目标样本图像。需要说明的是,样本图像集可以是指样本图像的集合,具体可以包括一张或多张样本图像,该样本图像可以是用于生成数字人视频的样本图像,本技术实施对此不作限制。
70.步骤120,依据所述音频信息,通过预先训练的第一模型,生成目标嘴区域特征信息。
71.具体而言,本技术实施例在从待处理语音中获取出一个或多个音频帧数据后,可以将获取到的各音频帧数据确定为待处理语音的音频信息,并可将该音频信息输入到预先训练好的第一模型中,以通过第一模型分别生成各音频帧数据对应的目标嘴区域特征信息,以便后续可以依据各音频帧数据对应的目标嘴区域特征信息生成各音频帧数据对应的目标图像信息,即执行步骤130。其中,目标嘴区域特征信息可以用于生成音频信息对应的目标嘴区域图片,如每一音频帧数据对应的目标嘴区域特征信息可以用于生成该音频帧数据对应的人脸嘴巴区域图片;目标嘴区域图片可以是指生成的目标对象的嘴巴区域图片,如可以是数字人嘴巴区域图片等。需要说明的是,目标对象可以是人物对象,也可以是动物对象等,本技术实施例对此不作限制。
72.步骤130,依据所述目标嘴区域特征信息和所述目标样本图像,通过预先训练的第二模型,生成所述音频信息对应的目标图像信息,其中,所述第二模型是基于所述第一模型的权重信息训练而成的图像生成器模型。
73.其中,音频信息对应的目标图像信息可以包括获取到的一个或多个音频帧数据对应的目标图像数据。具体而言,本技术在生成各音频帧数据对应的目标嘴区域特征信息后,可以针对每一音频帧数据,将该音频帧数据对应的目标嘴区域特征信息输入到预先训练好的第二模型中,以在第二模型中将目标嘴区域图片和目标样本图像的非嘴区域图片进行合并,生成对应的目标图像信息,从而得到各待音频帧数据对应的目标图像信息,以便后续可以依据各待音频帧数据对应的目标图像信息生成并输对应的目标视频。该目标图像信息可以用于表示基于待处理语音中的音频帧数据推理生成的虚拟对象图像,如可以是基于用户声音推理生成的数字人图像等。
74.可见,本技术实施例在获取待处理语音的音频信息后,通过依据音频信息生成目标嘴区域特征信息,并依据目标嘴区域特征信息和针对音频信息获取到的标样本图像,通过预先训练的第二模型生成音频信息对应的目标图像信息,从而可以在保证目标图像的生成效果的前提下提升目标图像的推理生成效率,进而解决了现有数字人生成技术中由于提取人脸关键点所导致的推理生成速度慢的问题。
75.在具体实现中,本技术实施例可以预先采用视频数据进行模型训练,以训练出包含上述第一模型和第二模型的图像生成器模型,以便后续可以利用图像生成器模型推理生
成待处理语音的音频帧数据对应的目标图像。其中,视频数据可以包括一个或多个音频帧数据和每一个音频帧数据对应的图像帧数据。进一步而言,在上述实施例的基础上,本技术实施例提供的基于语音的图像生成方法在获取待处理语音的音频信息之前,还包括:获取用于模型训练的视频数据;从所述视频数据中,提取待训练音频数据和所述待训练音频数据对应的视频图像数据;依据所述视频图像数据,通过预设3d模型生成所述视频图像数据对应的目标3d信息;依据所述目标3d信息、所述待训练音频数据以及所述视频图像数据的对象关键点信息进行模型训练,得到关键点模型;基于所述关键点模型的全连接层参数,通过所述第一模型中预设的解码器,生成所述待训练音频数据对应的第一嘴区域图片信息,以依据所述第一嘴区域图片信息和所述视频图像数据的嘴区域信息进行模型训练,得到所述第一模型;基于所述第一模型的权重信息,依据所述视频图像数据的非嘴区域信息进行模型训练,得到所述第二模型。
76.参照图2,示出了本技术一个可选实施例提供的一种基于语音的图像生成方法的步骤流程图。具体而言,本技术实施例提供的基于语音的图像生成方法可以应用在模型训练阶段,具体可以包括如下步骤:
77.步骤210,获取用于模型训练的视频数据。
78.步骤220,从所述视频数据中,提取待训练音频数据和所述待训练音频数据对应的视频图像数据。
79.在实际处理中,可以准备视频数据,以作为用于模型训练的视频数据。该视频数据可以包含视频中的音频数据和图片数据。具体而言,本技术实施例在模型训练阶段,可以获取用于模型训练的视频数据,并可从获取到的视频数据中提取音频数据和图片数据,以将提取到的音频数据确定为待训练音频数据,以及可以将提取到的音频数据对应的图片数据确定为待训练音频数据对应的视频图像数据。需要说明的是,视频数据中的每一帧的音频数据具有一一对应的图片数据。
80.步骤230,依据所述视频图像数据,通过预设3d模型生成所述视频图像数据对应的目标3d信息。
81.具体的,本技术实施例可以将提取到的视频图像数据输入到预设3d模型中,以通过预设3d模型提取每一帧视频图像信息对应的目标3d信息。该目标3d信息可以包含代表对象形状和纹理的主要成分信息,如在目标3d信息为人脸3d信息的情况下,该目标3d信息可以包含代表人脸形状和纹理的主成分信息,具体可以包括有:表情参数(expression),形状参数(face_id/shape),仿射参数(projection),人脸纹理参数(texture)、姿态(pose)参数信息等,本实施例对此不作限制。
82.步骤240,依据所述目标3d信息、所述待训练音频数据以及所述视频图像数据的对象关键点信息进行模型训练,得到关键点模型。
83.具体而言,本实施例在得到视频图像数据对应的目标3d信息后,可以借助目标3d信息,利用待训练音频数据以及视频图像数据的对象关键点信息进行模型训练,得到关键点模型,以便后续可以通过依据训练好的关键点模块的全连接层参数进行第一模型的训练。
84.进一步而言,本技术实施例依据所述目标3d信息、所述待训练音频数据以及所述视频图像数据的对象关键点信息进行模型训练,具体可以包括:取所述待训练音频数据的
音频特征信息,并通过预设的第一神经网络模型对提取到的音频特征信息进行处理,得到训练音频特征向量;通过预设的第三神经网络模型,对所述目标3d信息进行处理,得到中间隐藏特征向量;依据所述训练音频特征向量和所述中间隐藏特征向量进行结合,得到对象特征向量,并依据所述对象特征向量生成对应的虚拟对象关键点信息;依据所述虚拟对象关键点信息和所述视频图像数据的对象关键点信息,确定第一损失值;若所述第一损失值不符合预设的第一收敛条件,则基于所述第一损失值更新所述第一神经网络模型的参数和/或所述第三神经网络模型的参数,并基于更新参数后的第一神经网络模型和第三神经网络模型进行迭代训练,直到所述第一损失值符合预设的第一收敛条件。其中,第一损失值可以是指训练的关键点模型的损失值,具体可以用于确定当前训练的关键点模型是否已收敛,进而可以在训练的关键点模型模型已收敛的情况下确定训练好关键点模型。
85.作为本技术的一个示例,在模型训练阶段,获取视频数据后,可以提取视频数据中的音频数据和图片数据,并可提取图片数据的人脸关键点,以作为视频图像数据的对象关键点信息。具体的,在按照帧率处理数据的过程中,可以将提取到的音频数据wav作为待训练音频数据,并可提取该音频数据wav的音频特征,以作为待训练音频数据的音频特征信息,输入到预设的第一神经网络模型中,使得音频特征信息经过第一神经网络模型处理后生成对应的训练音频特征向量。
86.需要说明的是,对于音频特征的提取,可以使用傅立叶变换,即针对该目标人物的音频中任一音频帧,利用傅里叶变换提取mel频率倒谱系数(即mfcc)作为该音频帧对应的音频特征;也可以使用其他预设语音识别模型,例如deepspeech/asr/wav2vector等模型,即针对该目标人物的音频中任一音频帧,利用预设语音识别模型提取该音频帧对应的音频特征,本技术实施例音频特征的提取方法不作具体限制。第一神经网络模型可以是长短期记忆网络(long short-term memory,lstm)模型,也可以是诸如rcnn模型、transform模型等其他类型模型,本技术实施例对此也不作具体限制。对于帧率,可以为每秒钟100帧,可以是每秒钟50帧或者每秒钟25帧,本技术实施例对此不作限定。
87.具体而言,在基于预设3d模型提取每帧图片数据的人脸3d信息后,作为声音的训练音频特征向量经过第一神经网络模型,产生对应训练音频特征向量,随后将声音对应的帧的人脸3d信息输入到第三神经网络模型cnn中,得到第三神经网络模型cnn输出的中间隐藏特征向量,从而可以在全连接层中经过特征向量结合,以将训练音频特征向量和所述中间隐藏特征向量进行结合,得到对象特征向量,随后可依据该对象特征向量进行推理,生成带有角度的68个人脸关键点,并输出作为对应的虚拟对象关键点信息,然后可利用虚拟对象关键点信息和视频图像数据的对象关键点信息进行计算,得到第一损失值,从而可以在第一损失值符合预设的第一收敛条件时,确定训练的关键点模型已经收敛,随后可获取已收敛的关键点模型的全连接层的参数,以作为关键点模型的全连接层参数,以便后续可以基于关键点模块的全连接层参数进行第一模型的训练,提升模型训练速度。其中,预设3d模型可以是开源的3d模型,如可以是诸如deep3dfacereconstruction、deca、3dmm等3d模型,本示例对此不限制。
88.步骤250,基于所述关键点模型的全连接层参数,通过所述第一模型中预设的解码器,生成所述待训练音频数据对应的第一嘴区域图片信息,以依据所述第一嘴区域图片信息和所述视频图像数据的嘴区域信息进行模型训练,得到所述第一模型。
89.其中,关键点模块的全连接层参数可以用于表示依据待训练音频数据推理生成的嘴型特征向量,具体可以用于生成待训练音频数据对应的嘴区域特征信息。进一步而言,本技术实施例基于所述关键点模型的全连接层参数,通过所述第一模型中预设的解码器,生成所述待训练音频数据对应的第一嘴区域图片信息,具体可以包括:获取所述关键点模型的全连接层参数;将所述全连接层参数输入预设的目标神经网络模型,得到所述待训练音频数据对应的嘴区域特征信息;通过所述第一模型中预设的解码器,对所述嘴区域特征信息进行处理,生成所述第一嘴区域图片信息。
90.例如,结合上述示例,当训练完上述关键点模型后,可以固定住关键点模型的全连接层的权重,并可将获取到的全连接层或者cnn层的参数输入到目标神经网络模型lm_tensor中,得到目标神经网络模型lm_tensor输出的嘴区域特征信息,然后再加上解码器decoder,生成人脸的嘴区域图片mouth_jaw_img,并输出生成人脸的嘴区域图片mouth_jaw_img,以作为第一嘴区域图片信息。随后,可以利用生成人脸的嘴区域图片mouth_jaw_img和真实人脸嘴区域jaw_mouth_gt_img进行计算,得到第一模型的损失,从而可以在第一模型的损失符合预设收敛条件时确定第一模型已经收敛,得到训练好的第一模型。
91.步骤260,基于所述第一模型的权重信息,依据所述视频图像数据的非嘴区域信息进行模型训练,得到所述第二模型。
92.具体的,本技术实施例在训练好第一模型后,可以固定第一模型的权重信息,采用视频图像数据的非嘴区域信息进行第二模型的训练,以提升模型训练效率。其中,视频图像数据的非嘴区域信息可以是指视频图像数据除去嘴区域后的图片,如可以是去除嘴区域图片。
93.可选的,本技术实施例中的第一模型的权重信息可以包含目标神经网络模型的权重参数信息,本技术实施例基于所述第一模型的权重信息,依据所述视频图像数据的非嘴区域信息进行模型训练,具体可以包括:通过预设的第一卷积神经网络,对所述目标神经网络模型的权重参数信息进行处理,得到样本嘴区域特征向量;通过预设的第二卷积神经网络,对所述视频图像数据的非嘴区域信息进行处理,得到待训练非嘴区域特征向量;依据所述样本嘴区域特征向量和所述待训练非嘴区域特征向量进行合成,得到训练合成图像向量;通过所述第二模型中预设的解码器,对所述训练合成图像向量进行解码处理,得到生成图像信息;依据所述生成图像信息和所述视频图像数据,确定第二损失值;若所述第二损失值不符合预设的第二收敛条件,则基于所述第二损失值更新所述第二卷积神经网络的参数,并基于更新参数后的第二卷积神经网络模型进行迭代训练,直到所述第二损失值符合预设的第二收敛条件。其中,第二损失值可以是指训练的第二模型的损失值,具体可以用于确定当前训练的第二模型是否已收敛,进而可以在训练的第二模型模型已收敛的情况下确定训练好第二模型。
94.例如,结合上述示例,在等目标神经网络模型lm_tensor训练好之后,可以固定这个目标神经网络模型lm_tensor的权重,随后可基于该目标神经网络模型lm_tensor的权重训练图像生成器模型unetgan,以将训练得到的图像生成器模型unetgan作为上述的第二模型。其中,图像生成器模型unetgan的输入可以是去除嘴区域的图片和lm_tensor的权重参数信息。具体而言,目标神经网络模型lm_tensor的权重参数信息通过预设的第一卷积神经网络进行卷积处理后,生成对应样本嘴区域特征向量;视频图像数据的去除嘴区域图片通
过预设的第二卷积神经网络进行卷积处理后,生成对应的待训练非嘴区域特征向量;随后可在在图像生成器模型unetgan的中间层通道合并待训练非嘴区域特征向量和样本嘴区域特征向量,以依据样本嘴区域特征向量和所述待训练非嘴区域特征向量进行合成,得到训练合成图像向量,随后训练合成图像向量经过图像生成器模型unetgan中预设的解码器decoder,以通过解码器decoder对训练合成图像向量进行解码处理,得到生成图像信息并输出。从而,可以利用生成图像信息和视频图像数据进行计算,确定第二损失值;从而可以在第二损失值符合预设的第二收敛条件时确定图像生成器模型unetgan已经收敛,随后可将训练好的图像生成器模型unetgan作为上述第二模型。可见,本示例中的去除嘴区域图片和目标神经网络模型lm_tensor的权重参数信息在各自经过卷积处理之后,通过在图像生成器模型unetgan的中间层通道合并,并经过解码器decoder,可以输出生成的图片,无需提取人脸关键点,以便后续可以可以利用图像生成器模型unetgan基于声音生图像,提高图像生成效率。
95.具体而言,本技术实施例在训练好第一模型和第二模型后,可以通过获取待处理语音的音频信息和目标样本图像,以利用第一模型和第二模型生成对应虚拟图像,解决了现有数字人生成技术中由于提取人脸关键点所导致的问题,在保证图像生成效果的前提下提升图像推理生成效率,进而能够满足数字人的生成需求。
96.具体而言,本技术实施例在模型的应用推理阶段,在获取待处理语音的后,可以将待处理语音的音频信息输入到第一模型中,以通过第一模型生成音频信息对应的目标嘴区域特征信息,并可针对待处理语音的音频信息获取目标样本图像,以根据目标样本图像和音频信息对应的目标嘴区域特征信息,通过第二模型将目标嘴区域图片和目标样本图像的非嘴区域图片进行合并,生成对应的目标图像信息,达到生成图像的目的。进一步而言,在上述实施例的基础上,本技术实施例依据所述目标嘴区域特征信息和所述目标样本图像,通过预先训练的第二模型,生成所述音频信息对应的目标图像信息,包括:从所述目标样本图像中提取目标非嘴区域图像信息;将所述目标嘴区域特征信息和所述目标非嘴区域图像信息输入所述第二模型,得到所述第二模型输出的所述目标图像信息。
97.参照图3,示出了本技术可选实施例提供的一种基于语音的图像生成方法的步骤流程图。具体而言,本技术实施例提供的基于语音的图像生成方法可以应用在模型应用推理阶段,具体可以包括如下步骤:
98.步骤310,获取待处理语音的音频信息,并针对所述音频信息获取目标样本图像。
99.步骤320,依据所述音频信息,通过预先训练的第一模型,生成目标嘴区域特征信息。
100.可选的,本技术实施例依据所述音频信息,通过预先训练的第一模型,生成目标嘴区域特征信息,具体可以包括:针对音频信息获取目标3d信息,并提取所述音频信息的音频特征信息;将所述目标3d信息和所述音频特征信息输入所述第一模型,得到第一模型生成的目标嘴区域特征信息。
101.进一步的,在本技术实施例中的第一模型包含编码器和目标神经网络模型的情况下,本技术实施例将所述目标3d信息和所述音频特征信息输入所述第一模型,得到第一模型生成的目标嘴区域特征信息,具体可以包括:通过所述编码器,对所述目标3d信息和所述音频特征信息进行处理,得到目标嘴型特征向量;将目标嘴型特征向量输入所述目标神经
网络模型,得到所述目标神经网络生成的目标嘴区域特征信息。
102.进一步而言,本技术实施例中的编码器可以包含第三卷积神经网络模型和第一神经网络模型;上述通过所述编码器,对所述目标3d信息和所述音频特征信息进行处理,得到目标嘴型特征向量,具体可以包括:将所述目标3d信息输入所述第三卷积神经网络模型,得到所述第三神经网络模型生成的第一隐藏特征向量;将所述音频特征信息输入所述第一神经网络模型,得到所述第一神经网络模型生成的第二隐藏特征向量;依据所述第一隐藏特征向量和所述第二隐藏特征向量进行合成,得到所述目标嘴型特征向量。
103.步骤330,从所述目标样本图像中提取目标非嘴区域图像信息。
104.步骤340,将所述目标嘴区域特征信息和所述目标非嘴区域图像信息输入所述第二模型,得到所述第二模型输出的所述目标图像信息。
105.进一步而言,本技术实施例中的第二模型可以包含第一卷积神经网络模型、第二卷积神经网络模型和解码器,上述步骤340具体包括如下子步骤:
106.子步骤3401,通过所述第一卷积神经网络,对所述目标嘴区域特征信息进行处理,得到目标嘴区域特征向量;
107.子步骤3402,通过所述第二卷积神经网络,对所述目标非嘴区域图像信息进行处理,得到目标非嘴区域特征向量;
108.子步骤3403,依据所述目标嘴区域特征向量和所述目标非嘴区域特征向量进行合成,得到目标合成图像向量;
109.子步骤3404,通过所述解码器,对所述目标合成图像向量进行解码处理,生成目标图像信息。
110.综上,本技术实施例在获取待处理语音的音频信息、目标样本图像以及目标3d信息后,通过将音频信息和目标3d信息输入第一模型的编码器,得到第一模型推理生成的目标嘴型特征向量,随后可将该第一模型推理生成的目标嘴型特征向量输入到第二模型中,以在第二模型中与目标非嘴区域特征向量进行合成,得到目标合成图像向量,并经过解码器,生成对应的目标图像信息,从而达到图像的目的,在保证目标图像的生成效果的前提下提升目标图像的推理生成效率,解决了现有数字人生成技术中由于提取人脸关键点所导致的推理生成速度慢的问题。
111.进一步而言,待处理语音的音频信息可以包含从待处理语音中提取到的各音频帧数据,以便后续可以依据生成的各音频帧数据对应的目标图像信息生成各音频帧数据对应的视频帧,从而可以利用音频帧数据对应的视频帧生成处理语音对应的目标视频,达到生成视频的目的。具体而言,本技术在生成各音频帧数据对应的目标嘴区域特征信息后,可以针对每一音频帧数据,将该音频帧数据对应的目标嘴区域特征信息输入到预先训练好的第二模型中,以在第二模型中将目标嘴区域图片和目标样本图像的非嘴区域图片进行合并,生成对应的目标图像信息,从而可以得到各待音频帧数据对应的目标图像信息,以便后续可以依据各待音频帧数据对应的目标图像信息生成并输对应的目标视频。其中,目标图像信息可以用于生成音频帧数据对应的视频帧,所述视频帧用于生成所述待处理语音对应的目标视频。
112.作为本技术的一个可选示例,在将用户输入的音频作为待处理语音处理语音的音频信息的情况下,可以根据输入的虚拟形象的人脸信息(face_id)获取虚拟形象图片,以作
为目标样本图像,并可将获取到的反射参数(projection)作为目标3d信息,输入第一模型的编码器encoder、目标神经网络模型lm_tensor和作为第二模型的图像生成器模型unetgan,从而可以生成最终的虚拟数字人视频。具体而言,通过编码器encoder生成人脸关键点的目标嘴型特征向量,并通过目标神经网络模型lm_tensor获得人脸图片嘴区域的中间特征权重,然后将推理生成的人脸嘴区域图片的中间特征权重作为目标嘴区域特征信息,输入预选训练好的图像生成器模型unetgan中,与图像生成器模型unetgan中的人脸去除嘴区域的图片进行合并,并经过图像生成器模型unetgan中的解码器decoder,生成对应的数字人假图片并输出,以作为输入音频对应的目标图像信息,从而可以利用输入音频第中各音频帧对应的数字人假图片生成对应的目标视频,从而可以利用图像生成器模型unetgan生成的数字人假图片生成数字视频的目的。
113.当然,本技术实施例中生成的目标视频除了可以是数字人视频之外,还可以是其他类型视频,如可以是直播视频等,本实施例对此不作限制。例如,在直播视频的生成场景中,可以将用户声音作为待处理语音处理语音的音频信息,并可将直播间的主播形象图片作为目标样本图像,应用本技术实施例提供的基于语音的图像生成方法,可以利用用户声音驱动直播间的主播形象图片,形成主播正在直播的视频。
114.需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本技术实施例并不受所描述的动作顺序的限制,因为依据本技术实施例,某些步骤可以采用其他顺序或者同时进行。
115.本技术实施例还提供了一种基于语音的图像生成装置。如图4所示,本技术实施例提供的基于语音的图像生成装置400可以包括如下模块:
116.获取模块410,用于获取待处理语音的音频信息,并针对所述音频信息获取目标样本图像;
117.嘴区域特征生成模块420,用于依据所述音频信息,通过预先训练的第一模型,生成目标嘴区域特征信息;
118.目标图像生成模块430,用于依据所述目标嘴区域特征信息和所述目标样本图像,通过预先训练的第二模型,生成所述音频信息对应的目标图像信息.
119.其中,所述第二模型是基于所述第一模型的权重信息训练而成的图像生成器模型。
120.可选的,所述目标图像生成模块430包括:
121.提取子模块,用于从所述目标样本图像中提取目标非嘴区域图像信息;
122.目标图像子模块,用于将所述目标嘴区域特征信息和所述目标非嘴区域图像信息输入所述第二模型,得到所述第二模型输出的所述目标图像信息。
123.可选的,所述第二模型包含第一卷积神经网络模型、第二卷积神经网络模型和解码器,所述目标图像子模块,包括:
124.第一处理单元,用于通过所述第一卷积神经网络,对所述目标嘴区域特征信息进行处理,得到目标嘴区域特征向量;
125.第二处理单元,用于通过所述第二卷积神经网络,对所述目标非嘴区域图像信息进行处理,得到目标非嘴区域特征向量;
126.特征向量合成单元,用于依据所述目标嘴区域特征向量和所述目标非嘴区域特征
向量进行合成,得到目标合成图像向量;
127.解码处理单元,用于通过所述解码器,对所述目标合成图像向量进行解码处理,生成目标图像信息。
128.可选的,所述嘴区域特征生成模块420,包括:
129.信息获取子模块,用于针对音频信息获取目标3d信息,并提取所述音频信息的音频特征信息;
130.嘴区域特征子模块,用于将所述目标3d信息和所述音频特征信息输入所述第一模型,得到第一模型生成的目标嘴区域特征信息。
131.可选的,所述第一模型包含编码器和目标神经网络模型,所述嘴区域特征子模块包括:
132.嘴型特征向量单元,用于通过所述编码器,对所述目标3d信息和所述音频特征信息进行处理,得到目标嘴型特征向量;
133.嘴区域特征单元,用于将目标嘴型特征向量输入所述目标神经网络模型,得到所述目标神经网络生成的目标嘴区域特征信息。
134.可选的,所述编码器包含第三卷积神经网络模型和第一神经网络模型,所述嘴型特征向量单元具体用于:将所述目标3d信息输入所述第三卷积神经网络模型,得到所述第三神经网络模型生成的第一隐藏特征向量;并将所述音频特征信息输入所述第一神经网络模型,得到所述第一神经网络模型生成的第二隐藏特征向量;以及,依据所述第一隐藏特征向量和所述第二隐藏特征向量进行合成,得到所述目标嘴型特征向量。
135.可选的,所述待处理语音的音频信息包含从所述待处理语音中提取到的各音频帧数据,所述目标图像信息用于生成所述音频帧数据对应的视频帧,所述视频帧用于生成所述待处理语音对应的目标视频。
136.可选的,基于语音的图像生成装置400还包括:
137.视频数据获取模块,用于获取用于模型训练的视频数据;
138.数据提取模块,用于从所述视频数据中,提取待训练音频数据和所述待训练音频数据对应的视频图像数据;
139.3d信息生成模块,用于依据所述视频图像数据,通过预设3d模型生成所述视频图像数据对应的目标3d信息;
140.关键点模型训练模块,用于依据所述目标3d信息、所述待训练音频数据以及所述视频图像数据的对象关键点信息进行模型训练,得到关键点模型;
141.第一模型训练模块,用于基于所述关键点模型的全连接层参数,通过所述第一模型中预设的解码器,生成所述待训练音频数据对应的第一嘴区域图片信息,以依据所述第一嘴区域图片信息和所述视频图像数据的嘴区域信息进行模型训练,得到所述第一模型;
142.第二模型训练模块,用于基于所述第一模型的权重信息,依据所述视频图像数据的非嘴区域信息进行模型训练,得到所述第二模型。
143.可选的,关键点模型训练模块包括:
144.音频特征向量子模块,用于提取所述待训练音频数据的音频特征信息,并通过预设的第一神经网络模型对提取到的音频特征信息进行处理,得到训练音频特征向量;
145.3d信息处理子模块,用于通过预设的第三神经网络模型,对所述目标3d信息进行
处理,得到中间隐藏特征向量;
146.虚拟对象关键点子模块,用于依据所述训练音频特征向量和所述中间隐藏特征向量进行结合,得到对象特征向量,并依据所述对象特征向量生成对应的虚拟对象关键点信息;
147.第一损失值确定子模块,用于依据所述虚拟对象关键点信息和所述视频图像数据的对象关键点信息,确定第一损失值;
148.迭代训练确定子模块,用于在所述第一损失值不符合预设的第一收敛条件时,基于所述第一损失值更新所述第一神经网络模型的参数和/或所述第三神经网络模型的参数,并基于更新参数后的第一神经网络模型和第三神经网络模型进行迭代训练,直到所述第一损失值符合预设的第一收敛条件。
149.可选的,第一模型训练模块包括:
150.全连接层参数获取子模块,用于获取所述关键点模型的全连接层参数;
151.嘴区域特征子模块,用于将所述全连接层参数输入预设的目标神经网络模型,得到所述待训练音频数据对应的嘴区域特征信息;
152.第一嘴区域图片子模块,用于通过所述第一模型中预设的解码器,对所述嘴区域特征信息进行处理,生成所述第一嘴区域图片信息。
153.可选的,所述所述第一模型的权重信息包含目标神经网络模型的权重参数信息,所述第二模型训练模块包括:
154.样本嘴区域特征向量子模块,用于通过预设的第一卷积神经网络,对所述目标神经网络模型的权重参数信息进行处理,得到样本嘴区域特征向量;
155.待训练非嘴区域特征向量子模块,用于通过预设的第二卷积神经网络,对所述视频图像数据的非嘴区域信息进行处理,得到待训练非嘴区域特征向量;
156.训练合成图像向量子模块,用于依据所述样本嘴区域特征向量和所述待训练非嘴区域特征向量进行合成,得到训练合成图像向量;
157.生成图像信息子模块,用于通过所述第二模型中预设的解码器,对所述训练合成图像向量进行解码处理,得到生成图像信息;
158.第二损失值确定子模块,用于依据所述生成图像信息和所述视频图像数据,确定第二损失值;
159.迭代训练子模块,用于在所述第二损失值不符合预设的第二收敛条件时,基于所述第二损失值更新所述第二卷积神经网络的参数,并基于更新参数后的第二卷积神经网络模型进行迭代训练,直到所述第二损失值符合预设的第二收敛条件。
160.需要说明的是,上述提供的基于语音的图像生成装置可执行本技术任意实施例所提供的基于语音的图像生成方法,具备执行方法相应的功能和有益效果。
161.在具体实现中,上述基于语音的图像生成装置可以应用在诸如个人计算机、服务器等电子设备中,使得电子设备作为基于语音的图像生成设备可以在保证目标图像的生成效果的前提下提升目标图像的推理生成效率。进一步的,本技术实施例还提供一种基于语音的图像生成设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现上述任意一个方法实施例所述的基于语音的图像生成方法的
步骤。
162.本技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一个方法实施例所述的基于语音的图像生成方法步骤。
163.需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置、设备、存储介质实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
164.在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
165.以上所述仅是本技术的具体实施方式,使本领域技术人员能够理解或实现本技术。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。