基于自监督模型的歌声转换方法、设备及可读存储介质与流程

1.本发明涉及人工智能技术领域，尤其涉及一种基于自监督模型的歌声转换方法、装置、电子设备及计算机可读存储介质。

背景技术：

2.歌声转换系统是将一个人唱歌的声音转化成另一个人唱歌的声音，同时保持唱歌内容不变。目前采用基于自动编码器以达到无监督的歌声转换，但是现有的方法合成的歌声很容易跑调，不能够很好地学习精准的pitch(具体是指间距值)信息。
3.为解决上述问题，本发明亟需提供一种新的基于自监督模型的歌声转换方法。

技术实现要素：

4.本发明提供一种基于自监督模型的歌声转换方法、装置、电子设备及计算机可读存储介质，其主要目的在于通过损失函数、重构损失函数、对抗损失函数以及最后损失对自监督模型训练，并通过训练好的自监督模型完成目标歌声的转换，从而解决目前转换歌声容易跑调等问题。
5.为实现上述目的，本发明提供的一种基于自监督模型的歌声转换方法，应用于电子设备，所述方法包括：
6.通过自监督模型的编码器对歌声语音进行编码处理，获取歌声嵌入；
7.根据所述歌声嵌入分别构建歌手分类损失函数和回归损失函数；
8.根据所述歌手分类损失函数和回归损失函数，构建对抗损失函数；
9.根据所述对抗损失函数、重构损失函数，构建最终损失函数；
10.通过所述最终损失函数对所述自监督模型进行迭代训练，当所述最终损失函数值收敛至预设范围，完成对所述自监督模型的训练；
11.通过训练后的自监督模型对待转换歌声进行转换，获取目标歌声。
12.可选地，所述通过自监督模型的编码器对训练歌声进行编码处理，获取歌声嵌入，包括：
13.将所述歌声语音输入到所述编码器；
14.通过所述编码器对所述训练歌声进行卷积处理，获取所述歌声的局部特征向量；
15.通过所述编码器对所述歌声的局部特征向量进行池化处理，获取所述歌声嵌入。
16.可选地，所述歌声嵌入包括真实歌手类别和真实pitch值，根据所述所述歌声嵌入构建歌手分类损失函数的过程包括：
17.通过所述自监督模型的歌手分类器对所述歌声嵌入进行分类处理，获取预测歌手类别；
18.根据所述真实歌手类别、所述预测歌手类别，构建用于训练所述歌手分类器的所述歌手分类损失函数。
19.可选地，通过所述歌手分类损失函数对所述歌手分类器进行迭代训练，当所述歌
手分类损失函数值收敛至预设范围，完成对所述歌手分类器的训练；
20.其中，所述歌手分类损失函数为：
[0021][0022]
其中，l
s
表示歌手分类损失函数，l
ce
()表示交叉熵损失，e表示编码器；c
s
表示歌手分类器，s
j
表示歌手j的输入语音。
[0023]
可选地，所述歌声嵌入包括真实歌手类别和真实pitch值，根据所述歌声嵌入构建回归损失函数的过程包括：
[0024]
通过所述自监督模型的pitch回归预测器对所述歌声嵌入进行回归预测，获取预测pitch值；
[0025]
根据所述真实pitch值、所述预测pitch值，构建用于训练所述pitch回归预测器的所述回归损失函数；
[0026]
其中，通过所述回归损失函数对所述pitch回归预测器进行迭代训练，当所述回归损失函数值收敛至预设范围，完成对所述pitch回归预测器的训练；
[0027]
其中，所述回归损失函数为：
[0028][0029]
其中，l
p
表示回归损失函数，l
mse
()表示均方根误差函数，c
p
表示回归预测器，p(s
j
)表示对s
j
获取的真实pitch值，s
j
表示歌手j的输入语音。
[0030]
可选地，获取所述重构损失函数的过程为：
[0031]
通过时频转换将所述歌声语音转换成所述输入频谱图；
[0032]
通过所述自监督模型的解码器对所述歌声嵌入进行解码处理，获取输出频谱图；
[0033]
根据所述输入频谱图、所述输出频谱图，构建所述重构损失函数；
[0034]
所述重构损失函数为：
[0035][0036]
其中，l
recon
表示表示重构损失函数，l
ce
()表示交叉熵损失，e表示编码器，d表示解码器，c
s
表示歌手分类器，s
j
表示歌手j的输入语音，c
p
表示回归预测器，p(s
j
)表示对s
j
获取的真实pitch值。
[0037]
可选地，所述对抗损失函数为：l
ad
＝λl
s
+μl
p
[0038]
所述最终损失函数为：l
total
＝l
recon
‑
λl
s
‑
μl
p
[0039]
其中，l
s
表示歌手分类损失函数，l
p
表示回归损失函数，l
recon
表示重构损失函数，λ、μ分别表示歌手分类损失函数、回归损失函数的权重因子。
[0040]
为了解决上述问题，本发明还提供一种基于自监督模型的歌声转换装置，所述装置包括：
[0041]
歌声嵌入获取模块，用于通过自监督模型的编码器对歌声语音进行编码处理，获取歌声嵌入；
[0042]
损失函数构建模块，用于根据所述歌声嵌入分别构建歌手分类损失函数和回归损失函数；
[0043]
对抗损失函数构建模块，用于根据所述歌手分类损失函数和回归损失函数，构建对抗损失函数；
[0044]
最终损失函数构建模块，用于根据所述对抗损失函数、重构损失函数，构建最终损失函数；
[0045]
模型训练完成模块，用于通过所述最终损失函数对所述自监督模型进行迭代训练，当所述最终损失函数值收敛至预设范围，完成对所述自监督模型的训练；
[0046]
目标歌手获取模块，用于通过训练后的自监督模型对待转换歌声进行转换，获取目标歌声。
[0047]
为了解决上述问题，本发明还提供一种电子设备，所述电子设备包括：
[0048]
至少一个处理器；以及，
[0049]
与所述至少一个处理器通信连接的存储器；其中，
[0050]
所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述的基于自监督模型的歌声转换方法的步骤。
[0051]
为了解决上述问题，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一个指令，所述至少一个指令被电子设备中的处理器执行以实现上述所述的基于自监督模型的歌声转换方法。
[0052]
本发明实施例通过自监督模型的编码器对歌声语音进行编码处理，获取歌声嵌入；根据所述歌声嵌入分别构建歌手分类损失函数和回归损失函数；根据所述歌手分类损失函数和回归损失函数，构建对抗损失函数；根据所述对抗损失函数、重构损失函数，构建最终损失函数；通过所述最终损失函数对所述自监督模型进行迭代训练，当所述最终损失函数收敛至预设范围，完成对所述自监督模型的训练；通过训练后的自监督模型对待转换歌声进行转换，获取目标歌声。本发明通过损失函数、重构损失函数、对抗损失函数以及最后损失对自监督模型训练，并通过训练好的自监督模型完成目标歌声的转换，从而解决目前转换歌声容易跑调等问题。
附图说明
[0053]
图1为本发明一实施例提供的基于自监督模型的歌声转换方法的流程示意图；
[0054]
图2为本发明一实施例提供的基于自监督模型的歌声转换装置的模块示意图；
[0055]
图3为本发明一实施例提供的实现基于自监督模型的歌声转换方法的电子设备的内部结构示意图。
[0056]
本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。
具体实施方式
[0057]
在下面的描述中，许多具体的细节被阐述。然而，应当理解的是，本发明的实施例可以在没有这些具体细节的情况下实现。在其他实例中，众所周知的方法、结构、和技术没有被详细地示出，以免模糊对本说明书的理解。对“一个实施例”、“实施例”、“示例性实施
例”、“各种实施例”等等的参考表示本发明所描述的该实施例可包括特定的特征、结构、或特性，但并不是每一个实施例都必须包括该特定特征、结构、或特性。此外，短语“在一个实施例中”的反复使用不一定是指同一个实施例，尽管有可能是。
[0058]
如本文所使用的，除非另外指明，使用序数形容词“第一”、“第二”、“第三”等等来描述公共的物体仅表明类似物体的不同实例正被参考，并且不意图暗示如此描述的该物体必须依照给定的顺序，无论在时间上、空间上、顺序上还是任何其他的方式。
[0059]
如本文所使用的，除非另外指明，术语“移动设备”和/或“设备”一般是指无线通信设备，并且更具体地指以下的一个或多个：便携式电子设备、电话 (例如，蜂窝式电话、智能手机)、计算机(例如，膝上型电脑、平板电脑)、便携式媒体播放器、个人数字助理(pda)、或具有联网能力的任何其他电子设备。
[0060]
对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。
[0061]
人工智能(artificial intelligence，ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。
[0062]
人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
[0063]
随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。
[0064]
机器学习(machine learning，简称ml)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
[0065]
本发明提供一种关系型数据库表的存储方法。参照图1所示，为本发明一实施例提供的基于自监督模型的歌声转换方法的流程示意图。该方法可以由一个装置执行，该装置可以由软件和/或硬件实现。
[0066]
在本实施例中，基于自监督模型的歌声转换方法，包括：
[0067]
s1：通过自监督模型的编码器对歌声语音进行编码处理，获取歌声嵌入；
[0068]
s2：根据所述歌声嵌入分别构建歌手分类损失函数和回归损失函数；
[0069]
s3：根据所述歌手分类损失函数和回归损失函数，构建对抗损失函数；
[0070]
s4：根据所述对抗损失函数、重构损失函数，构建最终损失函数；
[0071]
s5：通过所述最终损失函数对所述自监督模型进行迭代训练，当所述最终损失函数值收敛至预设范围，完成对所述自监督模型的训练；
[0072]
s6：通过训练后的自监督模型对待转换歌声进行转换，获取目标歌声。
[0073]
上述为本发明的基于自监督模型的歌声转换方法，通过损失函数、重构损失函数、对抗损失函数以及最后损失对自监督模型训练，并通过训练好的自监督模型完成目标歌声的转换，从而解决目前转换歌声容易跑调等问题。
[0074]
在步骤s1中，所述通过自监督模型的编码器对训练歌声进行编码处理，获取歌声嵌入，包括：
[0075]
s11：将所述训练歌声输入到所述编码器；
[0076]
s12：通过所述编码器对所述训练歌声进行卷积处理，获取所述歌声的局部特征向量；
[0077]
s13：通过所述编码器对所述歌声的局部特征向量进行池化处理，获取所述歌声嵌入。
[0078]
在本发明的实施例中，编码器由一组网络层构成，包含4层空洞卷积层，其中卷积为一维卷积，每一层卷积之后会进行一次均值池化层，池化层的大小为(1，4)，原始输入的语音为一维时序信号，最终经过编码器后得到一个编码后的隐变量1024维。
[0079]
在步骤s2中，将歌手歌声嵌入分别输入到歌手分类器、回归预测器中，就是指将目标歌手歌声嵌入分别输入到两个分支，一个分支为歌手分类器，一个分支为回归预测器。第一个分支是从编码器输出的隐变量(歌手歌声嵌入)开始，经过两层一维卷积层然后对输出进行分类经过softmax后得到对应的歌手类别。第二个分支是从编码器输出的隐变量开始，也经过两层一维卷积层输出到一维插值预测，得到对应的pitch序列值。其中，两个分支中的卷积层不共用参数，独立支撑后续的歌手分类和pitch预测。
[0080]
根据所述歌声嵌入分别构建歌手分类损失函数和回归损失函数。其中，所述歌声嵌入包括真实歌手类别和真实pitch值。
[0081]
具体地，在本发明的第一个分支实施例中，根据所述所述歌声嵌入构建歌手分类损失函数的过程包括：
[0082]
通过所述自监督模型的歌手分类器对所述歌声嵌入进行分类处理，获取预测歌手类别；
[0083]
根据所述真实歌手类别、所述预测歌手类别，构建用于训练所述歌手分类器的所述歌手分类损失函数。
[0084]
通过所述歌手分类损失函数对所述歌手分类器进行迭代训练，当所述歌手分类损失函数值收敛至预设范围，完成对所述歌手分类器的训练；
[0085]
其中，所述歌手分类损失函数为：
[0086][0087]
其中，l
s
表示歌手分类损失函数，l
ce
()表示交叉熵损失，e表示编码器；c
s
表示歌手分类器，s
j
表示歌手j的输入语音。
[0088]
在本发明的实施例中，lce()是交叉熵损失，用于计算和每个歌手之间的交叉熵，从而判定属于哪个歌手。重构损失函数采用交叉熵损失函数，而不用均方误差损失函数，因
为它可以完美解决平方损失函数权重更新过慢的问题，具有“误差大的时候，权重更新快；误差小的时候，权重更新慢”的良好性质。
[0089]
在本发明的实施例中，歌手分类是自监督模型的支线任务，输入是原始音频波形，经过编码器和2层一维卷积到softmax输出对应的歌手类别，输出的歌手类别和音频对应的真实歌手类别之间会计算loss值，通过优化loss反向传导，不断调整2层卷积层参数以及编码器的参数来优化编码输出的隐变量对歌手信息的表征能力。
[0090]
在本发明第二分支实施例中，根据所述歌声嵌入构建回归损失函数的过程包括：
[0091]
通过所述自监督模型的pitch回归预测器对所述歌声嵌入进行回归预测，获取预测pitch值；
[0092]
根据所述真实pitch值、所述预测pitch值，构建用于训练所述pitch回归预测器的所述回归损失函数。
[0093]
在本发明的实施例中，通过所述回归损失函数对所述pitch回归预测器进行迭代训练，当所述回归损失函数值收敛至预设范围，完成对所述pitch回归预测器的训练；
[0094]
其中，所述回归损失函数为：
[0095][0096]
其中，l
p
表示回归损失函数，l
mse
()表示均方根误差函数，c
p
表示回归预测器，p(s
j
)表示对s
j
获取的pitch值，s
j
表示歌手j的输入语音。
[0097]
在步骤s3、s4中，在本发明的实施例中，最终损失函数定义为：
[0098]
l
total
＝l
recon
‑
λl
s
‑
μl
p
[0099]
其中，λ和μ是两个权重因子。
[0100]
其中，对抗损失主要用来训练歌手分类器和pitch回归预测器，对抗损失可以表示为：
[0101]
l
ad
＝λl
s
+μl
p
[0102]
其中，对抗损失和总损失在训练过程中交替进行最小化，即首先优化分类器和回归预测使用对抗损失，然后在使用总损失优化整体参数，这样交替进行。
[0103]
其中，获取所述重构损失函数的过程为：
[0104]
通过时频转换将所述歌声语音转换成所述输入频谱图；
[0105]
通过所述自监督模型的解码器对所述歌声嵌入进行解码处理，获取输出频谱图；
[0106]
根据所述输入频谱图、所述输出频谱图，构建所述重构损失函数；
[0107]
所述重构损失函数为：
[0108][0109]
其中，l
recon
表示表示重构损失函数，l
ce
()表示交叉熵损失，e表示编码器，d表示解码器，c
s
表示歌手分类器，s
j
表示歌手j的输入语音，c
p
表示回归预测器，p(s
j
)表示对s
j
提取的真实pitch值。
[0110]
其中，解码器采用rnn结构序列到序列的解码模式，首先从起始帧<go> 开始结合
叠加的编码作为rnn的输入得到第一个时序的输出，然后后续时刻的输出以前一时刻的结果作为输入直到输出达到停止条件，得到rnn解码后的序列，然后经过一层非线性层得到解码后的频谱。
[0111]
在本发明的实施例中，在训练过程中会将解码得到的频谱与真实频谱计算mse loss，来优化解码器中的参数，合成阶段即可直接通过优化的解码器参数直接得到频谱，解码后的频谱经过声码器即可合成对应的音频文件。
[0112]
本发明的实施例中，自监督主要体现在训练阶段，模型的输入和输出目标都是自身；即训练阶段语音合成用到的数据不需要标签信息，输入是音频自身，对应的输出预期也是音频自身，但真实输出和预期输出之间有损失，通过优化器进行损失最小化来优化模型的整体参数，达到模型的自监督训练。
[0113]
但是，需要注意的是这里面不需要标签信息仅针对主任务语音合成。对于分支任务歌手识别和pitch预测还是需要额外的歌手标签信息和pitch目标值的，这两部分是有监督模型。
[0114]
在步骤s6中，所述通过训练后的自监督模型对待转换歌声进行转换处理，获取目标歌声，包括：
[0115]
s61：将训练完成的自监督模型的歌手分类器删除；
[0116]
s62：将待转换歌声输入到删除歌手分类器的自监督模型中，删除歌手分类器的自监督模型对待转换歌声进行处理，获取目标歌声。
[0117]
在步骤s62中，所述将待转换歌声输入到删除歌手分类器的自监督模型中，删除歌手分类器的自监督模型对待转换歌声进行处理，获取转换的目标歌声，包括：
[0118]
s621：将所述待转换歌声输入到删除歌手分类器的编码器，所述删除歌手分类器的编码器对所述待转换歌声进行处理，获取待转换歌声嵌入，其中，删除歌手分类器的编码器具有目标歌手身份信息；
[0119]
s622：将所述待转换歌声嵌入输入到回归预测器；
[0120]
s623：通过所述回归预测器对所述待转换歌声嵌入进行预测处理，获取 pitch值；
[0121]
s624：通过解码器对所述待转换歌声嵌入、目标歌手身份信息和所述pitch 序列值进行解码处理，获取转换的目标歌声。
[0122]
在本发明的实施例中，通过如下公式实现目标歌声的转换：
[0123][0124]
其中，e表示编码器，d表示解码器，cs表示为歌手分类器，s
j
表示歌手j的输入语音，p(s
j
)表示对s
j
提取的真实pitch值。
[0125]
在本发明的实施例中，去除歌手分类器，保留pitch回归预测器，通过改变不同的singer embedding叠加编码器输出以及pitch预测值得到转换后的目标歌声。其中，在训练过程中歌手分类器是为了帮助编码器编码的结果能够保留歌手身份信息，而训练完成以后编码器就具备了歌手身份信息表征的能力，不再需要分类器这个模块，保留这个模块只会得到无意义的输出结果例如额外输出预测歌手，因此可以在合成阶段进行剔除提高计算速
度，减少冗余。而pitch回归预测需要保留因为编码叠加的过程需要pitch信息来增强合成语音的pitch稳定性。去除以后就缺失了pitch信息，无法进行合成。
[0126]
其中，singer embedding是对不同歌手信息的一个标志，例如最简单的 embedding可以选用0,1,2,3,4
……
，每一个数字对应一个不同的歌手，当需要转化歌手2时就把speaker embedding设置为2，来控制对应的歌声转化。也可以是高维x
‑
vector，通过歌手识别分类网络的最后一层输出作为不同歌手的一个编码。
[0127]
在本发明的实施例中，利用额外的pitch预测来优化歌声转换中的pitch 精准性，增加歌手分类器以优化编码器内容编码后的歌手信息刻画能力。也就是说是，pitch回归预测得到的pitch值，参与到编码器结果中，加强了合成歌声中的pitch稳定性。本身编码器的输入也从原始音频中学到了部分pitch 相关的信息，额外的pitch指的就是专门使用pitch回归预测出来的pitch。
[0128]
本发明实施例通过自监督模型的编码器对歌声语音进行编码处理，获取歌声嵌入；根据所述歌声嵌入分别构建歌手分类损失函数和回归损失函数；根据所述歌手分类损失函数和回归损失函数，构建对抗损失函数；根据所述对抗损失函数、重构损失函数，构建最终损失函数；通过所述最终损失函数对所述自监督模型进行迭代训练，当所述最终损失函数值收敛至预设范围，完成对所述自监督模型的训练；通过训练后的自监督模型对待转换歌声进行转换，获取目标歌声。本发明通过损失函数、重构损失函数、对抗损失函数以及最后损失对自监督模型训练，并通过训练好的自监督模型完成目标歌声的转换，从而解决目前转换歌声容易跑调等问题。
[0129]
如图2所示，是本发明基于自监督模型的歌声转换装置的功能模块图。本发明所述基于自监督模型的歌声转换装置100可以安装于电子设备中。根据实现的功能，所述基于自监督模型的歌声转换装置100可以包括：歌声嵌入获取模块101、损失函数构建模块102、对抗损失函数构建模块103、最终损失函数构建模块104、模型训练完成模块105和目标歌手获取模块106。本发明所述模块也可以称之为单元，是指一种能够被电子设备处理器所执行，并且能够完成固定功能的一系列计算机程序段，其存储在电子设备的存储器中。
[0130]
在本实施例中，关于各模块/单元的功能如下：
[0131]
歌声嵌入获取模块101，用于通过自监督模型的编码器对歌声语音进行编码处理，获取歌声嵌入；
[0132]
损失函数构建模块102，用于根据所述歌声嵌入分别构建歌手分类损失函数和回归损失函数；
[0133]
对抗损失函数构建模块103，用于根据所述歌手分类损失函数和回归损失函数，构建对抗损失函数；
[0134]
最终损失函数构建模块104，用于根据所述对抗损失函数、重构损失函数，构建最终损失函数；
[0135]
模型训练完成模块105，用于通过所述最终损失函数对所述自监督模型进行迭代训练，当所述最终损失函数值收敛至预设范围，完成对所述自监督模型的训练；
[0136]
目标歌手获取模块106，用于通过训练后的自监督模型对待转换歌声进行转换，获取目标歌。
[0137]
歌手歌声嵌入模块101进一步包括输入单元、卷积处理单元和池化处理单元(图中
未示出)，其中：
[0138]
输入单元，用于将将所述歌声语音输入到所述编码器；
[0139]
卷积处理单元，用于通过所述编码器对所述训练歌声进行卷积处理，获取所述歌声的局部特征向量；
[0140]
池化处理单元，用于通过所述编码器对所述歌声的局部特征向量进行池化处理，获取所述歌声嵌入。
[0141]
在本发明的实施例中，编码器由一组网络层构成，包含4层空洞卷积层，其中卷积为一维卷积，每一层卷积之后会进行一次均值池化层，池化层的大小为(1，4)，原始输入的语音为一维时序信号，最终经过编码器后得到一个编码后的隐变量1024维。
[0142]
其中，损失函数构建模块102包括歌手分类损失函数构建模块和回归损失函数构建模块。
[0143]
歌手分类损失函数构建模块，用于通过所述自监督模型的歌手分类器对所述歌声嵌入进行分类处理，获取预测歌手类别；
[0144]
根据所述真实歌手类别、所述预测歌手类别，构建用于训练所述歌手分类器的所述歌手分类损失函数。
[0145]
其中，通过所述歌手分类损失函数对所述歌手分类器进行迭代训练，当所述歌手分类损失函数值收敛至预设范围，完成对所述歌手分类器的训练；
[0146]
其中，所述歌手分类损失函数为：
[0147][0148]
其中，l
s
表示歌手分类损失函数，l
ce
()表示交叉熵损失，e表示编码器；c
s
表示歌手分类器，s
j
表示歌手j的输入语音。
[0149]
其中，回归损失函数构建模块，用于通过所述自监督模型的pitch回归预测器对所述歌声嵌入进行回归预测，获取预测pitch值；
[0150]
根据所述真实pitch值、所述预测pitch值，构建用于训练所述pitch回归预测器的所述回归损失函数。
[0151]
其中，通过所述回归损失函数对所述pitch回归预测器进行迭代训练，当所述pitch回归预测器收敛至预设范围，完成对所述pitch回归预测器的训练；
[0152]
其中，所述回归损失函数为：
[0153][0154]
其中，l
p
表示回归损失函数，l
mse
()表示均方根误差函数，c
p
表示回归预测器，p(s
j
)表示对s
j
获取的pitch值，s
j
表示歌手j的输入语音。
[0155]
其中，对抗损失函数构建模块103中，所述对抗损失函数为： l
ad
＝λl
s
+μl
p
；所述最终损失函数为：l
total
＝l
recon
‑
λl
s
‑
μl
p
；
[0156]
其中，l
s
表示歌手分类损失函数，l
p
表示回归损失函数，l
recon
表示重构损失函数，λ、μ分别表示歌手分类损失函数、回归损失函数的权重因子。
[0157]
其中，最终损失函数构建模块104中，获取所述重构损失函数的过程为：
[0158]
通过时频转换将所述歌声语音转换成所述输入频谱图；
[0159]
通过所述自监督模型的解码器对所述歌声嵌入进行解码处理，获取输出频谱图；
[0160]
根据所述输入频谱图、所述输出频谱图，构建所述重构损失函数；
[0161]
所述重构损失函数为：
[0162][0163]
其中，l
recon
表示表示重构损失函数，l
ce
()表示交叉熵损失，e表示编码器，d表示解码器，c
s
表示歌手分类器，s
j
表示歌手j的输入语音，c
p
表示回归预测器，p(s
j
)表示对s
j
获取的真实pitch值。
[0164]
本发明实施例通过自监督模型的编码器对歌声语音进行编码处理，获取歌声嵌入；根据所述歌声嵌入分别构建歌手分类损失函数和回归损失函数；根据所述歌手分类损失函数和回归损失函数，构建对抗损失函数；根据所述对抗损失函数、重构损失函数，构建最终损失函数；通过所述最终损失函数对所述自监督模型进行迭代训练，当所述最终损失函数收敛至预设范围，完成对所述自监督模型的训练；通过训练后的自监督模型对待转换歌声进行转换，获取目标歌声。本发明通过损失函数、重构损失函数、对抗损失函数以及最后损失对自监督模型训练，并通过训练好的自监督模型完成目标歌声的转换，从而解决目前转换歌声容易跑调等问题。
[0165]
如图3所示，是本发明实现基于自监督模型的歌声转换方法的电子设备的结构示意图。
[0166]
所述电子设备1可以包括处理器10、存储器11和总线，还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序，如基于自监督模型的歌声转换程序12。
[0167]
其中，所述存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如：sd或dx存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备1的内部存储单元，例如该电子设备1的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备1的外部存储设备，例如电子设备1上配备的插接式移动硬盘、智能存储卡(smart media card，smc)、安全数字 (secure digital，sd)卡、闪存卡(flash card)等。进一步地，所述存储器 11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据，例如数据稽核程序的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。存储器可以存储内容，该内容可由电子设备显示或被发送到其他设备(例如，耳机)以由其他设备来显示或播放。存储器还可以存储从其他设备接收的内容。该来自其他设备的内容可由电子设备显示、播放、或使用，以执行任何必要的可由电子设备和/或无线接入点中的计算机处理器或其他组件实现的任务或操作。
[0168]
所述处理器10在一些实施例中可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(central processing unit，cpu)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器 10是所述电子设备的控制核心(control unit)，利用各种接口和线路连接整个电子设备的各个部件，通过运行或执行存储在所述存储器11内
的程序或者模块(例如数据稽核程序等)，以及调用存储在所述存储器11内的数据，以执行电子设备1的各种功能和处理数据。电子还可包括芯片组(未示出)，其用于控制一个或多个处理器与用户设备的其他组件中的一个或多个之间的通信。在特定的实施例中，电子设备可基于架构或架构，并且处理器和芯片集可来自处理器和芯片集家族。该一个或多个处理器104 还可包括一个或多个专用集成电路(asic)或专用标准产品(assp)，其用于处理特定的数据处理功能或任务。
[0169]
所述总线可以是外设部件互连标准(peripheral component interconnect，简称pci)总线或扩展工业标准结构(extended industry standard architecture，简称eisa)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
[0170]
此外，网络和i/o接口可包括一个或多个通信接口或网络接口设备，以提供经由网络(未示出)在电子设备和其他设备(例如，网络服务器)之间的数据传输。通信接口可包括但不限于：人体区域网络(ban)、个人区域网络(pan)、有线局域网(lan)、无线局域网(wlan)、无线广域网(wwan)、等等。用户设备102可以经由有线连接耦合到网络。然而，无线系统接口可包括硬件或软件以广播和接收消息，其使用wi
‑
fi直连标准和/或ieee 802.11 无线标准、蓝牙标准、蓝牙低耗能标准、wi
‑
gig标准、和/或任何其他无线标准和/或它们的组合。
[0171]
无线系统可包括发射器和接收器或能够在由ieee 802.11无线标准所支配的操作频率的广泛范围内操作的收发器。通信接口可以利用声波、射频、光学、或其他信号来在电子设备与其他设备(诸如接入点、主机、服务器、路由器、读取设备、和类似物)之间交换数据。网络118可包括但不限于：因特网、专用网络、虚拟专用网络、无线广域网、局域网、城域网、电话网络、等等。
[0172]
显示器可包括但不限于液晶显示器、发光二极管显示器、或由在美国马萨诸塞州剑桥城的e ink公司(e ink corp.of cambridge,massachusetts)所制造的e
‑
inktm显示器。该显示器可用于将内容以文本、图像、或视频的形式显示给用户。在特定的实例中，该显示器还可以作为触控屏显示器操作，其可以使得用户能够藉由使用某些手指或手势来触摸屏幕以启动命令或操作。
[0173]
图3仅示出了具有部件的电子设备，本领域技术人员可以理解的是，图3 示出的结构并不构成对所述电子设备3的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。
[0174]
例如，尽管未示出，所述电子设备1还可以包括给各个部件供电的电源 (比如电池)，优选地，电源可以通过电源管理装置与所述至少一个处理器 10逻辑相连，从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、wi
‑
fi模块等，在此不再赘述。
[0175]
进一步地，所述电子设备1还可以包括网络接口，可选地，所述网络接口可以包括有线接口和/或无线接口(如wi
‑
fi接口、蓝牙接口等)，通常用于在该电子设备1与其他电子设备之间建立通信连接。
[0176]
可选地，该电子设备1还可以包括用户接口，用户接口可以是显示器 (display)、输入单元(比如键盘(keyboard))，可选地，用户接口还可以是标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是 led显示器、液晶显示器、触控式液晶显示器以及oled(organiclight
‑
emitting diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
[0177]
应该了解，所述实施例仅为说明之用，在专利申请范围上并不受此结构的限制。
[0178]
所述电子设备1中的所述存储器11存储的基于自监督模型的歌声转换程序12是多个指令的组合，在所述处理器10中运行时，可以实现：
[0179]
通过自监督模型的编码器对歌声语音进行编码处理，获取歌声嵌入；
[0180]
根据所述歌声嵌入分别构建歌手分类损失函数和回归损失函数；
[0181]
根据所述歌手分类损失函数和回归损失函数，构建对抗损失函数；
[0182]
根据所述对抗损失函数、重构损失函数，构建最终损失函数；
[0183]
通过所述最终损失函数对所述自监督模型进行迭代训练，当所述最终损失函数值收敛至预设范围，完成对所述自监督模型的训练；
[0184]
通过训练后的自监督模型对待转换歌声进行转换，获取目标歌声。
[0185]
具体地，所述处理器10对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述，在此不赘述。需要强调的是，为进一步保证上述每组待处理语义单元的相似度语义处理结果的私密和安全性，上述每组待处理语义单元的相似度语义处理还可以存储于一区块链的节点中。
[0186]
进一步地，所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom，read
‑
only memory)。
[0187]
在本发明的实施例中，计算机可读存储介质，所述计算机可读存储介质中存储有至少一个指令，所述至少一个指令被电子设备中的处理器执行以实现上述所述的基于自监督模型的歌声转换方法的步骤，具体方法如下：
[0188]
通过自监督模型的编码器对歌声语音进行编码处理，获取歌声嵌入；
[0189]
根据所述歌声嵌入分别构建歌手分类损失函数和回归损失函数；
[0190]
根据所述歌手分类损失函数和回归损失函数，构建对抗损失函数；
[0191]
根据所述对抗损失函数、重构损失函数，构建最终损失函数；
[0192]
通过所述最终损失函数对所述自监督模型进行迭代训练，当所述最终损失函数值收敛至预设范围，完成对所述自监督模型的训练；
[0193]
通过训练后的自监督模型对待转换歌声进行转换，获取目标歌声。
[0194]
在本发明所提供的几个实施例中，应该理解到，所揭露的设备，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。
[0195]
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个
网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
[0196]
另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。
[0197]
以上参考根据本发明的示例性实施例的系统和方法和/或计算机程序产品的框图和流程图描述了本发明的某些实施例。应当理解的是，框图和流程图中的一个或多个方框、以及在框图和流程图中的方框的组合，可以分别由计算机可执行程序指令实现。同样地，根据本发明的一些实施例，框图和流程图中的一些方框可以不必按照所呈现的顺序执行，或者甚至可以完全不需要执行。
[0198]
这些计算机可执行程序指令可以被加载到通用计算机、专用计算机、处理器、或其他可编程数据处理装置上以产生特定机器，使得在计算机、处理器、或其他可编程数据处理装置上执行的指令创建用于实现在流程图方框或多个方框中所指定的一个或多个功能的构件。这些计算机程序产品还可以存储在计算机可读存储器中，其可以指导计算机或其他可编程数据处理装置以特定的方式运行，使得存储在计算机可读存储器中的指令产生制品，该制品包括实现在流程图的方框或多个方框中指定的一个或多个功能的指令构件。例如，本发明的实施例可提供计算机程序产品，其包括其中包含有计算机可读程序代码或程序指令的计算机可用介质，所述计算机可读程序代码适于被执行以实现在流程图方框或多个方框中指定的一个或多个功能。计算机程序指令还可以被加载到计算机或其他可编程数据处理装置上，以致使一系列操作元素或步骤在计算机或其他可编程装置上执行易产生计算机实现的程序，使得在计算机或其他可编程装置上执行的指令提供用于实现在流程图方框或多个方框中指定的功能的元素或步骤。
[0199]
相应地，框图或流程图中的方框支持用以执行指定功能的构件的组合、用于执行指定功能的元素或步骤与用于执行指定功能的程序指令构件的组合。还应当理解的是，框图和流程图中的每个方框以及框图和流程图中的方框的组合可由执行指定功能、元素或步骤的专用的基于硬件的计算机系统实现，或由专用硬件或计算机指令的组合实现。
[0200]
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
[0201]
对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。
[0202]
因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
[0203]
虽然本发明的某些实施例已经结合目前被认为是最实用的且各式各样的实施例进行了描述，但应当理解，本发明并不限于所公开的实施例，而是意在覆盖包含在所附权利
要求书的范围之内的各种修改和等价布置。虽然本文采用了特定的术语，但它们仅以一般性和描述性的意义使用，而不是用于限制的目的。
[0204]
最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。