数据处理方法、装置、存储介质和电子装置与流程

1.本发明涉及计算机领域，具体而言，涉及一种数据处理方法、装置、存储介质和电子装置。

背景技术：

2.目前，可以对游戏中的虚拟游戏角色取名，而虚拟游戏角色的名称通常都是以文本形式进行反馈的，一般会显示在文字聊天界面、组队界面、个人信息等功能显示界面中。
3.另外，在虚拟游戏角色的对话中，通常也是在对话中将虚拟游戏角色的名称跳过，只读可固定的其它文本内容，或者以游戏设定的其它固定方式来称呼虚拟游戏角色。
4.因而，上述虚拟游戏角色的名称与虚拟游戏角色并没有互动，这使得玩家对虚拟游戏角色和自身的身份认识相对割裂，从而导致对虚拟游戏角色的名称的交互性差的技术问题。
5.针对现有技术中对虚拟游戏角色的名称的交互性差的技术问题，目前尚未提出有效的解决方案。

技术实现要素：

6.本发明的主要目的在于提供一种数据处理方法、装置、存储介质和电子装置，以至少解决对对虚拟游戏角色的名称的交互性差的技术问题。
7.为了实现上述目的，根据本发明的一个方面，提供了一种数据处理方法。该方法可以包括：接收来自于客户端的目标请求，其中，目标请求中携带的信息至少包括目标文本，目标文本用于表示虚拟游戏角色的名称；响应目标请求，将目标文本转换为第一语音数据；将第一语音数据发送至客户端，以使客户端将第一语音数据和第二语音数据拼接为第三语音数据，第二语音数据为虚拟游戏角色待进行的交互内容中除名称之外的内容所对应的语音数据。
8.可选地，该方法还包括：获取第二语音数据的风格信息，其中，风格信息用于表示第二语音数据所属的语音风格；将目标文本转换为第一语音数据，包括：将风格信息和目标文本转换为第一语音数据，其中，第一语音数据所属的语音风格与第二语音数据所属的语音风格相同。
9.可选地，获取第二语音数据的风格信息，包括：提取第二语音数据的第一声学特征；基于第一声学特征确定风格信息。
10.可选地，将风格信息和目标文本转换为第一语音数据，包括：提取目标文本的文本特征；对文本特征和第一声学特征进行对齐，得到对齐结果；将风格信息和对齐结果转换为第一语音数据。
11.可选地，目标请求中携带的信息还包括虚拟游戏角色的第一标识信息，方法还包括：基于第一标识信息获取虚拟游戏角色的目标向量，其中，目标向量用于表示虚拟游戏角色的音色；将风格信息和对齐结果转换为第一语音数据，包括：将目标向量、风格信息和对
齐结果转换为第一语音数据。
12.可选地，将目标向量、风格信息和对齐结果转换为第一语音数据，包括：将目标向量、风格信息和对齐结果合成为第二声学特征；将第二声学特征转换为第一语音数据。
13.可选地，目标请求中携带的信息还包括第二语音数据的第二标识信息，该方法还包括：基于第二标识信息获取第二语音数据。
14.可选地，该方法还包括：将所目标文本转换为音素数据序列和/或韵律数据序列；将目标文本转换为第一语音数据，包括：将音素数据序列和/或韵律数据序列转换为第一语音数据。
15.为了实现上述目的，根据本发明的另一方面，还提供了另一种数据处理方法。该方法可以包括：当检测到虚拟游戏角色待进行的交互内容中包括虚拟游戏角色的名称时，向服务器发送目标请求，其中，目标请求中携带的信息至少包括目标文本，目标文本用于表示名称；获取第一语音数据，其中，第一语音数据为服务器响应目标请求，对目标文本进行转换得到；对第一语音数据和第二语音数据进行拼接，得到第三语音数据，其中，第二语音数据为交互内容中除名称之外的内容所对应的语音数据；对第三语音数据进行播放。
16.为了实现上述目的，根据本发明的另一方面，还提供了一种数据处理装置。该装置可以包括：接收单元，用于接收来自于客户端的目标请求，其中，目标请求中携带的信息至少包括目标文本，目标文本用于表示虚拟游戏角色的名称；转换单元，用于响应目标请求，将目标文本转换为第一语音数据；第一发送单元，用于将第一语音数据发送至客户端，以使客户端将第一语音数据和第二语音数据拼接为第三语音数据，第二语音数据为虚拟游戏角色待进行的交互内容中除名称之外的内容所对应的语音数据。
17.为了实现上述目的，根据本发明的另一方面，还提供了另一种数据处理装置。该装置可以包括：第二发送单元，用于当检测到虚拟游戏角色待进行的交互内容中包括虚拟游戏角色的名称时，向服务器发送目标请求，其中，目标请求中携带的信息至少包括目标文本，目标文本用于表示名称；获取单元，用于获取第一语音数据，其中，第一语音数据为服务器响应目标请求，对目标文本进行转换得到；拼接单元，用于对第一语音数据和第二语音数据进行拼接，得到第三语音数据，其中，第二语音数据为交互内容中除名称之外的内容所对应的语音数据；播放单元，用于对第三语音数据进行播放。
18.为了实现上述目的，根据本发明的另一方面，提供了一种计算机可读存储介质。该计算机可读存储介质中存储有计算机程序，其中，在计算机程序被处理器运行时控制计算机可读存储介质所在设备执行本发明其中之一实施例的数据处理方法。
19.为了实现上述目的，根据本发明的另一方面，提供了一种电子装置。该电子装置包括存储器和处理器，存储器中存储有计算机程序，处理器被设置为运行计算机程序以执行本发明其中之一实施例的数据处理的方法。
20.在该实施例的数据处理方法中，接收来自于客户端的目标请求，其中，目标请求中携带的信息至少包括目标文本，目标文本用于表示虚拟游戏角色的名称；响应目标请求，将目标文本转换为第一语音数据；将第一语音数据发送至客户端，以使客户端将第一语音数据和第二语音数据拼接为第三语音数据，第二语音数据为虚拟游戏角色待进行的交互内容中除名称之外的内容所对应的语音数据。也就是说，本技术将用于表示虚拟游戏角色的名称的目标文本转换为第一语音数据，以与交互内容对应的第二语音数据进行拼接，达到了
为包含有虚拟游戏角色的名称的交互内容添加了语音反馈的目的，避免了虚拟游戏角色的名称通常都是以文本形式进行反馈的，也避免了在对话中将虚拟游戏角色的名称跳过，从而解决了对虚拟游戏角色的名称的交互性差的技术问题，达到了提高对虚拟游戏角色的名称的交互性差的技术效果。
附图说明
21.构成本技术的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：
22.图1是本发明实施例的一种数据处理方法的移动终端的硬件结构框图；
23.图2是根据本发明实施例的一种数据处理方法的流程图；
24.图3是根据本发明实施例的另一种数据处理方法的流程图；
25.图4是根据本发明实施例的一种文本转语音服务端的示意图；
26.图5是根据本发明实施例的一种带参考音频的文本转语音系统的示意图；
27.图6是根据本发明实施例的一种数据处理装置的示意图；
28.图7是根据本发明实施例的另一种数据处理装置的示意图。
具体实施方式
29.需要说明的是，在不冲突的情况下，本技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
30.为了使本技术领域的人员更好地理解本技术方案，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分的实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本技术保护的范围。
31.需要说明的是，本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本技术的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
32.本技术其中之一实施例所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例，图1是本发明实施例的一种数据处理方法的移动终端的硬件结构框图。如图1所示，移动终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)和用于存储数据的存储器104，可选地，上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述移动终端的结构造成限定。例如，移动终端还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。
33.存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发
明实施例中的一种数据处理的方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
34.传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中，传输设备106包括一个网络适配器(network interface controller，简称为nic)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备106可以为射频(radio frequency，简称为rf)模块，其用于通过无线方式与互联网进行通讯。
35.下面从服务器(服务端)一侧对本发明其中之一实施例的数据处理方法进行介绍。
36.图2是根据本发明实施例的一种数据处理方法的流程图。如图2所示，该方法可以包括如下步骤：
37.步骤s202，接收来自于客户端的目标请求，其中，目标请求中携带的信息至少包括目标文本，目标文本用于表示虚拟游戏角色的名称。
38.在本发明上述步骤s202提供的技术方案中，客户端可以为游戏客户端，其运行的游戏场景中包括虚拟游戏角色，比如，该虚拟游戏角色为非玩家控制角色(non-player character，简称为npc)。当虚拟游戏角色待进行到的交互内容中包括虚拟游戏角色的名称时，比如，当交互内容中包括了玩家对虚拟游戏角色所起的名字时，服务器可以接收来自于上述客户端的目标请求，该目标请求中携带的信息至少包括目标文本，该目标文本也即待合成的名字文本，用于表示虚拟游戏角色的上述名称。其中，交互内容可以是虚拟游戏角色所进行的对话内容。
39.步骤s204，响应目标请求，将目标文本转换为第一语音数据。
40.在本发明上述步骤s204提供的技术方案中，在接收来自于客户端的目标请求之后，服务器响应目标请求，将目标文本转换为第一语音数据。
41.在该实施例中，服务器在接收到来自客户端的目标请求之后，可以从目标请求中识别出目标文本，再将目标文本输入至服务器预先设置的语音生成模型中，通过该语音生成模型对目标文本进行处理，从而得到与虚拟游戏角色的名称相匹配的第一语音数据，这一阶段也即名字合成语音阶段。其中，语音生成模型可以为人工智能模型(artificial intelligence，简称为ai)训练模型，也即，ai语音生成模型、ai训练模型，第一语音数据也即名字合成语音、名字文本的合成语音，其可以通过语音波形/信号来体现，从而实现了对虚拟游戏角色的名称通过第一语音数据进行反馈的目的。
42.可选地，该实施例的第一语音数据与虚拟游戏角色的名称相匹配可以是指第一语音数据的语音内容包括虚拟游戏角色的名称，第一语音数据的音色是虚拟游戏角色的主角音色，第一语音数据的音调尽量符合上下文的语音，而第一语音数据的音长符合主角的整体说话语速等。
43.可选地，该实施例可以在服务器中的带参考音频的文本转语音系统中，将上述目标文本转换为第一语音数据。
44.可选地，该实施例的服务器可以设置好游戏对应各个虚拟游戏角色的语音生成模型。
45.步骤s206，将第一语音数据发送至客户端，以使客户端将第一语音数据和第二语音数据拼接为第三语音数据，第二语音数据为虚拟游戏角色待进行的交互内容中除名称之外的内容所对应的语音数据。
46.在本发明上述步骤s206提供的技术方案中，在响应目标请求，将目标文本转换为第一语音数据之后，可以将第一语音数据发送至客户端，以使客户端将第一语音数据和第二语音数据拼接为第三语音数据，第二语音数据为虚拟游戏角色待进行的交互内容中除名称之外的内容所对应的语音数据。
47.在该实施例中，当前待进行的交互内容中包括了除虚拟游戏角色的名称之外的内容，而除虚拟游戏角色的名称之外内容对应了第二语音数据，该第二语音数据可以为音频，也即，为与第一语音数据进行拼接的待拼接音频。在第一语音数据由客户端接收到之后，上述第一语音数据和第二语音数据可以由客户端进行拼接，比如，客户端根据第一语音数据的采样点和第二语音数据的采样点来对第一语音数据和第二语音数据进行拼接，其中，该采样点可以包括时间信息，通过其来对第一语音数据和第二语音数据进行拼接，得到第三语音数据，该第三语音数据由客户端进行播放。
48.该实施例的第三语音数据中包括了虚拟游戏角色的名称的语音数据，实现了为包含有虚拟游戏角色的名称的交互内容添加了语音反馈的目的，这在游戏剧情以及重要提示时，让玩家更加沉浸地体验剧情，获得更好的身份代入感，从而增强了游戏的视觉和听觉体验，为玩家带来更强的浸入感，提高了游戏场景的虚拟世界的真实性和交互性。
49.通过本技术上述步骤s202至步骤s206，接收来自于客户端的目标请求，其中，目标请求中携带的信息至少包括目标文本，目标文本用于表示虚拟游戏角色的名称；响应目标请求，将目标文本转换为第一语音数据；将第一语音数据发送至客户端，以使客户端将第一语音数据和第二语音数据拼接为第三语音数据，第二语音数据为虚拟游戏角色待进行的交互内容中除名称之外的内容所对应的语音数据。也就是说，该实施例将用于表示虚拟游戏角色的名称的目标文本转换为第一语音数据，以与交互内容对应的第二语音数据进行拼接，达到了为包含有虚拟游戏角色的名称的交互内容添加了语音反馈的目的，避免了虚拟游戏角色的名称通常都是以文本形式进行反馈的，也避免了在对话中将虚拟游戏角色的名称跳过，从而解决了对虚拟游戏角色的名称的交互性差的技术问题，达到了提高对虚拟游戏角色的名称的交互性差的技术效果。
50.下面对该实施例的上述方法进行进一步地详细介绍。
51.作为一种可选的实施方式，该方法还包括：获取第二语音数据的风格信息，其中，风格信息用于表示第二语音数据所属的语音风格；步骤s204，将目标文本转换为第一语音数据，包括：将风格信息和目标文本转换为第一语音数据，其中，第一语音数据所属的语音风格与第二语音数据所属的语音风格相同。
52.在该实施例中，可以从第二语音数据中提取出风格信息，比如，该风格信息可以为第二语音数据的整体风格信息，用于表示第二语音数据所属的语音风格。可选地，该实施例的风格信息可以是风格向量，也即，为一个用于表示风格的数学向量。该实施例可以对上述风格信息进行编码，得到风格编码信息。可选地，该实施例的第二语音数据可以为作为第一
语音数据的风格的参考音频。该实施例可以将第二语音数据的风格编码信息和上述目标文本转换为第一语音数据，从而使得第一语音数据所属的语音风格和第二语音数据所属的语音风格相同，也即，该实施例的上述第二语音数据的风格信息用于控制虚拟游戏角色的名称在通过语音进行播放时的风格，以使目标文本合成的第一语音数据和第二语音数据拼接的地方自然连贯，这可以主要包括韵律节奏连贯和信道一致。
53.可选地，该实施例的带参考音频的文本转语音系统可以包括参考音频编码器，可以通过参考音频编码器从第二语音数据中提取出风格信息，进而对风格信息进行编码，得到上述风格编码信息。
54.作为另一种可选的实施方式，获取第二语音数据的风格信息，包括：提取第二语音数据的第一声学特征；基于第一声学特征确定风格信息。
55.在该实施例中，在实现获取第二语音数据的风格信息时，可以是先从第二语音数据中提取出第一声学特征，该第一声学特征也即语音声学特征，可以为语音特征序列。可选地，该实施例的上述带参考音频的文本转语音系统可以包括声学特征提取模块，该声学特征提取模块可以将第二语音数据从波形转换成一些富含信息的特征，从而得到第一声学特征。可选地，该第一声学特征可以为梅尔频谱。
56.在从第二语音数据中提取出第一声学特征之后，可以基于第一声学特征确定风格信息，比如，参考音频编码器可以包括神经网络模型，通过该神经网络模型对输入的上述第一声学特征进行信息提取和信息压缩，从而得到风格向量，其中，神经网络模型属于无监督学习模型。在获取到风格向量之后，可以对该风格向量进行编码，从而得到风格编码信息。
57.可选地，上述神经网络模型可以包括卷积神经网络模型(convolutional neural network，简称为cnn)和长短期记忆网络模型(long short-term memory，简称为lstm)，也即，该实施例的上述参考音频编码器是基于cnn和lstm而实现的。
58.作为另一种可选的实施方式，将风格信息和目标文本转换为第一语音数据，包括：提取目标文本的文本特征；对文本特征和第一声学特征进行对齐，得到对齐结果；将风格信息和对齐结果转换为第一语音数据。
59.在该实施例中，在实现将风格信息和目标文本转换为第一语音数据时，可以是先从目标文本中提取出文本特征，该文本特征可以为文本特征序列。可选地，该实施例的上述带参考音频的文本转语音系统可以包括文本编码器，将目标文本输入至文本编码器，可以通过文本编码器对目标文本进行处理，从而得到文本特征。可选地，该实施例的文本编码器可以将目标文本通过非线性变换映射到高维的文本特征空间编码，从而得到上述文本特征。
60.在该实施例中，由于文本特征的数据长度和第一声学特征的数据长度不同，比如，第一声学特征的数据长度比文本特征的数据长度要长，因而，在提取出目标文本的文本特征之后，可以对文本特征和第一声学特征进行对齐，得到对齐结果。可选地，该实施例的上述带参考音频的文本转语音系统可以包括注意力机制模型，可以通过该注意力机制模型对文本特征和第一声学特征进行对齐，从而得到对齐结果。也即，该实施例的上述参考音频编码器的输入和注意力机制模型的输入都是针对同一第一声学特征而言的。
61.作为另一种可选的实施方式，目标请求中携带的信息还包括虚拟游戏角色的第一标识信息，该方法还包括：基于第一标识信息获取虚拟游戏角色的目标向量，其中，目标向
量用于表示虚拟游戏角色的音色；将风格信息和对齐结果转换为第一语音数据，包括：将目标向量、风格信息和对齐结果转换为第一语音数据。
62.在该实施例中，服务器接收到的来自客户端发送的目标请求中携带的信息还可以包括虚拟游戏角色的第一标识信息，该第一标识信息可以用于唯一标识虚拟游戏角色，比如，为身份标识(id)，其也可以称为目标说话人id。该实施例可以基于第一标识信息获取虚拟游戏角色的目标向量，比如，将第一标识信息转换为目标向量，该目标向量也即说话人向量，其可以是向量表，用于表示虚拟游戏角色的音色。可选地，该实施例的上述带参考音频的文本转语音系统可以包括说话人向量表模块，可以将第一标识信息转换为目标向量。
63.在基于第一标识信息获取虚拟游戏角色的目标向量之后，服务器可以将目标向量、风格信息和对齐结果转换为第一语音数据，该第一语音数据中包括了上述虚拟游戏角色的音色，也即，该实施例的上述目标向量用于控制虚拟游戏角色的名称在通过语音进行播放时的音色。
64.可选地，该实施例的上述目标向量和风格信息也可以输入至注意力机制模块，以将目标向量、风格信息和对齐结果转换为第一语音数据。
65.作为另一种可选的实施方式，将目标向量、风格信息和对齐结果转换为第一语音数据，包括：将目标向量、风格信息和对齐结果合成为第二声学特征；将第二声学特征转换为第一语音数据。
66.在该实施例中，在实现将目标向量、风格信息和对齐结果转换为第一语音数据时，可以是将目标向量、风格信息和对齐结果合称为第二声学特征。可选地，该实施例的上述带参考音频的文本转语音系统可以包括声学解码器，其可以将文本特征和第一声学特征通过注意力机制模块得到的对齐结果以及目标向量、风格信息，通过非线性变换返回到原始的语音声学特征空间，得到第二声学特征，该第二声学特征也即预测的语音声学特征，进而将其转换为第一语音数据。可选地，该实施例的上述带参考音频的文本转语音系统可以包括声码器，可以通过该声码器将上述第二声学特征转换为语音波形/信号，从而得到第一语音数据。
67.作为另一种可选的实施方式，目标请求中携带的信息还包括第二语音数据的第二标识信息，该方法还包括：基于第二标识信息获取第二语音数据。
68.在该实施例中，服务器接收到的来自客户端发送的目标请求中携带的信息还可以包括第二标识信息，该第二标识信息可以用于唯一标识第二语音数据，可以称为拼接音频id。
69.作为另一种可选的实施方式，该方法还包括：将所目标文本转换为音素数据序列和/或韵律数据序列；步骤s204，将目标文本转换为第一语音数据，包括：将音素数据序列和/或韵律数据序列转换为第一语音数据。
70.在该实施例中，在将目标文本转换为第一语音数据之前，可以对目标文本进行预处理。可选地，该实施例的上述带参考音频的文本转语音系统可以包括文本预处理模块，可以通过该文本预处理模块对目标文本进行预处理。可选地，该实施例通过文本预处理模块将目标文本转换为对应的音素数据序列和/或韵律数据序列，可以是经过一系列的基于规则或者神经网络模型将目标文本转换为对应的音素数据序列和/韵律数据序列，进而可以从音素数据序列和/韵律数据序列中提取出文本特征，以与第一声学特征进行对齐，进而将
得到的对齐结果、目标向量和风格信息转换为第一语音数据。
71.可选地，该实施例可以对上述音素数据序列和韵律数据序列进行结合，从而得到最终的音素韵律数据序列。
72.可选地，该实施例可以通过文本转音素模型实现将目标文本转换为对应的音素数据序列，其中，文本转音素模型可以是采用了cnn+lstm结构的神经网络模型，同时使用交叉熵(cross-entropy)损失函数进行训练。
73.可选地，该实施例可以通过文本转韵律模型实现将目标文本转换为对应的韵律数据序列，其中，文本转音素模型可以是采用了lstm结构的神经网络模型，同时使用交叉熵损失函数进行训练。
74.举例而言，该实施例输入的目标文本为“我爱中国”，则通过文本转音素模型对其进行处理，可以得到音素数据序列“w o3 a i3 zh ong1 g uo2”；通过文本转韵律模型对目标文本进行处理，得到韵律数据序列为“#1#1*#4“＝”，则最终得到音素韵律数据序列可以为“w o3#1 a i3#1 zh ong1 g uo2#4”。
75.需要说明的是，在该实施例中，通过上述参考编码器能够有效地获取第二语音数据的风格信息，用以最终的第一语音数据的获取阶段。如果该实施例不使用参考音频编码器，则会使得相同的目标文本合成的第一语音数据总是一样风格。也即，在没有参考音频编码器确定风格信息的情况下，注意力机制模块也只接收文本编码器输出的文本特征，声学特征提取模块输出的第一声学特征以及目标向量，而该实施例在增加了参考音频编码器之后，注意力机制模块额外接收第二语音数据的风格信息(风格编码信息)。由于同一个目标文本在输入到文本编码器之后，输出的文本特征是固定的。因而，在第一声学特征和目标向量不变的情况下，合成的第一语音数据基本都是一样的风格。而该实施例在加入了第二语音数据的风格编码信息之后，合成的第一语音数据的整个风格就受到第二语音数据的风格信息的影响，这样当使用不同的第二语音数据时，同个目标文本合成的第一语音数据的风格会发生变化。
76.另外，如果该实施例不使用参考音频编码器，则在同样的第二语音数据的情况下，目标文本合成的第一语音数据的风格可能不一致。这是因为在没有参考音频编码器输出的第二语音数据的风格信息影响的情况下，目标文本合成的第一语音数据整体上受到目标文本的输入的影响较大，这样有时候不同目标文本对应的第一语音数据的风格也会不一样。但是，该实施例引入了参考音频编码器输出的第二语音数据的风格信息，就可以在合成不同目标文本的时候使用同一个第二语音数据的风格信息，从而使得不同目标文本合成的第一语音数据的风格可以保持一致。
77.在该实施例中，在没有参考音频编码器输出的第二语音数据的风格信息的情况下，会导致目标文本合成的第一语音数据和第二语音数据拼接的地方会不自然，这主要包括韵律节奏不连贯和信道不一致。而该实施例使用了参考音频编码器输出的第二语音数据的风格信息能够有效地解决这个问题，使得目标文本合成的第一语音数据和第二语音数据在拼接的时候比较自然连贯。
78.本发明其中之一实施例还从客户端侧提供了另一种数据处理方法。
79.图3是根据本发明实施例的另一种数据处理方法的流程图。如图3所示，该方法可以包括以下步骤：
80.步骤s302，当检测到虚拟游戏角色待进行的交互内容中包括虚拟游戏角色的名称时，向服务器发送目标请求，其中，目标请求中携带的信息至少包括目标文本，目标文本用于表示名称。
81.在本发明上述步骤s302提供的技术方案中，客户端可以为游戏客户端，其中，游戏客户端所运行的游戏场景中包括虚拟游戏角色。当客户端检测到虚拟游戏角色待进行到的交互内容中包括虚拟游戏角色的名称时，比如，当客户端检测到交互内容中包括了玩家对虚拟游戏角色所起的名字时，客户端可以向服务器发送目标请求，该目标请求中携带的信息至少包括目标文本，该目标文本也即待合成的名字文本，用于表示虚拟游戏角色的上述名称。其中，交互内容可以是虚拟游戏角色所进行的对话内容。
82.可选地，上述客户端可以设置在移动终端，也可以设置在个人计算机(personal computer，简称为pc)端上，此处不做具体限制。
83.步骤s304，获取第一语音数据，其中，第一语音数据为服务器响应目标请求，对目标文本进行转换得到。
84.在本发明上述步骤s304提供的技术方案中，在客户端向服务器发送目标请求之后，客户端获取第一语音数据。其中，目标文本可以由服务器在接收到目标请求之后，从目标请求中识别出，并由语音生成模型处理为与虚拟游戏角色的名称相匹配的第一语音数据，从而实现了对虚拟游戏角色的名称通过第一语音数据进行反馈的目的。
85.可选地，该实施例的客户端可以获取服务器通过目标接口返回的第一语音数据。可选地，客户端获取服务器通过目标接口返回的语音流，该语音流包括了语音的字节流数据。
86.步骤s306，对第一语音数据和第二语音数据进行拼接，得到第三语音数据，其中，第二语音数据为交互内容中除名称之外的内容所对应的语音数据。
87.在本发明上述步骤s306提供的技术方案中，客户端在获取第一语音数据之后，可以对第一语音数据和第二语音数据进行拼接，得到第三语音数据。
88.在该实施例中，当前待进行的交互内容中包括了除虚拟游戏角色的名称之外的内容，而除虚拟游戏角色的名称之外内容对应了第二语音数据，该第二语音数据可以为音频，也即，为待拼接音频。在客户端接收到第一语音数据之后，客户端可以对上述第一语音数据和第二语音数据进行拼接，比如，客户端根据第一语音数据和第二语音数据的采样点来对第一语音数据和第二语音数据进行拼接，比如，该采样点包括时间信息，可以通过其来对第一语音数据和第二语音数据实现拼接，从而得到第三语音数据。
89.步骤s308，对第三语音数据进行播放。
90.在本发明上述步骤s308提供的技术方案中，在客户端对第一语音数据和第二语音数据进行拼接，得到第三语音数据之后，可以播放该第三语音数据，也即，通过语音播放交互内容，从而实现了在虚拟游戏角色进行到对应的交互内容时，将交互内容中的虚拟游戏角色的名称通过语音进行播放的目的。
91.需要说明的是，由于该实施例获取待合成的目标文本的时长一般达到0.5-1秒，模型生成该段目标文本对应的第一语音数据的等待时长基本不超过0.1秒，将第一语音数据与交互内容中除虚拟游戏角色的名称之外的内容所对应的第二语音数据进行拼接，并对得到的第三语音数据进行播放不会耗费太多时长，因而玩家应该感觉不到整个交互内容播放
的中断。
92.该实施例在游戏进行到有相应的虚拟游戏角色的交互内容时，且交互内容中包含有虚拟游戏角色的名称时，可以通过调用服务器的目标接口返回与虚拟游戏角色的名称相匹配的第一语音数据；客户端拼接服务器返回的第一语音数据到当前对话的第二语音数据上，得到第三语音数据，进而播放该第三语音数据。也就是说，该实施例通过上述方法为含有虚拟游戏角色的名称的交互内容添加了语音反馈，在游戏剧情及重要提示时，让玩家浸入感更强，提高游戏虚拟世界的真实性和交互性，优化用户体验。
93.下面结合优选的实施方式对本发明其中之一实施例的技术方案进行进一步地举例说明。
94.在一种相关技术中，在移动终端上的游戏和pc游戏中，在玩家为游戏中对应的虚拟游戏角色取名之后，虚拟游戏角色的名称是以文本进行反馈的。
95.在另一种相关技术中，在玩家为游戏中对应的虚拟游戏角色取名之后，会在虚拟游戏角色的语音中将虚拟游戏角色的名称跳过，而只读可固定的其它文本内容，或者以固定语音进行反馈的，比如，以游戏设定的其它方式称呼玩家，可以是以“小姐”、“姑娘”或者类似的称呼来称呼玩家。
96.但是，在上述方法中，玩家为虚拟游戏角色所取的名称一般只会体现在文字聊天界面、组队界面、个人信息等功能界面中，而与游戏内的虚拟游戏角色并没有互动，从而导致对虚拟游戏角色的名称的交互性差。另外，相关技术的语音数据中并没有重视玩家为虚拟游戏角色所取的名称，虚拟游戏角色的名称缺少语音交互，一般只返回固定的语音内容(如“小姐”、“姑娘”等)，从而导致玩家在体验游戏剧情时代入感较弱。即使是在有第一人称视角的游戏中，也没有真正使用玩家为虚拟游戏角色自定义的名字，从而导致玩家对虚拟游戏角色和自身的身份认识相对割裂。
97.针对上述问题，该实施例可以根据玩家在游戏中为虚拟游戏角色所取的名称，结合ai语音生成模型合成相应虚拟游戏角色的声音，将与虚拟游戏角色的名称相匹配的语音数据反馈给玩家。下面对该方法进行进一步介绍。
98.在该实施例中，服务器设置好游戏对应各个虚拟游戏角色的ai语音生成模型；游戏进行到有相应虚拟游戏角色的对话内容时，且对话内容包含有玩家为虚拟游戏角色的名称时，可以调用服务器的目标接口返回与名称对应的语音数据；客户端拼接服务端返回的与名称对应的语音数据到当前对话内容的语音上，进而播放拼接后的语音数据对应的语音。
99.下面对该实施例的将与虚拟游戏角色的名称对应的文本转换为语音数据的服务器侧方法进行介绍。
100.图4是根据本发明实施例的一种文本转语音服务端的示意图。如图4所示，客户端向服务器发送的目标请求中包括待合成的名字文本、拼接音频id、目标说话人id。其中，可以通过拼接音频id获取待拼接音频，然后在带参考音频的文本转语音系统中，通过对待合成的名字文本、待拼接音频和目标说话人id进行处理，得到与虚拟游戏角色的名称对应的名字合成语音，并将其通过语音流返回至客户端。
101.下面对该实施例的带参考音频的文本转语音系统进行进一步介绍。
102.图5是根据本发明实施例的一种带参考音频的文本转语音系统的示意图。如图5所
示，该带参考音频的文本转语音系统可以包括：文本预处理模块51、声学特征提取模块52、说话人向量表模块53、文本编码器54、参考音频编码器55、注意力机制模块56、声学解码器57和声码器58。
103.文本预处理模块51，可以用于将系统输入的待合成的名字文本经过一系列的基于规则或者神经网络模型转换成为与待合成的名字文本对应的音素数据序列和韵律数据序列。
104.在该实施例中，文本预处理模块51可以包括文本转音素模型，其采用了cnn+lstm结构的神经网络模型，同时使用cross-entropy损失函数进行训练。
105.在该实施例中，文本预处理模块51可以包括文本转韵律模型，其采用了lstm结构的神经网络模型，同时使用cross-entropy损失函数进行训练。
106.举例而言，输入的待合成的名字文本为“我爱中国”，则将该名字文本通过文本转音素模型进行转换，输出音素数据序列“w o3 a i3 zh ong1 g uo2”；将该名字文本通过文本转韵律模型进行转换，输出韵律数据序列“#1#1*#4”，将音素数据序列和韵律数据序列进行结合，最终得到音素韵律数据序列“w o3#1 a i3#1 zh ong1 g uo2#4”。
107.声学特征提取模块52，可以用于将由拼接音频id得到的拼接音频从波形转成一些富含信息的声学特征，该声学特征可以是梅尔频谱。
108.说话人向量表模块53，可以用于将目标说话人id转换成为目标说话人向量，用以控制合成的语音数据对应的说话人音色。
109.文本编码器54，可以将输入的音素韵律数据序列通过非线性变换，映射到高维的文本特征空间编码，得到文本特征序列。
110.参考音频编码器55，可以通过接收待拼接音频的声学特征，来提取整个待拼接音频(参考音频)的整体风格信息，并对该整体风格信息编码，得到整体风格编码信息。
111.在该实施例中，可以采用基于cnn和lstm的参考音频编码器，通过对输入的待拼接音频的声学特征进行信息提取和信息压缩，最终得到一个用于表示风格的数学向量，也即，风格向量，其中，对待拼接音频的声学特征进行信息提取和信息压缩的方法属于无监督学习。
112.注意力机制模块56，可以对文本特征序列和语音特征序列(待拼接音频的声学特征)进行对齐，得到对齐结果，这是因为语音特征序列比文本特征序列要长。另外，该注意力机制模块56还接收来自参考音频编码器55的整体风格编码信息和目标说话人向量。
113.声学解码器57，可以对将文本特征序列和语音特征序列通过注意力机制模块对齐得到的对齐结果以及整体风格编码信息和目标说话人向量，通过非线性变换返回到原始的语音声学特征空间，返回预测的语音声学特征。
114.声码器58，将上述预测的语音声学特征转换成语音波形/信号，得到名字合成语音，将其通过语音流返回至客户端，以由客户端将其拼接在游戏中说话人当前对话的语音数据上，进而播放拼接后的语音数据。其中，该实施例的拼接可以指是语音数据对应的音频采样点的拼接。
115.在该实施例中，文本转语音服务端中最主要的是参考音频编码器，通过该参考编码器能够有效地对待拼接音频的整个风格进行有效编码，提取出风格信息，用以最终的名字合成语音阶段。如果该实施例不使用参考音频编码器，则会使得同一个名字文本合成的
语音总是一样风格。也即，在没有参考音频编码器输出的参考音频的整体风格编码信息的情况下，注意力机制模块只接收文本编码器输出的文本特征序列，声学特征提取模块输出的声学特征以及说话人向量，而该实施例在增加了参考音频编码器之后，注意力机制模块额外接收参考音频的整体风格编码信息。由于同一个名字文本在输入到文本编码器之后，输出的文本特征序列是固定的。因而，在声学特征和说话人向量不变的情况下，合成的语音数据基本都是一样的风格。而该实施例在加入了参考音频的整体风格编码信息之后，合成的语音数据的整个风格就受到参考音频的整体风格编码信息的影响，这样当使用不同的参考音频，同个名字文本的合成语音的风格会发生变化。
116.另外，如果该实施例不使用参考音频编码器，则在同样的待拼接音频的情况下，名字文本的合成语音的风格可能不一致。这是因为在没有参考音频编码器输出的参考音频的整体风格编码信息的情况下，名字文本的合成语音整体上受到名字文本的输入的影响较大，这样有时候不同名字文本对应的合成语音的风格也会不一样。但是，该实施例引入了参考音频编码器输出的参考音频的整体风格编码信息，就可以在合成不同名字文本的时候使用同一个参考音频的整体风格编码信息，从而使得不同名字文本的合成语音的风格可以保持比较一致。
117.在该实施例中，在没有参考音频编码器输出的参考音频的整体风格编码信息的情况下，会导致名字文本的合成语音和待拼接音频的拼接的地方会不自然，这主要包括韵律节奏不连贯和信道不一致。而该实施例使用了参考音频编码器输出的参考音频的整体风格编码信息能够有效地解决这个问题，使得名字文本的合成语音和待拼接音频在拼接的时候比较自然连贯。
118.该实施例的上述方法也即一种通过ai语音识别的语音反馈方法，可以识别玩家为虚拟游戏角色取的名字，并将与虚拟游戏角色的名字匹配的语音数据反馈给玩家，也即，该实施例实现了为含有玩家名字的对话中添加了语音反馈的目的，提高了游戏虚拟世界的真实性和交互性，这样在游戏剧情及重要提示时，可以让玩家浸入感更强，让玩家更加沉浸地体验剧情，从而获得更好的身份代入感，进而增强游戏的视觉和听觉体验。
119.本发明其中之一实施例还提供了一种数据处理装置。需要说明的是，该实施例的数据处理装置可以用于执行本发明实施例图2所示的数据处理方法。
120.图6是根据本发明实施例的一种数据处理装置的示意图。如图6所示，该数据处理装置60可以包括：接收单元61、转换单元62和第一发送单元63。
121.接收单元61，用于接收来自于客户端的目标请求，其中，目标请求中携带的信息至少包括目标文本，目标文本用于表示虚拟游戏角色的名称。
122.转换单元62，用于响应目标请求，将目标文本转换为第一语音数据。
123.第一发送单元63，用于将第一语音数据发送至客户端，以使客户端将第一语音数据和第二语音数据拼接为第三语音数据，第二语音数据为虚拟游戏角色待进行的交互内容中除名称之外的内容所对应的语音数据。
124.本发明其中之一实施例还提供了另一种数据处理装置。需要说明的是，该实施例的数据处理装置可以用于执行本发明实施例图3所示的数据处理方法。
125.图7是根据本发明实施例的另一种数据处理装置的示意图。如图7所示，该数据处理装置70可以包括：第二发送单元71、获取单元72、拼接单元73、拼接单元73和播放单元74。
126.第二发送单元71，用于当检测到虚拟游戏角色待进行的交互内容中包括虚拟游戏角色的名称时，向服务器发送目标请求，其中，目标请求中携带的信息至少包括目标文本，目标文本用于表示名称。
127.获取单元72，用于获取第一语音数据，其中，第一语音数据为服务器响应目标请求，对目标文本进行转换得到。
128.拼接单元73，用于对第一语音数据和第二语音数据进行拼接，得到第三语音数据，其中，第二语音数据为交互内容中除名称之外的内容所对应的语音数据。
129.播放单元74，用于对第三语音数据进行播放。
130.在该实施例的数据处理装置中，将用于表示虚拟游戏角色的名称的目标文本转换为第一语音数据，以与交互内容对应的第二语音数据进行拼接，达到了为包含有虚拟游戏角色的名称的交互内容添加了语音反馈的目的，避免了虚拟游戏角色的名称通常都是以文本形式进行反馈的，也避免了在对话中将虚拟游戏角色的名称跳过，从而解决了对虚拟游戏角色的名称的交互性差的技术问题，达到了提高对虚拟游戏角色的名称的交互性差的技术效果。
131.本发明的其中之一实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，其中，在计算机程序被处理器运行时控制计算机可读存储介质所在设备执行本发明实施例的数据处理方法。
132.可选地，在本实施例中，上述存储介质可以包括但不限于：u盘、只读存储器(read-only memory，简称为rom)、随机存取存储器(random access memory，简称为ram)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
133.本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
134.可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。
135.显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。
136.以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。