一种空中交通管制指令的语音合成方法及系统与流程

1.本发明涉及语音合成技术领域，特别是涉及一种空中交通管制指令的语音合成方法及系统。

背景技术：

2.近年来，人工智能技术的发展，语音识别技术也更多的利用到了航空运输领域。目前的语音识别研究中，在语料充足的情况下，构建出一个指定语言的声学模型是容易的。但是由于空中交通管制员与飞行员的对话语料稀缺，而且标注会带来较高的人力及时间成本，目前空中交通管制指令的语音存在数据量不足的问题，如何收集到大量的空中交通管制指令的语音成为了一个难题。
3.空中交通管制员发出的空中交通管制指令的语音，具有极强的专业性，与其他普通语音存在很大的不同，采用通用语音合成技术生成的空中交通管制指令的语音，在声音、语速、语调和背景音等方面均与真实的空中交通管制员的录音有一定的差距，对语音识别的训练起不到很大的作用。基于此，如何使生成的空中交通管制指令的语音在语速、语调和背景音等方面都更接近于真实的空中交通管制员的录音，成为本领域技术人员亟待解决的问题。

技术实现要素：

4.本发明的目的是提供一种空中交通管制指令的语音合成方法及系统，能够使生成的空中交通管制指令的语音更接近于真实的空中交通管制员的录音。
5.为实现上述目的，本发明提供了如下方案：
6.一种空中交通管制指令的语音合成方法，所述方法包括：
7.获取训练数据集；所述训练数据集包括多种空中交通管制指令的文本样本以及与所述文本样本对应的语音样本；
8.利用所述训练数据集对语音合成模型进行训练和优化，得到优化后的语音合成模型；
9.获取参考音频；所述参考音频包括默认参考音频和自定义参考音频；所述默认参考音频为任意一个所述语音样本；所述自定义参考音频的特征与所述语音样本的特征相同；所述特征包括声音、语速、语调和背景音；
10.将所述参考音频和待生成空中交通管制指令的语音对应的文本均输入所述优化后的语音合成模型中，生成具有所述参考音频的特征的空中交通管制指令的语音。
11.可选地，所述利用所述训练数据集对语音合成模型进行训练和优化，得到优化后的语音合成模型，具体包括：
12.将所述空中交通管制指令的文本样本输入文本编码器中，并将所述文本样本对应的语音样本分别输入参考编码器和声码器中进行训练和优化，得到优化后的语音合成模型；所述语音合成模型包括文本编码器、参考编码器和声码器。
13.可选地，所述获取参考音频，之前还包括：
14.获取待生成空中交通管制指令的语音所属的场景；所述场景包括放行、塔台和进近；
15.利用空管语法生成所述场景对应的空中交通管制指令的文本。
16.可选地，所述获取参考音频，之前还包括：
17.获取合成模式；所述合成模式包括默认模式和自定义模式；
18.当所述合成模式为默认模式时，获取所述默认参考音频，将所述默认参考音频作为所述参考音频；
19.当所述合成模式为自定义模式时，获取所述自定义参考音频，将所述自定义参考音频作为所述参考音频。
20.本发明还提供了如下方案：
21.一种空中交通管制指令的语音合成系统，所述系统包括：
22.训练数据集获取模块，用于获取训练数据集；所述训练数据集包括多种空中交通管制指令的文本样本以及与所述文本样本对应的语音样本；
23.模型训练和优化模块，用于利用所述训练数据集对语音合成模型进行训练和优化，得到优化后的语音合成模型；
24.参考音频获取模块，用于获取参考音频；所述参考音频包括默认参考音频和自定义参考音频；所述默认参考音频为任意一个所述语音样本；所述自定义参考音频的特征与所述语音样本的特征相同；所述特征包括声音、语速、语调和背景音；
25.语音生成模块，用于将所述参考音频和待生成空中交通管制指令的语音对应的文本均输入所述优化后的语音合成模型中，生成具有所述参考音频的特征的空中交通管制指令的语音。
26.可选地，所述模型训练和优化模块具体包括：
27.模型训练和优化单元，用于将所述空中交通管制指令的文本样本输入文本编码器中，并将所述文本样本对应的语音样本分别输入参考编码器和声码器中进行训练和优化，得到优化后的语音合成模型；所述语音合成模型包括文本编码器、参考编码器和声码器。
28.可选地，所述参考音频获取模块之前还包括：
29.场景获取模块，用于获取待生成空中交通管制指令的语音所属的场景；所述场景包括放行、塔台和进近；
30.指令文本生成模块，用于利用空管语法生成所述场景对应的空中交通管制指令的文本。
31.可选地，所述参考音频获取模块之前还包括：
32.合成模式获取模块，用于获取合成模式；所述合成模式包括默认模式和自定义模式；
33.默认参考音频获取模块，用于当所述合成模式为默认模式时，获取所述默认参考音频，将所述默认参考音频作为所述参考音频；
34.自定义参考音频获取模块，用于当所述合成模式为自定义模式时，获取所述自定义参考音频，将所述自定义参考音频作为所述参考音频。
35.根据本发明提供的具体实施例，本发明公开了以下技术效果：
36.本发明公开的空中交通管制指令的语音合成方法及系统，利用空中交通管制指令的语音样本对语音合成模型进行训练和优化，采用优化后的语音合成模型生成具有参考音频的声音、语速、语调和背景音等特征的空中交通管制指令的语音，从而使生成的空中交通管制指令的语音更接近于真实的空中交通管制员的录音。
附图说明
37.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
38.图1为本发明空中交通管制指令的语音合成方法实施例的流程图；
39.图2为本发明空中交通管制指令的语音合成系统实施例的结构图；
40.图3为本发明空中交通管制指令的语音合成系统原理图。
具体实施方式
41.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
42.本发明的目的是提供一种空中交通管制指令的语音合成方法及系统，能够使生成的空中交通管制指令的语音更接近于真实的空中交通管制员的录音。
43.为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。
44.图1为本发明空中交通管制指令的语音合成方法实施例的流程图。参见图1，该空中交通管制指令的语音合成方法包括：
45.步骤101：获取训练数据集；训练数据集包括多种空中交通管制指令的文本样本以及与文本样本对应的语音样本。
46.步骤102：利用训练数据集对语音合成模型进行训练和优化，得到优化后的语音合成模型。
47.步骤103：获取参考音频；参考音频包括默认参考音频和自定义参考音频；默认参考音频为任意一个语音样本；自定义参考音频的特征与语音样本的特征相同；特征包括声音、语速、语调和背景音。
48.步骤104：将参考音频和待生成空中交通管制指令的语音对应的文本均输入优化后的语音合成模型中，生成具有参考音频的特征的空中交通管制指令的语音。
49.具体的，步骤102具体包括：
50.将空中交通管制指令的文本样本输入文本编码器中，并将文本样本对应的语音样本分别输入参考编码器和声码器中进行训练和优化，得到优化后的语音合成模型；语音合成模型包括文本编码器、参考编码器和声码器。
51.步骤103之前还包括：
52.获取待生成空中交通管制指令的语音所属的场景；场景包括放行、塔台和进近。
53.利用空管语法生成场景对应的空中交通管制指令的文本。
54.获取合成模式；合成模式包括默认模式和自定义模式。
55.当合成模式为默认模式时，获取默认参考音频，将默认参考音频作为参考音频。
56.当合成模式为自定义模式时，获取自定义参考音频，将自定义参考音频作为参考音频。
57.其中，获取待生成空中交通管制指令的语音所属的场景时，还可以同时获取待生成空中交通管制指令的语音的数量，即用户可以选择所要合成空中交通管制指令所属的场景、合成的数量，并选择合成模式。
58.空管语法包括各场景下的空管命令语法规则，即各场景对应的空中交通管制指令，根据各场景下的空管命令语法规则生成相应数量的空管命令文本，即空中交通管制指令的文本。
59.用户选择合成语音的模型(语音合成模型)后，用户可以选择默认模式或自定义模式，当用户选择默认模式时，会将存储的默认参考音频输入合成模型，当用户选择自定义模式时，则还需将带有想要合成空中交通管制风格的音频作为参考音频输入到语音合成模型中，语音合成模型的输出结果则是模拟用户参考音频中的管制员的声音、语速和语调等特征。
60.语音合成模型包括编码器、解码器和声码器，编码器包括文本编码器和参考音频编码器。语音合成模型在训练阶段需要使用至少20小时的真实空中交通管制的语音进行训练。编码器接收用户输入的数据后，文本编码器将输入文本序列转换为相应的潜在表示，参考编码器对参考音频中空中交通管制员的声音、语速、语调及环境背景(背景音)等特征进行提取，并将其转换为相应的潜在表示。编码器输出的潜在表示输入到解码器，解码器根据上采样后的潜在表示进行频谱预测。解码器生成的频谱序列输入声码器进行声音合成，使用声码器从预测的频谱图合成波形。
61.本发明提供一种基于管制员风格，即空中交通管制风格的语音合成方法和系统，用户选择所要合成空中交通管制命令(空中交通管制指令的语音)所属场景、合成数量，并选择合成模式。若用户选择自定义模式，需要将带有所需合成风格的参考音频输入模型，否则模型将使用默认参考音频。根据用户选择场景生成相应数量的该场景下的标准空中交通管制命令。将生成的空中交通管制命令文本输入语音合成模型，语音合成模型输出所预测的合成语音的频谱图，并将频谱图输入到声码器。声码器根据输入合成语音，输出合成语音的音频wav文件。
62.本发明利用空管语法生成场景对应的空中交通管制指令的文本，会根据用户选择的场景生成该场景下的标准空中交通管制命令，并且一次可合成数量不同的音频，用户不用手动输入命令文本给语音合成模型。本发明和目前通用语音合成技术相比，因为添加了参考音频编码器，对带有空中交通管制风格的语音音频进行风格特征提取，使合成语音在声音、语速、语调和背景音等方面都更接近于真实的空中管制场景下的语音。
63.图2为本发明空中交通管制指令的语音合成系统实施例的结构图，图3为本发明空中交通管制指令的语音合成系统原理图，参见图2和图3，该空中交通管制指令的语音合成系统包括：
64.训练数据集获取模块201，用于获取训练数据集；训练数据集包括多种空中交通管制指令的文本样本以及与文本样本对应的语音样本。
65.模型训练和优化模块202，用于利用训练数据集对语音合成模型进行训练和优化，得到优化后的语音合成模型。
66.参考音频获取模块203，用于获取参考音频；参考音频包括默认参考音频和自定义参考音频；默认参考音频为任意一个语音样本；自定义参考音频的特征与语音样本的特征相同；特征包括声音、语速、语调和背景音。
67.语音生成模块204，用于将参考音频和待生成空中交通管制指令的语音对应的文本均输入优化后的语音合成模型中，生成具有参考音频的特征的空中交通管制指令的语音。
68.具体的，模型训练和优化模块202具体包括：
69.模型训练和优化单元，用于将空中交通管制指令的文本样本输入文本编码器中，并将文本样本对应的语音样本分别输入参考编码器和声码器中进行训练和优化，得到优化后的语音合成模型；语音合成模型包括文本编码器、参考编码器和声码器。
70.参考音频获取模块203之前还包括：
71.场景获取模块，用于获取待生成空中交通管制指令的语音所属的场景；场景包括放行、塔台和进近。
72.指令文本生成模块，用于利用空管语法生成场景对应的空中交通管制指令的文本。
73.合成模式获取模块，用于获取合成模式；合成模式包括默认模式和自定义模式。
74.默认参考音频获取模块，用于当合成模式为默认模式时，获取默认参考音频，将默认参考音频作为参考音频；即当用户选择默认模式时，系统会将系统内的默认参考音频输入语音合成模型。
75.自定义参考音频获取模块，用于当合成模式为自定义模式时，获取自定义参考音频，将自定义参考音频作为参考音频。
76.本发明空中交通管制指令的语音合成系统添加了命令生成模型，即指令文本生成模块，用户不用手动输入命令文本，系统会根据用户选择的场景生成该场景下的标准空中管制命令，并且一次可合成数量不同的音频。
77.本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。
78.本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。