模型训练及调用方法、装置、计算机设备、存储介质与流程

1.本技术涉及人工智能领域的语音处理技术领域，尤其涉及一种模型训练及调用方法、装置、计算机设备、存储介质。

背景技术：

2.现今，将语音进行摘要文本自动生成，具有广泛的应用场景与价值。例如，在会议场景中，根据会议记录的语音，自动生成会议摘要，省去了人工整理的操作，大大节省了时间和人工成本。
3.目前，摘要文本自动生成技术通常采用的是由语音识别系统(asr，automatic speech recognition)、文本摘要系统(summarizer)两个模块串联而成的模型，生成语音对应的摘要文本。一旦语音识别系统、文本摘要系统中的任一个模块受到扰动，则最终生成的摘要文本结果就会产生误差，并且，若是在前处理的语音识别系统产生误差，文本摘要系统基于误差再进行处理，会导致最终结果的误差被进一步放大，生成的摘要文本的精准性低。
4.因此，如何提高生成语音对应的摘要文本的精准性是亟待解决的问题。

技术实现要素：

5.本技术提供了一种模型训练及调用方法、装置、计算机设备、存储介质，实现提高生成语音对应的摘要文本的精准性。
6.第一方面，本技术提供了一种深度学习模型训练方法，所述方法包括：
7.对样本语音数据进行编码，生成编码音频数据；
8.将所述编码音频数据输入预设的深度学习模型进行训练，将所述编码音频数据转化为全隐式文本数据，并生成所述全隐式文本数据对应的摘要文本；
9.对所述摘要文本进行全隐式文本数据重构，生成重构文本数据，并将所述重构文本数据转化为音频数据，生成重构音频数据；
10.基于所述重构文本数据和所述重构音频数据对所述深度学习模型进行参数调整，并返回执行所述对样本语音数据进行编码，生成编码音频数据的步骤，直至所述深度学习模型收敛，获得训练好的所述深度学习模型。
11.第二方面，本技术还提供了一种深度学习模型调用方法，所述深度学习模型为采用上述的深度学习模型训练方法训练得到的深度学习模型，所述深度学习模型调用方法包括：
12.获取待处理的语音数据；
13.对所述语音数据进行编码，生成所述语音数据对应的编码音频数据；
14.将所述语音数据对应的编码音频数据输入训练好的深度学习模型，输出所述语音数据对应的摘要文本。
15.第三方面，本技术还提供了一种深度学习模型训练装置，所述深度学习模型训练装置包括：
16.第一编码模块，用于对样本语音数据进行编码，生成编码音频数据；
17.第一生成模块，用于将所述编码音频数据输入预设的深度学习模型进行训练，将所述编码音频数据转化为全隐式文本数据，并生成所述全隐式文本数据对应的摘要文本；
18.数据重构模块，用于对所述摘要文本进行全隐式文本数据重构，生成重构文本数据，并将所述重构文本数据转化为音频数据，生成重构音频数据；
19.参数调整模块，用于基于所述重构文本数据和所述重构音频数据对所述深度学习模型进行参数调整，直至所述深度学习模型收敛，获得训练好的所述深度学习模型。
20.第四方面，本技术还提供了一种深度学习模型调用装置，所述深度学习模型调用装置包括：
21.获取模块，用于获取待处理的语音数据；
22.第二编码模块，用于对所述语音数据进行编码，生成所述语音数据对应的编码音频数据；
23.第二生成模块，用于将所述语音数据对应的编码音频数据输入训练好的深度学习模型，输出所述语音数据对应的摘要文本。
24.第五方面，本技术还提供了一种计算机设备，所述计算机设备包括存储器和处理器；
25.所述存储器，用于存储计算机程序；
26.所述处理器，用于执行所述计算机程序并在执行所述计算机程序时实现如上述的深度学习模型训练方法，或者实现如上述的深度学习模型调用方法。
27.第六方面，本技术还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现如上述的深度学习模型训练方法，或者实现如上述的深度学习模型调用方法。
28.本技术公开了一种模型训练及调用方法、装置、计算机设备、存储介质，通过对样本语音数据进行编码，生成编码音频数据，将编码音频数据输入预设的深度学习模型，通过深度学习模型将编码音频数据转化为全隐式文本数据，并生成全隐式文本数据对应的摘要文本，并对摘要文本进行全隐式文本数据重构，生成重构文本数据，以及将重构文本数据转化为音频数据，生成重构音频数据，基于重构文本数据和重构音频数据对深度学习模型进行参数调整，并返回执行对样本语音数据进行编码，生成编码音频数据的步骤，直至进行参数调整后的深度学习模型收敛，获得训练好的深度学习模型。通过训练好的深度学习模型可以生成语音对应的摘要文本，相比于由语音识别系统、文本摘要系统串联而成进行摘要文本生成的方式，避免了由于其中任一个模块受扰动而导致最终生成的摘要文本不精准的问题，因此，提高了生成语音对应的摘要文本的精准性。
附图说明
29.为了更清楚地说明本技术实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
30.图1是本技术实施例提供的一种深度学习模型训练方法的步骤示意性流程图；
31.图2是本技术实施例提供的一种将所述编码音频数据转化为全隐式文本数据，并
生成所述全隐式文本数据对应的摘要文本的子步骤示意性流程图；
32.图3是本技术实施例提供的一种所述摘要文本进行全隐式文本数据重构，生成重构文本数据，并将所述重构文本数据转化为音频数据，生成重构音频数据的子步骤示意性流程图；
33.图4是本技术实施例提供的一种进基于所述重构文本数据和所述重构音频数据对所述深度学习模型进行参数调整的子步骤示意性流程图；
34.图5是本技术实施例提供的一种深度学习模型的示意性结构框图；
35.图6是本技术实施例提供的一种深度学习模型调用方法的步骤示意性流程图；
36.图7是本技术实施例提供的一种深度学习模型训练装置的示意性框图；
37.图8是本技术实施例提供的一种深度学习模型调用装置的示意性框图；
38.图9是本技术实施例提供的一种计算机设备的结构示意性框图。
具体实施方式
39.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
40.附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。
41.应当理解，在此本技术说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本技术。如在本技术说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。
42.还应当理解，在本技术说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。
43.本技术的实施例提供了一种深度学习模型训练及调用方法、装置、计算机设备、存储介质，用于实现提高机器阅读理解的准确性。
44.请参阅图1，图1是本技术一实施例提供的深度学习模型训练方法的流程示意图。该方法可以应用于计算机设备中，本技术中对该方法的应用场景不做限定。下面以该深度学习模型训练方法应用于计算机设备中为例，对该深度学习模型训练方法进行详细介绍。
45.如图1所示，该深度学习模型训练方法具体包括步骤s101至步骤s105。
46.s101、对样本语音数据进行编码，生成编码音频数据。
47.其中，样本语音数据可以为会议语音数据，还可以为其他类型的语音数据。示例性的，由大量样本语音数据组成样本语音数据集，从样本语音数据集中选取样本语音数据，之后对样本语音数据进行编码处理。
48.在一些实施例中，采用采样方式对样本语音数据进行编码(encoding)，根据预设的采样频率在样本语音数据对应的连续时域波形中采样离散点，并对各离散点的振幅进行量化，将其编码为0或1，获得样本语音数据对应的编码音频数据。
49.s102、将所述编码音频数据输入预设的深度学习模型进行训练，将所述编码音频
数据转化为全隐式文本数据，并生成所述全隐式文本数据对应的摘要文本。
50.由于采用独立的语音识别系统、文本摘要系统进行摘要文本生成，每个模块独立执行任务的结果好坏会影响到另一个模块，从而影响最终的结果，为了避免该问题，预先构建相应的深度学习模型，示例性的，该深度学习模型为端到端模型(end
‑
to
‑
end learning)，由数据输入，到结果输出，从输入端到输出端，中间的神经网络自成一体，可以当做黑盒子看待，不会受到某个独立模块的影响。
51.获得样本语音数据对应的编码音频数据后，将该编码音频数据输入构建的深度学习模型，对深度学习模型进行训练，通过深度学习模型对编码音频数据进行处理，将编码音频数据转化为全隐式文本数据，并且，生成全隐式文本数据对应的摘要文本。
52.在一些实施例中，如图2所示，步骤s102可以包括子步骤s1021和子步骤s1022。
53.s1021、将所述编码音频数据输入第一birnn+attention模型，通过所述第一birnn+attention模型输出所述全隐式文本数据。
54.示例性的，深度学习模型包括第一birnn+attention模型和第一bert模型。其中，第一birnn+attention模型相比于传统birnn+attention模型，少了传统birnn+attention模型的最后一个全连接层，第一bert模型与传统bert模型结构相同。
55.获得样本语音数据对应的编码音频数据后，将该编码音频数据输入深度学习模型的第一birnn+attention模型，通过第一birnn+attention模型进行文本识别，输出全隐式文本数据。
56.s1022、将所述全隐式文本数据输入第一bert模型，通过所述第一bert模型输出所述摘要文本。
57.将通过第一birnn+attention模型获得的全隐式文本数据输入到深度学习模型的第一bert模型，通过第一bert模型进行机器阅读理解，输出对应的摘要文本。
58.s103、对所述摘要文本进行全隐式文本数据重构，生成重构文本数据，并将所述重构文本数据转化为音频数据，生成重构音频数据。
59.获得摘要文本后，基于摘要文本进行全隐式文本数据重构，也即进行生成摘要文本的逆向操作，由摘要文本获得对应的全隐式文本数据，为了便于区分描述，生成的全隐式文本数据称为重构文本数据。并且，基于重构文本数据进行文本向音频的转换，将重构文本数据转化为音频数据，生成重构音频数据。
60.在一些实施例中，如图3所示，步骤s103可以包括子步骤s1031和子步骤s1032。
61.s1031、将所述摘要文本输入第二bert模型，通过所述第二bert模型输出所述重构文本数据。
62.示例性的，深度学习模型还包括第二birnn+attention模型和第二bert模型。其中，第二birnn+attention模型与第一birnn+attention模型结构相同，也少了传统birnn+attention模型的最后一个全连接层；第二bert模型与第一bert模型结构相同。
63.获得摘要文本后，将摘要文本输入第二bert模型，通过第二bert模型将生成的摘要文本转化回到全隐式文本，为了便于区分描述，将得到的全隐式文本数据称为重构文本数据。
64.s1032、将所述重构文本数据输入第二birnn+attention模型，通过所述第二birnn+attention模型输出所述重构音频数据。
65.获得重构文本数据后，将重构文本数据输入到第二birnn+attention模型，通过第二birnn+attention模型输出重构文本数据对应的音频数据，为了便于区分描述，称为重构音频数据。
66.s104、基于所述重构文本数据和所述重构音频数据对所述深度学习模型进行参数调整，并判断所述深度学习模型是否收敛；若否，则执行步骤s101；若是，则执行步骤s105；
67.s105、结束训练，获得训练好的所述深度学习模型。
68.其中，深度学习模型的参数包括但不限于权重、偏置等参数。示例性的，采用梯度下降法更新深度学习模型的参数，使用参数的梯度，沿梯度方向更新深度学习模型的参数。
69.在一些实施例中，如图4所示，步骤s104可以包括子步骤s1041和子步骤s1042。
70.s1041、计算所述重构文本数据与所述全隐式文本数据的第一差异，以所述第一差异作为损失调整所述第一bert模型的参数。
71.示例性的，利用损失函数计算公式计算重构文本数据与全隐式文本数据的差异，为了便于描述，下文将重构文本数据与全隐式文本数据的差异称为第一差异。例如，利用均绝对误差(mean absolute error，mae)，也即l1loss损失函数计算第一差异。通过计算得到的第一差异，以第一差异作为损失判断第一bert模型是否达到最优化，也即第一差异是否趋于最小值，第一差异趋于最小值，则第一bert模型达到最优化。若第一差异还未趋于最小值，则调整第一bert模型的参数，以最小化第一差异。
72.s1042、计算所述重构音频数据和所述编码音频数据的第二差异，以所述第二差异作为损失调整所述第一birnn+attention模型和所述第一bert模型的参数。
73.示例性的，利用损失函数计算公式计算重构音频数据和编码音频数据的差异，为了便于描述，下文将重构音频数据和编码音频数据的差异称为第二差异。例如，利用l1loss损失函数计算第二差异。通过计算得到的第二差异，以第二差异作为损失，判断第一birnn+attention模型和第一bert模型是否达到最优化，也即第二差异是否趋于最小值，第二差异趋于最小值，则第一birnn+attention模型以及第一bert模型达到最优化。若第二差异还未趋于最小值，则调整第一birnn+attention模型以及第一bert模型的参数，以最小化第二差异。
74.更新深度学习模型的参数后，基于参数更新后的深度学习模型，重复执行上述步骤中的操作，直至计算得到第一差异和第二差异均趋于最小值，深度学习模型收敛，结束对深度学习模型的训练过程，获得训练好的深度学习模型。
75.在一些实施例中，深度学习模型还包括classifier模型，示例性的，classifier模型是一个带有梯度反转层的softmax classifier。该深度学习模型训练方法还包括：将目标摘要文本输入classifier模型，判别所述目标摘要文本的类型，其中，所述目标摘要文本的类型包括机器生成摘要文本、人工生成摘要文本；若所述目标摘要文本为机器生成摘要文本，通过所述classifier模型判别为人工生成摘要文本，则采用梯度反转方式更新所述classifier模型的参数；若所述目标摘要文本为人工生成摘要文本，通过所述classifier模型判别为机器生成摘要文本，则采用梯度反转方式更新所述第一birnn+attention模型、所述第一bert模型、以及所述classifier模型的参数。
76.摘要文本包括2种类型，一种是人工生成摘要文本，另一种是深度学习模型处理生成的机器生成摘要文本。示例性的，随机选取摘要文本，作为目标摘要文本，该目标摘要文
本可能是人工生成摘要文本，也可能是机器生成摘要文本。
77.选取了目标摘要文本后，将目标摘要文本输入classifier模型，通过classifier模型判别该目标摘要文本是人工生成摘要文本还是机器生成摘要文本。
78.第一种情况是，该目标摘要文本是人工生成摘要文本，classifier模型判别为人工生成摘要文本，也即判别正确，此时，不进行响应操作。
79.第二种情况是，该目标摘要文本是机器生成摘要文本，classifier模型判别为机器生成摘要文本，也即判别正确，此时，不进行响应操作。
80.第三种情况是，该目标摘要文本是机器生成摘要文本，classifier模型判别为人工生成摘要文本，也即判别错误，此时，采用梯度反转方式更新classifier模型的参数。示例性的，计算将机器生成摘要文本判别为人工生成摘要文本的损失，也即classifier模型当前损失函数值，通过梯度反转方式，将损失值负反馈给classifier模型，根据损失值进行梯度计算，进而更新classifier模型的参数。
81.第四种情况是，该目标摘要文本是人工生成摘要文本，classifier模型判别为机器生成摘要文本，也即判别错误，此时，采用梯度反转方式更新classifier模型的参数以外，还更新第一birnn+attention模型和第一bert模型的参数。示例性的，第一birnn+attention模型和第一bert模型的参数更新方式可参考classifier模型的参数更新方式，在此不再赘述。
82.classifier模型与第一birnn+attention模型和第一bert模型构成对抗关系。即classifier模型的目标是努力做到100％的摘要文本判别正确率，但第一birnn+attention模型和第一bert模型的目标是让classifier模型判别错误，将其生成的机器生成摘要文本判别为人工生成摘要文本。因此，classifier模型与第一birnn+attention模型和第一bert模型构成了对抗。
83.通过classifier模型与第一birnn+attention模型和第一bert模型构成了对抗，使得生成的摘要文本能够更加接近于人工写的。同时，也避免了传统级联模型中使用文本摘要系统生成的摘要文本可读性低、精准性低的问题。
84.在一些实施例中，如图5所示，图5为构建的深度学习模型的示意性结构框图。该深度学习模型被划分为三个模块：生成模块(generator)、可读性验证模块(readable classifier)、生成校准模块(reconstructor)。其中，generator模块包括birnn+attention模型以及bert模型。birnn+attention模型的目的是将编码音频数据转化为全隐式文本数据，bert模型的目的是将全隐式文本数据转化为输出的摘要文本。相比于传统birnn+attention模型，该birnn+attention模型去掉了最后一个全连接层，因此，该birnn+attention模型输出的不是显式文本数据，而是全隐式文本数据。
85.readable classifier模块是一个带有梯度反转层的softmaxclassifier，该模块的输入是随机选取的由generator模块生成的摘要文本和参考摘要文本。对于输入的参考摘要文本，readable classifier模块应当全部识别为人工类型的摘要文本。对于输入的generator模块生成的摘要文本，readable classifier模块应当全部识别为机器类型的摘要文本。对于输入的generator模块生成的摘要文本，readable classifier模块误判为人工类型的摘要文本，则不予以对generator模块进行梯度反转，只对readable classifier模块进行梯度反转。对于输入的参考摘要文本，readable classifier模块误判为机器类型
的摘要文本，则予以对readable classifier模块和generator模块进行梯度反转，更新模型参数。因此，readable classifier模块和generator模块两者目的产生冲突，形成对抗关系。
86.reconstructor模块包含bert模型以及birnn+attention模型。bert模型的目的是将生成的摘要文本转化回全隐式文本数据，称为重构文本数据。birnn+attention模型的目的是将重构文本数据转换回编码音频数据，称为重构音频数据。一是比较重重构文本数据与全隐式文本数据之间的差异，调整bert模型的参数；二是比较重构音频数据与编码音频数据的差异，调整bert模型、以及birnn+attention模型的参数。
87.上述实施例中，通过对样本语音数据进行编码，生成编码音频数据，将编码音频数据输入预设的深度学习模型，通过深度学习模型将编码音频数据转化为全隐式文本数据，并生成全隐式文本数据对应的摘要文本，并对摘要文本进行全隐式文本数据重构，生成重构文本数据，以及将重构文本数据转化为音频数据，生成重构音频数据，基于重构文本数据和重构音频数据对深度学习模型进行参数调整，并返回执行对样本语音数据进行编码，生成编码音频数据的步骤，直至进行参数调整后的深度学习模型收敛，获得训练好的深度学习模型。通过训练好的深度学习模型可以生成语音对应的摘要文本，相比于由语音识别系统、文本摘要系统串联而成进行摘要文本生成的方式，避免了由于其中任一个模块受扰动而导致最终生成的摘要文本不精准的问题，因此，提高了生成语音对应的摘要文本的精准性。
88.请参阅图6，图6是本技术一实施例提供的深度学习模型调用方法的流程示意图。该方法可以应用于计算机设备中，本技术中对该方法的应用场景不做限定。下面以该深度学习模型调用方法应用于计算机设备中为例，对该深度学习模型调用方法进行详细介绍。
89.其中，调用的深度学习模型为通过上述实施例中的深度学习模型训练方法训练得到的深度学习模型。
90.如图6所示，该深度学习模型调用方法具体包括步骤s201至步骤s202。
91.s201、获取待处理的语音数据。
92.例如，当要生成会议摘要时，通过录音笔等录音设备对会议上的发言进行录音，生成录音文件，通过读取录音文件获得待处理的语音数据。
93.s202、对所述语音数据进行编码，生成所述语音数据对应的编码音频数据。
94.示例性的，采用采样方式对该语音数据进行编码，根据预设的采样频率在待处理的语音数据对应的连续时域波形中采样离散点，并对各离散点的振幅进行量化，将其编码为0或1，获得语音数据对应的编码音频数据。
95.s203、将所述语音数据对应的编码音频数据输入训练好的深度学习模型，输出所述语音数据对应的摘要文本。
96.需要说明的是，该深度学习模型为通过上述实施例中的深度学习模型训练方法训练得到的深度学习模型。生成语音数据对应的编码音频数据后，将语音数据对应的编码音频数据输入训练好的深度学习模型，输出语音数据对应的摘要文本。
97.示例性的，该深度学习模型包括第一birnn+attention模型和第一bert模型。其中，第一birnn+attention模型相比于传统birnn+attention模型，少了传统birnn+attention模型的最后一个全连接层，第一bert模型与传统bert模型结构相同。
98.将待处理的语音数据对应的编码音频数据输入深度学习模型的第一birnn+attention模型，通过第一birnn+attention模型进行文本识别，输出全隐式文本数据。
99.之后，将该全隐式文本数据输入到深度学习模型的第一bert模型，通过第一bert模型进行机器阅读理解，输出对应的摘要文本。
100.该实施例中，通过获取待处理的语音数据，对该语音数据进行编码，生成语音数据对应的编码音频数据，并将语音数据对应的编码音频数据输入训练好的深度学习模型，输出语音数据对应的摘要文本，相比于使用传统级联模型生成摘要文本的方式，提高了生成语音对应的摘要文本的精准性。
101.请参阅图7，图7是本技术的实施例提供的一种深度学习模型训练装置的示意性框图，该深度学习模型训练装置可以配置于计算机设备中，用于执行前述的深度学习模型训练方法。
102.如图7所示，该深度学习模型训练装置1000，包括：第一编码模块1001、第一生成模块1002、数据重构模块1003及参数调整模块1004。
103.第一编码模块1001，用于对样本语音数据进行编码，生成编码音频数据；
104.第一生成模块1002，用于将所述编码音频数据输入预设的深度学习模型进行训练，将所述编码音频数据转化为全隐式文本数据，并生成所述全隐式文本数据对应的摘要文本；
105.数据重构模块1003，用于对所述摘要文本进行全隐式文本数据重构，生成重构文本数据，并将所述重构文本数据转化为音频数据，生成重构音频数据；
106.参数调整模块1004，用于基于所述重构文本数据和所述重构音频数据对所述深度学习模型进行参数调整，直至所述深度学习模型收敛，获得训练好的所述深度学习模型。
107.在一个实施例中，所述深度学习模型包括第一birnn+attention模型和第一bert模型，所述第一生成模块1002还用于：
108.将所述编码音频数据输入第一birnn+attention模型，通过所述第一birnn+attention模型输出所述全隐式文本数据；将所述全隐式文本数据输入第一bert模型，通过所述第一bert模型输出所述摘要文本。
109.在一个实施例中，所述深度学习模型还包括第二birnn+attention模型和第二bert模型，所述数据重构模块1003还用于：
110.将所述摘要文本输入第二bert模型，通过所述第二bert模型输出所述重构文本数据；将所述重构文本数据输入第二birnn+attention模型，通过所述第二birnn+attention模型输出所述重构音频数据。
111.在一个实施例中，所述参数调整模块1004还用于：
112.计算所述重构文本数据与所述全隐式文本数据的第一差异，以所述第一差异作为损失调整所述第一bert模型的参数；
113.计算所述重构音频数据和所述编码音频数据的第二差异，以所述第二差异作为损失调整所述第一birnn+attention模型和所述第一bert模型的参数。
114.在一个实施例中，所述深度学习模型训练装置1000还包括判别模块，用于：
115.将目标摘要文本输入classifier模型，判别所述目标摘要文本的类型，其中，所述目标摘要文本的类型包括机器生成摘要文本、人工生成摘要文本；
116.所述参数调整模块1004还用于：
117.若所述目标摘要文本为机器生成摘要文本，通过所述classifier模型判别为人工生成摘要文本，则采用梯度反转方式更新所述classifier模型的参数；若所述目标摘要文本为人工生成摘要文本，通过所述classifier模型判别为机器生成摘要文本，则采用梯度反转方式更新所述第一birnn+attention模型、所述第一bert模型、以及所述classifier模型的参数。
118.需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和各模块的具体工作过程，可以参考前述深度学习模型训练方法实施例中的对应过程，在此不再赘述。
119.请参阅图8，图8是本技术的实施例提供的一种深度学习模型调用装置的示意性框图，该深度学习模型调用装置可以配置于计算机设备中，用于执行前述的深度学习模型调用方法。
120.如图8所示，该深度学习模型调用装置2000，包括：获取模块2001、第二编码模块2002及第二生成模块2003。
121.获取模块2001，用于获取待处理的语音数据；
122.第二编码模块2002，用于对所述语音数据进行编码，生成所述语音数据对应的编码音频数据；
123.第二生成模块2003，用于将所述语音数据对应的编码音频数据输入训练好的深度学习模型，输出所述语音数据对应的摘要文本。
124.需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和各模块的具体工作过程，可以参考前述深度学习模型调用方法实施例中的对应过程，在此不再赘述。
125.本技术的方法、装置可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络pc、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本技术可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本技术，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
126.示例性的，上述的方法、装置可以实现为一种计算机程序的形式，该计算机程序可以在如图9所示的计算机设备上运行。
127.请参阅图9，图9是本技术实施例提供的一种计算机设备的结构示意性框图。
128.请参阅图9，该计算机设备包括通过系统总线连接的处理器和存储器，其中，存储器可以包括非易失性存储介质和内存储器。
129.处理器用于提供计算和控制能力，支撑整个计算机设备的运行。
130.内存储器为非易失性存储介质中的计算机程序的运行提供环境，该计算机程序被处理器执行时，可使得处理器执行任意一种深度学习模型训练方法或深度学习模型调用方法。
131.应当理解的是，处理器可以是中央处理单元(central processing unit，cpu)，该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)、现场可编程门阵列(field
‑
programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
132.其中，在一个实施例中，所述处理器用于运行存储在存储器中的计算机程序，以实现如下步骤：
133.对样本语音数据进行编码，生成编码音频数据；将所述编码音频数据输入预设的深度学习模型进行训练，将所述编码音频数据转化为全隐式文本数据，并生成所述全隐式文本数据对应的摘要文本；对所述摘要文本进行全隐式文本数据重构，生成重构文本数据，并将所述重构文本数据转化为音频数据，生成重构音频数据；基于所述重构文本数据和所述重构音频数据对所述深度学习模型进行参数调整，并返回执行所述对样本语音数据进行编码，生成编码音频数据的步骤，直至所述深度学习模型收敛，获得训练好的所述深度学习模型。
134.在一个实施例中，所述深度学习模型包括第一birnn+attention模型和第一bert模型，所述处理器在实现所述将所述编码音频数据输入预设的深度学习模型进行训练，将所述编码音频数据转化为全隐式文本数据，并生成所述全隐式文本数据对应的摘要文本时，用于实现：
135.将所述编码音频数据输入第一birnn+attention模型，通过所述第一birnn+attention模型输出所述全隐式文本数据；将所述全隐式文本数据输入第一bert模型，通过所述第一bert模型输出所述摘要文本。
136.在一个实施例中，所述深度学习模型还包括第二birnn+attention模型和第二bert模型，所述处理器在实现所述对所述摘要文本进行全隐式文本数据重构，生成重构文本数据，并将所述重构文本数据转化为音频数据，生成重构音频数据时，用于实现：
137.将所述摘要文本输入第二bert模型，通过所述第二bert模型输出所述重构文本数据；将所述重构文本数据输入第二birnn+attention模型，通过所述第二birnn+attention模型输出所述重构音频数据。
138.在一个实施例中，所述处理器在实现所述基于所述重构文本数据和所述重构音频数据对所述深度学习模型进行参数调整时，用于实现：
139.计算所述重构文本数据与所述全隐式文本数据的第一差异，以所述第一差异作为损失调整所述第一bert模型的参数；计算所述重构音频数据和所述编码音频数据的第二差异，以所述第二差异作为损失调整所述第一birnn+attention模型和所述第一bert模型的参数。
140.在一个实施例中，所述处理器还用于实现：
141.将目标摘要文本输入classifier模型，判别所述目标摘要文本的类型，其中，所述目标摘要文本的类型包括机器生成摘要文本、人工生成摘要文本；若所述目标摘要文本为机器生成摘要文本，通过所述classifier模型判别为人工生成摘要文本，则采用梯度反转方式更新所述classifier模型的参数；若所述目标摘要文本为人工生成摘要文本，通过所
述classifier模型判别为机器生成摘要文本，则采用梯度反转方式更新所述第一birnn+attention模型、所述第一bert模型、以及所述classifier模型的参数。
142.在一个实施例中，所述处理器在用于运行存储在存储器中的计算机程序，以实现如下步骤：
143.获取待处理的语音数据；对所述语音数据进行编码，生成所述语音数据对应的编码音频数据；将所述语音数据对应的编码音频数据输入训练好的深度学习模型，输出所述语音数据对应的摘要文本。
144.其中，所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元，例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备，例如所述计算机设备上配备的插接式硬盘，智能存储卡(smart media card，smc)，安全数字卡(secure digital card，sd card)，闪存卡(flash card)等。
145.进一步地，所述计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。
146.本技术所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
147.以上所述，仅为本技术的具体实施方式，但本技术的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本技术揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本技术的保护范围之内。因此，本技术的保护范围应以权利要求的保护范围为准。