语音应答方法、装置、设备及存储介质与流程

1.本技术涉及语音处理的技术领域，尤其涉及一种语音应答方法、装置、设备及计算机可读存储介质。

背景技术：

2.随着人工智能技术在学术界的快速发展以及在生活中的广泛使用，语音交互成为人与机器之间沟通交流的重要桥梁。服务端要与客户对话并完成特定任务，其中一个核心技术是用户意图的判定，即让服务端在接受到用户的语音后，能够通过语音判定用户的意图。
3.目前，通过语音判定客户的意图一般是基于语音意图识别方法完成的，现传统的意图识别方法通常分成语音识别、意图识别两个独立的阶段，在第一阶段通过语音识别技术(automatic speech recognition，asr)将语音转化成文本，第二阶段通过自然语言处理技术(natural language processing，nlp) 从文本中抽取文本内的语义信息，识别出客户的意图。基于文本的意图识别的准确率严重依赖于语音识别技术的准确率。并且进行意图识别的时间较长，意图识别的过程较为复杂且计算量较大。

技术实现要素：

4.本技术的主要目的在于提供一种语音应答方法、装置、设备及计算机可读存储介质，旨在提高用户意图识别的准确性和效率，以提供更符合用户意图的应答语音，提高用户的使用体验。
5.第一方面，本技术提供一种语音应答方法，所述语音应答方法包括以下步骤：
6.向客户端发送询问语音；
7.获取所述客户端发送的答复语音，所述答复语音用于答复所述询问语音；
8.基于训练好的意图识别模型，根据所述询问语音对应的第一文本信息和所述答复语音确定用户意图；
9.根据所述用户意图确定应答语音；
10.将所述应答语音发送给所述客户端。
11.第二方面，本技术还提供一种语音应答装置，所述语音应答装置包括：
12.询问语音发送模块，用于向客户端发送询问语音；
13.答复语音获取模块，用于获取所述客户端发送的答复语音，所述答复语音用于答复所述询问语音；
14.用户意图确定模块，用于基于训练好的意图识别模型，根据所述询问语音对应的第一文本信息和所述答复语音确定用户意图；
15.应答语音确定模块，用于根据所述用户意图确定应答语音；
16.应答语音发送模块，用于向所述客户端发送所述应答语音。
17.第三方面，本技术还提供一种计算机设备，所述计算机设备包括处理器、存储器、
以及存储在所述存储器上并可被所述处理器执行的计算机程序，其中所述计算机程序被所述处理器执行时，实现如上述的语音应答方法的步骤。
18.第四方面，本技术还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其中所述计算机程序被处理器执行时，实现如上述的语音应答方法的步骤。
19.本技术提供一种语音应答方法、装置、设备及计算机可读存储介质，方法包括向客户端发送询问语音；获取所述客户端发送的答复语音，所述答复语音用于答复所述询问语音；基于训练好的意图识别模型，根据所述询问语音对应的第一文本信息和所述答复语音确定用户意图；根据所述用户意图确定应答语音；将所述应答语音发送给所述客户端。本技术通过询问语音对应的第一文本信息和用户的答复语音共同判定用户意图，无需将答复语音转化成文本进行用户意图的判定，有效提高用户意图识别的准确性和效率，以提供更符合用户意图的应答语音。
附图说明
20.为了更清楚地说明本技术实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
21.图1为本技术实施例提供的一种语音应答方法的流程示意图；
22.图2为实施本实施例提供的语音应答方法的一场景示意图；
23.图3为本技术实施例提供的一种意图识别模型的示意性框图；
24.图4为本技术实施例提供的一种语音应答装置的示意性框图；
25.图5为本技术一实施例涉及的计算机设备的结构示意框图。
具体实施方式
26.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
27.附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。
28.本技术实施例提供一种语音应答方法、装置、计算机设备及计算机可读存储介质。其中，该语音应答方法可应用于终端设备中，该终端设备可以是平板电脑、笔记本电脑、台式电脑等电子设备。也可以应用于服务器中，该服务器可以是单独的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network，cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
29.下面结合附图，对本技术的一些实施方式作详细说明。在不冲突的情况下，下述
的实施例及实施例中的特征可以相互组合。
30.请参照图1，图1为本技术的实施例提供的一种语音应答方法的流程示意图。
31.如图1所示，该语音应答方法包括步骤s101至步骤s105。
32.步骤s101、向客户端发送询问语音。
33.如图2所示，图2为本技术一实施例提供的一种实用场景图。
34.示例性的，在电话销售的通话过程中，服务端可以向客户端发送询问语音。并且接收客户端发送的答复语音，服务端基于答复语音能够将应答答复语音的应答语音发送到客户端，以完成通话过程。
35.示例性的，服务端可以在预设询问文本库中确定用于询问客户的第一文本文本，而后服务端通过tts技术将第一文本信息转化为询问语音，并在通话中向客户端发送询问语音，以对用户进行询问。
36.示例性的，预设询问文本库可以是维护人员预先设置的包括有若干询问文本的数据库，可以理解的，不同的询问文本用于销售不同产品或销售同样产品时的不同表达方式。
37.示例性的，第一文本信息可以用于询问客户，包括询问客户的偏好、需求。可以理解的，第一文本信息包括产品信息，如询问客户是否需要a产品的第一文本信息；也可以包括时长信息，如询问客户话费套餐预定多长时间的第一文本信息。
38.示例性的，询问语音也可以是预先录制好的语音信息，确定需要发送的询问语音，并向客户端发送询问语音。可以理解的，若需要获取询问语音对应的第一文本信息，可以基于人工智能的语音识别模型对询问语音进行处理，得到询问语音对应的第一文本信息。
39.通过向客户端发送询问语音，可以与用户进行语音通话，以进行基于电话形式的销售。
40.步骤s102、获取所述客户端发送的答复语音，所述答复语音用于答复所述询问语音。
41.示例性的，用户在客户端收听到询问语音后，会对询问语音进行答复，客户端获取用户的说话内容，并根据用户的说话内容生成答复语音，以及向服务端发送生成的答复语音。
42.示例性的，服务端获取客户端基于用户的答复内容录制的答复语音，从而可以在答复语音中得知客户的意图。
43.步骤s103、基于训练好的意图识别模型，根据所述询问语音对应的第一文本信息和所述答复语音确定用户意图。
44.如图3所示，图3为本技术一实施例提供的一种意图识别模型。
45.示例性的，将询问语音对应的第一文本信息和答复语音输入意图识别模型，通过意图识别模型对第一文本信息和答复语音进行意图的识别，从而得到客户的意图。
46.示例性的，询问语音对应的第一文本信息可以是将第一文本信息转化为询问语音时得到的，也可以是通过询问语音进行语音识别得到的。
47.示例性的，意图识别模型可以对第一文本信息和答复语音分别进行特征的提取，以及对提取到的特征进行融合，并根据融合后的特征确定客户的意图，从而达到通过第一
文本信息和答复语音确定客户的意图的目的。
48.可以理解的，意图识别模型也是基于人工智能的神经网络构建而成的。
49.示例性的，训练好的意图识别模型能够存储于区块链中，以使服务端需要使用是对区块链进行广播，并调用训练好的意图识别模型。
50.本技术所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
51.在一些实施例中，所述基于训练好的意图识别模型，根据所述第一文本信息和所述答复语音确定用户意图，包括：基于所述意图识别模型的特征提取网络，对所述第一文本信息进行特征提取，得到第一文本特征向量；基于所述意图识别模型的语音特征提取网络，对所述答复语音进行特征提取，得到答复语音特征向量。以及根据第一文本特征向量和答复语音特征向量确定用户意图。
52.示例性的，文本特征提取网络可以是基于bert模型(bidirectional encoderrepresentation from transformers)构建的网络，其中bert模型是一个双向编码模型，将第一文本信息输入bert模型时，bert模型会对第一文本信息进行词嵌入处理(word embeddings)、分段嵌入处理(segmentation embeddings)、以及位置编码嵌入处理(position embeddings)，将处理后得到的向量进行求和，并将求和后的向量输入训练好的掩膜层(mask lm)和下一分段预测任务层(next sentence prediction)以完成对第一文本信息的特征提取，得到第一文本特征向量。
53.具体的，在文本特征提取网络输出的第一文本特征向量的大小可以例如是n
×
768n。
54.示例性的，语音特征提取网络可以提取答复语音的梅尔倒谱系数 (mel
‑
scalefrequency cepstral coefficients)，并将提取到的梅尔倒谱系数确定为答复语音特征向量。
55.具体的，将答复语音输入语音特征提取网络的预加重子网络中，在预加重子网络中进行滤波，得到滤波处理后的答复语音信号。
56.将从预加重子网络输出的滤波处理后的答复语音信号输入到语音特征提取网络的分帧子网络中，以对答复语音信号进行分帧，具体的，将答复语音信号进行采样点的采样，得到多个采样组，每一个采样组包括n个采样点，每一个采样组可以视为一个帧，其中，n的大小可以为256n，n表示大于零的自然数，同时，在对答复语音信号进行采样时，对相邻采样组进行重叠区域的采样，重叠区域包括m个采样点，或可以理解的，重叠区域的采样可以例如是a采样组与b采样组为相邻的两个采样组，a采样组包括 512个采样点，b采样组也包括512个采样点，但在a采样组中存在即256个采样点与b采样组中的采样点相同。上述采样点个数只是举例说明，并不对本技术中采样点的具体个数予以限定。
57.将答复语音信号进行分帧后，通过预设的窗函数对每一帧答复语音信号进行计算，以增加帧左端和帧右端的连续性。
58.示例性的，预设的窗函数可以如下：
[0059][0060]
其中，a为预设常数，n为大于或等于0且小于或等于n
‑
1的自然数，n 为语音信号的帧长度。
[0061]
对加窗后的各帧信号进行傅里叶变换得到各帧的频谱。并对答复语音信号的频谱取模平方得到语音信号的功率谱，将得到的语音信号的功率谱输入三角形滤波器组中，其中，三角形滤波器组包括d个三角滤波器，d的取值范围可以是22～26中的任意一个自然数，得到每一个滤波器输出的频谱对数能量，以及通过离散余弦变换得到梅尔倒谱系数，即得到语言特征向量。
[0062]
在一些实施例中，通过预设截取值和对语言特征向量进行截取，得到截取后的语言特征向量，其中，预设截取值包括向量的行数截取值和向量的列数截取值，示例性的，截取后的语言特征向量大小可以例如为24n
×
768n。
[0063]
可以理解的，若截取之前的语言特征向量的行数大于预设行数截取值，将语言特征向量的行数截取为预设行数截取值；若截取之前的语言特征向量的列数大于预设列数截取值，将语言特征向量的列数截取为预设列数截取值。
[0064]
可以理解的，若截取之前的语言特征向量的行数和/或列数小于预设行数截取值和/或列数截取值，对语言特征向量进行零值填充，以使语言特征向量的行数和/或列数等于预设行数截取值和/或列数截取值。
[0065]
示例性的，通过预设截取值对语言特征向量进行截取，可以在不同使用环境下，如在不同用户答复的答复语音中提取到的语言特征向量的大小一致，以便于运算。
[0066]
示例性的，对意图识别模型的特征提取网络输出的第一文本特征向量和意图识别模型的语音特征提取网络输出的答复语音特征向量进行融合，得到融合特征向量，并可通过融合特征向量确定用户意图。
[0067]
在一些实施例中，所述根据第一文本特征向量和答复语音特征向量确定用户意图，包括：基于所述意图识别模型的特征融合网络，对所述第一文本特征向量和所述答复语音特征向量进行融合，得到融合特征向量；基于所述意图识别模型的意图分类网络，对所述融合特征向量进行卷积、激活以及分类处理，得到用户意图。
[0068]
示例性的，将通过文本特征提取网络提取的第一文本特征向量，以及通过语音特征提取网络提取的答复语音特征向量输入特征融合网络，以对第一文本特征向量和答复语音特征向量进行融合，得到融合特征向量。
[0069]
示例性的，向量融合可以例如是向量相乘、向量相加，以及如下述所撰述的操作。
[0070]
通过对融合特征向量进行卷积处理，激活处理以及分类处理，可以得到用户的答复语音中的用户意图。
[0071]
在一些实施例中，所述基于所述意图识别模型的特征融合网络，对所述第一文本特征向量和所述答复语音特征向量进行向量融合，得到融合特征向量，包括：基于特征融
合网络的全连接层，对答复语音特征向量进行全连接处理，得到处理后的答复语音特征向量，其中，处理后的答复语音特征向量与所述第一文本特征向量大小相同；基于特征融合网络的特征融合层，对所述第一文本特征向量和所述处理后的答复语音特征向量进行融合，得到融合特征向量。
[0072]
示例性的，特征融合网络包括全连接层和特征融合层，其中，全连接层用于调整语音特征向量的大小，将从语音特征提取网络输出的大小为24n
×ꢀ
768n的语音特征向量调整为n
×
768n，以使语音特征向量的大小与第一文本特征向量的大小相等，以及将调整后的语音特征向量和第一文本特征向量输入特征融合层，以对处理后的语音特征向量和第一文本特征向量进行融合。
[0073]
在一些实施例中，所述基于所述意图识别模型的特征融合网络，对所述第一文本特征向量和所述答复语音特征向量进行融合，得到融合特征向量，包括：获取n个预设矩阵，n为大于或等于3的自然数；将所述第一文本特征向量与每一个所述预设矩阵进行向量相乘，得到n个文本向量；将所述答复语音特征向量与每一个所述预设矩阵进行向量相乘，得到n个语音向量；对所述n个文本向量和所述n个语音向量进行融合，得到融合特征向量。
[0074]
示例性的，n个预设矩阵可以是预先设置的，也可以是随机初始化得到的，每个预设矩阵的大小相同，例如矩阵的行列数均相同。
[0075]
示例性的，将第一文本特征向量逐一与每一个预设矩阵相乘，得到每一个预设矩阵输出对应的文本向量，可以理解的，有n个文本向量，同样的，将语音特征向量逐一与每一个预设矩阵相乘，得到每一个预设矩阵输出对应的语音向量，可以理解的，有n个语音向量。
[0076]
示例性的，对n个文本向量和n个语音向量进行向量融合，得到融合特征向量。
[0077]
在一些实施例中，所述对所述n个文本向量和所述n个语音向量进行融合，得到融合特征向量，包括：根据第一文本向量和第二文本向量计算所述第一文本特征向量的相似度；根据第一语音向量和第二语音向量计算所述语音特征向量的相似度；根据所述第一文本特征向量的相似度和所述语音特征向量的相似度，确定所述第一文本特征向量的权重和所述语音特征向量的权重；对所述第一文本特征向量的权重、第三文本向量、所述语音特征向量的权重以及第三语音向量进行向量计算，得到融合特征向量；其中，所述第一文本向量、所述第二文本向量以及所述第三文本向量是从n个文本向量中确定的，所述第一语音向量，所述第二语音向量以及所述第三语音向量是从n 个语音向量中确定的。
[0078]
示例性的，可以从n个文本向量中确定第一文本向量、第二文本向量、第三文本向量，可以理解的，第一文本向量、第二文本向量、第三文本向量对应不同的预设矩阵输出的，第一语音向量，第二语音向量以及第三语音向量的确定过程可以如第一文本向量、第二文本向量、第三文本向量的确定过程，在此不再撰述。
[0079]
为了便于理解，下述提供一种n＝3的实施方式，且用公式或字母表征各个向量，以及计算过程：
[0080]
用m
q
、m
k
、m
y
表征三个预设矩阵，用fea1表征第一文本特征向量，用fea2表征答复语音特征向量，其中，第一文本向量、第二文本向量、第三文本向量通过下式计算得到：
[0081]
第一文本向量：q
t
＝fea1·
m
q
；
[0082]
第二文本向量：k
t
＝fea1·
m
k
；
[0083]
第三文本向量：v
t
＝fea1·
m
v
；
[0084]
可以理解的，第一语音向量、第二语音向量、第三语音向量通过下式计算得到：
[0085]
第一语音向量：q
v
＝fea2·
m
q
；
[0086]
第二语音向量：k
a
＝fea2·
m
k
；
[0087]
第三语音向量：v
a
＝fea2·
m
v
；
[0088]
通过q
t
、k
t
、v
t
、q
a
、k
a
、v
a
计算第一文本特征向量的相似度、权重以及答复语音特征向量的相似度、权重，并通过第一文本特征向量的相似度、权重以及答复语音特征向量的相似度、权重计算得到融合特征向量。
[0089]
在一些实施例中，所述根据第一文本向量和第二文本向量计算所述第一文本特征向量的相似度，包括：对所述第一文本向量进行转置处理，得到转置后的第一文本向量；将所述转置后的第一文本向量与所述第二文本向量进行向量相乘，得到所述第一文本特征向量的相似度；
[0090]
所述根据所述第一语音向量和所述第二语音向量计算所述语音特征向量的相似度，包括：对所述第一语音向量进行转置处理，得到转置后的第一语音向量；对所述转置后的第一语音向量与所述第二语音向量进行向量相乘，得到所述语音特征向量的相似度。
[0091]
示例性的，第一文本特征向量的相似度可以基于下式进行计算：
[0092][0093]
其中，s
t
用于指示第一文本特征向量的相似度，用于指示第一文本向量的转置，k
t
用于指示第二文本向量。
[0094]
示例性的，答复语音特征向量的相似度可以基于下式进行计算：
[0095][0096]
其中，s
a
用于指示答复语音特征向量的相似度，用于指示第一语音向量的转置，k
a
用于指示第二语音向量。
[0097]
示例性的，通过第一文本特征向量的相似度和答复语音特征向量的相似度可以更精确地计算第一文本特征向量的权重，以及答复语音特征向量的权重。
[0098]
在一些实施例中，所述对所述第一文本特征向量的权重、第三文本向量、所述语音特征向量的权重以及第三语音向量进行向量计算，得到融合特征向量，包括：对所述第一文本特征向量的权重与所述第三文本向量进行相乘，得到第四文本向量；对所述语音特征向量的权重与所述第三语音向量进行相乘，得到第四语音向量；对所述第四文本向量和所述第四语音向量进行向量相加，得到所述融合特征向量。
[0099]
示例性的，通过下式计算第一文本特征向量的权重：
[0100][0101]
其中，w
t
用于指示第一文本特征向量的权重，s
t
用于指示第一文本特征向量的相似度，s
a
用于指示答复语音特征向量的相似度，e为常数底数。
[0102]
可以理解的，通过下式计算答复语音特征向量的权重：
[0103][0104]
其中，w
a
用于指示答复语音特征向量的权重，s
t
用于指示第一文本特征向量的相似度，s
a
用于指示答复语音特征向量的相似度，e为常数底数。
[0105]
示例性的，通过下式对第一文本特征向量的权重、第三文本向量、语音特征向量的权重以及第三语音向量进行向量计算，得到融合特征向量：
[0106]
fea＝w
a
×
v
a
+w
t
×
v
t
[0107]
其中，fea用于表征融合特征向量，w
t
用于指示第一文本特征向量的权重， w
a
用于指示答复语音特征向量的权重，v
a
用于指示第三语音向量，v
t
用于指示第三文本向量。
[0108]
示例性的，进行向量融合得到融合特征向量，可以基于意图分类网络，根据融合特征向量确定客户的意图。
[0109]
具体的，意图分类网络至少包括三个卷积层，至少三个批标准化层以及至少三个线性激活函数层，其中，卷积层、批标准化层和线性激活函数层依次间隔排布，例如是融合特征向量先输入第一个卷积层、第一个批标准化层以及第一个线性激活函数层，再进入第二个卷积层、第二个批标准化层以及第二个线性激活函数层，以此类推。
[0110]
示例性的，第一个卷积层、第二个卷积层、第三个卷积层的卷积核大小分别为7
×
7，5
×
5和3
×
3。
[0111]
示例性的，融合特征向量经过至少三个卷积层，至少三个批标准化层以及至少三个线性激活函数层后，得到处理后的融合特征向量，将处理后的融合特征向量与未处理的融合特征向量进行相加，再通过一个线性激活函数层进行激活，得到线性激活函数层的第一输出(output1)。
[0112]
示例性的，意图分类网络还包括两个全连接层和softmax激活函数层，将第一输出(output1)先后输入两个全连接层，进行全连接处理后，输入至softmax 激活函数层进行激活，得到融合特征向量对应的用户意图。可以理解的，融合特征向量对应的用户意图可以包括多种意图。
[0113]
示例性的，意图分类网络中第一个全连接层的大小可以为1024，例如是第一个全连接层存在1024个神经元数量，意图分类网络中第二个全连接层的大小可以为n
res
，其中，n
res
为大于0的自然数，用于表征预设意图的数量，可以理解的，从意图分类网络的softmax激活函数层输出的结果大小为 1
×
n
res
，其中，通过n
res
中对应的取值可以确定融合特征向量对应的用户意图。如n
res
＝3，得到的输出结果用res表征，res＝[0,0,1]，则表示该融合特征向量存在第三列对应的用户意图，不存在第一、第二列对应的用户意图。
[0114]
通过意图识别模型的特征融合网络和意图分类网络可以更准确地通过第一文本信息以及客户答复询问语音的答复语音来确定客户答复时的意图，有效提升意图的确定速率，以及减少服务端计算机的运算量。
[0115]
步骤s104、根据所述用户意图确定应答语音。
[0116]
示例性的，得到用户意图后，可以基于用户意图确定应答用户的应答语音，可以理解的，基于用户意图确定的应答语音可以使用户感受到更真实的语音通话。
[0117]
在一些实施例中，所述根据所述用户意图确定应答语音，包括：基于应答文本信息库，根据所述用户意图确定用于应答用户的第二文本信息；基于语音生成模型，对所述
第二文本信息进行语音转化，得到应答信息。
[0118]
示例性的，可以基于预设的应答文本信息库，根据用户意图确定用于应答用户的第二文本信息，可以理解的，预设的应答文本信息库包括多个应答文本，且每一个应答文本都有各自对应的意图，从而根据得到的用户意图以及应答文本对应的意图能够确定用于应答用户的第二文本信息。
[0119]
示例性的，应答文本与对应的意图可以包括一对一的映射关系，也可以是一对多的映射关系，以及多对一的映射关系。
[0120]
示例性的，基于语音生成模型，对第二文本信息进行语音转化，得到应答语音，可以理解的，语音生成模型可以例如是使用tts技术，也可以是基于人工智能的语音转化技术，将第二文本信息转化为应答语音，在此不再撰述转化过程。
[0121]
通过预设应答文本信息库中的多个应答文本信息对应的意图以及用户意图可以更加精确地确定用于应答的第二文本信息，以及将第二文本信息转化为应答语音，可以与用户进行通话。
[0122]
s105、向所述客户端发送所述应答语音。
[0123]
示例性的，将应答语音发送到客户端，以使应答语音在通话中进行播放，从而达到在通话中应答用户的目的。
[0124]
在一些实施例中，所述方法还包括；获取训练数据，所述训练数据包括多个样本文本信息、各所述样本文本信息对应的样本答复语音以及各所述样本答复语音对应的目标意图；根据所述训练数据对所述意图识别模型进行训练，得到训练好的意图识别模型。
[0125]
示例性的，获取训练数据，以对意图识别模型进行训练，其中，训练数据包括多个样本文本信息、各个样本文本信息对应的样本答复语音，以及各个样本答复语音的目标意图。
[0126]
示例性的，样本文本信息可以是历史第一文本信息，也即是用过询问用户的第一文本信息，也可以是模拟场景的文本信息，也即是没有询问用户的，是相关人员模拟的销售场景中的文本信息。
[0127]
示例性的，样本答复语音可以是客户的历史答复语音，也可以是预设模拟销售场景的答复语音，可以理解的，样本答复语音与样本文本信息对应，例如是在同一次通话记录中的文本信息和答复该文本信息的答复语音。
[0128]
示例性的，各个答复语音的目标意图可以是人工进行标注的，工作人员通过听取样本文本信息对应的样本答复语音，并在样本答复语音中确定目标意图。
[0129]
将样本文本信息、样本文本信息对应的样本答复语音，以及样本答复语音的目标意图输入意图识别模型，以对意图识别模型进行训练。
[0130]
在一些实施例中，所述根据所述训练数据对所述意图识别模型进行训练，得到训练好的意图识别模型，包括：将所述样本文本信息输入所述意图识别模型的文本特征提取网络，得到样本文本特征向量；将所述样本文本信息对应的样本语音信息输入所述意图识别模型的语音特征提取网络，得到样本答复语音特征向量；将所述样本文本特征向量和所述样本答复语音特征向量输入所述意图识别模型的特征融合网络，得到样本融合特征向量；将所述样本融合特征向量输入所述意图识别模型的意图分类网络，得到所述样本答复语音对应的意图；基于预设损失函数，根据所述样本答复语音对应的意图和所述目标意
图计算损失值；根据所述损失值调整所述意图识别模型的参数，得到训练好的意图识别模型。
[0131]
示例性的，对样本文本信息、样本文本信息对应的样本答复语音进行特征提取，以及对提取到的特征向量进行融合，得到样本融合特征向量，并通过样本融合特征向量确定用户意图的步骤可以参照上述已进行撰述的步骤 s101
‑
步骤s103，在此不再撰述。
[0132]
示例性的，预设损失函数可以为下式：
[0133][0134]
其中，loss用于表示损失值，n
batch
为训练时意图识别模型所使用的样本文本信息的数量，n
res
为意图的总数量，y
ij
表示第i个目标意图向量中第j个位置的取值，res
ij
表示第i个样本答复语音的意图向量中第j个位置的取值； γ和α为意图识别模型中的参数。
[0135]
示例性的，在初始化模型的时候，γ可取值为2，α可取值为0.25。
[0136]
示例性的，通过训练数据对意图识别模型进行训练，得到训练好的意图识别模型，通过训练好的意图识别模型可以更精确地对用户答复语音的意图进行识别，从而提升使用体验感。
[0137]
上述实施例提供的语音应答方法，通过训练好的意图识别模型对用于询问语音对应的第一文本信息以及用户用于答复询问语音的答复语音确定用户在答复时的用户意图，在进行意图识别时，无需将答复语音转化为文本进行识别，从而避免了由于答复语音转化为文本的准确率影响意图识别的准确率的问题，提升了意图识别的效率，并能够更加准确地确定用户的意图。
[0138]
请参阅图4，图4是本技术一实施例提供的一种语音应答装置的示意图，该语音应答装置可以配置于服务器或终端中，用于执行前述的语音应答方法。
[0139]
如图4所示，该语音应答装置，包括：询问语音发送模块110、答复语音获取模块120、用户意图确定模块130、应答语音确定模块140、应答语音发送模块150。
[0140]
询问语音发送模块110，用于向客户端发送询问语音。
[0141]
答复语音获取模块120，用于获取所述客户端发送的答复语音，所述答复语音用于答复所述询问语音。
[0142]
用户意图确定模块130，用于基于训练好的意图识别模型，根据所述询问语音对应的第一文本信息和所述答复语音确定用户意图。
[0143]
应答语音确定模块140，用于根据所述用户意图确定应答语音。
[0144]
应答语音发送模块150，用于向所述客户端发送所述应答语音。
[0145]
示例性的，用户意图确定模块130还包括文本特征提取子模块、语音特征提取子模块、向量融合子模块、意图分类子模块。
[0146]
文本特征提取子模块，用于基于所述意图识别模型的文本特征提取网络，对所述第一文本信息进行特征提取，得到第一文本特征向量。
[0147]
语音特征提取子模块，用于基于所述意图识别模型的语音特征提取网络，对所述答复语音进行特征提取，得到答复语音特征向量。
[0148]
向量融合子模块，用于基于所述意图识别模型的特征融合网络，对所述第一文本
特征向量和所述答复语音特征向量进行融合，得到融合特征向量。
[0149]
意图分类子模块，用于基于所述意图识别模型的意图分类网络，对所述融合特征向量进行卷积、激活以及分类处理，得到用户意图。
[0150]
示例性的，向量融合子模块还包括预设矩阵获取子模块、第一向量相乘子模块、第二向量相乘子模块。
[0151]
预设矩阵获取子模块，用于获取n个预设矩阵，n为大于或等于3的自然数。
[0152]
第一向量相乘子模块，用于将所述第一文本特征向量与每一个所述预设矩阵进行向量相乘，得到n个文本向量。
[0153]
第二向量相乘子模块，用于将所述答复语音特征向量与每一个所述预设矩阵进行向量相乘，得到n个语音向量。
[0154]
向量融合子模块，还用于对所述n个文本向量和所述n个语音向量进行融合，得到融合特征向量。
[0155]
示例性的，向量融合子模块还包括第一相似度计算子模块、第二相似度计算子模块、权重确定子模块。
[0156]
第一相似度计算子模块，用于根据第一文本向量和第二文本向量计算所述第一文本特征向量的相似度。
[0157]
第二相似度计算子模块，用于根据第一语音向量和第二语音向量计算所述语音特征向量的相似度。
[0158]
权重确定子模块，用于根据所述第一文本特征向量的相似度和所述语音特征向量的相似度，确定所述第一文本特征向量的权重和所述语音特征向量的权重。
[0159]
向量融合子模块，还用于对所述第一文本特征向量的权重、第三文本向量、所述语音特征向量的权重以及第三语音向量进行向量计算，得到融合特征向量。
[0160]
示例性的，应答语音确定模块140还包括第二文本信息确定子模块、应答语音生成子模块。
[0161]
第二文本信息确定子模块，用于基于应答文本信息库，根据所述用户意图确定用于应答用户的第二文本信息。
[0162]
应答语音生成子模块，用于基于语音生成模型，对所述第二文本信息进行语音转化，得到应答语音。
[0163]
示例性的，语音应答装置还包括训练数据获取模块、模型训练模块。
[0164]
数据获取模块，用于获取训练数据，所述训练数据包括多个样本文本信息、各所述样本文本信息对应的样本答复语音以及各所述样本答复语音对应的目标意图。
[0165]
模型训练模块，用于根据所述训练数据对所述意图识别模型进行训练，得到训练好的意图识别模型。
[0166]
示例性的，模型训练模块还包括样本文本特征向量确定子模块、样本答复语音特征向量确定子模块，样本融合特征向量确定子模块、样本答复语音的意图确定子模块、损失值计算子模块、参数调整子模块。
[0167]
样本文本特征向量确定子模块，用于将所述样本文本信息输入所述意图识别模型的文本特征提取网络，得到样本文本特征向量。
[0168]
样本答复语音特征向量确定子模块，用于将所述样本文本信息对应的样本语音
信息输入所述意图识别模型的语音特征提取网络，得到样本答复语音特征向量。
[0169]
样本融合特征向量确定子模块，用于将所述样本文本特征向量和所述样本答复语音特征向量输入所述意图识别模型的特征融合网络，得到样本融合特征向量。
[0170]
样本答复语音的意图确定子模块，用于将所述样本融合特征向量输入所述意图识别模型的意图分类网络，得到所述样本答复语音对应的意图。
[0171]
损失值计算子模块，用于基于预设损失函数，根据所述样本答复语音对应的意图和所述目标意图计算损失值。
[0172]
参数调整子模块，用于根据所述损失值调整所述意图识别模型的参数，得到训练好的意图识别模型。
[0173]
需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和各模块、单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。
[0174]
本技术的方法，可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络 pc、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本技术可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本技术，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
[0175]
示例性地，上述的方法、装置可以实现为一种计算机程序的形式，该计算机程序可以在如图5所示的计算机设备上运行。
[0176]
请参阅图5，图5为本技术实施例提供的一种计算机设备的结构示意性框图。该计算机设备可以为服务器或终端。
[0177]
如图5所示，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口，其中，存储器可以包括存储介质和内存储器。
[0178]
存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令，该程序指令被执行时，可使得处理器执行任意一种语音应答方法。
[0179]
处理器用于提供计算和控制能力，支撑整个计算机设备的运行。
[0180]
内存储器为存储介质中的计算机程序的运行提供环境，该计算机程序被处理器执行时，可使得处理器执行任意一种语音应答方法。
[0181]
该网络接口用于进行网络通信，如发送分配的任务等。本领域技术人员可以理解，图5中示出的结构，仅仅是与本技术方案相关的部分结构的框图，并不构成对本技术方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
[0182]
应当理解的是，处理器可以是中央处理单元(central processing unit， cpu)，该处理器还可以是其他通用处理器、数字信号处理器(digital signalprocessor，dsp)、专用集成电路(application specific integrated circuit，asic)、现场可编程门阵列
(field
‑
programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0183]
其中，在一个实施例中，所述处理器用于运行存储在存储器中的计算机程序，以实现如下步骤：
[0184]
向客户端发送询问语音；
[0185]
获取所述客户端发送的答复语音，所述答复语音用于答复所述询问语音；
[0186]
基于训练好的意图识别模型，根据所述询问语音对应的第一文本信息和所述答复语音确定用户意图；
[0187]
根据所述用户意图确定应答语音；
[0188]
向所述客户端发送所述应答语音。
[0189]
在一个实施例中，所述处理器在实现基于训练好的意图识别模型，根据所述第一文本信息和所述答复语音确定用户意图时，用于实现：
[0190]
基于所述意图识别模型的文本特征提取网络，对所述第一文本信息进行特征提取，得到第一文本特征向量；
[0191]
基于所述意图识别模型的语音特征提取网络，对所述答复语音进行特征提取，得到答复语音特征向量；
[0192]
基于所述意图识别模型的特征融合网络，对所述第一文本特征向量和所述答复语音特征向量进行融合，得到融合特征向量；
[0193]
基于所述意图识别模型的意图分类网络，对所述融合特征向量进行卷积、激活以及分类处理，得到用户意图。
[0194]
在一个实施例中，所述处理器在实现基于所述意图识别模型的特征融合网络，对所述第一文本特征向量和所述答复语音特征向量进行融合，得到融合特征向时，用于实现：
[0195]
获取n个预设矩阵，n为大于或等于3的自然数；
[0196]
将所述第一文本特征向量与每一个所述预设矩阵进行向量相乘，得到n 个文本向量；
[0197]
将所述答复语音特征向量与每一个所述预设矩阵进行向量相乘，得到n 个语音向量；
[0198]
对所述n个文本向量和所述n个语音向量进行融合，得到融合特征向量。
[0199]
在一个实施例中，所述处理器在实现对所述n个文本向量和所述n个语音向量进行融合，得到融合特征向量时，用于实现：
[0200]
根据第一文本向量和第二文本向量计算所述第一文本特征向量的相似度；
[0201]
根据第一语音向量和第二语音向量计算所述语音特征向量的相似度；
[0202]
根据所述第一文本特征向量的相似度和所述语音特征向量的相似度，确定所述第一文本特征向量的权重和所述语音特征向量的权重；
[0203]
对所述第一文本特征向量的权重、第三文本向量、所述语音特征向量的权重以及第三语音向量进行向量计算，得到融合特征向量；
[0204]
其中，所述第一文本向量、所述第二文本向量以及所述第三文本向量是从n个文
本向量中确定的，所述第一语音向量，所述第二语音向量以及所述第三语音向量是从n个语音向量中确定的。
[0205]
在一个实施例中，所述处理器在实现根据所述用户意图确定应答语音时，用于实现：
[0206]
基于应答文本信息库，根据所述用户意图确定用于应答用户的第二文本信息；
[0207]
基于语音生成模型，对所述第二文本信息进行语音转化，得到应答语音。
[0208]
在一个实施例中，所述处理器在实现语音应答方法时，用于实现：
[0209]
获取训练数据，所述训练数据包括多个样本文本信息、各所述样本文本信息对应的样本答复语音以及各所述样本答复语音对应的目标意图；
[0210]
根据所述训练数据对所述意图识别模型进行训练，得到训练好的意图识别模型。
[0211]
在一个实施例中，所述处理器在实现根据所述训练数据对所述意图识别模型进行训练，得到训练好的意图识别模型时，用于实现：
[0212]
将所述样本文本信息对应的样本语音信息输入所述意图识别模型的语音特征提取网络，得到样本答复语音特征向量；
[0213]
将所述样本文本特征向量和所述样本答复语音特征向量输入所述意图识别模型的特征融合网络，得到样本融合特征向量；
[0214]
将所述样本融合特征向量输入所述意图识别模型的意图分类网络，得到所述样本答复语音对应的意图；
[0215]
基于预设损失函数，根据所述样本答复语音对应的意图和所述目标意图计算损失值；
[0216]
根据所述损失值调整所述意图识别模型的参数，得到训练好的意图识别模型。
[0217]
需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述语音应答的具体工作过程，可以参考前述语音应答控制方法实施例中的对应过程，在此不再赘述。
[0218]
本技术实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序中包括程序指令，所述程序指令被执行时所实现的方法可参照本技术语音应答方法的各个实施例。
[0219]
其中，所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元，例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备，例如所述计算机设备上配备的插接式硬盘，智能存储卡(smart media card，smc)，安全数字(secure digital， sd)卡，闪存卡(flash card)等。
[0220]
应当理解，在此本技术说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本技术。如在本技术说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个
”ꢀ
及“该”意在包括复数形式。
[0221]
还应当理解，在本技术说明书和所附权利要求书中使用的术语“和/或
”ꢀ
是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有
更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
[0222]
上述本技术实施例序号仅仅为了描述，不代表实施例的优劣。以上所述，仅为本技术的具体实施方式，但本技术的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本技术揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本技术的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。