基于意图识别模型的通信方法、装置、设备及存储介质与流程

1.本技术涉及人工智能技术领域，尤其涉及一种基于意图识别模型的通信方法、装置、设备与存储介质。

背景技术：

2.随着互联网的发展，各种应用程序产品应运而生，比如各种用于借贷或消费的金融应用程序产品，用户可以在该金融应用程序产品上进行注册，实名认证，绑定银行卡、然后申请额度进行消费。然而，现实生活中，用户在使用该金融应用程序产品时可能会出现一些断点，比如，可能一些用户进行注册之后就不再使用，一些用户注册之后，不进行实名认证等等。目前业内解决该方式都是根据断点用户名单进行人工外呼，即人工联系到用户，然后进行沟通具体情况。由于用户数量巨大，全部进行人工外呼成本较高，并且效率很低。

技术实现要素：

3.基于此，有必要针对上述技术问题，提供一种基于意图识别模型的通信方法、装置、设备与存储介质，在用户使用目标应用程序产品处于某个断点状态时，智能识别用户的意图，确定对应的回答话术，从而让用户能够更加清楚的了解该目标应用程序产品的使用流程，提高外呼效率，并且提高该目标应用程序产品的使用率。
4.第一方面，本技术提供一种基于意图识别模型的通信方法，所述方法包括：
5.获取目标应用程序产品的状态序列，所述状态序列包括依次连接的至少两个状态，所述至少两个状态是对所述目标应用程序产品的预设操作流程划分得到，所述预设操作流程所指示的一系列操作用于实现所述目标应用程序产品的功能；
6.确定处于断点状态的目标用户，所述断点状态为除所述状态序列的最后一个状态外的任一状态；
7.建立与所述目标用户对应终端之间的通信连接，并基于所述通信连接获取所述目标用户的第一语音数据；
8.将所述第一语音数据转换为第一文本数据，并将所述第一文本数据输入意图识别模型，获得所述目标用户的目标意图；
9.获取与所述断点状态关联的目标知识库，并从所述目标知识库中获取与所述目标意图对应的第二文本数据；
10.将所述第二文本数据转换为第二语音数据，并基于所述通信连接向所述目标用户对应终端发送所述第二语音数据。
11.结合第一方面，在一些实施例中，所述基于所述通信连接获取所述目标用户的第一语音数据之前，还包括：
12.获取与所述断点状态对应的第三文本数据，并将所述第三文本数据转换为第三语音数据，其中，所述第一语音数据为针对所述第三语音数据的响应语音数据；
13.基于所述通信连接向所述目标用户对应终端发送所述第三语音数据。
14.结合第一方面，在一些实施例中，所述意图识别模型包括嵌入层、编码层以及输出层；
15.所述将所述第一文本数据输入意图识别模型，获得所述目标用户的目标意图，包括：
16.将所述第一文本数据输入所述嵌入层，获得所述第一文本数据中各个分词对应的词向量；
17.将所述各个分词对应的词向量输入所述编码层进行编码处理，获得句子向量；
18.将所述句子向量输入所述输出层，通过所述输出层的全连接层获得分数向量，并通过所述输出层的softmax层对所述分数向量进行归一化处理，获得概率向量，所述概率向量用于表示所述第一文本数据指示各个意图标签的概率；
19.根据所述概率向量，获得所述目标用户的目标意图，所述目标意图是所述概率向量中概率最大的意图标签所对应的意图。
20.结合第一方面，在一些实施例中，所述将所述第一语音数据转换为第一文本数据，包括：
21.对所述第一语音数据进行分帧处理，获得至少两个音频帧；
22.分别对所述至少两个音频帧中的每个音频帧进行声学特征提取，获得所述每个音频帧对应的特征向量；
23.根据所述每个音频帧对应的特征向量，获得至少两个音素；
24.将所述至少两个音素输入语言模型进行组词处理，获得所述至少两个音素构建的至少一个单词，并将所述至少一个单词构成的文本确定为第一文本数据。
25.结合第一方面，在一些实施例中，所述将所述第二文本数据转换为第二语音数据，包括：
26.将所述第二文本数据划分为至少两个词语块；
27.分别获取所述至少两个词语块中每个词语块所对应的音频段；
28.根据所述每个词语块对应的音频段，构建第二语音数据。
29.结合第一方面，在一些实施例中，所述建立与所述目标用户对应终端之间的通信连接，包括：
30.获取所述目标用户对应的通讯标识，所述通讯标识包括电话号码或即时通讯账号；
31.通过所述通讯标识建立与所述目标用户对应终端之间的通信连接。
32.结合第一方面，在一些实施例中，所述状态序列包括注册所述目标应用程序产品，通过所述目标应用程序产品进行进行实名认证，通过所述目标应用程序产品绑定银行卡，通过所述目标应用程序产品申请额度以及通过所述目标应用程序产品进行消费。
33.第二方面，本技术提供一种基于意图识别模型的通信装置，该装置包括：
34.第一获取单元，用于获取目标应用程序产品的状态序列，所述状态序列包括按照使用流程依次连接的至少两个状态，所述至少两个状态是对所述目标应用程序产品的预设操作流程划分得到，所述预设操作流程所指示的一系列操作用于实现所述目标应用程序产品的功能；
35.确定单元，用于确定处于断点状态的目标用户，所述断点状态为除所述状态序列
的最后一个状态外的任一状态；
36.通信单元，用于建立与所述目标用户对应终端之间的通信连接，并基于所述通信连接获取所述目标用户的第一语音数据；
37.第一转换单元，用于将所述第一语音数据转换为第一文本数据；
38.意图识别单元，用于将所述第一文本数据输入意图识别模型，获得所述目标用户的目标意图；
39.第二获取单元，用于获取与所述断点状态关联的目标知识库，并从所述目标知识库中获取与所述目标意图对应的第二文本数据；
40.第二转换单元，用于将所述第二文本数据转换为第二语音数据；
41.所述通信单元还用于基于所述通信连接向所述目标用户对应终端发送所述第二语音数据。
42.结合第二方面，在一些实施例中，该装置还包括：
43.第三获取单元，用于获取与所述断点状态对应的第三文本数据；
44.所述第二转换单元还用于将所述第三文本数据转换为第三语音数据，其中，所述第一语音数据为针对所述第三语音数据的响应语音数据；
45.所述通信单元还用于基于所述通信连接向所述目标用户对应终端发送所述第三语音数据。
46.结合第二方面，在一些实施例中，所述意图识别模型包括嵌入层、编码层以及输出层；
47.所述意图识别单元具体用于将所述第一文本数据输入所述嵌入层，获得所述第一文本数据中各个分词对应的词向量；
48.将所述各个分词对应的词向量输入所述编码层进行编码处理，获得句子向量；
49.将所述句子向量输入所述输出层，通过所述输出层的全连接层获得分数向量，并通过所述输出层的softmax层对所述分数向量进行归一化处理，获得概率向量，所述概率向量用于表示所述第一文本数据指示各个意图标签的概率；
50.根据所述概率向量，获得所述目标用户的目标意图，所述目标意图是所述概率向量中概率最大的意图标签所对应的意图。
51.结合第二方面，在一些实施例中，所述第一转换单元具体用于：
52.对所述第一语音数据进行分帧处理，获得至少两个音频帧；
53.分别对所述至少两个音频帧中的每个音频帧进行声学特征提取，获得所述每个音频帧对应的特征向量；
54.根据所述每个音频帧对应的特征向量，获得至少两个音素；
55.将所述至少两个音素输入语言模型进行组词处理，获得所述至少两个音素构建的至少一个单词，并将所述至少一个单词构成的文本确定为第一文本数据。
56.结合第二方面，在一些实施例中，所述第二转换单元具体用于：
57.将所述第二文本数据划分为至少两个词语块；
58.分别获取所述至少两个词语块中每个词语块所对应的音频段；
59.根据所述每个词语块对应的音频段，构建第二语音数据。
60.结合第二方面，在一些实施例中，所述通信单元具体用于：
61.获取所述目标用户对应的通讯标识，所述通讯标识包括电话号码或即时通讯账号；
62.通过所述通讯标识建立与所述目标用户对应终端之间的通信连接。
63.结合第二方面，在一些实施例中，所述状态序列包括注册所述目标应用程序产品，通过所述目标应用程序产品进行进行实名认证，通过所述目标应用程序产品绑定银行卡，通过所述目标应用程序产品申请额度以及通过所述目标应用程序产品进行消费。
64.第三方面，本技术提供一种计算机设备，包括处理器、存储器以及通信接口，该处理器、存储器和通信接口相互连接，其中，该通信接口用于接收和发送数据，该存储器用于存储程序代码，该处理器用于调用该程序代码，执行如第一方面以及第一方面中任一可能的实现方式描述的方法。
65.第四方面，本技术提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序；当该计算机程序在一个或多个处理器上运行时，使得该终端设备执行如第一方面以及第一方面中任一可能的实现方式描述的方法。
66.本技术实施例中，在用户使用目标应用程序产品过程中，如果处于某个断点状态，建立与该用户之间的通信连接，并获取该用户的语音数据，智能识别该用户的意图，从而根据用户具体所处的断点状态和用户的意图采取对应的回答话术与用户进行通信，不仅能让用户能够更加清楚的了解该目标应用程序产品的使用流程，还能够提高外呼用户的效率，并且通过智能语音通信方式对处于断点状态的用户进行外呼，避免用户长时间停留在某个断点状态，从而让更多用户使用该目标程序产品，提高该目标应用程序产品的使用率。
附图说明
67.为了更清楚地说明本技术实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍。
68.图1为本技术实施例提供的一种基于意图识别模型的通信方法的流程示意图；
69.图2为本技术实施例提供的基于意图识别模型的通信方法的系统架构示意图；
70.图3为本技术实施例提供的一种基于意图识别模型的通信装置的示意图；
71.图4为本技术实施例提供的一种计算机设备的示意图。
具体实施方式
72.下面结合附图对本发明作进一步详细描述。
73.本技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(artificial intelligence，ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
74.人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
75.本技术实施例提供了一种基于意图识别模型的通信方法，为了更清楚地描述本申
请的方案，下面对本技术涉及的一些附图作进一步介绍。
76.请参阅图1，图1为本技术实施例提供的一种基于意图识别模型的通信方法的流程示意图。如图1所示，所述方法包括以下步骤：
77.s101，获取目标应用程序产品的状态序列，所述状态序列包括依次连接的至少两个状态，所述至少两个状态是对所述目标应用程序产品的预设操作流程划分得到，所述预设操作流程所指示的一系列操作用于实现所述目标应用程序产品的功能；
78.本技术实施例中，目标应用程序产品可以是用于借贷或消费的金融应用程序产品，用户可以在该金融应用程序产品上进行注册，实名认证，绑定银行卡，申请额度以及利用额度进行消费等等操作，以实现该借贷或消费的金融应用程序产品的借贷消费的功能。本技术中对该目标应用程序产品的预设操作流程划分得到至少两个状态，该至少两个状态构成该目标应用程序产品的状态序列，通过该预设操作流程所指示的一系列操作可以实现目标应用程序产品的功能。
79.下面举例说明状态序列中的各个状态，与目标应用程序关联的预设操作流程包括依次连接的多个状态，当用户完成其中一个状态的操作之后，即流转进入下一个状态，比如，对于借贷的金融应用程序产品，与该目标应用程序产品关联的预设操作流程可以包括：注册
‑
实名认证
‑
绑定银行卡
‑
申请额度
‑
进行消费，将该预设操作流程划分得到至少两个状态，该依次连接的至少两个状态是注册状态
‑
实名认证状态
‑
绑定银行卡状态
‑
申请额度状态
‑
进行消费状态。即当用户注册之后，可以进一步流转到实名认证的状态，当用户进行实名认证之后，可以进一步流转到绑定银行卡的状态，当用户绑定银行卡之后，可以进一步流转到申请额度的状态，在用户申请额度之后，可以进一步进入使用额度进行消费的状态。
80.s102，确定处于断点状态的目标用户，所述断点状态为除所述状态序列的最后一个状态外的任一状态；
81.本技术实施例中，目标用户可以是指处于断点状态的任一用户。只要目标用户注册该应用程序产品之后，但是又未完成整个预设操作流程，即用户处于状态序列中最后一个状态外的任一状态，那么该目标用户就处于断点状态，比如，目标用户注册目标应用程序产品之后，没有进行实名认证，那么该用户处于注册的断点状态，或者，目标用户注册目标应用程序产品之后，并进行实名认证，但是没有绑定银行卡，那么该目标用户就处于实名认证的断点状态等等。
82.本技术实施例中，可以根据目标应用程序产品的业务流程数据获取处于断点状态的客户名单，该客户名单包括至少一个用户的用户标识，以及每个用户的基本信息、所处的具体断点状态以及断点状态所对应的业务信息等等。
83.本技术实施例中，依次对客户名单中的每个用户进行遍历，确定用户所处的具体断点状态，可以理解的是，不同用户所处的断点状态可以是相同的或不同的。下面继续以借贷的金融应用程序产品作为举例说明，用户所处的断点状态可以包括但不限于以下状态中的一个：
84.断点状态1：用户注册了该目标应用程序产品，但是没有进行实名认证；
85.断点状态2：用户注册了该目标应用程序产品，进行了实名认证，但是没有绑定银行卡；
86.断点状态3：用户注册了该目标应用程序产品，进行了实名认证，并绑定了银行卡，
但是没有申请额度；
87.断点状态4：用户注册了该目标应用程序产品，进行了实名认证，绑定了银行卡，并申请了额度，但是没有进行消费。
88.本技术中的目标用户可以是指客户名单中的任一用户。可选的，可以进一步根据目标用户对目标应用程序产品的操作日志，进一步确定该目标用户处于某个断点状态的时长，如果该时长大于时长阈值，则启动对该目标用户的外呼，其中，操作日志可以记录目标用户对目标应用程序产品的操作信息以及操作时间。
89.s103，建立与所述目标用户对应终端之间的通信连接；
90.具体可选的，从客户名单中获取该目标用户的通讯标识，该通讯标识可以是该目标用户的电话号码，或者该目标用户的即时通讯账号等等。进一步根据该通讯标识建立与该目标用户对应终端之间的通信连接。比如，通讯标识为目标用户的电话号码，通过该电话号码拨打该目标用户的手机，从而建立与目标用户对应终端之间的通信连接。
91.在一些实施方式中，可以预先配置不同断点状态所对应的外呼策略，该外呼策略可以包括外呼时间，外呼频率，比如，处于上述断点状态1和断点状态2的用户，外呼频率可以比较小一点，而对于处于断点状态3和断点状态4的用户，外呼频率可以比较大一点。外呼时间的确定可以根据客户名单中该客户的信息确定，比如根据用户的职业确定外呼时间，预设各个职业库分别所对应的外呼时间段，通过将用户的职业与职业库中的职业进行匹配，从而确定对应的外呼时间段进行外呼。
92.s104，获取与所述断点状态对应的第三文本数据，并将所述第三文本数据转换为第三语音数据，其中，所述第一语音数据为针对所述第三语音数据的响应语音数据；
93.s105，基于所述通信连接向所述目标用户对应终端发送所述第三语音数据。
94.示例性的，不同的断点状态可以对应不同的第三文本数据，该第三文本数据可以是外呼时的第一句开场白。本技术实施例中获取与目标用户所处断点状态对应的第三文本数据。
95.比如，与断点状态1所对应的第三文本数据可以是“您注册了xx应用程序产品，是否对该目标应用程序产品有兴趣”；又比如，与断点状态2所对应的第三文本数据可以是“您这边进行了实名认证，使用该产品还需绑定银行卡，然后进行额度申请和消费”；又比如，与断点状态3所对应的第三文本数据可以是介绍额度相关的信息以及如何使用额度；又比如，与断点状态4所对应的第三文本数据可以是介绍如何通过消费使用额度，以及消费所能得到的奖励等等。
96.本技术实施例中，可以按照目标规则，将所获取的第三文本数据划分为至少两个词语块，其中，一个词语块可以包括一个字或者一个词，或者也可以是包括多个词，具体词语块中包含的内容可以根据目标规则所确定。比如目标规则是以字为单位进行词语块的划分，那么就将第三文本数据划分为多个字，每个字是一个词语块。进一步音频库中获取每个词语块所对应的音频段，即音频库中可以预先存储各个词语块所对应的音频段，从而可以从音频库中获取到各个第三文本数据所包含词语块对应的音频段，进一步将各个词语块对应的音频段按照各个词语块在第三文本数据中的顺序进行组合，即可构建第三语音数据，基于所建立的通信连接向目标用户对应的终端传输该第三语音数据。
97.s106，基于所述通信连接获取所述目标用户的第一语音数据；
98.s107，将所述第一语音数据转换为第一文本数据，并将所述第一文本数据输入意图识别模型，获得所述目标用户的目标意图；
99.本技术实施例中，在通话过程中，不断与目标用户进行对话，具体的，基于通信连接获取目标用户的第一语音数据，并将所获取的目标用户的第一语音数据转换为第一文本数据。
100.具体的，对第一语音数据进行预处理，示例性的，预处理可以包括：保留第一语音数据中符合预设语音特征的音频信号，如保留第一语音数据中能够获取到音素的音频信号；和/或，删除所述第一语音数据中的静默语音信号，如去除因为语句之间的断句或者暂停而产生的静默语音信号。
101.进一步，对预处理后的第一语音数据进行分帧，获得至少两个音频帧，即将预处理后的第一语音数据切分为n个小段，一个小段称为一个音频帧。每帧的帧长，即是该小段音频信号的长度，比如可以是25ms。其中，分帧操作可以是使用移动窗函数来实现。
102.对该至少两个音频帧中的每个音频帧进行声学特征提取，获得每个音频帧对应的特征向量。其中，声学特征包括但不限于梅尔频率倒谱系数(mel
‑
frequency cepstral coefficients，mfcc)特征，即根据人耳的生理特性，把每一帧波形变成一个多维的特征向量，该特征向量包含了该帧语音信号的内容信息。第一语音数据就转换为了一个12行(假设声学特征是12维)、n列的一个矩阵，这里n为音频帧的总帧数。
103.根据每个音频帧对应的特征向量进行处理，确定每个音频帧对应哪一个状态的概率最大，即将该状态确定为该音频帧对应的状态，通常相邻若干音频帧对应的状态相同，即若干音频帧对应一个状态，每三个状态组合成一个音素，通常全部声母和韵母组成所有音素。可选的，若干个音素组成一个单词，从而得到该第一语音数据对应的第一文本数据。示例性的，可以将获得的至少两个音素输入语言模型进行组词处理，获得该至少两个音素对应的至少一个单词，从而获得该至少一个单词构成的第一文本数据，其中，该语言模型通过对大量文本信息进行训练，得到单个字或者词相互关联的概率。
104.当获得转换得到的第一文本数据之后，进一步将第一文本数据输入意图识别模型，获得目标用户的目标意图。具体的，本技术的意图识别模型可以参考c
‑
lstm经典模型，设计基于深度学习的意图识别模型。该意图识别模型输入为文本数据，输出为该文本数据所属不同意图的概率，该意图识别模型可以包括嵌入层、编码层以及输出层，嵌入层主要功能为生产词表示，编码层以词表示输入，完成对句子进行编码，输出句子向量，输出层的输入为编码层的句子表示，之后经过全连接，进行非线性的特征组合，输出分数向量。分数向量最终通过一个softmax层得到最后的输出类别的归一化后的概率向量，维度和意图标签种数一致，即该概率向量用于表示属于不同意图标签所对应意图的概率。
105.具体的，将该第一文本数据输入意图识别模型的嵌入层，生成词表示，即第一文本数据中各个分词对应的词向量；再将各个分词对应的词向量输入至所述编码层进行编码，生成句子向量；进一步将句子向量输入至输出层进行变换及计算，得到目标用户的目标意图，具体的，通过所述输出层的全连接层获得分数向量，并通过所述输出层的softmax层对所述分数向量进行归一化处理，获得概率向量，所述概率向量用于表示所述第一文本数据指示各个意图标签的概率；根据所述概率向量，获得所述目标用户的目标意图，所述目标意图是所述概率向量中概率最大的意图标签所对应的意图。
106.在一些可选的实施方式中，可以根据目标用户的目标意图，调整对该目标用户进行外呼的策略，比如，该目标用户的目标意图是拒绝，那么该目标用户的外呼策略中的外呼频率可以适当降低，或者，该目标用户的目标意图是感兴趣，那么该目标用户的外呼策略中的外呼频率可以适当增加。
107.s108，获取与所述断点状态关联的目标知识库，并从所述目标知识库中获取与所述目标意图对应的第二文本数据；
108.本技术实施例中，不同断点状态可以对应不同的回答文本，为了提高查找效率，不同断点状态分别关联不同的知识库，该知识库中预先存储在该种断点状态场景下，各种不同的意图所对应的回答文本，不同断点状态下，相同意图所对应的回答文本可以是不同的。比如，如果用户处于断点状态1，“对此产品感兴趣”的目标意图所对应的回答文本可以是“具体介绍如何进行实名认证，以及如何绑定银行卡，如何申请额度和消费”，如果用户处于断点状态4，“对此产品感兴趣”的目标意图所对应的回答文本可以是“具体介绍使用该额度进行消费时能够得到哪些优惠，以及具体的额度使用规则等等”。
109.s109，将所述第二文本数据转换为第二语音数据，并基于所述通信连接向所述目标用户对应终端发送所述第二语音数据。
110.本技术实施例中，可以将所获取的第二文本数据划分为至少两个词语块，并分别获取各个词语块所对应的音频段，根据各个词语块所对应的音频段构建第二语音数据，并向目标用户所对应的终端发送该第二语音数据。
111.在通话过程中不断循环执行步骤s106
‑
步骤s109，直到检测到目标用户的语音数据对应的文本数据中包含预设关键词时，断开与目标用户对应的终端之间的通信连接，该预设关键词可以包括但不限于“我考虑一下”“再见”等等。
112.进一步，可以输出各个用户的意图标签，从而让管理人员了解该用户的具体情况。
113.本技术实施例中，在用户使用目标应用程序产品过程中，如果处于某个断点状态，建立与该用户之间的通信连接，并获取该用户的语音数据，智能识别该用户的意图，从而根据用户具体所处的断点状态和用户的意图采取对应的回答话术与用户进行通信，不仅能让用户能够更加清楚的了解该目标应用程序产品的使用流程，还能够提高触达用户的效率，并且通过智能语音通信方式对处于断点状态的用户进行外呼，避免用户长时间停留在某个断点状态，从而让更多用户使用该目标程序产品，提高该目标应用程序产品的使用率。
114.请参照图2，为实施本技术基于意图识别模型的通信方法的系统架构图，该系统架构可以包括但不限于：对话平台、电话平台、客户服务平台以及外呼策略平台等等，该各个平台可以是通过软件或硬件的方式实现，下面结合各个平台举例阐述：
115.1)客户服务平台根据业务流程数据确定相应的断点客户名单，包含客户基本信息、所处断点状态、断点状态对应的业务信息等。
116.2)外呼策略平台根据不同断点状态管理如下内容：外呼调度策略，包括外呼时间、外呼频率等；外呼结果，即外呼客户的对应结果，按标签区分未接通、客户的各种意向、是否直接转人工等；接触管控，包括黑名单管理、触达时间段管理等；
117.3)对话平台支持会话管理，即根据具体断点状态确定对应的文本数据，以及根据用户的具体意图确定对应的回答文本。
118.4)ai模型采用机器学习、自然语言处理(nlp)等相关技术，对用户反馈的信息进行
分析，得出用户的语义或者意向标签，将该内容反馈至会话管理，智能触发对应的会话流程，即回答文本。
119.请参见图3，为本技术实施例提供了一种基于意图识别模型的通信装置的结构示意图。如图3所示，该基于意图识别模型的通信装置可以包括：
120.第一获取单10，用于获取目标应用程序产品的状态序列，所述状态序列包括依次连接的至少两个状态，所述至少两个状态是对所述目标应用程序产品的预设操作流程划分得到，所述预设操作流程所指示的一系列操作用于实现所述目标应用程序产品的功能；
121.确定单元11，用于确定处于断点状态的目标用户，所述断点状态为除所述状态序列的最后一个状态外的任一状态；
122.通信单元12，用于建立与所述目标用户对应终端之间的通信连接，并基于所述通信连接获取所述目标用户的第一语音数据；
123.第一转换单元13，用于将所述第一语音数据转换为第一文本数据；
124.意图识别单元14，用于将所述第一文本数据输入意图识别模型，获得所述目标用户的目标意图；
125.第二获取单元15，用于获取与所述断点状态关联的目标知识库，并从所述目标知识库中获取与所述目标意图对应的第二文本数据；
126.第二转换单元16，用于将所述第二文本数据转换为第二语音数据；
127.所述通信单元12还用于基于所述通信连接向所述目标用户对应终端发送所述第二语音数据。
128.在一种可能的设计中，该装置还包括：
129.第三获取单元，用于获取与所述断点状态对应的第三文本数据；
130.所述第二转换单元16还用于将所述第三文本数据转换为第三语音数据，其中，所述第一语音数据为针对所述第三语音数据的响应语音数据；
131.所述通信单元12还用于基于所述通信连接向所述目标用户对应终端发送所述第三语音数据。
132.在一种可能的设计中，所述意图识别模型包括嵌入层、编码层以及输出层；
133.所述意图识别单元14具体用于将所述第一文本数据输入所述嵌入层，获得所述第一文本数据中各个分词对应的词向量；
134.将所述各个分词对应的词向量输入所述编码层进行编码处理，获得句子向量；
135.将所述句子向量输入所述输出层，通过所述输出层的全连接层获得分数向量，并通过所述输出层的softmax层对所述分数向量进行归一化处理，获得概率向量，所述概率向量用于表示所述第一文本数据指示各个意图标签的概率；
136.根据所述概率向量，获得所述目标用户的目标意图，所述目标意图是所述概率向量中概率最大的意图标签所对应的意图。
137.在一种可能的设计中，所述第一转换单元13具体用于：
138.对所述第一语音数据进行分帧处理，获得至少两个音频帧；
139.分别对所述至少两个音频帧中的每个音频帧进行声学特征提取，获得所述每个音频帧对应的特征向量；
140.根据所述每个音频帧对应的特征向量，获得至少两个音素；
141.将所述至少两个音素输入语言模型进行组词处理，获得所述至少两个音素构建的至少一个单词，并将所述至少一个单词构成的文本确定为第一文本数据。
142.在一种可能的设计中，所述第二转换单元16具体用于：
143.将所述第二文本数据划分为至少两个词语块；
144.分别获取所述至少两个词语块中每个词语块所对应的音频段；
145.根据所述每个词语块对应的音频段，构建第二语音数据。
146.在一种可能的设计中，所述通信单元12具体用于：
147.获取所述目标用户对应的通讯标识，所述通讯标识包括电话号码或即时通讯账号；
148.通过所述通讯标识建立与所述目标用户对应终端之间的通信连接。
149.在一种可能的设计中，所述状态序列包括注册所述目标应用程序产品，通过所述目标应用程序产品进行进行实名认证，通过所述目标应用程序产品绑定银行卡，通过所述目标应用程序产品申请额度以及通过所述目标应用程序产品进行消费。
150.其中，图3所示装置实施例的具体描述可以参照前述图1或图2所示方法实施例的具体说明，在此不进行赘述。
151.请参照图4，为本技术实施例提供的一种计算机设备的结构示意图，如图4所示，该计算机设备1000可以包括：至少一个处理器1001，例如cpu，至少一个通信接口1003，存储器1004，至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。通信接口1003可选的可以包括标准的有线接口、无线接口(如wi
‑
fi接口)。存储器1004可以是高速ram存储器，也可以是非不稳定的存储器(non
‑
volatile memory)，例如至少一个磁盘存储器。存储器1004可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图4所示，作为一种计算机存储介质的存储器1004中可以包括操作系统、网络通信单元以及程序指令。
152.在图4所示的计算机设备1000中，处理器1001可以用于加载存储器1004中存储的程序指令，并具体执行以下操作：
153.获取目标应用程序产品的状态序列，所述状态序列包括依次连接的至少两个状态，所述至少两个状态是对所述目标应用程序产品的预设操作流程划分得到，所述预设操作流程所指示的一系列操作用于实现所述目标应用程序产品的功能；
154.确定处于断点状态的目标用户，所述断点状态为除所述状态序列的最后一个状态外的任一状态；
155.建立与所述目标用户对应终端之间的通信连接，并基于所述通信连接获取所述目标用户的第一语音数据；
156.将所述第一语音数据转换为第一文本数据，并将所述第一文本数据输入意图识别模型，获得所述目标用户的目标意图；
157.获取与所述断点状态关联的目标知识库，并从所述目标知识库中获取与所述目标意图对应的第二文本数据；
158.将所述第二文本数据转换为第二语音数据，并基于所述通信连接向所述目标用户对应终端发送所述第二语音数据。
159.需要说明的是，具体执行过程可以参见图1或图2所示方法实施例的具体说明，在
此不进行赘述。
160.本技术实施例还提供了一种计算机存储介质，所述计算机存储介质可以存储有多条指令，所述指令适于由处理器加载并执行如上述图1或图2所示实施例的方法步骤，具体执行过程可以参见图1或图2所示实施例的具体说明，在此不进行赘述。
161.在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时，全部或部分地产生按照本技术实施例该的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如dvd)、或者半导体介质(例如固态硬盘)等。
162.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，该流程可以由计算机程序来指令相关的硬件完成，该程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法实施例的流程。而前述的存储介质包括：rom或随机存储记忆体ram、磁碟或者光盘等各种可存储程序代码的介质。