语音处理方法、装置、设备、存储介质及程序与流程

1.本发明涉及智能语音技术领域，尤其涉及一种语音处理方法、装置、设备、存储介质及程序。

背景技术：

2.语音系统可以自动呼叫用户的客户端，并通过智能机器人与用户进行简单的语音交流。
3.目前，在语音系统向用户的客户端播放语音时，若语音系统识别到用户的客户端发送的语音，则语音系统暂停正在播放的语音。然而，若用户所处的环境中存在环境噪声，则会发生错误打断的情况，例如，在语音系统播放语音时，若用户未说话，但是用户所处的环境噪音较大，则语音系统会暂停播放的语音。这样导致语音处理的准确率较低。

技术实现要素：

4.本发明的主要目的在于提供一种语音处理方法、装置、设备、存储介质及程序，旨在解决现有技术中语音处理的准确率较低的技术问题。
5.第一方面，本技术实施例提供一种语音处理方法，该方法包括：
6.在向客户端播放第一应答语音的过程中，接收所述客户端发送的用户语音中的第一用户语音片段；
7.根据所述第一用户语音片段，暂停播放所述第一应答语音；
8.在接收到所述客户端发送的所述用户语音中的至少一个第二用户语音片段之后，若所述至少一个第二用户语音片段中的文本字符的数量小于或等于第二阈值，则继续播放所述第一应答语音。
9.在一种可能的实施方式中，若所述至少一个第二用户语音片段中的文本字符的数量小于或等于第二阈值，则继续播放所述第一应答语音，包括：
10.获取所述至少一个第二用户语音片段中的文本字符的第二数量，所述至少一个第二用户语音片段为所述用户语音中的第二个用户语音片段，或者，所述至少一个第二用户语音片段包括所述用户语音中除所述第一用户语音片段之外的其它至少两个用户语音片段；
11.若所述第二数量小于或等于所述第二阈值，则继续播放所述第一应答语音。
12.在一种可能的实施方式中，获取所述至少一个第二用户语音片段中的文本字符的第二数量，包括：
13.获取所述至少一个第二用户语音片段对应的用户文本片段；
14.将所述用户文本片段中包括的文本字符的数量确定为所述第二数量。
15.在一种可能的实施方式中，所述第一应答语音包括多个第一应答语音片段；继续播放所述第一应答语音，包括：
16.在所述多个第一应答语音片段中确定目标应答语音片段，所述目标应答语音片段
为暂停播放所述第一应答语音之前最后一个播放的所述第一应答语音片段；
17.从所述目标应答语音片段的下一个所述第一应答语音片段开始，继续播放所述第一应答语音。
18.在一种可能的实施方式中，暂停播放所述第一应答语音，包括：
19.确定当前正在播放的第一应答语音片段；
20.在将所述第一应答语音片段播放完成之后，暂停播放所述第一应答语音。
21.在一种可能的实施方式中，暂停播放所述第一应答语音之后，还包括：
22.在接收到多个用户语音片段之后，判断所述多个用户语音片段是否构成完整句子，所述多个用户语音片段包括所述第一用户语音片段和所述至少一个第二用户语音片段；
23.若是，则根据所述多个用户语音片段确定第二应答语音，并向所述客户端播放所述第二应答语音。
24.在一种可能的实施方式中，根据所述第一用户语音片段，暂停播放所述第一应答语音，包括：
25.获取所述第一用户语音片段中的文本字符的第一数量，并在所述第一数量大于或等于第一阈值时，暂停播放所述第一应答语音。
26.在一种可能的实施方式中，所述方法还包括：
27.若多个语音片段中的第二个用户语音片段中的文本字符的第三数量大于或等于所述第一阈值，则继续暂停播放所述第一应答语音。
28.第二方面，本技术实施例提供一种语音处理为装置，包括接收模块、暂停模块和播放模块，其中：
29.所述接收模块用于，在向客户端播放第一应答语音的过程中，接收所述客户端发送的用户语音中的第一用户语音片段；
30.所述暂停模块用于，根据所述第一用户语音片段，暂停播放所述第一应答语音；
31.所述播放模块用于，在接收到所述客户端发送的所述用户语音中的至少一个第二用户语音片段之后，若所述至少一个第二用户语音片段中的文本字符的数量小于或等于第二阈值，则继续播放所述第一应答语音。
32.在一种可能的实施方式中，所述播放模块具体用于：
33.获取所述至少一个第二用户语音片段中的文本字符的第二数量，所述至少一个第二用户语音片段为所述用户语音中的第二个用户语音片段，或者，所述至少一个第二用户语音片段包括所述用户语音中除所述第一用户语音片段之外的其它至少两个用户语音片段；
34.若所述第二数量小于或等于所述第二阈值，则继续播放所述第一应答语音。
35.在一种可能的实施方式中，所述播放模块具体用于：
36.获取所述至少一个第二用户语音片段对应的用户文本片段；
37.将所述用户文本片段中包括的文本字符的数量确定为所述第二数量。
38.在一种可能的实施方式中，所述播放模块具体用于：
39.在所述多个第一应答语音片段中确定目标应答语音片段，所述目标应答语音片段为暂停播放所述第一应答语音之前最后一个播放的所述第一应答语音片段；
40.从所述目标应答语音片段的下一个所述第一应答语音片段开始，继续播放所述第一应答语音。
41.在一种可能的实施方式中，所述暂停模块具体用于：
42.确定当前正在播放的第一应答语音片段；
43.在将所述第一应答语音片段播放完成之后，暂停播放所述第一应答语音。
44.在一种可能的实施方式中，所述暂停模块具体用于：
45.获取所述第一用户语音片段中的文本字符的第一数量，并在所述第一数量大于或等于第一阈值时，暂停播放所述第一应答语音。
46.在一种可能的实施方式中，所述装置还包括判断模块，所述判断模块用于：
47.在接收到多个用户语音片段之后，判断所述多个用户语音片段是否构成完整句子，所述多个用户语音片段包括所述第一用户语音片段和所述至少一个第二用户语音片段；
48.若是，则根据所述多个用户语音片段确定第二应答语音，并向所述客户端播放所述第二应答语音。
49.在一种可能的实施方式中，所述暂停模块还用于：
50.若多个语音片段中的第二个用户语音片段中的文本字符的第三数量大于或等于所述第一阈值，则继续暂停播放所述第一应答语音。
51.第三方面，本技术实施例提供一种语音处理设备，包括处理器和存储器；
52.所述存储器存储计算机执行指令；
53.所述处理器执行所述存储器存储的计算机执行指令，使得所述处理器执行如第一方面所述的语音处理方法。
54.第四方面，本技术实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当所述计算机执行指令被处理器执行时用于实现第一方面所述的语音处理方法。
55.第五方面，本技术实施例提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现第一方面所述的语音处理方法。
56.本发明实施例提供一种语音处理方法、装置、设备、存储介质及程序，在向客户端播放第一应答语音的过程中，接收客户端发送的用户语音中的第一用户语音片段，获取第一用户语音片段中的文本字符的第一数量，并在第一数量大于或等于第一阈值时，暂停播放第一应答语音，在接收到客户端发送的用户语音中的至少一个第二用户语音片段之后，若至少一个第二用户语音片段中的文本字符的数量小于或等于第二阈值，则继续播放第一应答语音。在上述方法中，在语音系统暂停播放第一应答语音时，语音系统还可以获取客户端发送的至少一个第二用户语音片段，若至少一个第二用户语音片段中的文本字符的数量小于或等于第二阈值，则说明语音系统之前接收的语音为环境噪音、用户语气词等连续性较差的音频，语音系统对第一应答语音的暂停为误判，此时，语音系统可以继续播放第一应答语音，以纠正语音系统之前的误判，这样可以提高语音系统的可靠性，进而提高语音处理的准确率。
附图说明
57.为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
58.图1为本技术实施例提供的一种语音系统的架构示意图；
59.图2为本技术实施例提供的一种语音处理方法的流程示意图；
60.图3为本技术实施例提供的一种暂停播放应答语音的过程示意图；
61.图4为本技术实施例提供的一种继续播放第一应答语音的过程示意图；
62.图5为本技术实施例提供的另一种语音处理方法的流程示意图；
63.图6为本技术实施例提供的一种语音处理方法的过程示意图；
64.图7为本技术实施例提供的一种语音处理装置的结构示意图；
65.图8为本技术实施例提供的另一种语音处理装置的结构示意图；
66.图9为本技术提供的语音处理设备的硬件结构示意图。
67.本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。
具体实施方式
68.下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。
69.下面，结合图1，对本技术涉及的语音系统的架构进行说明。
70.图1为本技术实施例提供的一种语音系统的架构示意图。请参见图1，包括语音系统和客户端。其中，语音系统与客户端通信连接。客户端可以为用户使用的移动终端，如手机、电脑、平板电脑等设备。语音系统中包括语音获取设备、语音识别设备、语音打断设备和语义判断设备。语音获取设备与语音识别设备连接，语音识别设备分别与语音打断设备和语义判断设备连接。
71.请参见图1，语音系统中的语音获取设备可以获取用户的客户端发送的用户语音，并向语音识别设备(asr)发送用户语音。语音识别设备可以将用户语音转换为对应的用户文本，并向语义判断设备或者语音打断设备发送用户文本。语义判断设备可以根据用户语音对应的用户文本，生成对应的应答语音，在语音判断设备生成对应的应答语音时，语音系统可以向客户端发送应答语音。语音打断设备可以根据用户语音对应的用户文本，确定是否暂停正在播报的应答语音，语音打断设备还可以恢复播放已经暂停的应答语音。
72.在相关技术中，语音系统向用户的客户端播放语音时，若语音系统识别到用户的客户端发送的语音，则语音系统暂停正在播放的语音。例如，在语音系统向用户的客户端播放上一段用户语音对应的应答语音时，若语音系统接收到客户端发送的新的用户语音，则语音系统暂停播放应答语音。但是，若用户所处的环境中存在环境噪声，则会发生错误打断的情况。例如，若用户未说话，但用户所处的环境噪音较大，或者，用户发出无意义的语气词，则语音系统会暂停播放应答语音。这样导致语音处理的准确率较低。
73.为了解决相关技术中语音系统对语音暂停的及时性较差的技术问题，本技术实施例提供一种语音处理方法，在向客户端播放第一应答语音的过程中，接收客户端发送的用户语音中的第一用户语音片段，获取第一用户语音片段中的文本字符的第一数量，并在第一数量大于或等于第一阈值时，暂停播放第一应答语音，在接收到客户端发送的用户语音中的至少一个第二用户语音片段之后，获取至少一个第二用户语音片段中的文本字符的第二数量，其中第二用户语音片段可以为用户语音中的第二个用户语音片段，或者，用户语音中除第一用户语音片段之外的其它至少两个用户语音片段，若第二数量小于或等于所述第二阈值，则继续播放第一应答语音。这样，在语音系统向客户端播放应答语音时，若语音系统接收到用户发送的新的语音，并在第一个语音片段中识别出足够的文本字符，则语音系统暂停应答语音的播放，提高语音暂停的及时性，并且，语音系统还可以获取客户端发送的至少一个第二用户语音片段，若至少一个第二用户语音片段中的文本字符的数量小于或等于第二阈值，则说明语音系统之前接收的语音为环境噪音、用户语气词等连续性较差的音频，语音系统对第一应答语音的暂停为误判，此时，语音系统可以继续播放第一应答语音，以纠正语音系统之前的误判，这样可以提高语音系统的可靠性，进而提高语音处理的准确率。
74.下面以具体地实施例对本技术的技术方案以及本技术的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本技术的实施例进行描述。
75.图2为本技术实施例提供的一种语音处理方法的流程示意图。请参见图2，该方法可以包括：
76.s201、在向客户端播放第一应答语音的过程中，接收客户端发送的用户语音中的第一用户语音片段。
77.本技术实施例的执行主体可以为语音系统，也可以为设置在语音系统中的语音处理装置，语音处理装置可以通过软件实现，也可以通过软件和硬件的结合实现。
78.语音系统中包括语音获取设备、语音识别设备、语音打断设备和语义判断设备。可选的，语音获取设备用于获取用户的客户端发送的用户语音。语音识别设备可以将用户语音转换为对应的用户文本。例如，语音识别设备可以为安装有自动语音识别技术(automatic speech recognition，asr)的设备。语音打断设备可以打断语音系统正在播放的语音，并且可以恢复播放已打断的语音。语义判断设备可以生成用户文本对应的应答文本。例如，语音判断设备可以安装多轮会话管理(dialog management，dm)系统和自然语言理解(natural language understanding,nlu)系统，通过dm和nlu生成应答文本。
79.可选的，客户端可以为用户的手机、电脑等设备。第一应答语音为客户端向语音系统发送的用户语音对应的应答语音。例如，在实际应用的过程中，语音系统可以实时的获取用户的客户端发出的用户语音，并生成用户语音对应的应答语音。
80.第一用户语音片段可以为用户语音对应的第一个语音片段。可选的，在客户端向语音系统发送用户语音时，客户端可以将用户语音分成多个语音片段进行发送。例如，用户使用客户端向语音系统发送语音时，客户端在获取20毫秒的用户语音片段时，向语音系统发送该语音片段。例如，在实际应用过程中，用户通过客户端发送的语音时长较长(大于20毫秒)，因此，客户端每接收到预设时长(20毫秒)的语音片段时，客户端向语音系统发送该
语音片段，这样客户端可以将用户语音拆分为多个语音段片，并按照语音片段的获取顺序向语音系统发送多个语音片段。
81.可选的，在客户端向语音系统发送用户语音时，客户端向语音系统发送的第一个语音片段，为该用户语音对应的第一用户语音片段。例如，用户语音中包括语音片段a、语音片段b和语音片段c，若客户端向语音系统发送语音片段的顺序为语音片段a
‑
语音片段b
‑
语音片段c，则语音片段a为该段用户语音对应的第一用户语音片段。
82.s202、根据第一用户语音片段，暂停播放第一应答语音。
83.可选的，可以根据如下可行的实现方式暂停播放第一应答语音：获取第一用户语音片段中的文本字符的第一数量，并在第一数量大于或等于第一阈值时，暂停播放第一应答语音。可选的，文本字符为第一用户语音片段中的字符，第一数量为第一用户语音片段中的文本字符的数量。例如，若第一用户语音片段中包括1个文本字符，则第一数量为1；若第一用户语音片段中包括10个文本字符，则第一数量为10。例如，在第一阈值为1时，若第一用户语音片段中的文本字符的数量大于或等于1，则语音系统暂停播放第一应答语音。例如，在语音系统正在向用户的客户端播放应答语音时，若语音系统接收到第一用户语音片段，且第一用户语音片段对应的文本中的字符数量大于第一阈值，则语音系统暂停正在向用户的客户端播放的应答语音。
84.可选的，语音系统可以根据第一用户语音片段，确定文本字符的第一数量。例如，语音系统中的语音识别设备通过语音获取设备获取第一用户语音片段时，语音识别设备可以将第一用户语音片段转换为第一用户语音片段对应的用户文本，进而通过用户文本确定文本字符的第一数量。例如，若语音识别设备获取的第一用户语音片段为语音“今天天气怎么样”，则语音识别设备可以将该语音转换为文本“今天天气怎么样”，进而确定该文本中包括7个文本字符。
85.可选的，语音识别设备可以为安装ars的设备。在实际应用过程中，语音识别设备可以持续的将语音片段转换成json格式的文本识别结果，文本识别结果中包括语音片段对应的语音文本中的字符数量。
86.可选的，暂停播放第一应答语音的具体过程为：确定当前正在播放的第一应答语音片段。其中，第一应答语音中包括多个第一应答语音片段。例如，第一应答语音中可以包括第一应答语音片段1、第一应答语音片段2和第一应答语音片段3。
87.将第一应答语音片段播放完成之后，暂停播放第一应答语音。例如，第一应答语音中包括第一应答语音片段1和第一应答语音片段2，若语音系统正在播放第一应答语音片段1，则语音系统播放完第一应答语音片段1后，停止播放第一应答语音片段2。
88.下面，结合图3，对暂停播放应答语音的过程进行说明。
89.图3为本技术实施例提供的一种暂停播放应答语音的过程示意图。请参见图3，包括：客户端和语音系统。其中，语音系统根据从客户端接收到的用户语音，生成用户语音对应的10秒的应答语音，并向客户端播放10秒的应答语音。
90.请参见图3，在语音系统向客户端播放应答语音3秒之后，语音系统中剩余播放的应答语音的时长为7秒，此时，客户端向语音系统发送第一用户语音片段，语音系统接收第一用户语音片段，并将第一用户语音片段转换为文本信息，并确定文本信息中的文本字符数量大于第一阈值，语音系统暂停播放剩余的7秒应答语音。
91.s203、在接收到客户端发送的用户语音中的至少一个第二用户语音片段之后，若至少一个第二用户语音片段中的文本字符的数量小于或等于第二阈值，则继续播放第一应答语音。
92.可选的，若用户语音包括多个语音片段，则在语音系统获取第一用户语音片段之后，语音系统还可以获取至少一个第二用户语音片段。可选的，至少一个第二用户语音片段为用户语音中的第二个用户语音片段。例如，若用户语音中包括语音片段a和语音片段b，其中，语音片段a为第一个语音片段，语音片段b为第二个语音片段，则语音片段a为该用户语音中的第一用户语音片段，语音片段b为该用户语音中的第二用户语音片段。
93.可选的，至少一个第二用户语音片段包括用户语音中除第一用户语音片段之外的其它至少两个用户语音片段。例如，第二用户语音片段可以为用户语音中除第一用户语音片段之外的所有的用户语音片段。例如，若用户语音中包括语音片段a、语音片段b和语音片段c，其中，语音片段a为第一个语音片段，语音片段b为第二个语音片段，语音片段c为第三个语音片段，则语音片段a为用户语音中的第一用户语音片段，语音片段b和语音片段c为用户语音中的第二用户语音片段。
94.语音系统在接收到客户端发送的用户语音中的至少一个第二语音片段之后，若至少一个第二用户语音片段中的文本字符的数量小于或等于第二阈值，则继续播放第一应答语音。其中，第二阈值为预先设置的数量。例如，若至少一个第二用户语音片段中的文本字符数量为0，则语音系统继续播放第一应答语音。这样，在至少一个第二用户语音片段中的文本字符数量小于或等于第二阈值时，说明，语音系统根据第一用户语音片段的打断为误判，此时，语音系统可以在极短的时间内恢复播放第一应答语音，提高用户的体验，并且提高语音处理的可靠性。
95.可选的，可以根据如下可行的实现方式获取至少一个第二用户语音片段中的文本字符的第二数量：获取至少一个第二用户语音片段对应的用户文本片段。例如，语音系统中的语音识别设备接收到至少一个第二用户语音片段之后，语音系统可以将至少要给第二用户语音片段转换问用户文本片段。
96.将用户文本片段中包括的文本字符的数量确定为第二数量。例如，若第二用户语音片段对应的用户文本片段包括1个文本字符，则第二数量为1；若第二用户语音片段对应的用户文本片段包括10个文本字符，则第二数量为10。
97.可选的，第一应答语音包括多个第一应答语音片段，可以根据如下可行的实现方式，继续播放第一应答语音：在多个第一应答语音片段中确定目标应答语音片段。其中，目标应答语音片段为暂停播放第一应答语音之前最后一个播放的第一应答语音片段。例如，第一应答语音中包括第一应答语音片段1和第一应答语音片段2，若语音系统暂停播放第一应答语音之前最后一个正在播放的第一应答语音片段为第一应答语音片段1，则将第一应答语音片段1确定为目标应答语音片段。
98.从目标应答语音片段的下一个第一应答语音片段开始，继续播放第一应答语音。例如，第一应答语音中包括第一应答语音片段1和第二应答语音片段2，若第一应答语音片段1为目标应答语音片段，且第一应答语音片段1在第一应答语音片段2之前，则在语音系统确定继续播放第一应答语音时，语音系统从第一应答语音片段2开始播放第一应答语音。
99.下面，结合图4，对继续播放第一应答语音的过程进行说明。
100.图4为本技术实施例提供的一种继续播放第一应答语音的过程示意图。请参见图4，包括客户端和语音系统。语音系统暂停播放应答语音，应答语音还剩余5秒未播放。在语音系统暂停播放应答语音时，语音系统接收客户端发送的第二用户语音片段，并将第二用户语音片段转换为用户文本片段。语音系统确定用户文本片段中的文本字符数量小于第二阈值，语音系统向客户端播放剩余5秒的应答语音。
101.本技术实施例提供一种语音处理方法，在向客户端播放第一应答语音的过程中，接收客户端发送的用户语音中的第一用户语音片段，获取第一用户语音片段中的文本字符的第一数量，并哎第一数量大于或等于第一阈值时，确定当前正在播放的第一应答语音片段，在将第一应答语音片段播放完成之后，暂停播放第一应答语音，在接收到客户端发送的用户语音中的至少一个第二用户语音片段之后，若至少一个第二用户语音片段中的文本字符的数量小于或等于第二阈值，则在多个第一应答语音片段中中确定暂停播放第一应答语音之前最后一个播放的第一应答语音片段，并从下一个第一应答语音片段开始，继续播放第一应答语音。根据上述方法，在语音系统向客户端播放第一应答语音时，若语音系统在识别出第一语音片段对应的文本字符数量大于或等于第一阈值时，则说明客户端有语音输入，此时，语音系统暂停播放第一应答语音，提高语音暂停的及时性，并且在第一应答语音暂停时，语音系统根据至少一个第二语音片段对应的文本字符数量，准确的确定语音系统接收的新的用户语音是否为环境噪音、用户语音词等连续性较差的音频，若是，则语音系统确定暂停播放应答语音为误判，语音系统在暂停播放的位置继续播放应答语音，以纠正语音系统之前的误判，这样可以提高语音处理的可靠性和语音处理的准确率。
102.在图2所示的实施例的基础上，下面，结合图5，对上述语音处理方法进行详细的说明。
103.图5为本技术实施例提供的另一种语音处理方法的流程示意图。请参见图5，该方法包括：
104.s501、在向客户端播放第一应答语音的过程中，接收客户端发送的用户语音中的第一用户语音片段。
105.需要说明的是，步骤s501的执行过程可以参照步骤s201，本技术实施例在此不再进行赘述。
106.s502、获取第一用户语音片段中的文本字符的第一数量，并根据第一数量，暂停播放第一应答语音。
107.可选的，在第一用户语音片段中的文本字符的第一数量大于或等于第一阈值时，语音系统暂停播放第一应答语音。
108.可选的，语音系统还可以根据第一用户语音片段确定第一用户语音片段对应的用户语音的完成度。其中，完成度用于指示用户语音是否结束。例如，通过语音系统中的语音识别设备对第一用户语音片段进行文本转换，并对转换得到的用户文本片段进行完成度识别，若语音识别设备输出的完成度指示用户语音未完成，则语音系统继续获取用户语音对应的第二用户语音片段，若语音识别设备输出的完成度指示用户语音已完成，则语音识别设备向语义判断设备发送该第一用户语音片段对应的用户文本，语义识别设备生成该用户文本对应的应答语音，并向客户端播放应答语音。
109.可选的，在语音系统暂停播放第一应答语音时，若语音系统获取的多个语音片段
中的第二个用户语音片段中的文本字符的第三数量大于或等于第一阈值，则继续暂停播放第一应答语音。例如，语音系统获取的用户语音包括语音片段a和语音片段b，语音片段a为第一个语音片段，语音片段b为第二个语音片段，若语音系统根据语音片段a暂停播放应答语音，且语音片段b对应的用户文本的文本字符的第三数量大于或等于第一阈值，则语音系统继续暂停播放第一应答语音。
110.s503、接收多个用户语音片段，并判断多个用户语音片段是否构成完整句子。
111.其中，多个用户语音片段包括第一用户语音片段和至少一个第二用户语音片段。完整句子为对用户的意图可以识别的句子。例如，在语音系统接收多个用户语音片段时，若语音系统根据多个用户语音片段可以获取用户语音对应的用户一体，则多个语音片段构成完整句子。可选的，语音系统中的语音识别设备为安装asr技术的设备，通过asr技术可以确定多个语音片段是否可以构成完整的句子。
112.s504、若是，则根据多个用户语音片段确定第二应答语音，并向客户端播放第二应答语音。
113.可选的，若多个用户语音片段可以构成完整句子，则语音系统根据多个用户语音片段，确定第二应答语音，并向客户端播放第二应答语音。例如，在多个用户语音片段可以构成完整句子时，语音识别设备可以向语义判断设备发送多个用户语音片段对应的用户文本，语义判断设备可以根据用户文本，生成对应的应答文本，并将应答文本转换为第二应答语音，在第二应答语音转换成功时，语音系统向客户端播放第二应答语音。
114.本技术实施例提供一种语音处理方法，在向客户端播放第一应答语音的过程中，接收客户端发送的用户语音中的第一用户语音片段，获取第一用户语音片段中的文本字符的第一数量，并根据第一数量，暂停播放第一应答语音，接收多个用户语音片段，并判断多个用户语音片段是否构成完整句子，若是，则根据多个用户语音片段确定第二应答语音，并向客户端播放第二应答语音。根据上述方法，在语音系统暂停播放第一应答语音之后，若语音系统接收到的多个用户语音片段可以构成完整的句子，则语音系统可以生成对应的第二应答语音，并向客户端播放第二应答语音，这样，语音系统可以在停止播放第一应答语音时，及时的获取第二应答语音，并播放第二应答语音，进而提高语音处理的可靠性和语音处理的及时性。
115.在上述任意一个实施例的基础上，下面，结合图6，对上述语音处理方法的过程进行说明。
116.图6为本技术实施例提供的一种语音处理方法的过程示意图。请参见图6，包括客户端和语音系统。其中，语音系统正在向客户端发送应答语音。应答语音包括语音片段1、语音片段2和语音片段3,。语音片段1的播放时长为1秒，语音片段2的播放时长为1秒，语音片段3的播放时长为1秒。
117.请参见图6，在语音系统向客户端播放应答语音1.5秒之后，客户端向语音系统发送第一用户语音片段，语音系统将第一用户语音片段转换为第一用户文本片段，并获取第一用户文本片段中的文本字符的数量，在文本字符数量大于第一阈值时，语音系统将语音片段2确定为目标语音片段，并在播放完语音片段2时，暂停播放应答语音。
118.请参见图6，在语音系统暂停播放应答语音之后，客户端向语音系统发送第二用户语音片段，语音系统将第二用户语音片段转换为第二用户文本片段，并获取第二用户文本
片段中的文本字符数量，在文本字符数量小于第二阈值时，语音系统确定恢复播放应答语音，语音系统向客户端播放语音片段3。这样，在语音系统向客户端播放应答语音时，若语音系统在识别出第一语音片段对应的文本字符数量大于或等于第一阈值时，则说明客户端有语音输入，此时，语音系统暂停播放应答语音，提高语音暂停的及时性，并且在应答语音暂停时，语音系统根据第二语音片段对应的文本字符数量，确定客户端输入的语音是否为环境噪音或用户无意义的语气词等不连续的音频，若是，则语音系统确定暂停播放应答语音为误判，此时，语音系统在暂停播放的位置重新播放应答语音，以纠正语音系统之前的误判，这样可以语音处理的可靠性和准确率。
119.图7为本技术实施例提供的一种语音处理装置的结构示意图。请参见图7，所述语音处理装置10包括接收模块11、暂停模块12和播放模块13，其中：
120.所述接收模块11用于，在向客户端播放第一应答语音的过程中，接收所述客户端发送的用户语音中的第一用户语音片段；
121.所述暂停模块12用于，根据所述第一用户语音片段，暂停播放所述第一应答语音；
122.所述播放模块13用于，在接收到所述客户端发送的所述用户语音中的至少一个第二用户语音片段之后，若所述至少一个第二用户语音片段中的文本字符的数量小于或等于第二阈值，则继续播放所述第一应答语音。
123.在一种可能的实施方式中，所述播放模块13具体用于：
124.获取所述至少一个第二用户语音片段中的文本字符的第二数量，所述至少一个第二用户语音片段为所述用户语音中的第二个用户语音片段，或者，所述至少一个第二用户语音片段包括所述用户语音中除所述第一用户语音片段之外的其它至少两个用户语音片段；
125.若所述第二数量小于或等于所述第二阈值，则继续播放所述第一应答语音。
126.在一种可能的实施方式中，所述播放模块13具体用于：
127.获取所述至少一个第二用户语音片段对应的用户文本片段；
128.将所述用户文本片段中包括的文本字符的数量确定为所述第二数量。
129.在一种可能的实施方式中，所述播放模块具体用于：
130.在所述多个第一应答语音片段中确定目标应答语音片段，所述目标应答语音片段为暂停播放所述第一应答语音之前最后一个播放的所述第一应答语音片段；
131.从所述目标应答语音片段的下一个所述第一应答语音片段开始，继续播放所述第一应答语音。
132.在一种可能的实施方式中，所述暂停模块12具体用于：
133.确定当前正在播放的第一应答语音片段；
134.在将所述第一应答语音片段播放完成之后，暂停播放所述第一应答语音。
135.在一种可能的实施方式中，所述暂停模块具体用于：
136.获取所述第一用户语音片段中的文本字符的第一数量，并在所述第一数量大于或等于第一阈值时，暂停播放所述第一应答语音。本技术实施例提供的语音处理装置可以执行上述方法实施例所示的技术方案，其实现原理以及有益效果类似，此处不再进行赘述。
137.本技术实施例所示的语音处理装置可以为芯片、硬件模组、处理器等。当然，语音处理装置可以为其它形态，本技术实施例对此不作具体限定。
138.图8为本技术实施例提供的另一种语音处理装置的结构示意图。在图7所示的实施例的基础行，请参见图8，所述语音处理装置还包括判断模块14，所述判断模块用于：
139.在接收到多个用户语音片段之后，判断所述多个用户语音片段是否构成完整句子，所述多个用户语音片段包括所述第一用户语音片段和所述至少一个第二用户语音片段；
140.若是，则根据所述多个用户语音片段确定第二应答语音，并向所述客户端播放所述第二应答语音。
141.在一种可能的实施方式中，所述暂停模块12还用于：
142.若多个语音片段中的第二个用户语音片段中的文本字符的第三数量大于或等于所述第一阈值，则继续暂停播放所述第一应答语音。
143.本技术实施例提供的语音处理装置可以执行上述方法实施例所示的技术方案，其实现原理以及有益效果类似，此处不再进行赘述。
144.本技术实施例所示的语音处理装置可以为芯片、硬件模组、处理器等。当然，语音处理装置可以为其它形态，本技术实施例对此不作具体限定。
145.图9为本技术提供的语音处理设备的硬件结构示意图。请参见图9，该语音处理设备20可以包括：处理器21和存储器22，其中，处理器21和存储器22可以通信；示例性的，处理器21和存储器22通过通信总线23通信，所述存储器22用于存储程序指令，所述处理器21用于调用存储器中的程序指令执行上述任意方法实施例所示的语音处理方法。
146.可选的，语音处理设备20还可以包括通信接口，通信接口可以包括发送器和/或接收器。
147.可选的，上述处理器可以是中央处理单元(central processing unit，cpu)，还可以是其他通用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本技术所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。
148.本技术提供一种可读存储介质，所述可读存储介质上存储有计算机程序；所述计算机程序用于实现如上述任意实施例所述的语音处理方法。
149.本技术实施例提供一种计算机程序产品，所述计算机程序产品包括指令，当所述指令被执行时，使得计算机执行上述语音处理方法。
150.实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一可读取存储器中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储器(存储介质)包括：只读存储器(英文：read
‑
only memory，缩写：rom)、ram、快闪存储器、硬盘、固态硬盘、磁带(英文：magnetic tape)、软盘(英文：floppy disk)、光盘(英文：optical disc)及其任意组合。
151.本技术实施例是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程终端设备的处理单元以产生一个机器，使得通过计算机或其他可编程终端设备的处理单元执行的指令产生用于
实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
152.这些计算机程序指令也可存储在能引导计算机或其他可编程终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
153.这些计算机程序指令也可装载到计算机或其他可编程终端设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
154.显然，本领域的技术人员可以对本技术实施例进行各种改动和变型而不脱离本技术的精神和范围。这样，倘若本技术实施例的这些修改和变型属于本技术权利要求及其等同技术的范围之内，则本技术也意图包含这些改动和变型在内。
155.在本技术中，术语“包括”及其变形可以指非限制性的包括；术语“或”及其变形可以指“和/或”。本技术中术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。本技术中，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
156.以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。