机器人响应方法、装置、电子设备及存储介质与流程

1.本发明涉及语音识别技术领域，尤其涉及一种机器人响应方法、装置、电子设备及存储介质。

背景技术：

2.人工智能产品在日常生活中的渗透率越来越高，语音识别作为人机自然交互的基本途径，在智能家居、智能汽车、智能客服等场景下有着广阔的应用。
3.现有技术中，在智能客服场景下，用户侧并不是总在占用通话信道，根据传统电话业务的统计，语音机器人外呼场景下，用户实际占用通话信道的时间不会超过整个通话时间的20%，主要包括以下几个方面的原因：一是正在听对方说话；二是可能正在思考、稍事休息等原因引起的停顿；三是说话中间的停顿，如犹豫、呼吸、口吃等。为了更好地做出反馈，在语音识别过程中需要进行语音断句，无论是基于能量还是基于模型亦或是能量+模型的方案都是首先对语音进行分帧，如公开专利cn109448704a、cn109754809b、cn108090038a、cn112927679a、cn108292500a和cn110364148a，在这些专利文件中通过计算语音特征后，将语音特征作为模型的输入，这种并不能准确识别出当前帧的具体的标点符号信息。
4.而且模型的输出一个二分类的结果：当前帧为人声(speech)或非人声(noise)，在检测出非人声且非人声的时长大于固定阈值时，机器人则进行下一轮对话。如公开专利cn112825248a、cn112995419a、cn108257616a和cn111583912a，专利中这种采用固定阈值的方式，并没有考虑到语义的情况，因为有的人说话快，有的人说话慢，有的人是在犹豫中，特别是在报电话号码、设备号、身份证等较长信息的时候，短停顿是比较正常的现象，但固定阈值导致机器人反应不够迅速，用户体验较差。

技术实现要素：

5.本发明提供一种机器人响应方法、装置、电子设备及存储介质，用以解决现有技术中标点识别不够准确、且固定阈值导致用户体验较差的缺陷，实现提高标点识别的准确率、人机交互时机器人响应及时、提升用户体验的目的。
6.第一方面，本发明提供一种机器人响应方法，包括：获取待识别语音；所述待识别语音为与机器人实时沟通中截取到的语音；将所述待识别语音输入预先训练的语音识别模型中进行识别，获取识别结果与所述识别结果所对应的音素时长；将所述识别结果与所述识别结果所对应的音素时长输入预先训练的标点模型中，确定所述待识别语音的标点符号；根据所述待识别语音的标点符号和所述识别结果所对应的音素时长，确定所述待识别语音所对应的机器人的等待时长；所述标点模型是根据第一样本语音、所述第一样本语音对应的样本文本、第一标签信息以及第二样本文本、所述第二样本文本对应的样本语音、第二标签信息进行训练得
到的；其中，所述第一样本语音为中间带有停顿的样本语音，所述第二样本文本对应的样本语音为中间带有停顿的样本文本经过语音合成所得到的样本语音。
7.进一步，根据本发明提供的机器人响应方法，所述将所述识别结果与所述识别结果所对应的音素时长输入预先训练的标点模型中，确定所述待识别语音的标点符号，包括：将所述识别结果中各个字所对应的音素时长或各个分词所对应的音素时长，以及所述识别结果输入预先训练好的标点模型中，确定所述待识别语音的标点符号。
8.进一步，根据本发明提供的机器人响应方法，所述根据所述待识别语音的标点符号和所述识别结果所对应的音素时长，确定所述待识别语音所对应的机器人的等待时长，包括：计算所述识别结果的平均音素时长，得到所述识别结果的平均音素时长的目标值；根据预设的标点符号的类别和所述待识别语音的标点符号，判断所述待识别语音的标点符号的类别；在所述待识别语音的标点符号属于第一类别中的标点符号，且所述目标值小于或等于第一阈值的情况下，确定第一等待时长为机器人的等待时长。
9.进一步，根据本发明提供的机器人响应方法，所述根据所述待识别语音的标点符号和所述识别结果所对应的音素时长，确定所述待识别语音所对应的机器人的等待时长，还包括：在所述待识别语音的标点符号属于第一类别中的标点符号，且所述目标值大于第一阈值且小于第二阈值的情况下，确定第二等待时长为机器人的等待时长。
10.进一步，根据本发明提供的机器人响应方法，所述根据所述待识别语音的标点符号和所述识别结果所对应的音素时长，确定所述待识别语音所对应的机器人的等待时长，还包括：在所述待识别语音的标点符号属于第一类别中的标点符号，且所述目标值大于或等于第二阈值的情况下，确定第三等待时长为机器人的等待时长；其中，所述第二阈值大于所述第一阈值。
11.进一步，根据本发明提供的机器人响应方法，所述根据所述待识别语音的标点符号和所述识别结果所对应的音素时长，确定所述待识别语音所对应的机器人的等待时长，还包括：在所述待识别语音的标点符号属于第二类别中的标点符号的情况下，确定第三等待时长为机器人的等待时长。
12.进一步，根据本发明提供的机器人响应方法，在所述获取待识别语音之前，所述方法还包括：获取第一样本语音以及第一标签信息；其中，所述第一样本语音为中间带有停顿的样本语音；对所述第一样本语音进行语音识别处理，获取所述第一样本语音所对应的第一样本文本；基于所述第一样本语音、第一样本文本以及第一标签信息训练标点模型；和，
获取第二样本文本以及第二标签信息；对所述第二样本文本进行语音合成处理，获取所述第二样本文本所对应的第二样本语音；其中，所述第二样本语音为中间带有停顿的第二样本文本经过语音合成得到的样本语音；基于所述第二样本语音、第二样本文本以及第二标签信息训练标点模型。
13.第二方面，本发明还提供一种机器人响应装置，包括：获取模块，用于获取待识别语音；所述待识别语音为与机器人实时沟通中截取到的语音；识别模块，用于将所述待识别语音输入预先训练的语音识别模型中进行识别，获取识别结果与所述识别结果所对应的音素时长；输入模块，用于将所述识别结果与所述识别结果所对应的音素时长输入预先训练的标点模型中，确定所述待识别语音的标点符号；确定模块，用于根据所述待识别语音的标点符号和所述识别结果所对应的音素时长，确定所述待识别语音所对应的机器人的等待时长；所述标点模型是根据第一样本语音、所述第一样本语音对应的样本文本、第一标签信息以及第二样本文本、所述第二样本文本对应的样本语音、第二标签信息进行训练得到的；其中，所述第一样本语音为中间带有停顿的样本语音，所述第二样本文本对应的样本语音为中间带有停顿的样本文本经过语音合成所得到的样本语音。
14.第三方面，本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述机器人响应方法的步骤。
15.第四方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述机器人响应方法的步骤。
16.本发明提供的一种机器人响应方法、装置、电子设备及存储介质，通过将获取的待识别语音输入语音识别模型中，获取识别结果和识别结果对应的音素时长，并将得到的识别结果和识别结果对应的音素时长输入标点模型中，确定待识别语音的标点符号，然后根据标点符号和音素时长确定出机器人的等待时长。本发明提供的机器人响应方法提高了标点识别的准确率，且能够自适应的调节机器人的等待时长，满足各种语速的用户，提升了用户体验。
附图说明
17.为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
18.图1是本发明提供的机器人响应方法的流程示意图；图2是本发明提供的机器人响应装置的结构示意图；图3是本发明提供的电子设备的结构示意图。
具体实施方式
19.为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
20.图1为本发明提供的机器人响应方法的流程示意图，如图1所示，本发明提供的机器人响应方法，具体包括以下步骤：步骤101：获取待识别语音；所述待识别语音为与机器人实时沟通中截取到的语音。
21.在本实施例中，待识别语音为用户与机器人实时沟通中截取到的语音信息。截取方式可以是采用字符串截取的方式，具体可以根据实际需要进行设定，在此不作具体限定。
22.需要说明的是，待识别语音数据流是实时输入语音识别模型中的，需要在用户与机器人交流沟通过程中获取中间状态的语音信息，中间状态是指实时输出的一种状态，如待识别语音1为“我在xx上班”，语音表达完成需要时间为4s，在这4s之前的数据都属于中间状态语音数据。其中，在不同的应用领域，待识别语音为所属应用领域的语音信息，在此不作具体限定。
23.步骤102：将所述待识别语音输入预先训练的语音识别模型中进行识别，获取识别结果与所述识别结果所对应的音素时长。
24.在本实施例中，在将步骤101中获取到的待识别语音数据输入预先训练好的语音识别模型中，得到识别结果和识别结果所对应的音素时长，其中，识别结果为待识别语音所对应的文本数据，将识别结果记为p1、p2、p3
…
pn，识别结果所对应的音素时长为文本数据所对应的音素时长，记为t1、t2、t3
…
tn，具体可以是文本数据中每个字的音素时长，也可以是每个分词的音素时长，在此不作具体限定。
25.需要说明的是，语音识别模型是采用现有技术中的训练方式训练完成的，具体的训练方式在此不作详细介绍。
26.步骤103：将所述识别结果与所述识别结果所对应的音素时长输入预先训练的标点模型中，确定所述待识别语音的标点符号。
27.在本实施例中，将得到的识别结果与识别结果所对应的音素时长数据输入标点模型中，为待识别语音确定出相应的标点符号。标点符号是指每句话句尾所对应的符号，如逗号、句号、感叹号、问号等。如待识别语音1的文本数据为“我需要查询一下电费的余额。”，得到的待识别语音1所对应的识别结果为“p1（我）p2（需要）p3（查询）p4（一下）p5（电费）p6（的）p7（余额）”，该识别结果所对应的音素时长分别为“t1（2s）、t2（5s）、t3（5s）、t4（3s）、t5（6s）、t6（3s）、t7（8s）”，将上述得到的结果输入标点模型中，为待识别语音1确定标点符号为句号。
28.需要说明的是，本实施例中标点模型为基于时长停顿信息确定标点符号的模型，标点模型是根据第一样本语音、第一样本语音对应的样本文本、第一标签信息以及第二样本文本、第二样本文本所对应的样本语音、第二标签信息进行训练得到的。其中，第一样本语音为中间带有停顿的样本语音，第二样本文本所对应的样本语音为中间带有停顿的样本文本经过语音合成所得到的样本语音，其中，无论是第一样本语音中所带有的停顿，还是第
二样本文本中间所带有的停顿均是指两句话之间所包含的正常停顿，如我今天加班，晚点回家。中间逗号表示的是两句话之间的正常停顿信息。标点模型的训练过程见下述具体实施例，在此不作详细介绍。
29.步骤104：根据所述待识别语音的标点符号和所述识别结果所对应的音素时长，确定所述待识别语音所对应的机器人的等待时长。
30.在本实施例中，根据上述步骤中确定的标点符号和得到的音素时长信息确定出机器人的等待时长，机器人根据确定的等待时长迅速做出调整，比如，根据某一用户的说话语速，确定出该用户在与机器人交互过程中得到的等待时长为10s，由于机器人在与上一个用户交流过程中确定的等待时长为20s，机器人根据新的等待时长迅速做出调整，将等待时长由原来的20s自适应修改为10s。需要说明的是，识别结果所对应的音素时长可以是识别结果中各个字的音素时长，也可以是识别结果中各个分词的音素时长，具体可以根据实际需要进行设定，在此不作具体限定。
31.需要说明的是，机器人的等待时长是指机器人的反应时长，用于机器人根据通话用户的内容确定出相应回复内容的时间，现有技术中将机器人的反应时长设定为固定阈值，不能根据用户的实际情况进行相应的调节变化，在本发明实施例中，机器人的等待时长是可以随着用户的实际情况进行调整的，等待时长不是固定阈值，可以实现自适应调节。
32.根据本发明提供的机器人响应方法，通过先将获取的待识别语音输入预先训练的语音识别模型中进行识别，获取识别结果与识别结果所对应的音素时长，然后将识别结果与识别结果所对应的音素时长输入预先训练的标点模型中，确定出待识别语音的标点符号，根据标点符号和识别结果所对应的音素时长确定出机器人的等待时长，本发明提供的机器人响应方法提高了标点识别的准确率，且能够自适应的调节机器人的等待时长，满足各种语速的用户，提升了用户体验。
33.基于上述任一实施例，在本实施例中，所述将所述识别结果与所述识别结果所对应的音素时长输入预先训练的标点模型中，确定所述待识别语音的标点符号，包括：将所述识别结果中各个字所对应的音素时长或各个分词所对应的音素时长，以及所述识别结果输入预先训练好的标点模型中，确定所述待识别语音的标点符号。
34.在本实施例中，是将识别结果中各个字所对应的音素时长或各个分词所对应的音素时长以及识别结果的文本数据输入预先训练好的标点模型中，确定出待识别语音的标点符号。需要说明的是，用户的语速不同，每个字或每个分词所对应的音素时长也不同，有可能相同的一句话，用户的语速不同、语义不同，得到的识别结果所对应的音素时长不同，最后确定的标点符号也不同。标点模型可以根据得到的识别结果与识别结果所对应的音素时长确定出待识别语音的标点符号。其中，标点模型的训练过程见下述具体实施例，在此不作具体限定。
35.根据本发明提供的机器人响应方法，通过将得到的待识别语音的识别结果中各个字所对应的音素时长或各个分词所对应的音素时长输入标点模型中，标点模型根据语义信息确定出待识别语音的标点符号。本实施例中考虑了用户的语义信息，确定出的标点符号更准确，为后续确定机器人的等待时长提供数据支持。
36.基于上述任一实施例，在本实施例中，所述根据所述待识别语音的标点符号和所述识别结果所对应的音素时长，确定所述待识别语音所对应的机器人的等待时长，包括：
计算所述识别结果的平均音素时长，得到所述识别结果的平均音素时长的目标值；根据预设的标点符号的类别和所述待识别语音的标点符号，判断所述待识别语音的标点符号的类别；在所述待识别语音的标点符号属于第一类别中的标点符号，且所述目标值小于或等于第一阈值的情况下，确定第一等待时长为机器人的等待时长。
37.在本实施例中，确定出识别结果的标点符号后，还需要根据识别结果中各个字或各个分词所对应的音素时长，计算出识别结果的平均音素时长，得到识别结果的平均音素时长的目标值d，目标值的计算公式为d=(t1+t2+t3+
…
tn)/n。如识别结果为“p1（我）p2（需要）p3（查询）p4（一下）p5（电费）p6（的）p7（余额）”，识别结果所对应的音素时长分别为“t1（2s）、t2（5s）、t3（5s）、t4（3s）、t5（6s）、t6（3s）、t7（8s）”，通过计算分析得到平均音素时长的目标值d=4.57s，将得到的目标值用于后续与预设阈值的比较，确定出机器人的等待时长中。
38.在本实施例中，需要预先根据训练结果统计训练集中的每句话的平均音素时长值d
agv
，根据统计的平均音素时长值设定阈值范围来确定出机器人不同的响应时间，分别设定为第一等待时长、第二等待时长、第三等待时长。在面对用户不同的语速情况时，机器人的响应情况分别为快速响应、中速响应和慢速响应，而且还需要预设标点符号的类别，第一类别用于表示语义结束标点符号的类别，第一类别中的标点符号可以是句号、问号、感叹号，第二类别用于表示非语义结束标点符号的类别，其中的标点符号可以是逗号。本实施例中将设定的标点符号的类别与预设的音素时长的范围阈值相结合，确定出机器人的等待时长。需要说明的是，在其他实施例中，标点符号还可以包含冒号、顿号等信息，标点符号的类别信息也可以根据实际需要进行设定，在此不作具体限定。
39.在本实施例中，根据标点符号的类别和预设的音素时长的阈值范围，第一阈值设置为0.8d
agv
、第二阈值为1.2d
agv
，假如某一用户在与机器人沟通交流中，在计算分析得到的目标值d小于0.8d
agv
时，说明该用户说话语速较快，机器人需要快速响应，降低等待时长；在计算分析得到的目标值d大于1.2d
agv
时，说明该用户说话语速较慢，机器人需要放慢响应速度，增大等待时长。其中，可以将机器人的等待时长根据阈值范围设定为快速响应的第一等待时长t
f
、中速响应的第二等待时长t
n
、慢速响应的第三反应时长t
s
。需要说明的是，本实施例中，根据标点符号的类别、音素时长的阈值和机器人的等待时长，设定如下所示的具体关系信息。
40.当待识别语音的标点符号属于第一类别时（句号、问好、感叹号）：t=t
f
，当d<0.8*d
agv;
t=t
s
，当d>1.2*d
agv;
t=t
n
，当d>0.8*d
agv
，且d<1.2*d
agv;
当待识别语音的标点符号属于第二类别时（逗号）：t=t
s
在本实施例中，当确定待识别语音的标点符号为句号，属于第一类别中的标点符号时，且训练得到的平均音素时长d
agv
等于8s，那么通过计算得到的0.8d
agv
等于6.4s、1.2d
agv
等于9.6s，第一等待时长t
f
为4s，可见，上述步骤中得到的目标值d=4.57s小于
0.8d
agv
，因此，将第一等待时长t
f
确定为待识别语音1所对应的机器人的等待时长，也就是说机器人的响应属于快速响应阶段，缩短机器人的等待时长。
41.根据本发明提供的机器人响应方法，计算待识别语音的识别结果的平均音素时长确定平均音素时长的目标值，判断待识别语音的标点符号的类别，在确定待识别语音的标点符号属于第一类别中的标点符号，且目标值小于或等于第一阈值的情况下，确定第一等待时长为待识别语音所对应机器人的等待时长。本发明能够自适应调节机器人的等待时长，提高机器人响应的速度，提升用户体验。
42.基于上述任一实施例，在本实施例中，所述根据所述待识别语音的标点符号和所述识别结果所对应的音素时长，确定所述待识别语音所对应的机器人的等待时长，还包括：在所述待识别语音的标点符号属于第一类别中的标点符号，且所述目标值大于第一阈值且小于第二阈值的情况下，确定第二等待时长为机器人的等待时长。
43.在本实施例中，在确定待识别语音的标点符号属于第一类别中的标点符号，而且计算的平均音素时长的目标值大于预设的第一阈值小于预设的第二阈值的情况下，将第二等待时长确定为待识别语音所对应的机器人的等待时长，这种情况下说明用户的说话语速属于中等速度，不快也不慢，将第二等待时长确定为机器人的响应时长，以适应该用户的语速。
44.举例说明，假设第二等待时长为7s，第一阈值为6.4s、第二阈值为9.6s，在确认待识别语音2的文本数据为：“我想查询一下本月的流量使用情况，手机号为1860228xxxx，谢谢”的情况下，语音识别模型中得到的识别结果为：p1(我)p2(想)p3(查询)p4(一下)p5(本月)p6(的)p7(流量)p8(使用)p9(情况)，p10(手机号)p11(为)p12(1860228xxxx)，p13(谢谢)，识别结果所对应的音素时长为5s、6s、6s、6s、6s、6s、7s、8s、9s，10s、1s、20s、5s。然后将得到的上述结果输入标点模型中，确定出该待识别语音2的标点符号为句号，属于第一类别，并计算识别结果的平均音素时长d=（5+6+6+6+6+6+7+8+9）/9=6.55，可以确定d大于第一阈值且小于第二阈值，将第二等待时长确定为待识别语音2所对应机器人的等待时长，也就是机器人的等待时长为7s。
45.根据本发明提供的机器人响应方法，在待识别语音的标点符号属于第一类别中的标点符号，且平均音素时长的目标值大于第一阈值且小于第二阈值的情况下，确定第二等待时长为待识别语音所对应机器人的等待时长。本发明能够自适应调节机器人的等待时长，提高机器人响应的速度，提升用户体验。
46.基于上述任一实施例，在本实施例中，所述根据所述待识别语音的标点符号和所述识别结果所对应的音素时长，确定所述待识别语音所对应的机器人的等待时长，还包括：在所述待识别语音的标点符号属于第一类别中的标点符号，且所述目标值大于或等于第二阈值的情况下，确定第三等待时长为机器人的等待时长；其中，所述第二阈值大于所述第一阈值。
47.在本实施例中，在确定待识别语音的标点符号属于第一类别中的标点符号，而且计算的平均音素时长的目标值大于或等于预设的第二阈值的情况下，将第三等待时长确定为待识别语音等待时长，这种情况下说明用户的说话语速属于慢速状态，将第三等待时长确定为机器人的响应时长，以适应该用户的语速。需要说明的是，第二阈值大于预设的第一阈值，且第三等待时长的大小可以是10s，也可以是其他的数值，具体可以根据实际需要进
行设定，在此不作具体限定。
48.根据本发明提供的机器人响应方法，在待识别语音的标点符号属于第一类别中的标点符号，且平均音素时长的目标值大于或等于第二阈值的情况下，确定第三等待时长为所述待识别语音所对应机器人的等待时长。本发明能够自适应调节机器人的等待时长，提高机器人响应的速度，提升用户体验。
49.基于上述任一实施例，在本实施例中，所述根据所述待识别语音的标点符号和所述识别结果所对应的音素时长，确定所述待识别语音所对应的机器人的等待时长，还包括：在所述待识别语音的标点符号属于第二类别中的标点符号的情况下，确定第三等待时长为机器人的等待时长。
50.在本实施例中，当待识别语音的标点符号为逗号时，确定标点符号的类别属于预设的第二类别，将第三等待时长确定为待识别语音所对应机器人的等待时长。需要说明的是，在待识别语音的标点符号属于第二类别中的标点符号时，说明用户与机器人的整个句子的沟通交流有可能还没有结束，还有下面语义信息的补充，机器人的响应时长需要长点来等待用户的下部分内容。需要说明的是，第二类别中标点符号的设定不局限于逗号，还可以包括其他的标点符号，如顿号、冒号等，可以根据实际需要进行设定，在此不作具体限定。
51.根据本发明提供的机器人响应方法，在待识别语音的标点符号属于第二类别中的标点符号的情况下，确定第三等待时长为待识别语音所对应的等待时长。本发明能够自适应调节机器人的等待时长，提高机器人响应的速度，提升用户体验。
52.基于上述任一实施例，在本实施例中，在所述获取待识别语音之前，所述方法还包括：获取第一样本语音以及第一标签信息；其中，所述第一样本语音为中间带有停顿的样本语音；对所述第一样本语音进行语音识别处理，获取所述第一样本语音所对应的第一样本文本；基于所述第一样本语音、第一样本文本以及第一标签信息训练标点模型；和，获取第二样本文本以及第二标签信息；对所述第二样本文本进行语音合成处理，获取所述第二样本文本所对应的第二样本语音；其中，所述第二样本语音为中间带有停顿的第二样本文本经过语音合成得到的样本语音；基于所述第二样本语音、第二样本文本以及第二标签信息训练标点模型。
53.在本实施例中，需要获取训练样本集对标点模型进行训练，训练样本集包括样本语音、样本文本以及标签信息。本实施例中训练样本集是由中间带有停顿的第一样本语音、第一样本文本以及第一标签信息，中间带有停顿的第二样本文本、第二样本文本通过tts方式得到的第二样本语音、第二标签信息构成。需要说明的是，tts是text to speech的缩写，即“从文本到语音”，属于语音合成技术，实现了从文本到语音的转换。
54.需要说明的是，根据本实施例中获得的训练样本集对标点模型进行训练，在标点模型训练的正确率满足预设要求时，停止训练，得到目标标点模型，其中，正确率可以根据实际需要进行设定，在此不作具体限定。
55.根据本发明提供的机器人响应方法，通过样本语音、样本文本以及对应的标签信息对标点模型进行训练，得到满足要求的标点模型，本实施例中得到的标点模型能够提高标点符号识别的准确率，提高调整机器人响应时长的准确性。
56.图2为本发明提供的一种机器人响应装置，如图2所示，本发明提供的机器人响应装置，包括：获取模块201，用于获取待识别语音；所述待识别语音为与机器人实时沟通中截取到的语音；识别模块202，用于将所述待识别语音输入预先训练的语音识别模型中进行识别，获取识别结果与所述识别结果所对应的音素时长；输入模块203，用于将所述识别结果与所述识别结果所对应的音素时长输入预先训练的标点模型中，确定所述待识别语音的标点符号；确定模块204，用于根据所述待识别语音的标点符号和所述识别结果所对应的音素时长，确定所述待识别语音所对应的机器人的等待时长；所述标点模型是根据第一样本语音、所述第一样本语音对应的样本文本、第一标签信息以及第二样本文本、所述第二样本文本所对应的样本语音、第二标签信息进行训练得到的；其中，所述第一样本语音为中间带有停顿的样本语音，所述第二样本文本所对应的样本语音为中间带有停顿的样本文本经过语音合成所得到的样本语音。
57.根据本发明提供的一种机器人响应装置，通过将获取的待识别语音输入语音识别模型中，获取识别结果和识别结果对应的音素时长，并将得到的识别结果和识别结果对应的音素时长输入标点模型中，确定待识别语音的标点符号，然后根据标点符号和音素时长确定出机器人的等待时长。本发明提供的机器人响应方法提高了标点识别的准确率，且能够自适应的调节等待时长，满足各种语速的用户，提升了用户体验。
58.由于本发明实施例所述装置与上述实施例所述方法的原理相同，对于更加详细的解释内容在此不再赘述。
59.图3示例了一种电子设备的实体结构示意图，如图3所示，该电子设备可以包括：处理器(processor)301、通信接口(communications interface)302、存储器(memory)303和通信总线304，其中，处理器301，通信接口302，存储器303通过通信总线304完成相互间的通信。处理器301可以调用存储器303中的逻辑指令，以执行机器人响应方法，该方法包括：获取待识别语音；所述待识别语音为与机器人实时沟通中截取到的语音；将所述待识别语音输入预先训练的语音识别模型中进行识别，获取识别结果与所述识别结果所对应的音素时长；将所述识别结果与所述识别结果所对应的音素时长输入预先训练的标点模型中，确定所述待识别语音的标点符号；根据所述待识别语音的标点符号和所述识别结果所对应的音素时长，确定所述待识别语音所对应的机器人的等待时长；所述标点模型是根据第一样本语音、所述第一样本语音对应的样本文本、第一标签信息以及第二样本文本、所述第二样本文本对应的样本语音、第二标签信息进行训练得到的；其中，所述第一样本语音为中间带有停顿的样本语音，所述第二样本文本对应的样本语音为中间带有停顿的样本文本经过语音合成所得到的样本语音。
60.此外，上述的存储器303中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本
发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器（rom，read
‑
only memory）、随机存取存储器（ram，random access memory）、磁碟或者光盘等各种可以存储程序代码的介质。
61.另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的机器人响应方法，该方法包括：获取待识别语音；所述待识别语音为与机器人实时沟通中截取到的语音；将所述待识别语音输入预先训练的语音识别模型中进行识别，获取识别结果与所述识别结果所对应的音素时长；将所述识别结果与所述识别结果所对应的音素时长输入预先训练的标点模型中，确定所述待识别语音的标点符号；根据所述待识别语音的标点符号和所述识别结果所对应的音素时长，确定所述待识别语音所对应的机器人的等待时长；所述标点模型是根据第一样本语音、所述第一样本语音对应的样本文本、第一标签信息以及第二样本文本、所述第二样本文本对应的样本语音、第二标签信息进行训练得到的；其中，所述第一样本语音为中间带有停顿的样本语音，所述第二样本文本对应的样本语音为中间带有停顿的样本文本经过语音合成所得到的样本语音。
62.又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的机器人响应方法，该方法包括：获取待识别语音；所述待识别语音为与机器人实时沟通中截取到的语音；将所述待识别语音输入预先训练的语音识别模型中进行识别，获取识别结果与所述识别结果所对应的音素时长；将所述识别结果与所述识别结果所对应的音素时长输入预先训练的标点模型中，确定所述待识别语音的标点符号；根据所述待识别语音的标点符号和所述识别结果所对应的音素时长，确定所述待识别语音所对应的机器人的等待时长；所述标点模型是根据第一样本语音、所述第一样本语音对应的样本文本、第一标签信息以及第二样本文本、所述第二样本文本对应的样本语音、第二标签信息进行训练得到的；其中，所述第一样本语音为中间带有停顿的样本语音，所述第二样本文本对应的样本语音为中间带有停顿的样本文本经过语音合成所得到的样本语音。
63.以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。
64.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施
例或者实施例的某些部分所述的方法。
65.最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。