1.本技术属于人工智能技术领域,具体涉及一种音频标注方法、音频标注装置、计算机可读介质以及电子设备。
背景技术:2.随着科技的进步,人工智能(ai)领域发展迅速,在人工智能的语音对话领域,现有的客服平台已经能够实现机器人与用户的语音对话,而在这个对话过程中,机器人需要识别用户话术,理解用户话术的真实含义,才能进行有效的沟通。
3.为了提高ai机器人对用户话术的理解能力,常常需要对已生成的对话音频进行人工复核并根据复核结果进行标注,然后根据标注内容对ai机器人进行优化。然而,现有的对话音频标注需要人工一边听录音,一边暂停标注,整个过程步骤繁琐,标注效率低;而且由于暂停需要反应时间、机器接收需要响应时间,经常会出现标记点和实际的用户话术点存在误差的情况,标注不准确,同时,现有的标注方法也无法直接将标注的内容显示在进度条上,不利于音频文件中用户话术的定位。
4.需要说明的是,在上述背景技术部分公开的信息仅用于加强对本技术的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现要素:5.本技术的目的在于提供一种音频标注方法、音频标注装置、计算机可读介质以及电子设备,至少在一定程度上克服相关技术中音频标注效率低;标注准确性差,标注的内容无法直观的显示在进度条上等技术问题。
6.本技术的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本技术的实践而习得。
7.根据本技术实施例的一个方面,提供一种音频标注方法,所述方法包括:
8.获取音频文件,根据所述音频文件的音频时长建立音频进度条,所述音频文件包括人机交互对话中的机器语音片段和用户话术片段;
9.识别所述音频文件中的机器语音片段和用户话术片段,并记录所述用户话术片段在所述音频文件中的起始时间;
10.获取所述用户话术片段的标注标签;所述标注标签包括用户对所述用户话术片段做的标注内容;
11.基于所述起始时间,在所述音频进度条上生成标注点,将所述标注标签嵌入到所述标注点上。
12.根据本技术实施例的一个方面,提供一种音频标注装置,包括:
13.进度条建立模块,被配置为获取音频文件,根据所述音频文件的音频时长建立音频进度条,所述音频文件包括人机交互对话中的机器语音片段和用户话术片段;
14.识别模块,被配置为识别所述音频文件中的机器语音片段和用户话术片段,并记
录所述用户话术片段在所述音频文件中的起始时间;
15.标签获取模块,被配置为获取所述用户话术片段的标注标签;所述标注标签包括用户对所述用户话术片段做的标注内容;
16.标注模块,被配置为基于所述起始时间,在所述音频进度条上生成标注点,将所述标注标签嵌入到所述标注点上。
17.在本技术的一些实施例中,基于以上技术方案,所述进度条建立模块包括:
18.进度条特征获取单元,被配置为获取音频文件、第一触摸点和第二触摸点;
19.连线单元,被配置为将所述第一触摸点和所述第二触摸点的连线作为初始进度条;
20.映射单元,被配置为将所述音频文件的音频时长映射到所述初始进度条上,得到所述音频进度条。
21.在本技术的一些实施例中,基于以上技术方案,所述识别模块包括:
22.解析单元,被配置为解析所述音频文件,获得待识别声纹特征,所述声纹特征包括频率特征、音色特征和音调特征;
23.相似度计算单元,被配置为将所述待识别声纹特征与预设的机器声纹特征进行相似度计算;
24.分割单元,被配置为将满足相似度阈值的所述待识别声纹特征对应的音频片段作为所述机器语音片段;并将所述音频文件中除机器语音片段之外的音频片段作为所述用户话术片段。
25.在本技术的一些实施例中,基于以上技术方案,所述相似度计算单元包括:
26.第一计算单元,被配置为计算所述待识别声纹特征中的频率特征与预设的机器语音声纹特征中的频率特征的相似度,得到第一相似度;
27.第二计算单元,被配置为计算所述待识别声纹特征中的音色特征与预设的机器语音声纹特征中的音色特征的相似度,得到第二相似度;
28.第三计算单元,被配置为计算所述待识别声纹特征中的音调特征与预设的机器语音声纹特征中音调特征的相似度,得到第三相似度。
29.在本技术的一些实施例中,基于以上技术方案,所述分割单元包括:
30.机器语音分割单元,被配置为当所述待识别声纹特征的第一相似度大于第一预设阈值、第二相似度大于第二预设阈值、且第三相似度大于第三预设阈值时,将所述待识别声纹特征对应的音频片段作为所述机器语音片段。
31.在本技术的一些实施例中,基于以上技术方案,所述识别模块还包括时间记录单元,所述时间记录单元包括:
32.时间获取单元,被配置为获取所述音频文件中的特征变化点,所述特征变化点包括所述待识别声纹特征发生改变时的时间点;
33.筛选单元,被配置为筛选所述特征变化点,将从所述机器语音片段对应的待识别声纹特征改变为用户话术片段对应的待识别声纹特征时的时间点记录为起始时间。
34.在本技术的一些实施例中,基于以上技术方案,所述标注模块包括:
35.上拉框设置单元,被配置为在所述标注点上设置上拉框,所述上拉框基于所述标注点的点击来触发显示;
36.输入单元,别配置为将所述标注标签输入到所述上拉框中。
37.根据本技术实施例的一个方面,提供一种计算机可读介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如以上技术方案中的音频标注方法。
38.根据本技术实施例的一个方面,提供一种电子设备,该电子设备包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器被配置为经由执行所述可执行指令来执行如以上技术方案中的音频标注方法。
39.根据本技术实施例的一个方面,提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行如以上技术方案中的音频标注方法。
40.在本技术实施例提供的技术方案中,本技术通过建立音频进度条,并自动识别音频文件中的机器语音片段和用户话术片段,然后获取用户话术片段对应的标注标签,并自动在音频进度条上形成带有标注标签的标注点,利用本技术的方法进行音频标注,用户可以选择性的听用户话术片段来进行标注,不需要听整个音频文件,标注效率高;而且,本技术在用户标注完后,所做的标注会自动的在进度条上出现,标注点是根据用户话术片段在所述音频文件中的起始时间,在进度条上的标注点是准确的,不需要暂停的反应时间和机器接收的响应时间,因此,标注准确性高;同时,本技术标注的内容可以直观的显示在音频进度条上,方便用户对音频中内容的快速定位,方便人工对ai对话进行快速复核,以实现对ai机器人的优化。
41.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本技术。
附图说明
42.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理。显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
43.图1示意性地示出了应用本技术技术方案的示例性系统架构框图。
44.图2示意性地示出了本技术音频标注方法的流程图。
45.图3示意性的示出了本技术实施例中一种音频进度条的示意图。
46.图4示意性的示出了本技术实施例中建立音频进度条的方法流程图。
47.图5示意性的示出了本技术实施例中利用触摸点建立音频进度条的示意图。
48.图6示意性的示出了本技术识别机器语音片段和用户话术片段的方法流程图。
49.图7示意性的示出了本技术对音频文件进行切分的方法流程图。
50.图8示意性的示出了本技术对音频文件进行切分后展示的效果图。
51.图9示意性的示出了本技术获取用户话术片段的方法流程图。
52.图10示意性的示出了本技术标签标注后的展示效果图。
53.图11示意性的示出了本技术音频标注装置的结构框图。
54.图12示意性示出了适于用来实现本技术实施例的电子设备的计算机系统结构框
图。
具体实施方式
55.现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本技术将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
56.此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本技术的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本技术的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本技术的各方面。
57.附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
58.附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
59.用户话术指用户针对需求向ai机器人发起的提问以及与ai机器人的对话内容。通过对用户话术的分析,可以评估ai机器人的智能化程度,同时也可以通过对用户话术的标注来调整ai机器人的回答策略,实现对ai机器人进行优化。
60.然而,现有的对话音频标注需要人工一边听录音寻找用户话术点,然后到达用户话术点时,马上暂停进行标注,同时记录下暂停的时间。现有的方法存在以下几个问题,第一,需要人为听整段录音音频,而其中对于用户话术的音频需要人为识别,因此,标注效率低;第二,由于人的反应时间和机器的响应时间都是一定的影响因素,因此,当人工听到用户话术的内容,并想对其进行标注时,点击暂停按钮以及机器响应的时间都会有偏差,这将导致用户记录的时间点和实际的时间点存在偏差,标注不准确;第三,用户标注的方式是通过记录时间和标注内容,而无法直接在进度条上直观的显示,而且,现有的录音播放都是通过音频播放软件来自动生成音频播放软件自身的进度条,该进度条无法进行有效编辑,更无法直接将标注的内容显示在进度条上,不利于音频文件中用户话术的定位。
61.为了解决以上的技术问题,本技术公开了一种音频标注方法、音频标注装置、计算机可读介质以及电子设备,下面将通过各个方面进一步说明本技术的内容。
62.本技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
63.人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
64.图1示意性地示出了应用本技术技术方案的示例性系统架构框图。
65.如图1所示,系统架构100可以包括终端设备110、网络120和服务器130。终端设备110可以包括智能手机、平板电脑、笔记本电脑、台式电脑等各种电子设备。服务器130可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。网络120可以是能够在终端设备110和服务器130之间提供通信链路的各种连接类型的通信介质,例如可以是有线通信链路或者无线通信链路。
66.根据实现需要,本技术实施例中的系统架构可以具有任意数目的终端设备、网络和服务器。例如,服务器130可以是由多个服务器设备组成的服务器群组。另外,本技术实施例提供的技术方案可以应用于终端设备110,也可以应用于服务器130,或者可以由终端设备110和服务器130共同实施,本技术对此不做特殊限定。
67.以上部分介绍了应用本技术技术方案的示例性系统架构的内容,接下来继续介绍本技术的音频标注方法。
68.根据本技术实施例的一个方面,如图2所示,图2示意性地示出了本技术音频标注方法的流程图。本技术提供一种音频标注方法,包括步骤s210-步骤s240。
69.在步骤s210中:获取音频文件,根据音频文件的音频时长建立音频进度条,音频文件包括人机交互对话中的机器语音片段和用户话术片段。
70.音频文件是音频格式的文件,是预先录制或保存好的人机交互对话文件,其中,本技术的音频文件包括人机交互对话中的机器语音片段和用户话术片段。机器语音片段是ai机器人发送的语音,而用户话术片段是用户针对ai的回答或者是用户针对需求所提问的语音内容。
71.音频文件存在不同的格式,因此,本技术在获取音频文件时,会识别音频文件的格式,如果该格式无法在当前终端设备110或服务器130上进行播放,可以通过解码和重新编码的方法,将该音频文件转换格式,以适应当前终端设备110或服务器130进行播放。例如,对于获取到的音频文件是mp3格式,而当前终端设备110只能播放wav格式,此时,就可以根据mp3格式的编码类型自定义解码库,然后通过emscripten(一种编译器)将自定义的解码库编译成webassembly代码(一种可以使用非javascript编程语言编写代码并且能在浏览器上运行的技术方案)供当前终端设备110或服务器130调用,并在当前终端设备110或服务器130通过webassembly启用多线程的方式进行解码,音频可以无延迟播放。
72.获取到音频文件之后,本技术可以根据音频文件的音频时长建立音频进度条,本技术的音频进度条并不是当前终端设备110或服务器130中的音频播放软件播放音频时所产生的,而是独立建立的。本技术利用独立建立的音频进度条来进行音频的标注,并为音频进度条设置了可供用户选择的样式,用户可以根据实际情况来调整音频进度条,例如可以设置音频进度条的颜色,大小和宽度等,以实现音频进度条更加个性化表示。
73.对于音频进度条的建立,本技术可以采用以下方法。
74.在本技术的一个实施例中,基于以上技术方案,根据音频文件的音频时长建立音频进度条的方法,包括:
75.绘制特定长度的进度条在显示界面的任意位置显示;将音频文件的音频时长映射到进度条上,形成音频进度条。
76.本技术的音频进度条是根据音频文件的音频时长建立的,因此,本技术可以绘制
特定长度的进度条,然后显示在显示界面的任意位置上。显示界面对应的是当前终端设备110或服务器130中用于显示信息的界面,例如,当前终端设备110是手机时,显示界面就对应手机屏幕,当前终端设备110是电脑时,显示界面就对应电脑显示器。
77.如图3所示,图3示意性的示出了本技术实施例中一种音频进度条的示意图。
78.其中,图3中的显示界面310中有两条音频进度条,分别是第一音频进度条l1和第二音频进度条l2,两条音频进度条长度固定为20cm,音频文件的音频时长都是20分钟,而将20分钟的音频映射到20cm的进度条上,那么每厘米对应的时长就是1分钟。其中,第一音频进度条l1的第一标注点t1位于起始位置,此时还没开始播放,而第二音频进度条l2中第二标注点t2位于进度条中点位置,此时播放的时长刚好是10分钟。
79.利用以上方法可以建立音频进度条,然而,由于以上的音频进度条的长度是固定的,因此,在特定的显示界面中会显示不出来。例如,当前终端设备110是手机时,屏幕尺寸较小,因此,如果还是固定长度的话,可能无法完整的将进度条显示在屏幕上。因此,本技术为了解决这个问题,提出了以下建立音频进度条的方法。
80.在本技术的一个实施例中,在绘制特定长度的进度条在显示界面的任意位置显示之前,所述方法还包括:获取显示界面尺寸,根据显示界面尺寸设定音频进度条长度。
81.本技术可以根据获取的显示界面尺寸来设定音频进度条长度,例如,对于手机一般尺寸较小,因此音频进度条就设定较短,而本技术为了实现最佳的显示,对于音频进度条的长度设置方案是显示界面尺寸的4/5,例如,手机的显示界面尺寸是10cm*5cm,那么对应的竖屏进度条就是4cm,横屏对应的尺寸就是8cm。
82.利用以上方法进行音频进度条的建立时,音频进度条的局限较大,当显示界面尺寸太小时,无法很好的显示音频进度条,因此,本技术还提供了以下方案来建立音频进度条。
83.如图4所示,图4示意性的示出了本技术实施例中建立音频进度条的方法流程图。在本技术的一个实施例中,获取音频文件,根据音频文件的音频时长建立音频进度条的方法,包括步骤s410-步骤s430。
84.步骤s410:获取音频文件、第一触摸点和第二触摸点。
85.第一触摸点和第二触摸点是用户对显示界面进行触摸确定的音频进度条的开始和结束点,通过获取第一触摸点和第二触摸点就可以确定音频进度条的位置。
86.步骤s420:将第一触摸点和第二触摸点的连线作为初始进度条。
87.确定音频进度条的开始和结束点后,可以直接将第一触摸点和第二触摸点的连线作为初始进度条,然后进行步骤s430.
88.步骤s430:将音频文件的音频时长映射到初始进度条上,得到音频进度条。
89.步骤s430将音频时长直接映射到对应的初始进度条上,使得音频进度条的长度代表对应的时长,该部分内容与上面的音频进度条映射过程相似,此处不再赘述。
90.下面举例进一步说明步骤s410-步骤s430的内容,如图5所示,图5示意性的示出了本技术实施例中利用触摸点建立音频进度条的示意图。当终端设备110的屏幕尺寸较小时,本技术利用以上方案可以实现音频进度条的自定义设置,用户在屏幕的对角线上分别点击第一触摸点510和第二触摸点520,那么对应的音频进度条就是一条斜线。这样有助于提高屏幕的利用率,可以拉长音频进度条的长度,可以应用于各种不同的终端设备110上。
91.利用以上方法建立好了音频进度条之后,就可以继续步骤s220。
92.在步骤s220中:识别音频文件中的机器语音片段和用户话术片段,并记录用户话术片段在音频文件中的起始时间。
93.音频文件中包括机器语音片段和用户话术片段,因此,需要对音频文件进行识别,而对音频文件进行识别的策略有三种。第一种是分别识别机器语音片段和用户话术片段,如果如此操作就需要预先训练足够数量的机器语音样本和用户话术样本,以实现对音频文件的识别,而对于用户话术而言,每个用户对应的声纹都不相同,因此存在的形式有非常多种,无法完全形成可以涵盖所有用户的样本,因此,利用该方法无法很好的将机器语音片段和用户话术片段识别出来。而第二种方式是直接识别音频文件汇总的用户话术片段,然后将音频文件中的其它片段作为机器语音片段,利用该方法同样存在需要足够多的用户话术片段样本,因此,也很难将音频文件中的用户话术片段准确的识别出来。因此,本技术使用的是第三种方法,即本技术识别出音频文件中的机器语音片段,然后将除机器语音片段外的其它声音片段作为用户话术片段。具体的方法如下:
94.在本技术的一个实施例中,如图6所示,图6示意性的示出了本技术识别机器语音片段和用户话术片段的方法流程图。本技术识别音频文件中的机器语音片段和用户话术片段的方法包括步骤s610-步骤s640。
95.在步骤s610中:解析音频文件,获得待识别声纹特征,待识别声纹特征包括频率特征、音色特征和音调特征。
96.本技术音频文件中的机器语音片段和用户话术片段对应来自于ai机器人和用户,而ai机器人的声音特性是预设且固定的,因此,对于音频文件来说,音频文件中存在多种不同声音特性的片段,对于一个录音文件来说,一般存在两种声音特性,因此通过解析音频文件,就可以得到所有音频文件中不同片段的声音特性。
97.而声音特性一般通过声纹来衡量。声纹(voiceprint)是用电声学仪器显示的携带言语信息的声波频谱。人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程,人在讲话时使用的发声器官(例如,舌、牙齿、喉头、肺、鼻腔)在尺寸和形态方面每个人的差异很大,所以任何两个人的声纹图谱都有差异。本技术需要解析音频文件,获得音频文件中所有音频片段的声纹特征作为待识别声纹特征,而待识别声纹特征又包括了频率特征、音色特征和音调特征,一个人的声音一般也是由频率,音色和音调组成,因此,通过这三个部分就可以辨别出发声的主体。而对应的,本技术的ai机器人是声纹特征是预先就设定好的,因此通过步骤s610,就可以从音频文件中解析得到不同的片段对应的两种声纹特征,作为待识别的声纹特征,再继续步骤s620。
98.在步骤s620中:将待识别声纹特征与预设的机器声纹特征进行相似度计算。
99.本技术进行相似度计算的过程就是进行声纹识别的过程,声纹识别可以称为说话人识别(speaker recognition),包括:说话人辨认(speaker identification)和说话人确认(speaker verification)。前者用以判断某段语音是若干人中的哪一个所说的,是“多选一”问题;而后者用以确认某段语音是否是指定的某个人所说的,是“一对一判别”问题。而本技术主要是利用后者的说话人确认,对应本技术即是机器语音确认。在对机器语音确认之前,需要都先对机器语音的声纹进行建模,这就是所谓的“训练”或“学习”过程。
100.而本技术需要对预设的机器声纹特征进行训练,通过将足够数量的机器语音输入
到卷积神经网络中训练,训练过程中主要是将机器语音中的声纹特征进行训练,分别训练频率特征、音色特征和音调特征,通过足量样本的训练,就可以获得属于机器语音对应的频率特征、音色特征和音调特征。而本技术也可以直接初始定义机器语音的频率特征、音色特征和音调特征,直接作为对比的对象,而不需要进行训练,通过以上方法可以获得了预设的机器声纹特征。
101.获得预设的机器声纹特征之后,就需要将待识别声纹特征与预设的机器声纹特征进行相似度计算。在本技术的一个实施例中,将待识别声纹特征与预设的机器声纹特征进行相似度计算的方法,包括:计算待识别声纹特征中的频率特征与预设的机器语音声纹特征中的频率特征的相似度,得到第一相似度;计算待识别声纹特征中的音色特征与预设的机器语音声纹特征中的音色特征的相似度,得到第二相似度;计算待识别声纹特征中的音调特征与预设的机器语音声纹特征中音调特征的相似度,得到第三相似度。
102.通过以上方法得到了待识别声纹特征与预设的机器声纹特征在三个维度上的相似度,本技术可以将三个维度的相似度进行求平均数作为待识别声纹特征与预设的机器声纹特征的整体相似度。因此,通过以上步骤可以获得待识别声纹特征与预设的机器声纹特征三个维度的相似度或者整体的相似度,此时就可以进行步骤s630。
103.在步骤s630中:将满足相似度阈值的待识别声纹特征对应的音频片段作为机器语音片段;
104.本技术对于满足相似度阈值的判断有两种方法,分别对应步骤s620得到的两种相似度。
105.第一种方法:当得到的是待识别声纹特征与预设的机器声纹特征三个维度的相似度时,在本技术的一个实施例中,将满足相似度阈值的待识别声纹特征对应的音频片段作为机器语音片段的方法包括:当待识别声纹特征的第一相似度大于第一预设阈值、第二相似度大于第二预设阈值、且第三相似度大于第三预设阈值时,将待识别声纹特征对应的音频片段作为机器语音片段。
106.本技术的第一种方法通过分别计算三个维度的相似度,只有三个维度的相似度都满足相似度阈值时,才将待识别声纹特征对应的音频片段作为机器语音片段,该方法参考了三种维度的相似度,对于机器语音片段的识别更准确,但是由于条件较为苛刻,对于得到的机器语音片段对应的声纹可能较少,因此本技术还可以利用以下第二种方法。
107.第二种方法:当得到的是整体相似度时,直接将整体相似度与相似度阈值进行比较,当整体相似度大于第一相似度时,将对应的待识别声纹特征对应的音频片段作为机器语音片段。该方法利用三个维度的平均值作为对比基础,可以参考综合三个维度,因此,对于部分维度不满足部分相似度阈值,而整体的相似度满足相似度阈值的情况都可以作为机器语音片段,因此,该方案可以得到更多的机器语音片段。
108.通过以上方法就可以得到满足相似度阈值的待识别声纹特征,待识别声纹特征对应的音频片段就是机器语音片段,因此,通过步骤s630识别出音频文件中的所有机器语音片段,继续步骤s640。
109.在步骤s640中:将音频文件中除机器语音片段之外的音频片段作为用户话术片段。
110.对于音频文件来说,机器语音片段之外的音频片段就作为用户话术片段。
111.下面将举例来进一步说明步骤s610-步骤s640的内容。获取一段音频文件,其音频具体的语音内容如下,其中ai代表ai机器人,pr代表用户。
112.ai:您好,请问您是***吗?
113.pr:是的。
114.ai:这里是**银行,本次致电是因为看到您关注了我们的信用卡,感谢您的支持,想针对该信用卡和您做个简单的调研?
115.pr:好的。
116.ai:请问您有车吗,是否有买车需求?
117.pr:没有,目前还无需求。
118.ai:好的,感谢您耐心回答,再见。
119.本技术在对该音频文件进行解析时,会获得七段音频片段,对于音频片段的数量一般是根据声纹的变化来进行分段,例如,用户连续说了三句话,但是其声纹并未发生变化,因此,即使期间说的内容再多,对应的还是作为一段音频片段。而每段音频片段都对应有声纹特征,在本技术的步骤s610中就获得了七个音频特征,作为待识别的音频特征。此时,可以将这七段音频特征分别输入与预设的机器声纹特征进行相似度计算,对应的是本技术步骤s620的内容,计算得到了七个音频特征与机器声纹特征在三个维度上的相似度,例如,第一段话中“ai:您好,请问您是***吗?”通过计算得到的音频特征对应的第一相似度为98%,音色特征对应的第二相似度为97%,音调特征对应的第三相似度为99%。
120.此时就可以继续步骤s630,分别对比以上七个音频片段的相似度与相似度阈值,如果对应的音频片段的待识别声纹特征在音频,音色和音调三个维度上的相似度都大于特定的相似度阈值,那么就将对应的待识别声纹特征对应的片段作为机器音频片段,例如,通过识别,以上的ai机器人说的四个片段作为机器语音片段,而对应其它的三个片段就是用户话术片段。
121.通过以上步骤就可以识别出音频文件中的机器语音片段和用户话术片段,为了能更方便用户对各个片段进行标注,本技术还可以对音频文件进行切分,具体的方法如下。
122.在本技术的一个实施例中,如图7所示,图7示意性的示出了本技术对音频文件进行切分的方法流程图。该方法包括步骤s710-步骤s720.
123.步骤s710:识别音频文件中的特征变化点,特征变化点包括声纹特征发送变化的时间点。
124.对于音频文件来说,如果中间存在停顿或者没有声音时,是不存在声纹的,因此,当用户或者ai机器人说话的间歇其声纹并不会发生变化,而对于特征变化点就是以声纹发生变化的时间点。
125.下面举例说明以上内容,如果一个音频文件对应的时间是30秒(s),对应的语音内容及时间分别如下:
126.(0s-5s)ai:您好,请问您是***吗?
127.(6s-7s)pr:是的。
128.(9s-18s)ai:这里是**银行,本次致电是因为看到您关注了我们的信用卡,感谢您的支持,想针对该信用卡和您做个简单的调研?
129.(20s-21s)pr:好的。
130.(23s-27s)ai:请问您有车吗,是否有买车需求?
131.(28s-30s)pr:没有,目前还无需求。
132.以上音频文件中的特征变化点分别时6s,9s,20s,23s和28s对应的时间点,获得这些时间点之后就可以进行步骤s720。
133.步骤s720:以特征变化点作为切分点,对所述音频文件进行切分。
134.通过对这些特征变化点进行切分,就可以得到六段音频片段。对应的可以将这六段音频片段分别展示在显示界面310上,如图8所示,图8示意性的示出了本技术对音频文件进行切分后展示的效果图。通过以上的切分,可以将六段音频片段以播放控件810的形式展示在显示界面p上。其中,不同的播放控件810的音频长短不同,用户就可以随机点击任意一段音频进行播放,然后对该音频进行标注。
135.在本技术的一个实施例中,本技术的播放控件810上设置有标注标签选项,可以供用户进行选择,其中,标注标签选项可以根据用户自定义,将常用的标注标签放置在此处,例如,常用的标注标签包括:字准有文本,字准无文本,回答准确,回答错误,方言无法识别,回归测试等,因此,利用该方式进行预先的标签设定,可以省去用户进行标签分类和输入的时间,直接可以通过点击来获得。
136.通过以上方法可以获得机器语音片段和用户话术片段,并将两者进行切分,而本技术还需要获取用户话术片段在音频文件中的起始时间。在本技术的一个实施例中,如图9所示,图9示意性的示出了本技术获取用户话术片段的方法流程图。记录用户话术片段在音频文件中的起始时间的方法包括步骤s910-步骤s920:
137.步骤s910:获取音频文件中的特征变化点,特征变化点包括待识别声纹特征发生改变时的时间点。
138.其中该步骤和步骤s710相同,此处不再赘述。
139.步骤s920:筛选特征变化点,将从机器语音片段对应的待识别声纹特征改变为用户话术片段对应的待识别声纹特征时的时间点记录为起始时间。
140.本技术步骤s920需要筛选出从机器语音片段对应的待识别声纹特征改变为用户话术片段对应的待识别声纹特征时的时间点作为起始时间点。对于特征变化点有两种情况,一种是由用户话术到机器语音,一种是从机器语音到用户话术,因此,本技术的步骤s920只筛选出从机器语音到用户话术的时间点作为起始时间,继续以步骤s710的音频文件为例,其中的起始时间就包括了整段音频文件的第6秒,第20秒,第28秒,这三个时间点都是对应的起始时间。
141.识别出机器语音片段和用户话术片段并获得用户话术片段对应的起始时间之后就可以继续步骤s230。
142.在步骤s230中:获取用户话术片段的标注标签;标注标签包括用户对用户话术片段做的标注内容。
143.当通过步骤s720切分了出机器语音片段和用户话术片段之后,用户可以直接针对用户话术片段进行播放,然后对应的进行标注,并可以选择不同的标注标签,用户标注完成之后,本技术对应的方法就可以获取到该标注标签,然后进行步骤s240。
144.在步骤s240中:基于起始时间,在音频进度条上生成标注点,将标注标签嵌入到标注点上。
145.当获得用户话术的起始时间和对应的标注标签之后,就可以在音频进度条上生成标注点,可以利用时长和进度条的关系来进行定位标注点的位置,本技术可以将时间精确到ms,例如,某一段录音是20分钟,音频进度条是20cm,而某一段用户话术对应的起始时间是10分钟10秒10毫秒,那么该用户话术在进度条上的标注点就是位于进度条的36610/72000处,即对应的在进度条上是20cm*36610/72000对应的位置上。
146.形成标注点之后,就可以将标注标签嵌入到标注点上,具体的,本技术将标注标签嵌入到标注点上的方法,包括:在标注点上设置上拉框,上拉框基于标注点的点击来触发显示,将标注标签输入到上拉框中。也可以通过设置悬浮框的方式来替代上拉框,本技术对此并不限制。
147.下面将通过图10来进一步说明本技术步骤s240的内容。如图10所示,图10示意性的示出了本技术标签标注后的展示效果图。
148.继续以步骤s710中的音频文件对应的语音内容为例,其中的起始时间就包括了整段音频文件的第6秒,第20秒和第28秒,对应的形成了三个标注点p1,p2,p3。其中p1位于整个进度条的20/30处,p1位于整个进度条的28/30处,p1位于整个进度条的6/30处。然后将接收到的标注标签输入到上拉框中,例如,对于步骤s710中的音频文件的标注分别是,p1是肯定,p2是肯定,p3是否定,分别代表用户话术的态度。因此,可以将该标注便签嵌入到上拉框中。用户可以直观的看到自己对整个音频文件的标注内容,方便用户后续对该音频文件进行定位以及对ai机器人的话术进行调整。
149.在本技术实施例提供的技术方案中,本技术通过建立音频进度条,并自动识别音频文件中的机器语音片段和用户话术片段,然后获取用户话术片段对应的标注标签,并自动在音频进度条上形成带有标注标签的标注点,利用本技术的方法进行音频标注,用户可以选择性的听用户话术片段来进行标注,不需要听整个音频文件,标注效率高;而且,本技术在用户标注完后,所做的标注会自动的在进度条上出现,标注点是根据用户话术片段在音频文件中的起始时间,在进度条上的标注点是准确的,不需要暂停的反应时间和机器接收的响应时间,因此,标注准确性高;同时,本技术标注的内容可以直观的显示在音频进度条上,方便用户对音频中内容的快速定位,方便人工对ai对话进行快速复核,以实现对ai机器人的优化。
150.应当注意,尽管在附图中以特定顺序描述了本技术中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
151.以上部分介绍了本技术数据音频标注方法的内容,接下来继续介绍本技术音频标注装置的内容。
152.根据本技术实施例的一个方面,提供一种音频标注装置1100,包括:
153.进度条建立模块1110,被配置为获取音频文件,根据音频文件的音频时长建立音频进度条,音频文件包括人机交互对话中的机器语音片段和用户话术片段;
154.识别模块1120,被配置为识别音频文件中的机器语音片段和用户话术片段,并记录用户话术片段在音频文件中的起始时间;
155.标签获取模块1130,被配置为获取用户话术片段的标注标签;标注标签包括用户
对用户话术片段做的标注内容;
156.标注模块1140,被配置为基于起始时间,在音频进度条上生成标注点,将标注标签嵌入到标注点上。
157.在本技术的一些实施例中,基于以上技术方案,进度条建立模块1110包括:
158.进度条特征获取单元,被配置为获取音频文件、第一触摸点和第二触摸点;
159.连线单元,被配置为将第一触摸点和第二触摸点的连线作为初始进度条;
160.映射单元,被配置为将音频文件的音频时长映射到初始进度条上,得到音频进度条。
161.在本技术的一些实施例中,基于以上技术方案,识别模块1120包括:
162.解析单元,被配置为解析音频文件,获得待识别声纹特征,声纹特征包括频率特征、音色特征和音调特征;
163.相似度计算单元,被配置为将待识别声纹特征与预设的机器声纹特征进行相似度计算;
164.分割单元,被配置为将满足相似度阈值的待识别声纹特征对应的音频片段作为机器语音片段;并将音频文件中除机器语音片段之外的音频片段作为用户话术片段。
165.在本技术的一些实施例中,基于以上技术方案,相似度计算单元包括:
166.第一计算单元,被配置为计算待识别声纹特征中的频率特征与预设的机器语音声纹特征中的频率特征的相似度,得到第一相似度;
167.第二计算单元,被配置为计算待识别声纹特征中的音色特征与预设的机器语音声纹特征中的音色特征的相似度,得到第二相似度;
168.第三计算单元,被配置为计算待识别声纹特征中的音调特征与预设的机器语音声纹特征中音调特征的相似度,得到第三相似度。
169.在本技术的一些实施例中,基于以上技术方案,分割单元包括:
170.机器语音分割单元,被配置为当待识别声纹特征的第一相似度大于第一预设阈值、第二相似度大于第二预设阈值、且第三相似度大于第三预设阈值时,将待识别声纹特征对应的音频片段作为机器语音片段。
171.在本技术的一些实施例中,基于以上技术方案,识别模块1120还包括时间记录单元,时间记录单元包括:
172.时间获取单元,被配置为获取音频文件中的特征变化点,特征变化点包括待识别声纹特征发生改变时的时间点;
173.筛选单元,被配置为筛选特征变化点,将从机器语音片段对应的待识别声纹特征改变为用户话术片段对应的待识别声纹特征时的时间点记录为起始时间。
174.在本技术的一些实施例中,基于以上技术方案,标注模块1140包括:
175.上拉框设置单元,被配置为在标注点上设置上拉框,上拉框基于标注点的点击来触发显示;
176.输入单元,别配置为将标注标签输入到上拉框中。
177.本技术各实施例中提供的音频标注装置的具体细节已经在对应的方法实施例中进行了详细的描述,此处不再赘述。
178.以上部分介绍了本技术音频标注装置的内容,接下来继续介绍本技术其它方面的
内容。
179.根据本技术实施例的一个方面,提供一种计算机可读介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如以上技术方案中的音频标注方法。
180.根据本技术实施例的一个方面,提供一种电子设备,该电子设备包括:处理器;以及存储器,用于存储处理器的可执行指令;其中,处理器被配置为经由执行可执行指令来执行如以上技术方案中的音频标注方法。
181.根据本技术实施例的一个方面,提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行如以上技术方案中的音频标注方法。
182.图12示意性地示出了用于实现本技术实施例的电子设备的计算机系统结构框图。
183.需要说明的是,图12示出的电子设备的计算机系统1200仅是一个示例,不应对本技术实施例的功能和使用范围带来任何限制。
184.如图12所示,计算机系统1200包括中央处理器1201(central processing unit,cpu),其可以根据存储在只读存储器1202(read-only memory,rom)中的程序或者从存储部分1208加载到随机访问存储器1203(random access memory,ram)中的程序而执行各种适当的动作和处理。在随机访问存储器1203中,还存储有系统操作所需的各种程序和数据。中央处理器1201、在只读存储器1202以及随机访问存储器1203通过总线1204彼此相连。输入/输出接口1205(input/output接口,即i/o接口)也连接至总线1204。
185.以下部件连接至输入/输出接口1205:包括键盘、鼠标等的输入部分1206;包括诸如阴极射线管(cathode ray tube,crt)、液晶显示器(liquid crystal display,lcd)等以及扬声器等的输出部分1207;包括硬盘等的存储部分1208;以及包括诸如局域网卡、调制解调器等的网络接口卡的通信部分1209。通信部分1209经由诸如因特网的网络执行通信处理。驱动器1210也根据需要连接至输入/输出接口1205。可拆卸介质1211,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1210上,以便于从其上读出的计算机程序根据需要被安装入存储部分1208。
186.特别地,根据本技术的实施例,各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如,本技术的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1209从网络上被下载和安装,和/或从可拆卸介质1211被安装。在该计算机程序被中央处理器1201执行时,执行本技术的系统中限定的各种功能。
187.需要说明的是,本技术实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(erasable programmable read only memory,eprom)、闪存、光纤、便携式紧凑磁盘只读存储器(compact disc read-only memory,cd-rom)、光存储器件、磁存储器件、或
者上述的任意合适的组合。在本技术中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本技术中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
188.附图中的流程图和框图,图示了按照本技术各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
189.应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本技术的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
190.通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本技术实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd-rom,u盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本技术实施方式的方法。
191.本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本技术的其它实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本技术未公开的本技术领域中的公知常识或惯用技术手段。
192.应当理解的是,本技术并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本技术的范围仅由所附的权利要求来限制。