1.本发明属于数据标注及自然语言处理技术领域,具体涉及一种半自动化音档标注方法、系统及设备。
背景技术:2.在人工智能领域中,数据的取得、清理及标注极为重要。对于语音辨识模型来说更是如此,一个语音辨识模型的辨识能力与其训练数据的数据量及品质呈现高度正相关。
3.而语音数据的标注相较于文本数据的标注来说更加困难,不同说话者的语速、说话时的口癖(例如各方言的人在讲普通话时都带有各自方言的腔调)都会大大提高语音数据标注的困难度,使得标注更费时费力。一般对语音数据进行标注的方法为:首先标注人员对语音数据进行识别,再进行人工标注,这样就增加了人工标注的时间,人工标注的效率低。
技术实现要素:4.针对现有技术中的缺陷,本发明提供一种半自动化音档标注方法、系统及设备,提高了语音数据标注的效率。
5.第一方面,一种半自动化音档标注方法,包括以下步骤:
6.采集待处理音档信号;
7.对所述待处理音档信号进行预处理,得到预处理音档信号;
8.利用多个语音辨识器分别将所述预处理音档信号转换为文字信息;
9.对各个语音辨识器得到的所述文字信息进行再处理,以得到再处理文字信息;
10.接收针对所述再处理文字信息录入的人工标注信息,完成所述待处理音档信号的标注。
11.优选地,所述对所述待处理音档信号进行预处理,得到预处理音档信号具体包括:
12.将所述待处理音档信号转换为预设的格式,以得到转换音档信号;
13.将所述转换音档信号切割为多句完整音档信号,得到由多句所述完整音档信号构成的所述预处理音档信号。
14.优选地,所述将所述转换音档信号切割为多句完整音档信号具体包括:
15.对所述转换音档信号进行语音活性检测,得到所述转换音档信号中的人声片段;
16.对所述人声片段进行切割,得到多句所述完整音档信号。
17.优选地,所述利用多个语音辨识器分别将所述预处理音档信号转换为文字信息具体包括
18.利用多个所述语音辨识器分别将每句所述完整音档信号转换为文字信息。
19.优选地,所述对各个语音辨识器得到的所述文字信息进行再处理,以得到再处理文字信息具体包括:
20.将每句所述完整音档信号对应的所有文字信息进行两两比对,以获得比对结果;
21.根据所述比对结果生成所述再处理文字信息。
22.优选地,所述根据所述比对结果生成所述再处理文字信息具体包括,
23.解析所述比对结果,得到每句所述完整音档信号对应的所有文字信息中相同的第一文字部分和不同的第二文字部分;
24.保留所述第一文字部分;
25.用预设的特殊字符替换所述第二文字部分,得到所述再处理文字信息。
26.优选地,所述语音辨识器为两个。
27.优选地,不同的所述语音辨识器的版本和/或架构不同。
28.第二方面,一种半自动化音档标注系统,包括:
29.采集单元:用于采集待处理音档信号;
30.预处理单元:与所述采集单元连接,用于对所述待处理音档信号进行预处理,得到预处理音档信号;
31.识别单元:与所述预处理单元连接,用于利用多个语音辨识器分别将所述预处理音档信号转换为文字信息;
32.再处理单元:与所述识别单元连接,用于对各个语音辨识器得到的所述文字信息进行再处理,以得到再处理文字信息;
33.标注单元:与所述在处理单元连接,用于接收针对所述再处理文字信息录入的人工标注信息,完成所述待处理音档信号的标注。
34.第三方面,一种半自动化音档标注设备,包括处理器和存储器,所述处理器和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行第一方面所述的方法。
35.由上述技术方案可知,本发明提供的半自动化音档标注方法、系统及设备,可以向标注人员提供语音识别结果(再处理文字信息),用于在进行人工标注时参考。这样对语音信号进行标注时,标注人员不需要对语音信号进行识别后标注,而是可以直接根据自动语音识别得到的文字信号进行标注,提高了语音数据标注的效率。该半自动化音档标注方法结合自然语言处理方法与完形填空概念,避免了由于使用单一语音辨识器提供的错误答案进行标记,导致的标记错误以及标注结果偏剖的问题。
附图说明
36.为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标注标识。附图中,各元件或部分并不一定按照实际的比例绘制。
37.图1为实施例提供的半自动化音档标注方法的流程图。
38.图2为实施例提供的半自动化音档标注系统的模块框图。
39.图3为实施例提供的半自动化音档标注设备的模块框图。
具体实施方式
40.下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案,因此只作为示例,而不能以此来限制本发明的保护范
围。需要注意的是,除非另有说明,本技术使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。
41.应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
42.还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
43.如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
[0044]
实施例:
[0045]
一种半自动化音档标注方法,参见图1,包括以下步骤:
[0046]
s1:采集待处理音档信号;
[0047]
s2:对所述待处理音档信号进行预处理,得到预处理音档信号;
[0048]
s3:利用多个语音辨识器分别将所述预处理音档信号转换为文字信息;
[0049]
s4:对各个语音辨识器得到的所述文字信息进行再处理,以得到再处理文字信息;
[0050]
s5:接收针对所述再处理文字信息录入的人工标注信息,完成所述待处理音档信号的标注。
[0051]
在本实施例中,待处理音档信号为语音信号,待处理音档信号可以是用户直接录入的语音信号、采集设备播放的语音信号等等。待处理音档信号可以是包含一句或多句话的语音信号。该方法先用语音辨识器对音档信号进行辨识,以利于提高标注人员对于语音内容的可读性,让标注人员在对音档内容有了粗步的认知后才进行标注,提高了标注人员人工标注的效率。
[0052]
在本实施例中,该半自动化音档标注方法,首先收集待处理音档信号(语音信号),对待处理音档信号进行预处理,然后将预处理后的预处理音档信号(语音信号)转换为文字信号,最后根据同一句语音信号转化后的多个文字信号生成再处理文字信息(最终文字信号),提供给标注人员进行标注,从而实现了对语音信号的标注。
[0053]
这样,该半自动化音档标注方法可以向标注人员提供语音识别结果(再处理文字信息),用于在进行人工标注时参考。这样对语音信号进行标注时,标注人员不需要对语音信号进行识别后标注,而是可以直接根据自动语音识别得到的文字信号进行标注,提高了语音数据标注的效率。该半自动化音档标注方法结合自然语言处理方法与完形填空概念,避免了由于使用单一语音辨识器提供的错误答案进行标记,导致的标记错误以及标注结果偏剖的问题。
[0054]
进一步地,在一些实施例中,所述对所述待处理音档信号进行预处理,得到预处理音档信号具体包括:
[0055]
将所述待处理音档信号转换为预设的格式,以得到转换音档信号;
[0056]
将所述转换音档信号切割为多句完整音档信号,得到由多句所述完整音档信号构
成的所述预处理音档信号。
[0057]
在本实施例中,待处理音档信号可以采用档案格式转换(audio foramat transformation)工具或技术进行格式转换。转换后的格式应当为语音辨识器支持的、能够训练的格式。其中不同的语音辨识器使用的训练格式不同,所以该方法使用时可以根据使用的语音辨识器,将待处理音档信号转换为指定的格式。例如一般8k语音辨识器使用的训练格式为wav,采样率为8000、128kb/s。
[0058]
一般情况下,一个完整的音档除了包括说话人声之外,也可能夹杂着噪音、讲话停顿时间、来电铃声...等等信号,而且过长的音档不仅影响训练效果,也会增加标注所需要花费的时间,所以在完成待处理音档信号的格式转换后,还需要对转换后的信号进行音档切句。
[0059]
进一步地,在一些实施例中,所述将所述转换音档信号切割为多句完整音档信号具体包括:
[0060]
对所述转换音档信号进行语音活性检测,得到所述转换音档信号中的人声片段;
[0061]
对所述人声片段进行切割,得到多句所述完整音档信号。
[0062]
在本实施例中,在进行音档切句时,首先对所述转换音档信号进行语音活性检测(speech activity detection),提取转换音档信号中实际为人声的人声片段,并对人声片段进行自动化切句,使得切割后得到的完整音档信号包含了完整并带有讯息的内容。该方法在完成音档切句后,还可以为每一句完整音档信号设置一个独立不重复的音档id,供后续处理使用。
[0063]
进一步地,在一些实施例中,所述利用多个语音辨识器分别将所述预处理音档信号转换为文字信息具体包括:
[0064]
利用多个所述语音辨识器分别将每句所述完整音档信号转换为文字信息。
[0065]
在本实施例中,由于不同语音信号的语速、说话时的口癖等等因素不同,所以该方法完成音档切句后,使用不同的语音辨识器对同一句完整音档信号进行辨识,利用不同语音辨识器的辨识能力补足上述因素带来的语音识别差异。
[0066]
进一步地,在一些实施例中,所述对各个语音辨识器得到的所述文字信息进行再处理,以得到再处理文字信息具体包括:
[0067]
将每句所述完整音档信号对应的所有文字信息进行两两比对,以获得比对结果;
[0068]
根据所述比对结果生成所述再处理文字信息。
[0069]
在本实施例中,该方法在进行比对时,可以根据音档id调取对应的完整音档信号进行语音识别。如果语音辨识器为三个,这样采用三个语音辨识器对同一句完整音档信号进行识别时,可以得到3个文字信息,例如:文字信息a、文字信息b、文字信息c。这样在对文字信息进行两两比对时,可以比对文字信息a和文字信息b,文字信息a和文字信息c,文字信息b和文字信息c,根据这三组的比对结果生成所述再处理文字信息。
[0070]
如果语音辨识器为两个,这样采用两个语音辨识器对同一句完整音档信号进行识别时,可以得到2个文字信息,例如:文字信息a、文字信息b。这样在对文字信息进行两两比对时,直接比对文字信息a和文字信息b即可,根据这一组的比对结果生成所述再处理文字信息。
[0071]
进一步地,在一些实施例中,所述根据所述比对结果生成所述再处理文字信息具
体包括,
[0072]
解析所述比对结果,得到每句所述完整音档信号对应的所有文字信息中相同的第一文字部分和不同的第二文字部分;
[0073]
保留所述第一文字部分;
[0074]
用预设的特殊字符替换所述第二文字部分,得到所述再处理文字信息。
[0075]
在本实施例中,该方法当得到比对结果后,利用编辑距离算法(edit distance algorithm)计算两个文字信息质检的差异程度,得到相同的第一文字部分和不同的第二文字部分,并将第二文字部分的字符替换为特殊字符,例如替换为“*”,这样就能得到每个完整音档信号对应的完形填空参考文字。标记人员只需重点检查特殊符号的部分就可以了,达到了高效率、低错误率的标注。参见表1,
[0076]
表1
[0077][0078]
由此可见,表1中,再处理文字保留了文字信息a和文字信息b中相同的字符,用特殊字符“*”替换了文字信息a和文字信息b中不同的字符,这样标记人员在进行标记时,只需要重点检查“*”的部分即可。
[0079]
进一步地,在一些实施例中,所述语音辨识器为两个。不同的所述语音辨识器的版本和/或架构不同。
[0080]
在本实施例中,可以选用两种语音辨识器(例如语音辨识器a、语音辨识器b)对完整音档信号进行识别,其中语音辨识器a、语音辨识器b可以是不同版本、不同架构甚至是可取得的第三方语音辨识器。
[0081]
为了进一步地体现该半自动化音档标注方法的优点,本实施例举例对该半自动化音档标注方法进行说明。
[0082]
假设用户在取得一批需要标注的音档数据后,首先将音档数据转换为指定格式,一般情况下,音档数据的原始格式包括amr、m4a、mp3
…
等,所以统一将音档数据转换为惯用的统一格式,例如wav格式,16bit depth,8000/16000采样率。然后对转换后的音档数据进行语音活性检测,得到人声片段,对人声片段进行切句,在获得的每一句完整音档信息传给多个语音辨识器,例如asr模型、竹间的asr模型和阿里/第三方的模型等等。最后,在获得各个语音辨识器输出的文字信息后,利用编辑距离算法找出文字信息不一致的部分,用特殊符号“*”代替,得到最后的再处理文字信息(即完形参考文字)。这样标注人员就可以直接在再处理文字信息上进行标注即可,帮助标注人员加速标注流程效率。
[0083]
一种半自动化音档标注系统,参见图2,包括:
[0084]
采集单元:用于采集待处理音档信号;
[0085]
预处理单元:与所述采集单元连接,用于对所述待处理音档信号进行预处理,得到
预处理音档信号;
[0086]
识别单元:与所述预处理单元连接,用于利用多个语音辨识器分别将所述预处理音档信号转换为文字信息;
[0087]
再处理单元:与所述识别单元连接,用于对各个语音辨识器得到的所述文字信息进行再处理,以得到再处理文字信息;
[0088]
标注单元:与所述在处理单元连接,用于接收针对所述再处理文字信息录入的人工标注信息,完成所述待处理音档信号的标注。
[0089]
在本实施例中,应该理解到,所揭露系统可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
[0090]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
[0091]
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0092]
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read
‑
only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0093]
本发明实施例所提供的系统,为简要描述,实施例部分未提及之处,可参考前述实施例中相应内容。
[0094]
一种半自动化音档标注设备,参见图3,包括处理器和存储器,所述处理器和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行上述的方法。
[0095]
应当理解,在本实施例中,所称处理器可以是中央处理单元(central processing unit,cpu),该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现成可编程门阵列(field
‑
programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0096]
该存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据。存储器的一部分还可以包括非易失性随机存取存储器。例如,存储器还可以存储设备类型的信息。
[0097]
本发明实施例所提供的设备,为简要描述,实施例部分未提及之处,可参考前述实施例中相应内容。
[0098]
一种计算机可读存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行上述的方法。
[0099]
在本实施例中,所述计算机可读存储介质可以是前述任一实施例所述的终端的内部存储单元,例如终端的硬盘或内存。所述计算机可读存储介质也可以是所述终端的外部存储设备,例如所述终端上配备的插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)等。进一步地,所述计算机可读存储介质还可以既包括所述终端的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述终端所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
[0100]
本发明实施例所提供的介质,为简要描述,实施例部分未提及之处,可参考前述实施例中相应内容。
[0101]
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。