首页 > 乐器声学 专利正文
音频处理方法、装置、计算机设备及存储介质与流程

时间:2022-02-15 阅读: 作者:专利查询

音频处理方法、装置、计算机设备及存储介质与流程

1.本技术涉及音频处理技术领域,更具体地,涉及一种音频处理方法、装置、计算机设备及存储介质。


背景技术:

2.在相关领域中,音频常常可以作为重要的证据或线索。但是,在实际应用中,通常是由人工对音频中的内容进行听取识别,如此,人工成本较高且耗时较长,并且通过人工的方式进行音频的听取识别,较为主观,可能会导致最终识别到的音频的内容不完整、不准确等问题。


技术实现要素:

3.有鉴于此,本技术提出了一种音频处理方法、装置、电子设备及存储介质。
4.第一方面,本技术实施例提供了一种音频处理方法,所述方法包括:对目标音频进行语音识别,获取所述目标音频中包含的所有音素、所述所有音素中每个音素出现的开始时间和结束时间以及所述目标音频对应的文本信息;根据所述每个音素出现的开始时间和结束时间,获取所述文本信息中单位文本出现的开始时间和结束时间;基于所述文本信息、所述文本信息中的单位文本以及所述单位文本出现的开始时间和结束时间,生成所述目标音频的分析结果。
5.第二方面,本技术实施例提供了一种音频处理装置,所述装置包括:语音识别模块、时间获取模块以及分析结果确定模块。语音识别模块,用于对目标音频进行语音识别,获取所述目标音频中包含的所有音素、所述所有音素中每个音素出现的开始时间和结束时间以及所述目标音频对应的文本信息;时间获取模块,用于根据所述每个音素出现的开始时间和结束时间,获取所述文本信息中单位文本出现的开始时间和结束时间;分析结果确定模块,用于基于所述文本信息、所述文本信息中的单位文本以及所述单位文本出现的开始时间和结束时间,生成所述目标音频的分析结果。
6.第三方面,本技术实施例提供了一种计算机设备,包括:一个或多个处理器;存储器;一个或多个程序,其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行第一方面提供的音频处理方法。
7.第四方面,本技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有程序代码,所述程序代码可被处理器调用执行第一方面提供的音频处理方法。
8.本技术提供的方案中,对目标音频进行语音识别,获取目标音频中包含的所有音素、所有音素中每个音素出现的开始时间和结束时间以及目标音频对应的文本信息;根据每个音素出现的开始时间和结束时间,获取文本信息中单位文本出现的开始时间和结束时间;基于文本信息、文本信息中的单位文本以及单位文本出现的开始时间和结束时间,生成
目标音频的分析结果。如此,由电子设备对目标音频进行语音识别,可以较快地实现对目标音频的识别,得到目标音频对应的文本信息,同时也可以保证获取到的目标音频对应内容的完整性;并且,结合目标音频中音素以及音素出现的开始时间和结束时间,确定文本信息中单位文本出现的开始时间和结束时间,提高了识别的目标音频中内容中每个单位文本出现时间和结束时间的准确性,即,可以得到针对目标音频的完整且准确的分析结果。
附图说明
9.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
10.图1示出了本技术一实施例提供的音频处理方法的流程示意图。
11.图2示出了本技术另一实施例提供的音频处理方法的流程示意图。
12.图3示出了图2所示步骤s230在一种实施方式中的子步骤流程示意图。
13.图4示出了图2所示步骤s230在另一种实施方式中的子步骤流程示意图。
14.图5示出了本技术又一实施例提供的音频处理方法的流程示意图。
15.图6示出了本技术又另一实施例提供的音频处理方法的流程示意图。
16.图7示出了本技术再又一实施例提供的音频处理方法的流程示意图。
17.图8是根据本技术一实施例提供的一种音频处理装置的框图。
18.图9是本技术实施例的用于执行根据本技术实施例的音频处理方法的计算机设备的框图。
19.图10是本技术实施例的用于保存或者携带实现根据本技术实施例的音频处理方法的程序代码的存储单元。
具体实施方式
20.为了使本技术领域的人员更好地理解本技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述。
21.在相关领域中,音频常常可以作为重要的证据或线索。但是,在实际应用中,通常是由人工对音频中的内容进行听取识别,如此,人工成本较高且耗时较长,并且通过人工的方式进行音频的听取识别,较为主观,可能会导致最终识别到的音频的内容不完整、不准确等问题。
22.针对上述问题,发明人提出一种音频处理方法、装置、计算机设备及存储介质,可以对目标音频进行语音识别,获取目标音频对应的文本信息、文本信息中的单位文本以及单位文本出现的开始时间和结束时间,并基于上述信息生成目标音频的分析结果。下面对该内容进行详细描述。
23.请参照图1,图1为本技术一实施例提供的一种音频处理方法的流程示意图。下面将结合图1对本技术实施例提供的音频处理方法进行详细阐述。该音频处理方法可以包括以下步骤:
24.步骤s110:对目标音频进行语音识别,获取所述目标音频中包含的所有音素、所述
所有音素中每个音素出现的开始时间和结束时间以及所述目标音频对应的文本信息。
25.在本实施例中,在现实场景中的较多领域中,音频往往是较为重要的信息,例如,在相关领域中,音频可以作为重要的证据或线索。因此,对音频中所包含的信息进行获取和研究显得尤为重要。其中,音频中可以包括时域、频域以及具体的语音内容等信息,为实现对音频进行较为全面的识别及分析,可以分别获取上述信息,并基于上述信息以及上述信息之间的联系,生成针对音频的准确且全面的分析结果。
26.在一些实施方式中,可以将目标音频输入至预先确定的语音识别模型中,实现对该目标音频的语音识别,得到与目标音频对应的文本信息;对目标音频进行语音识别的过程即为对目标音频进行解码的过程,解码的最终结果也就是上述提到的与目标音频对应的文本信息,并且在解码的过程中会产生一种中间信息,该中间信息仅在解码过程中出现,其中,中间信息即为上述提到的音素;其中,解码过程中存在一个对齐操作,基于此,可以通过对齐操作来获取目标音频中包含的所有音素以及每个音素出现的开始时间和结束时间。如此,通过对齐操作来获取到目标音频中最小语音单元的开始时间和结束时间,有利于后续根据音素的开始时间和结束时间更为准确地确定目标音频中单位文本出现的开始时间和结束时间,提高音频分析的准确性。
27.其中,音素是指根据语音的自然属性划分出来的最小语音单位,也就是说,根据音节里的发音动作来分析,一个动作构成一个音素。示例性地,“花”的汉语拼音为“hua”,在解码的过程中则可以产生3个音素,分别为“h”、“u”以及“a”。
28.步骤s120:根据所述每个音素出现的开始时间和结束时间,获取所述文本信息中单位文本出现的开始时间和结束时间。
29.在本实施例中,单位文本可以是文字或者词组的形式,本实施例对此不作限制。因此,单位文本的拼音至少是由一个音素构成,因此,可以根据获取到的音素出现的开始时间和结束时间,来确定单位文本出现的开始时间和结束时间。基于此,文本信息由多个单位文本组成,在获取到文本信息中每个音素出现的开始时间和结束时间后,即可以获取到文本信息中所有单位文本出现的开始时间和结束时间。
30.在一些实施方式中,当一个单位文本仅对应一个音素时,将该音素出现的开始时间作为单位文本出现的开始时间,将该音素出现的结束时间作为单位文本的结束时间。例如,若单位文本为“哦”,其仅对应一个音素“o”,若音素“o”的开始时间为2021/8/4 12:00.06,结束时间为2021/8/4 12:00.07,则可以确定单位文本“哦”的开始时间为2021/8/4 12:00.06,结束时间为2021/8/4 12:00.07。
31.在另一些实施方式中,当一个单位文本仅对应多个音素时,则将多个音素中出现的开始时间最早的时间作为单位文本出现的开始时间,将多个音素中出现的结束时间最晚的时间作为单位文本出现的结束时间。例如,若单位文本为“我”,其对应两个音素“w”和“o”,若音素“w”的开始时间为2021/8/4 12:00.01,结束时间为2021/8/4 12:00.02,音素“o”的开始时间为2021/8/4 12:00.03,结束时间为2021/8/4 12:00.04,音素“w”的开始时间早于音素“o”的开始时间,音素“o”的结束时间晚于音素“w”的结束时间,因此,可以确定单位文本“我”出现的开始时间为2021/8/4 12:00.01,结束时间为2021/8/4 12:00.04。
32.步骤s130:基于所述文本信息、所述文本信息中的单位文本以及所述单位文本出现的开始时间和结束时间,生成所述目标音频的分析结果。
33.基于此,在获取到目标音频对应的文本信息、文本信息中的单位文本以及单位文本出现的开始时间和结束时间后,则可以将上述文本信息、文本信息中的单位文本以及单位文本出现的开始时间和结束时间作为针对目标音频的分析结果。
34.在本实施例中,通过语音识别模型对目标音频进行语音识别,可以得到更为全面且准确的目标音频中语音内容对应的文本信息;并且,通过语音解码过程中产生的音素出现的开始时间和结束时间,来确定文本信息中单位文本出现的开始时间和结束时间,如此,也提高了获取的文本信息中每个单位文本出现的时间信息的准确性,即可以生成针对目标音频完整且准确的分析结果。
35.请参照图2,图2为本技术另一实施例提供的一种音频处理方法的流程示意图。下面将结合图2对本技术实施例提供的音频处理方法进行详细阐述。该音频处理方法可以包括以下步骤:
36.步骤s210:输出提示信息,所述提示信息用于提示用户选择待识别的单位文本的类型。
37.在本实施例中,可能一些用户想在分析结果中查看某个文字的时间信息,也可能有一些用户想在分析结果中查看某个词组的时间信息,因此,可以根据用户的需求,确定与其需求相匹配的待识别的单位文本的类型,提高用户体验。基于此,可以输出提示信息,以提示用户选择待识别的单位文本的类型,其中,待识别的单位文本的类型可以包括文字和词组,本实施例对此不作限制。例如,提示信息可以为“待识别的单位文本的类型包括文字和词组,请选择您需要的类型”。
38.步骤s220:接收用户基于所述提示信息输入的待识别的单位文本的类型,并将所述类型作为目标类型。
39.在本实施例中,当输出提示信息后,用户可以根据提示信息并基于自身需求,输入待识别的单位文本的类型;对应地,电子设备则接受用户基于提示信息输入的待识别的单位文本的类型,并将其作为目标类型。其中,用户输入待识别的单位文本的类型的方式可以是文字输入、语音输入或者通过触控选择等方式,本实施例对此不作限制。
40.步骤s230:对目标音频进行语音识别,获取所述目标音频中包含的所有音素、所述所有音素中每个音素出现的开始时间和结束时间以及所述目标音频对应的文本信息。
41.在本实施例中,步骤s230的具体实施方式可以参阅前述实施例中的内容,在此不再赘述。
42.步骤s240:根据所述每个音素出现的开始时间和结束时间,获取所述文本信息中所述目标类型的单位文本出现的开始时间和结束时间。
43.在一些实施方式中,当待识别的单位文本的目标类型为文字时,请参阅图3,步骤s240可以包括:
44.步骤s241a:将所有音素按照所述开始时间递减的顺序进行排列,得到音素序列。
45.在本实施例中,当待识别的单位文本的目标类型为文字时,由于文字的拼音至少包含一个音素,因此,可以根据每个音素出现的开始时间和结束时间,获取文本信息中每个文字出现的开始时间和结束时间,即,获取文本信息中目标类型的单位文本的开始时间和结束时间。
46.具体地,由于已经获取到文本信息中所有音素出现的开始时间和结束时间,且对
目标音频解码后得到的文本信息中的每个文字都有时序性,每个字对应的因素也都有时序性。因此,可以先将所有音素按照时间顺序进行排列,得到一个有序序列。可选地,可以将所有音素按照出现的开始时间递减的顺序进行排列,得到音素序列;或者,也可以将所有音素按照出现的结束时间递减的顺序进行排列,得到音素序列;又或者,可以将所有音素按照出现的开始时间以及结束时间递减的顺序进行排列,得到音素序列,本实施例对此不作限制。
47.步骤s242a:按照所述开始时间递减的顺序,将所述文本信息中的每个文字与所述音素序列中的每个音素进行匹配。
48.步骤s243a:将与所述每个文字相匹配的音素出现的开始时间和结束时间,作为所述文本信息中单位文本出现的开始时间和结束时间。
49.基于此,可以通过现有的拼音转换模型,将文本信息中每个文字转换为对应的拼音,并且按照开始时间递减的顺序,将每个文字对应的拼音与音素序列中的每个音素进行匹配,再将与每个文字对应的拼音相匹配的音素出现的开始时间和结束时间,作为该文字出现的开始时间和结束时间,即,文本信息中单位文本出现的开始时间和结束时间。其中,判断与每个文字对应的拼音相匹配的音素,可以是从文本信息中的第一个文字开始,按照开始时间递减的顺序,将音素序列中能组成第一个文字的拼音的音素作为与该文字相匹配的音素,同理,再按照出现时间的递减顺序,依次获取与其他文字相匹配的音素,针对文本信息中的第二个文字、第三个文字等均可以采用相同的匹配方式,在此不再赘述。
50.示例性地,若目标音频的内容为“我喜欢你”,对该目标音频进行解码后,得到的所有音素则包括“w”、“o”、“x”、“i”、“h”、“u”、“a”、“n”、“n”以及“i”,对上述所有音素进行排序后,可以得到音素序列[w,o,x,i,h,u,a,n,n,i]”;进一步地,可以将目标音频的文本信息“我喜欢你”转换为拼音“wo xi huan ni”,再按照开始时间递减的顺序,将文本信息中的每个文字对应的拼音与音素序列中的每个音素进行匹配,以得到与每个文字相匹配的音素。针对第一个文字“我”,对应的拼音为“wo”,可以从音素序列中获取到“w”和“o”两个音素可以构成文字“我”的拼音,因此,可以确定文字“我”相匹配的音素为“w”和“o”两个音素。因此,可以根据“w”和“o”两个音素出现的开始时间和结束时间,确定文字“我”出现的开始时间和结束时间,若音素“w”出现的开始时间为2021/8/4 12:00.01,结束时间为2021/8/4 12:00.02,音素“o”出现的开始时间为2021/8/4 12:00.03,结束时间为2021/8/4 12:00.04,则可以将音素“w”出现的开始时间作为文字“我”出现的开始时间,即2021/8/4 12:00.01,以及将音素“o”的结束时间作为文字“我”出现的结束时间,即2021/8/4 12:00.04。文本信息中其他文字的开始时间和结束时间获取的方式与获取文字“我”出现的开始时间和结束时间原理相似,在此不再赘述。
[0051]
在另一些实施方式中,当待识别的单位文本的目标类型为词组时,请参阅图4,步骤s240可以包括:
[0052]
步骤s241b:对所述文本信息进行分词,得到多个词组,所述多个词组中每个词组中至少包含一个文字。
[0053]
在本实施例中,当待识别的单位文本的目标类型为词组时,由于词组中至少包括一个文字,因此,词组的拼音也至少包含一个音素。因此,可以根据每个音素出现的开始时间和结束时间,获取文本信息中每个词组出现的开始时间和结束时间,即,获取文本信息中目标类型的单位文本的开始时间和结束时间。
[0054]
具体地,可以先对文本信息进行分词,得到多个词组,其中,对文本信息进行分词的方法可以包括多种,例如基于词典的方法、基于统计的方法或基于语义规则的方法等,本实施例对此不作限制。
[0055]
示例性地,若文本信息为“我来到北京清华大学”,在对文本信息进行分词后,可以得到“我”、“来到”、“北京”以及“清华大学”四个词组。
[0056]
步骤s242b:将所述多个词组按照所述开始时间递减的顺序进行排序,得到词组序列。
[0057]
基于此,在得到多个词组后,由于文本信息本身就具有时序性,因此可以将多个词组按照开始时间递减的顺序进行排序,得到一个有序序列,即上述词组序列。仍以文本信息为“我来到北京清华大学”为例,按照开始时间的递减顺序进行排列,可以得到词组序列[我,来到,北京,清华大学]。
[0058]
步骤s243b:将所有音素按照所述开始时间递减的顺序进行排列,得到音素序列。
[0059]
在本实施例中,步骤s243b的具体实施方式可以参阅前述实施例中的内容,在此不再赘述。
[0060]
步骤s244b:按照时间递减的顺序,将所述词组序列中的每个词组与所述音素序列中的每个音素进行匹配。
[0061]
步骤s245b:将与所述每个词组相匹配的音素出现的开始时间和结束时间,作为所述文本信息中单位文本出现的开始时间和结束时间。
[0062]
在本实施例中,在词组序列和音素序列之后,可以按照时间递减的顺序,将词组序列中的每个词组与音素序列中的每个音素进行匹配,并将与每个词组相匹配的音素出现的开始时间和结束时间,作为该词组出现的开始时间和结束时间,即为文本信息中单位文本出现的开始时间和结束时间。
[0063]
具体地,可以通过现有的拼音转换模型,将词组序列中每个词组转换为其对应的拼音,再按照开始时间递减的顺序,依次将词组序列中每个词组对应的拼音与音素序列中的音素进行匹配,再将音素序列中可以组成该词组对应的拼音的音素作为与该词组匹配的音素,并将与该词组相匹配的音素出现的开始时间和结束时间作为该词组出现的开始时间和结束时间。
[0064]
仍以上述文本信息为“我来到北京清华大学”为例,词组序列为[我,来到, 北京,清华大学],音素序列为[w,o,l,a,i,d,a,o,b,e,i,j,i,n,g,q,i,n,g,h,u,a,d,a,x,u,e],因此,针对第一个词组“我”的拼音为“wo”,可以按照开始时间的递减顺序,从音素序列中获取到“w”和“o”两个音素可以组成“我”对应的拼音“wo”,因此,可以将“w”和“o”两个音素作为与词组“我”相匹配的音素,进一步地,可以基于“w”和“o”两个音素出现的开始时间和结束时间,确定词组“我”出现的开始时间和结束时间,其中,确定词组出现的开始时间和结束时间的具体实施方式可以参阅前述实施例中的内容,在此不再赘述。
[0065]
步骤s250:基于所述文本信息、所述文本信息中的单位文本以及所述单位文本出现的开始时间和结束时间,生成所述目标音频的分析结果。
[0066]
在本实施例中,步骤s250的具体实施方式可以参阅前述实施例中的内容,在此不再赘述。
[0067]
在本实施例中,在对目标音频进行处理分析之前,通过输出提示信息的方式,提示
用户选择满足自身需求的待识别的单位文本的类型,将该类型作为目标类型,再基于文本信息中音素出现的开始时间和结束时间,确定目标类型的单位文本出现的开始时间和结束时间,并将该目标类型的开始时间和结束时间作为分析结果之一,在后续将分析结果展示给用户查看时,可以方便用户迅速查看到其选择的目标类型的单位文本的内容以及时间信息,极大地满足了用户需求,提高了用户体验。以及,通过语音识别模型对目标音频进行语音识别,可以得到更为全面且准确的目标音频中语音内容对应的文本信息;并且,通过语音解码过程中产生的音素出现的开始时间和结束时间,来确定文本信息中单位文本出现的开始时间和结束时间,如此,也提高了获取的文本信息中每个单位文本出现的时间信息的准确性,即可以生成针对目标音频完整且准确的分析结果。
[0068]
请参照图5,图5为本技术又一实施例提供的一种音频处理方法的流程示意图。下面将结合图5对本技术实施例提供的音频处理方法进行详细阐述。该音频处理方法可以包括以下步骤:
[0069]
步骤s310:对目标音频进行语音识别,获取所述目标音频中包含的所有音素、所述所有音素中每个音素出现的开始时间和结束时间以及所述目标音频对应的文本信息。
[0070]
步骤s320:根据所述每个音素出现的开始时间和结束时间,获取所述文本信息中单位文本出现的开始时间和结束时间。
[0071]
步骤s330:基于所述文本信息、所述文本信息中的单位文本以及所述单位文本出现的开始时间和结束时间,生成所述目标音频的分析结果。
[0072]
在本实施例中,步骤s310至步骤s330的具体实施方式可以参阅前述实施例中的内容,在此不再赘述。
[0073]
步骤s340:判断所述文本信息中是否存在多个相同的单位文本。
[0074]
步骤s350:若存在,则获取所述多个相同的单位文本出现的频率。
[0075]
步骤s360:将所述频率与其对应的单位文本之间的对应关系添加至所述分析结果。
[0076]
在本实施例中,可以在获取到目标音频的文本信息、文本信息中的单位文本以及单位文本出现的开始时间和结束时间后,可以进一步对相同的单位文本出现的频率进行统计,并将统计的结果添加至分析结果中,以丰富分析结果中包含的信息,同时也可以使用户在查看分析结果时,可以了解到关于目标音频更全面的信息。
[0077]
具体地,目标音频中可能会存在相同的一些音频片段,对应地,针对目标音频解码得到的文本信息中,也可能会出现相同的单位文本,因此,可以判断文本信息中是否存在相同的单位文本,若存在,则获取多个相同文本出现的频率,再将该频率与其对应的单位文本之间的对应关系添加至分析结果中。其中,文本信息中可以存在一种单位文本存在多个相同的单位文本,例如,文本信息为“我喜欢喝饮料,但不爱喝牛奶”,其中,仅有该单位文本“喝”存在多个相同的单位文本,单位文本“喝”出现了2次,因此,可以确定单位文本“喝”出现的频率为2;
[0078]
可选地,也可以同时存在多种单位文本,其中每种单位文本均存在多个相同的单位文本,基于此,可以获取每种单位文本的出现的频率,并将每种单位文本出现的频率与该单位文本之间的对应关系添加至分析结果,例如,文本信息为“我喜欢喝饮料,但我不爱喝牛奶”,其中,单位文本“我”和单位文本“喝”均各自存在多个相同的单位文本,单位文本

我”出现了2次,单位文本“喝”出现了2次,因此,可以确定单位文本“我”出现的频率为2,单位文本“喝”出现的频率为2。
[0079]
可以理解地,不存在相同的单位文本出现的频率则为1,也可以将每种单位文本出现的频率与自身的对应关系均添加至分析结果中,供用户可以更全面地了解到文本信息中每个单位文本出现的频率。
[0080]
步骤s370:输出所述分析结果。
[0081]
基于此,在将多个相同的单位文本出现的频率与其对应的单位文本之间的对应关系添加至分析结果后,可以输出分析结果。其中,输出分析结果的方式可以是直接在电子设备端显示分析结果,也可以是由电子设备将分析结果发送至显示设备,由显示设备将分析结果进行显示;当然,也可以将分析结果通过语音的方式进行输出,本实施例对此不作限制。
[0082]
在输出分析结果后,用户可以查看该分析结果中所包含的内容,具体地,用户可以看到目标音频对应的文本信息、文本信息中所有的单位文本、每个单位文本出现的开始时间及结束时间、以及每种单位文本出现的频率。如此,用户既能宏观地了解到目标音频对应的文本信息包含的全部内容,也可以了解到文本信息中单位文本的时间信息(如开始时间和结束时间),以及每种单位文本出现的频率等细节内容,如此,可以更好地帮助用户更全面地了解目标音频的内容。例如,在相关场景中,目标音频为相关人员的申述音频,若针对该申述音频的分析结果中,“嗯”、“这个,嗯”这类型的单位文本出现的频率高于指定频率阈值,工作人员可以判断该相关人员说谎的概率较大,也就是说申述音频的可信度不高,基于此,工作人员可以对相关人员进行进一步地调查,工作人员可以根据目标音频的分析结果提高相关工作的准确性和效率。
[0083]
步骤s380:若接收到用户基于所述分析结果输入的针对指定单位文本的查看请求,从所述目标音频中提取出与所述指定单位文本对应的指定音频,并输出所述指定音频。
[0084]
在一些实施方式中,在输出分析结果后,用户可以根据查看到的分析结果,输入针对分析结果中指定单位文本的查看请求,对应地,电子设备接收用户输入的针对指定单位文本的查看请求,再从目标音频中提取出与指定单位文本对应的指定音频,并播放该指定音频,供用户进行听辨。如此,可以实现针对性地为用户提供其需要的指定单位文本对应的指定音频,有助于用户更清楚地听清其需要的指定音频的内容,提高用户体验。
[0085]
例如,在相关场景中,目标音频可以是窃听的相关人员之间的谈话音频,因此,可能目标音频中某些音频片段的音量或者音质较差,导致用户无法准确获取到质量较差的音频片段对应的内容,若由用户一遍一遍重复听取整段目标音频的方式,则会导致耗时长,办案效率低的问题。基于此,用户可以基于分析结果,选择其需要重复听取的音频片段对应的单位文本作为指定单位文本,对应地,电子设备则将该指定单位文本对应的指定音频进行输出播放,供用户进行听辨,甚至可以对该指定音频的音频质量进行增强后,再进行输出播放。如此,可以减少用户获取指定音频中其需要的重要信息的时间,提高用户体验。
[0086]
在本实施例中,可以将文本信息中相同的单位文本出现的频率与该单位文本的对应关系添加至分析结果,并输出该分析结果,并根据用户输入的针对指定单位文本的查看请求,从目标音频中提取出与指定单位文本对应的指定音频,并输出指定音频,如此,可以让用户了解到针对目标音频中的更多细节信息,如某个文字或某个词组出现的频率,并根
据用户的查看请求,输出其想要查看的指定音频,很好地满足了用户的需求,提高了用户体验。以及,通过语音识别模型对目标音频进行语音识别,可以得到更为全面且准确的目标音频中语音内容对应的文本信息;并且,通过语音解码过程中产生的音素出现的开始时间和结束时间,来确定文本信息中单位文本出现的开始时间和结束时间,如此,也提高了获取的文本信息中每个单位文本出现的时间信息的准确性,即可以生成针对目标音频完整且准确的分析结果。
[0087]
请参照图6,图6为本技术又另一实施例提供的一种音频处理方法的流程示意图。下面将结合图6对本技术实施例提供的音频处理方法进行详细阐述。该音频处理方法可以包括以下步骤:
[0088]
步骤s410:对目标音频进行语音识别,获取所述目标音频中包含的所有音素、所述所有音素中每个音素出现的开始时间和结束时间以及所述目标音频对应的文本信息。
[0089]
步骤s420:根据所述每个音素出现的开始时间和结束时间,获取所述文本信息中单位文本出现的开始时间和结束时间。
[0090]
在本实施例中,步骤s410至步骤s420的具体实施方式可以参阅前述实施例中的内容,在此不再赘述。
[0091]
步骤s430:若所述文本信息中存在所述多个相同的单位文本,将所述多个相同的单位文本作为目标文本,获取所述目标文本中每个单位文本对应的音频片段的语谱图。
[0092]
在本实施例中,目标音频中可能存在多个用户发出的音频,因此,可以将目标音频中每个用户发出的音频进行区分标识后,再作为分析结果之一进行输出,如此,可以方便用户可以根据不同用户的区分标识来查看目标音频。
[0093]
在实际应用中,目标音频中一般可以包括较多的“的”、“地”或“了”等词,不同用户说相同的字或词发音不同,因此,若文本信息中存在多个相同的单位文本,可以将多个相同的单位文本作为目标文本,再对目标文本中的每个单位文本对应的音频片段之间进行相似度的判断,以判断是否该目标音频中是否同时包含多个用户的发出的音频。具体地,可以获取目标文本中每个单位文本对应的音频片段的语谱图,其中,语谱图的横坐标是时间,纵坐标是频率,坐标点值为语音数据能量。语谱图是采用二维平面表达三维信息,所以能量值的大小是通过坐标点的颜色来表示的,颜色深,表示该点的语音能量越强。
[0094]
步骤s440:基于所述语谱图,获取所述目标文本中每个单位文本对应的音频片段与其他单位文本对应的音频片段之间的相似度。
[0095]
步骤s450:将所述相似度大于预设相似度阈值的音频片段作为同一用户发出的音频,并针对所述相似度大于所述预设相似度阈值的音频片段对应的单位文本,添加所述用户的用户标识。
[0096]
基于此,在获取到目标文本中每个单位文本对应的语音片段的语谱图后,再基于频谱图通过信号处理的线性预测分析、图像的相似度计算(例如:直方图、模板匹配、结构相似性、感知哈希、纹理特征)等方法,计算目标文本中每个单位文本对应的音频片段与其他单位文本对应的音频片段之间的相似度。具体地,由于存在多个相同的单位文本,因此,可以任取目标文本中的任一单位文本作为指定单位文本,并计算指定单位文本对应的音频片段与目标文本中除指定单位文本之外的每个单位文本对应的音频片段之间的相似度,并判断该相似度是否大于预设相似度阈值;若目标文本中除指定单位文本之外存在单位文本对
应的音频片段的相似度大于该预设相似度阈值,则代表该单位文本对应的音频片段与指定单位文本对应的音频片段之间的相似度高,进而判断该单位文本对应的音频片段与指定单位文本对应的音频片段为同一用户发出。因此,可以将相似度大于预设相似度阈值的音频片段作为同一用户发出的音频,并针对相似度大于预设相似度阈值的音频片段对应的单位文本,添加用户的用户标识。其中,预设相似阈值为预先设置的,如0.6,也可以根据不同的应用场景进行调整,本实施例对此不作限制。
[0097]
基于此,再将其余相似度不大于预设相似度阈值的音频片段对应的单位文本也通过上述方式进行相似度的比较,任取其余单位文本中的任一单位文本作为指定单位文本,并获取其余单位文本中除指定单位文本的每个单位文本对应的音频片段与指定单位文本对应的音频片段之间的相似度,并将该相似度与预设相似度阈值进行比较,进而判断是否存在与指定单位文本对应的音频片段为同一用户发出的音频片段,同样针对相似度大于预设相似度阈值的音频片段对应的单位文本,添加另一用户的用户标识。可以理解地,目标文本对应的多个音频片段中可能存在多个用户发出的音频,判断多个音频片段中每一个音频片段的用户标识均可采用上述方法,在此不再赘述。
[0098]
其中,用户标识可以仅是区分不同用户的标识信息,不包含用户的具体身份信息,例如用户1、用户2、用户3等;或者,用户标识也可以是区分不同用户的标识信息,同时也包含用户的具体身份信息,例如张三、李四等,若用户标识包含用户的具体身份信息,则在确定用户标识之前,可以将指定单位文本对应的音频片段的声纹特征与预先存储的声纹特征库中的声纹特征进行匹配,并将匹配成功的声纹特征对应的用户标识作为该指定单位文本对应的用户标识。
[0099]
在一些实施方式中,由于同一用户在不同情绪下,针对同一文字或词组发出的音频也会不一样,因此也可以基于语谱图对同一用户标识对应的多个音频片段进行语音分析,确定多个音频片段中每个音频片段对应的情绪,并将不同情绪的音频片段添加上对应的情绪标识,如激动、平静等,本实施例多次不作限制。如此,除了可以按照用户标识对目标音频中的音频片段进行分类输出,还可以针对用户的不同情绪进行分类输出,实现了快速的信息整合,用户可以根据用户标识和/或情绪标识来查看其想要查看的单位文本对应的语音片段,降低了人工工作量。
[0100]
步骤s460:基于所述文本信息、所述文本信息中的单位文本以及所述单位文本出现的开始时间和结束时间,生成所述目标音频的分析结果。
[0101]
在本实施例中,步骤s460的具体实施方式可以参阅前述实施例中的内容,在此不再赘述。
[0102]
步骤s470:获取所有用户标识中每个用户标识对应的所有单位文本。
[0103]
步骤s480:分组输出所述每个用户标识对应的所有单位文本,以及每个用户标识对应的所有单位文本中每个单位文本的开始时间和结束时间。
[0104]
在本实施例中,可以在生成目标音频的分析结果后,根据用户标识的不同,将分析结果进行分组输出,以使用户可以更清晰明了地了解到目标音频中存在多少的用户发出的音频。
[0105]
具体地,获取所有用户标识中每个用户标识对应的所有单位文本,并分组输出每个用户标识对应的所有单位文本,以及每个用户标识对应的所有单位文本中每个单位文本
的开始时间和结束时间。如此,用户可以直观且快速地查看到目标音频中包括多少个用户发出的音频,也方便用户选择查看其想查看的音频片段。
[0106]
在一些实施方式中,在分组输出每个用户标识对应的所有单位文本,以及每个用户标识对应的所有单位文本中每个单位文本的开始时间和结束时间之后,若接收到用户基于所述分析结果输入的目标用户标识,则获取目标用户标识对应的单位文本,作为目标单位文本;再将目标单位文本对应的音频,作为目标用户音频,并输出目标用户音频。如此,可以根据用户的选择,提供其想查看的目标用户音频,不需用户为听清某用户的音频片段而费时费力地反复重听整个目标音频片段,提高了用户体验。
[0107]
在本实施例中,通过对目标文本中的每个单位文本与其他单位文本中的每个单位文本的相似度的计算,并将相似度大于预设相似度阈值的音频片段对应的单位文本添加同一用户的用户标识。如此,在输出分析结果时,可以更清晰明了地向用户显示目标音频片段中包含了多少用户的音频片段,并且也方便用户基于该分析结果,选择其想查看的用户对应的音频片段,也就是说,可以快速对目标音频中包含的信息进行整理,用户可以基于整理输出的信息针对性地听取目标音频中某用户的音频片段,进而用户也可以从目标音频中获取到较为细节的内容信息,减少主观判断带来的误差,同时也降低了人工工作量,提高了用户体验。
[0108]
请参照图7,图7为本技术再又一实施例提供的一种音频处理方法的流程示意图。下面将结合图7对本技术实施例提供的音频处理方法进行详细阐述。
[0109]
在本实施例中,音频数据即为前述实施例中的目标音频,可以基于语音识别模型对音频数据进行语音识别引擎解码,解码的最终结果可以得到音频数据的文字识别内容,即前述实施例中的目标音频对应的文本信息;其中,解码的过程中有一个中间步骤叫对齐,可以通过对齐操作获取到音频数据中每个音素对应的时间信息(如开始时间和结束时间),并且可以将文字识别内容与每个音素进行映射,即可确定文字识别内容中每个文字或词组对应的时间信息,基于此,可以将将每个文字或者每个词组作为目标片段,并统计同一中目标片段出现的频率,即同一目标片段的个数。并将目标片段、目标片段的个数以及时间位置信息进行输出,如此,用户则可根据输出的信息,选择其想查看的目标片段的具体信息。
[0110]
可选地,还可以针对同一种目标片段对应的多个音频片段,判断多个音频片段之间的相似度,获取多个音频片段中两两音频片段之间的相似度,并判断该相似度是否大于阈值,若大于阈值,则确定两个音频片段之间相似度高,若不大于阈值,则确定两个音频片段之间相似度低,将相似度高的音频片段进行集中显示,将相似度低的音频片段区分于相似度高的音频片段进行显示,即,可以根据音频片段之间的相似度,将音频数据中包含的不同用户发出的音频进行区分显示,具体的实施方式可以参阅前述实施例,在此不再赘述。
[0111]
在本实施例中,通过语音识别模型对目标音频进行语音识别,可以得到更为全面且准确的目标音频中语音内容对应的文本信息;并且,通过语音解码过程中产生的音素出现的开始时间和结束时间,来确定文本信息中单位文本出现的开始时间和结束时间,如此,也提高了获取的文本信息中每个单位文本出现的时间信息的准确性,即可以生成针对目标音频完整且准确的分析结果;可以将文本信息中相同的单位文本出现的频率与该单位文本的对应关系添加至分析结果,并输出该分析结果,并根据用户输入的针对指定单位文本的查看请求,从目标音频中提取出与指定单位文本对应的指定音频,并输出指定音频,如此,
可以让用户了解到针对目标音频中的更多细节信息,如某个文字或某个词组出现的频率,并根据用户的查看请求,输出其想要查看的指定音频,很好地满足了用户的需求,提高了用户体验;还可以快速对目标音频中包含的信息进行整理,用户可以基于整理输出的信息针对性地听取目标音频中某用户的音频片段,进而用户也可以从目标音频中获取到较为细节的内容信息,减少主观判断带来的误差,同时也降低了人工工作量,提高了用户体验。
[0112]
请参照图8,其中示出了本技术另一实施例提供的一种音频处理装置500 的结构框图。该装置500可以包括:语音识别模块510、时间获取模块520和分析结果确定模块530。
[0113]
语音识别模块510用于对目标音频进行语音识别,获取所述目标音频中包含的所有音素、所述所有音素中每个音素出现的开始时间和结束时间以及所述目标音频对应的文本信息。
[0114]
时间获取模块520用于根据所述每个音素出现的开始时间和结束时间,获取所述文本信息中单位文本出现的开始时间和结束时间。
[0115]
分析结果确定模块530用于基于所述文本信息、所述文本信息中的单位文本以及所述单位文本出现的开始时间和结束时间,生成所述目标音频的分析结果。
[0116]
在一些实施方式中,音频处理装置500可以包括:提示模块以及信息接收模块。其中,提示模块可以用于在所述对目标音频进行语音识别,获取所述目标音频中包含的所有音素、所述所有音素中每个音素出现的开始时间和结束时间以及所述目标音频对应的文本信息之前,输出提示信息,所述提示信息用于提示用户选择待识别的单位文本的类型。信息接收模块可以用于接收用户基于所述提示信息输入的待识别的单位文本的类型,并将所述类型作为目标类型。时间获取模块520可以具体用于根据所述每个音素出现的开始时间和结束时间,获取所述文本信息中所述目标类型的单位文本出现的开始时间和结束时间。
[0117]
在一些实施方式中,当所述待识别的单位文本的目标类型为文字时,时间获取模块520可以包括:音素排序单元、匹配单元以及时间获取单元。其中,音素排序单元可以用于将所有音素按照所述开始时间递减的顺序进行排列,得到音素序列。匹配单元可以用于按照所述开始时间递减的顺序,将所述文本信息中的每个文字与所述音素序列中的每个音素进行匹配。时间获取单元可以用于将与所述每个文字相匹配的音素出现的开始时间和结束时间,作为所述文本信息中单位文本出现的开始时间和结束时间。
[0118]
在另一些实施方式中,当所述待识别的单位文本的目标类型为词组时,时间获取模块520可以包括:分词单元、第一排序单元、第二排序单元、音素匹配单元以及时间获取单元。其中,分词单元可以用于对所述文本信息进行分词,得到多个词组,所述多个词组中每个词组中至少包含一个文字。第一排序单元可以用于将所述多个词组按照所述开始时间递减的顺序进行排序,得到词组序列。第二排序单元可以用于将所有音素按照所述开始时间递减的顺序进行排列,得到音素序列。音素匹配单元可以用于按照时间递减的顺序,将所述词组序列中的每个词组与所述音素序列中的每个音素进行匹配。时间获取单元可以用于将与所述每个词组相匹配的音素出现的开始时间和结束时间,作为所述文本信息中单位文本出现的开始时间和结束时间。
[0119]
在一些实施方式中,音频处理装置500可以包括:判断模块、频率获取模块以及信息添加模块。其中,判断模块可以用于在所述基于所述文本信息、所述文本信息中的单位文本以及所述单位文本出现的开始时间和结束时间,生成所述目标音频的分析结果之后,判
断所述文本信息中是否存在多个相同的单位文本。频率获取模块可以用于若所述文本信息中存在多个相同的单位文本,则获取所述多个相同的单位文本出现的频率。信息添加模块可以用于将所述频率与其对应的单位文本之间的对应关系添加至所述分析结果。
[0120]
在该方式中,音频处理装置500还可以包括:语谱图获取模块、相似度获取模块以及标识添加模块。其中,语谱图获取模块可以用于在所述基于所述文本信息、所述文本信息中的单位文本以及所述单位文本出现的开始时间和结束时间,生成所述目标音频的分析结果之前,若所述文本信息中存在所述多个相同的单位文本,将所述多个相同的单位文本作为目标文本,获取所述目标文本中每个单位文本对应的音频片段的语谱图。相似度获取模块可以用于基于所述语谱图,获取所述目标文本中每个单位文本对应的音频片段与其他单位文本对应的音频片段之间的相似度。标识添加模块可以用于将所述相似度大于预设相似度阈值的音频片段作为同一用户发出的音频,并针对所述相似度大于所述预设相似度阈值的音频片段对应的单位文本,添加所述用户的用户标识。
[0121]
在该方式中,音频处理装置500还可以包括:文本获取模块以及输出模块。其中,文本获取模块可以用于在所述基于所述文本信息、所述文本信息中的单位文本以及所述单位文本出现的开始时间和结束时间,生成所述目标音频的分析结果之后,获取所有用户标识中每个用户标识对应的所有单位文本。输出模块用于分组输出所述每个用户标识对应的所有单位文本,以及每个用户标识对应的所有单位文本中每个单位文本的开始时间和结束时间。
[0122]
在一些实施方式中,音频处理装置500可以包括:输出模块、文本确定模块以及音频输出模块。其中,输出模块可以用于在所述基于所述文本信息、所述文本信息中的单位文本以及所述单位文本出现的开始时间和结束时间,生成所述目标音频的分析结果之后,输出所述分析结果。文本确定模块可以用于若接收到用户基于所述分析结果输入的目标用户标识,则获取所述目标用户标识对应的单位文本,作为目标单位文本。音频输出模块可以用于将所述目标单位文本对应的音频,作为目标用户音频,并输出所述目标用户音频。
[0123]
在另一些实施方式中,音频处理装置500可以包括:输出模块以及音频输出模块。其中,输出模块可以用于在所述基于所述文本信息、所述文本信息中的单位文本以及所述单位文本出现的开始时间和结束时间,生成所述目标音频的分析结果之后,输出所述分析结果。音频输出模块可以具体用于若接收到用户基于所述分析结果输入的针对指定单位文本的查看请求,从所述目标音频中提取出与所述指定单位文本对应的指定音频,并输出所述指定音频。
[0124]
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0125]
在本技术所提供的几个实施例中,模块相互之间的耦合可以是电性,机械或其它形式的耦合。
[0126]
另外,在本技术各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
[0127]
综上所述,本技术实施例提供的方案中,可以通过对目标文本中的每个单位文本与其他单位文本中的每个单位文本的相似度的计算,并将相似度大于预设相似度阈值的音
频片段对应的单位文本添加同一用户的用户标识。如此,在输出分析结果时,可以更清晰明了地向用户显示目标音频片段中包含了多少用户的音频片段,并且也方便用户基于该分析结果,选择其想查看的用户对应的音频片段,也就是说,可以快速对目标音频中包含的信息进行整理,用户可以基于整理输出的信息针对性地听取目标音频中某用户的音频片段,进而用户也可以从目标音频中获取到较为细节的内容信息,减少主观判断带来的误差,同时也降低了人工工作量,提高了用户体验。以及,通过语音识别模型对目标音频进行语音识别,可以得到更为全面且准确的目标音频中语音内容对应的文本信息;并且,通过语音解码过程中产生的音素出现的开始时间和结束时间,来确定文本信息中单位文本出现的开始时间和结束时间,如此,也提高了获取的文本信息中每个单位文本出现的时间信息的准确性,即可以生成针对目标音频完整且准确的分析结果.
[0128]
下面将结合图对本技术提供的一种计算机设备进行说明。
[0129]
参照图9,图9示出了本技术实施例提供的一种计算机设备600的结构框图,本技术实施例提供的音频处理方法可以由该计算机设备600执行。其中,计算机设备600可以是智能手机、平板电脑、智能手表、笔记本电脑、台式电脑、服务器、录音笔等能够运行应用程序的设备。
[0130]
本技术实施例中的计算机设备600可以包括一个或多个如下部件:处理器 601、存储器602、以及一个或多个应用程序,其中一个或多个应用程序可以被存储在存储器602中并被配置为由一个或多个处理器601执行,一个或多个程序配置用于执行如前述方法实施例所描述的方法。
[0131]
处理器601可以包括一个或者多个处理核。处理器601利用各种接口和线路连接整个计算机设备600内的各个部分,通过运行或执行存储在存储器 602内的指令、程序、代码集或指令集,以及调用存储在存储器602内的数据,执行计算机设备600的各种功能和处理数据。可选地,处理器601可以采用数字信号处理(digital signal processing,dsp)、现场可编程门阵列(field- programmable gate array,fpga)、可编程逻辑阵列(programmable logic array, pla)中的至少一种硬件形式来实现。处理器601可集成中央处理器(centralprocessing unit,cpu)、图像处理器(graphics processing unit,gpu)和调制解调器等中的一种或几种的组合。其中,cpu主要处理操作系统、用户界面和应用程序等;gpu用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以集成到处理器601中,单独通过一块通信芯片进行实现。
[0132]
存储器602可以包括随机存储器(random access memory,ram),也可以包括只读存储器(read

only memory)。存储器602可用于存储指令、程序、代码、代码集或指令集。存储器602可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令 (比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储计算机设备600在使用中所创建的数据(比如上述的各种对应关系)等。
[0133]
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0134]
在本技术所提供的几个实施例中,所显示或讨论的模块相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械
或其它的形式。
[0135]
另外,在本技术各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
[0136]
请参考图10,其示出了本技术实施例提供的一种计算机可读存储介质的结构框图。该计算机可读介质700中存储有程序代码,所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。
[0137]
计算机可读存储介质700可以是诸如闪存、eeprom(电可擦除可编程只读存储器)、eprom、硬盘或者rom之类的电子存储器。可选地,计算机可读存储介质700包括非瞬时性计算机可读介质(non

transitory computer

readablestorage medium)。计算机可读存储介质700具有执行上述方法中的任何方法步骤的程序代码710的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码710可以例如以适当形式进行压缩。
[0138]
最后应说明的是:以上实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。