1.本技术涉及音频处理技术,更具体的说,是涉及一种参数调整方法及装置。
背景技术:2.vad(voice activity detection,语音活动检测)模块常用于通话系统和语音识别系统的前端,其可以实时检测音频信号中是否包含语音,后续模块可以根据vad的检测结果来优化性能。
3.通常人们在说话时,前后句子之间会出现一定的停顿,基于该特点,vad在应用中会根据停顿时长将时间较长的长语音切分为多个时间较短的短语音。合理的对长语音进行切分,是vad的一个重要性能指标。
4.一般情况下,vad在应用中会依据固定的停顿时长阈值来对长语音进行切分处理,即当两个语音片段之间的停顿时长大于停顿时长阈值时,将两个语音片段切分开;而当两个语音片段之间的停顿时长小于停顿时长阈值时,将这两个语音片段作为一个整体的语音片段输出。然而,不同对象的说话习惯以及说话速度不同,固定的停顿时长阈值并不能适应于所有语音的切分工作。
技术实现要素:5.有鉴于此,本技术提供如下技术方案:
6.一种参数调整方法,包括:
7.获得第一语音数据,并基于第一参数对其进行语音切分,得到语音切分结果;
8.对所述语音切分结果进行语音识别处理,得到处理文本;
9.基于所述处理文本确定所述第一参数的调整数据;
10.基于所述调整数据对所述第一参数进行调整。
11.可选的,所述对所述语音切分结果进行语音识别处理,得到处理文本,包括:
12.对所述语音切分结果进行语音识别,得到识别文本;
13.对所述识别文本进行自然语言处理,得到处理文本,所述自然语言处理包含同音字纠错、断句、标点符号添加中的至少一种。
14.可选的,所述基于所述处理文本确定所述第一参数的调整数据,包括:
15.在所述处理文本中第一对象满足第一条件的情况下,确定将所述第一参数调大,所述第一条件包括所述第一对象的数量超过第一设定值或所述第一对象在所述处理文本中的占比超过第二设定值。
16.可选的,所述第一对象为单独文字或字数不超过第三设定值的词语或句子。
17.可选的,所述基于所述处理文本确定所述第一参数的调整数据,包括:
18.确定所述处理文本中是否存在长度超过第四设定值的目标文本;
19.若存在,确定将所述第一参数调小。
20.可选的,在确定所述处理文本中包含长度超过第四设定值的目标文本后,还包括:
21.确定所述目标文本中包含的指定标点符号的数量是否超过第五设定值;
22.若超过,进入所述确定将所述第一参数调整小的步骤。
23.可选的,所述基于所述处理文本确定所述第一参数的调整数据,包括:
24.确定所述处理文本中包含的指定标点符号的数量是否超过第六设定值;
25.若超过,确定将所述第一参数调小。
26.可选的,所述基于所述处理文本确定所述第一参数的调整数据,包括:
27.基于所述处理文本确定所述第一参数的调整级别;
28.基于所述调整级别确定所述第一参数的调整量。
29.可选的,所述调整数据包括调整方式,则所述基于所述调整数据对所述第一参数进行调整,包括:
30.基于所述调整数据指示的调整方式,以设定的步长值调整所述第一参数。
31.一种参数调整装置,包括:
32.语音获得模块,用于获得第一语音数据,并基于第一参数对其进行语音切分,得到语音切分结果;
33.语音识别模块,用于对所述语音切分结果进行语音识别处理,得到处理文本;
34.参数确定模块,用于基于所述处理文本确定所述第一参数的调整数据;
35.参数调整模块,用于基于所述调整数据对所述第一参数进行调整。
36.经由上述的技术方案可知,本技术实施例公开了一种参数调整方法及装置,方法包括:获得第一语音数据,并基于第一参数对其进行语音切分,得到语音切分结果;对所述语音切分结果进行语音识别处理,得到处理文本;基于所述处理文本确定所述第一参数的调整数据;基于所述调整数据对所述第一参数进行调整。上述实现方案,采用语音识别技术对基于第一参数切分得到的语音进行语音识别,得到处理文本,通过对处理文本内容分析能够确定切分的语音是否存在切分的不够细致或切分的过于细致的问题,从而根据分析结果对第一参数实时调整,得到自适应不同语音数据的第一参数,满足用户的使用需求。
附图说明
37.为了更清楚地说明本技术实施例的技术方案,下面将对实施例所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
38.图1为本技术实施例公开的一种参数调整方法的流程图;
39.图2为本技术实施例公开的处理得到处理文本的流程图;
40.图3为本技术实施例公开的一种确定第一参数的调整数据的流程图;
41.图4为本技术实施例公开的另一种参数调整方法的流程图;
42.图5为本技术实施例公开的确定第一参数的调整数据的流程图;
43.图6为本技术实施例公开的一种参数调整装置的结构示意图。
具体实施方式
44.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于
本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
45.本技术实施例可以应用于电子设备,本技术对该电子设备的产品形式不做限定,可以包括但并不局限于智能手机、平板电脑、可穿戴设备、个人计算机(personal computer,pc)、上网本等,可以依据应用需求选择。
46.图1为本技术实施例公开的一种参数调整方法的流程图,参见图1所示,参数调整方法可以包括:
47.步骤101:获得第一语音数据,并基于第一参数对其进行语音切分,得到语音切分结果。
48.其中,第一语音数据可以是没有经过任何分割或切分处理的原始语音数据,或是仅经过一些基础的例如降噪、润色处理的语音数据。第一语音数据可以由语音采集设备直接采集获得,或者是从其他设备接收得到,或者可以从存储介质中读取获得,本技术实施例对第一语音数据的获得方式并不做固定限制。
49.基于第一参数对其进行语音切分,可以但不限制为采用vad(voice activity detection,语音活动检测)技术来对语音进行切分。在实施语音切分的过程中,需要基于一些参数来实现,这些参数可以包括所述第一参数。具体的,所述第一参数可以表征切分语音的停顿时长;即在两部分语音之间的停顿时长超过所述第一参数的数值时,执行切分动作,将这两部分语音切分为两个时长较短的语音段;而在两部分语音之间的停顿时长小于或等于第一参数的数值时,不执行切分动作,将这两部分语音作为一个整体语音数据输出。
50.步骤102:对所述语音切分结果进行语音识别处理,得到处理文本。
51.所述语音切分结果中可以包括多个语音段,不同语音段的时长可以相同,也可以不同,也即语音切分结果中的多个语音段为时长参差不齐的语音段。
52.在得到语音切分结果后,可以通过语音识别技术对其包含的各个语音段进行语音识别,并得到对应的处理文本。其中的语义识别技术可以但不限制为asr(automatic speech recognition,自动语音识别)技术。
53.在后面的实施例中,将对步骤102的具体实现做详细说明,在此不再过多介绍。
54.步骤103:基于所述处理文本确定所述第一参数的调整数据。
55.通过对所述处理文本进行相应的分析,可以确定处理文本中一些符合特定条件的内容的一些数据,这些数据能够反映出处理文本的内容是否切分的不够细致或切分过于琐碎。由于处理文本与基于第一参数切分的到的语音切分结果对应,因此,处理文本的切分效果能够反应第一语音数据的切分效果。
56.在确定处理文本的切分效果为切分的不够细致的情况下,需要将所述第一参数调小。例如,最初的第一参数为2秒,这样,一些间隔的停顿时长较小的两部分语音不会被切分开,若将第一参数调小到1.5秒,则一些间隔的停顿时长处于1.5
‑
2秒范围的两部分语音就会被切分开。
57.在确定处理文本的切分效果为切分的比较琐碎的情况下,需要将所述第二参数调大。例如,最初的第一参数为1秒,这样,一些间隔的停顿时长较大的两部分语音不会被切分开,若将第一参数调大到1.5秒,则一些间隔的停顿时长处于1
‑
1.5秒范围的两部分语音就会被切分开。
58.需要说明的是,所述第一参数的调整数据可以仅指示调整方式,如调大或调小,或者,调整参数也可以包含具体的调整数值,如调大0.5秒、调大0.3秒、调小1秒等。
59.步骤104:基于所述调整数据对所述第一参数进行调整。
60.确定了调整数据后,可以直接依据所述调整数据对所述第一参数进行调整。或者,也可以及预算所述调整数据,依据一定的规则对所述第一参数进行调整。
61.本实施例所述参数调整方法,采用语音识别技术对基于第一参数切分得到的语音进行语音识别,得到处理文本,通过对处理文本内容分析能够确定切分的语音是否存在切分的不够细致或切分的过于细致的问题,从而根据分析结果对第一参数实时调整,得到自适应不同语音数据的第一参数,满足用户的使用需求。
62.图2为本技术实施例公开的处理得到处理文本的流程图,结合图2所示,所述对所述语音切分结果进行语音识别处理,得到处理文本,可以但不限制为包括:
63.步骤201:对所述语音切分结果进行语音识别,得到识别文本。
64.对语音切分结果进行语音识别得到的识别文本中仅包含文字内容,不包含任何标点符号。而且,语音识别得到的识别文本中可能会存在一些识别错误的内容,因此,需要对得到的识别文本进行进一步的自然语言处理,也得到了准确率更高的文本结果。
65.步骤202:对所述识别文本进行自然语言处理,得到处理文本,所述自然语言处理包含同音字纠错、断句、标点符号添加中的至少一种。
66.例如,原始的第一语音数据对应的准确的内容是“影响商品市场的因素有——单价、质量、销路等”,由于说话对象在介绍各个因素时会会出现停顿,因此对应单价的语音“danjia”被单独切分出来,被语音识别得到的识别文本为“担架”,而通过自然语言处理,结合该词语附近的语音内容(影响商品市场的因素),可以确定“担架”为错误文本,应当为“单价”。
67.再如,由于说话对象的语速较快,可能导致本应是两句话的内容被切分到一个语音段中,如用户的语音内容对应的正确文本是“快做完了吗我想去吃饭了”,由于其语速较快,使得“快做完了吗”和“我想去吃饭了”两句话没有被切分开;而通过自然语言处理,可以确定“快做完了吗我想去吃饭了”其实是两句话,则会对其进行断句,并添加上相应的标点符号,处理后的文本内容为“快做完了吗?我想去吃饭。”68.需要说明的是,对所述识别文本进行的自然语言处理,也是以语音段为单位进行的,自然语言处理虽然会有断句和添加标点符号的处理,但也仅是在语音段对应文本的范围内进行的处理,其处理并不会将两个语音段对应文本合并或将一个语音段的文本进行拆分。
69.本实施例详细介绍了得到处理文本的过程,以帮助领域内技术人员更好的理解本技术方案的具体实现。
70.一个实现中,所述基于所述处理文本确定所述第一参数的调整数据,可以包括:在所述处理文本中第一对象满足第一条件的情况下,确定将所述第一参数调大,所述第一条件包括所述第一对象的数量超过第一设定值或所述第一对象在所述处理文本中的占比超过第二设定值。其中的第一对象,可以为单独文字或字数不超过第三设定值的词语或句子。
71.例如对于句子“我今天想去图书馆”,其应该处于一个语音段内,但如果第一参数表征的停顿时长较小,说话对象的语速也较慢,划分出的语音段对应的文本包括“我”、“今
天”、“想”、“去”和“图书馆”五个文本内容,其中仅包含单独存在的字和词语,因此可以确定语音切分的过于琐碎,第一参数过小,需要将第一参数调大。
72.除了用第一对象的数量来判断切分效果外,另一个实现中,还可以通过第一对象在处理文本中的占比来确定切分效果。沿用上述“我今天想去图书馆”的例子,在5个文本内容中,单独文字有3个,占比60%,因此可以确定语音切分的过于琐碎,第一参数过小,需要将第一参数调大。
73.另一个实现中,所述基于所述处理文本确定所述第一参数的调整数据,可以包括:确定所述处理文本中是否存在长度超过第四设定值的目标文本;若存在,确定将所述第一参数调小。
74.可以理解的,若处理文本中包含文本篇幅很长的内容,说明其包含很多短语音,这些语音由于第一参数比较大而没有被切分出来,因此这种情况下需要将第一参数调小。
75.例如,处理文本中包含“窗外下了好大的一场雪,这可是今年的第一场雪啊!教室里学生们的心思早就不在课堂上了,都迫不及待的想要出去打雪仗、堆雪人。终于,下课的铃声响起了,孩子们一窝蜂的跑了出去。看啊,操场上的孩子们玩得多开心啊!”的内容,这一大段内容中的字符数量超过了设定值30,则可以确定语音切分结果中一个语音段包含多个短语音,则需要将第一参数调小。
76.图3为本技术实施例公开的一种确定第一参数的调整数据的流程图,参见图3所示,所述基于所述处理文本确定所述第一参数的调整数据,可以包括:
77.步骤301:确定所述处理文本中是否存在长度超过第四设定值的目标文本。
78.步骤302:若存在,确定所述目标文本中包含的指定标点符号的数量是否超过第五设定值。
79.其中,指定标点符号可以为句号、感叹号、问号、省略号等能够表征一个完整句子的符号。若处理文本本身内容很长,包含的字符数量很多,且其中包括多个完整的句子,则可以确定其包含多个短语音,需要对第一语音数据进行更为细致的切分。
80.步骤303:若超过,确定将所述第一参数调小。
81.本实现中,在在确定所述处理文本中包含长度超过第四设定值的目标文本后,进一步确定目标文本中包含的指定标点符号的数量是否超过第五设定值,使得对于处理文本的判断更加细致合理,避免一些特殊语境中出现过长的语句从而出现误判的情况。
82.图4为本技术实施例公开的另一种参数调整方法的流程图,参见图4所示,参数调整方法可以包括:
83.步骤401;获得第一语音数据,并基于第一参数对其进行语音切分,得到语音切分结果。
84.步骤402:对所述语音切分结果进行语音识别处理,得到处理文本,进入步骤403或步骤404。
85.步骤403:在所述处理文本中第一对象满足第一条件的情况下,确定将所述第一参数调大,进入步骤405。
86.其中,所述第一条件包括所述第一对象的数量超过第一设定值或所述第一对象在所述处理文本中的占比超过第二设定值。
87.步骤404:在所述处理文本中包含的指定标点符号的数量超过第六设定值的情况
下,确定将所述第一参数调小,进入步骤405。
88.步骤405:基于所述调整数据对所述第一参数进行调整。
89.本实施例,给出一个相对完整的具体实现方案,介绍了在什么条件下确定将第一参数调大或将第一参数调小;从而可以根据对处理文本的分析结果对第一参数进行实时调整,得到自适应不同语音数据的第一参数,满足用户的使用需求。
90.图5为本技术实施例公开的确定第一参数的调整数据的流程图,参见图5所示,所述基于所述处理文本确定所述第一参数的调整数据,可以包括:
91.步骤501:基于所述处理文本确定所述第一参数的调整级别。
92.处理文本能反映出语音切分是否合理,也能够反映出语音切分不合理的程度,在语音切分琐碎度较低时,可以将第一参数调大一个级别;在语音切分琐碎度较高时,可以将第一参数调大两个级别。将第一参数调小的实现同理。
93.例如,前述“我今天想去图书馆”的句子,如处理文本是“我今天”、“想去”和“图书馆”,则可以将第一参数调大第一数值;如处理文本是“我”、“今”、“天”、“想”、“去”、“图书”、“馆”,则可以将第一参数调大第二数值。其中第一数值小于第二数值。
94.步骤502:基于所述调整级别确定所述第一参数的调整量。
95.基于前述内容,可以理解的,调整级别越高,第一参数的调整量就越大。
96.本实施例给出了基于所述处理文本确定所述第一参数的调整数据的一种具体实现方式,该方式根据处理文本的分析情况将第一参数的调整工作划分为不同级别,根据调整级别来确定第一参数的调整量,能够快速的将第一参数调整至合理值,加快语音切分工作合理化的进度,提升用户体验。
97.另一个实现中,所述调整数据包括调整方式,则所述基于所述调整数据对所述第一参数进行调整,可以包括:基于所述调整数据指示的调整方式,以设定的步长值调整所述第一参数。
98.本实现中,调整第一参数设置有固定的步长值,每次调整第一参数时,包括调大第一参数或调小第一参数,都会依据所述设定的步长值对第一参数进行调整,该方式保证了第一参数调整的规范性,尤其适用于第一参数小范围调整的场景,能够使得调整结果更加精准合理。
99.结合上述内容,本技术方案的核心思想为:将经过语音活动检测技术切分后得到的短语音,输入到语音识别系统中,会识别成文字,再经过文本后处理,对文本进行断句并添加标点,得到处理文本;而处理文本,能够反映出语音切分是否合理。例如,处理文本结果中出现了较多的单独字,则表明语音切分得较细碎,这表明用于语音切分的停顿时长阈值可能设置得过小;而如果处理文本结果中出现了很多字,且包含了多个表征完整句子的符号(句号、感叹号、问号等),这表明输入到语音识别系统中的语音数据包含了多条短语音,而语音切分未能将这些短语音切开,则表明语音切分的停顿时长阈值设置过大。因此可以根据处理文本的结果来对表征停顿时长的第一参数进行反馈调整,从而实现自适应调整第一参数。
100.对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本技术并不受所描述的动作顺序的限制,因为依据本技术,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描
述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本技术所必须的。
101.上述本技术公开的实施例中详细描述了方法,对于本技术的方法可采用多种形式的装置实现,因此本技术还公开了一种装置,下面给出具体的实施例进行详细说明。
102.图6为本技术实施例公开的一种参数调整装置的结构示意图,参见图6所示,参数调整装置60可以包括:
103.语音获得模块601,用于获得第一语音数据,并基于第一参数对其进行语音切分,得到语音切分结果。
104.语音识别模块602,用于对所述语音切分结果进行语音识别处理,得到处理文本。
105.参数确定模块603,用于基于所述处理文本确定所述第一参数的调整数据。
106.参数调整模块604,用于基于所述调整数据对所述第一参数进行调整。
107.本实施例所述参数调整装置,采用语音识别技术对基于第一参数切分得到的语音进行语音识别,得到处理文本,通过对处理文本内容分析能够确定切分的语音是否存在切分的不够细致或切分的过于细致的问题,从而根据分析结果对第一参数实时调整,得到自适应不同语音数据的第一参数,满足用户的使用需求。
108.一个实现中,语音识别模块具体可用于:对所述语音切分结果进行语音识别,得到识别文本;对所述识别文本进行自然语言处理,得到处理文本,所述自然语言处理包含同音字纠错、断句、标点符号添加中的至少一种。
109.一个实现中,参数确定模块可用于:在所述处理文本中第一对象满足第一条件的情况下,确定将所述第一参数调大,所述第一条件包括所述第一对象的数量超过第一设定值或所述第一对象在所述处理文本中的占比超过第二设定值。
110.一个实现中,所述第一对象为单独文字或字数不超过第三设定值的词语或句子。
111.一个实现中,参数确定模块可用于:确定所述处理文本中是否存在长度超过第四设定值的目标文本;若存在,确定将所述第一参数调小。
112.一个实现中,参数确定模块还可以在定所述处理文本中包含长度超过第四设定值的目标文本后,确定所述目标文本中包含的指定标点符号的数量是否超过第五设定值;并在超过时,确定将所述第一参数调整小。
113.一个实现中,参数确定模块可用于:确定所述处理文本中包含的指定标点符号的数量是否超过第六设定值;若超过,确定将所述第一参数调小。
114.一个实现中,参数确定模块可用于:基于所述处理文本确定所述第一参数的调整级别;基于所述调整级别确定所述第一参数的调整量。
115.一个实现中,所述调整数据包括调整方式,参数调整模块可用于:基于所述调整数据指示的调整方式,以设定的步长值调整所述第一参数。
116.上述实施例中的所述的任意一种参数调整装置包括处理器和存储器,上述实施例中的语音获得模块、语音识别模块、参数确定模块、参数调整模块等均作为程序模块存储在存储器中,由处理器执行存储在所述存储器中的上述程序模块来实现相应的功能。
117.处理器中包含内核,由内核去存储器中调取相应的程序模块。内核可以设置一个或多个,通过调整内核参数来实现回访数据的处理。
118.存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram),存储器包括至少一个存
储芯片。
119.本技术实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现上述实施例中所述的参数调整方法。
120.本技术实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述实施例中所述的参数调整方法。
121.进一步,本实施例提供了一种电子设备,包括处理器以及存储器。其中存储器用于存储所述处理器的可执行指令,所述处理器配置为经由执行所述可执行指令来执行上述实施例中所述的参数调整方法。其中,所述可执行指令包括:获得第一语音数据,并基于第一参数对其进行语音切分,得到语音切分结果;对所述语音切分结果进行语音识别处理,得到处理文本;基于所述处理文本确定所述第一参数的调整数据;基于所述调整数据对所述第一参数进行调整。
122.本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
123.还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
124.结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd
‑
rom、或技术领域内所公知的任意其它形式的存储介质中。
125.对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。