首页 > 乐器声学 专利正文
语音分割方法、装置、计算机设备和可读存储介质与流程

时间:2022-01-23 阅读: 作者:专利查询

语音分割方法、装置、计算机设备和可读存储介质与流程

1.本技术涉及语音识别技术领域,特别是涉及一种语音分割方法、装置、计算机设备和可读存储介质。


背景技术:

2.在基于语音和图像生成动画的场景中,语音与动画场景中的图像需要对齐,即动画的声音与图像中人物或动物的面部形态要相对应。在语音出现错位,即语音与图像未对齐时,图像显示与语音会存在明显的差异,会影响动画的效果,从而影响观看者的体验性。
3.传统技术中,采用隐马尔可夫模型(hidden markov model,hmm)和混合高斯模型(gaussian mixture model,gmm)实现语音与图像对齐。然而,由于hmm和gmm训练数据以及技术本身的限制,在实现语音与图像对齐时,会出现语音分割不准确,导致语音与图像未对齐,出现错位的情况。


技术实现要素:

4.基于此,有必要针对上述技术问题,提供一种语音分割方法、装置、计算机设备和可读存储介质。
5.第一方面,本技术一个实施例提供一种语音分割方法,包括:
6.根据待分割音频数据的初始音素分割位置对待分割音频数据的波形图进行划分,确定分割波形图;分割波形图包括以初始音素分割位置为中心的预设范围内的波形;
7.将分割波形图输入偏移量确定模型,得到偏移量;偏移量确定模型是根据多个分割波形图样本、多个分割波形图样本对应的准确音素分割位置对初始偏移量确定模型训练得到的;
8.根据偏移量对初始音素分割位置进行校正,得到分割波形图中的目标音素分割位置;
9.根据目标音素分割位置、分割波形图和初始音素分割位置,确定待分割音频数据的波形图中的音素分割位置。
10.在其中一个实施例中,根据目标音素分割位置、分割波形图和初始音素分割位置,确定待分割音频数据的波形图中的音素分割位置,包括:
11.根据初始音素分割位置对分割波形图表征的子波形与待分割音频数据的波形图进行匹配处理,确定子波形在待分割音频数据的波形图中的位置,得到波形位置;
12.根据波形位置和目标音素分割位置,确定待分割音频数据的波形图中的音素分割位置。
13.在其中一个实施例中,根据波形位置和目标音素分割位置,确定待分割音频数据的波形图中的音素分割位置,包括:
14.根据波形位置,确定子波形的起始位置在待分割音频数据的波形图中的位置,得到波形起始位置;
15.对波形起始位置与目标音素分割位置进行和运算处理,得到待分割音频数据的波形图中的音素分割位置。
16.在其中一个实施例中,根据待分割音频数据的初始音素分割位置对待分割音频数据的波形图进行划分,确定分割波形图,包括:
17.基于隐马尔可夫模型和混合高斯模型,根据待分割音频数据,确定待分割音频数据的初始音素分割位置;
18.以初始音素分割位置为中心,在待分割音频数据的波形图中获取与初始音素分割位置为预设距离的波形图,得到分割波形图。
19.在其中一个实施例中,语音分割方法还包括:
20.根据多个分割波形图样本中分割波形的特征确定多个分割波形图样本对应的准确音素分割位置。
21.在其中一个实施例中,语音分割方法还包括:
22.针对每一个分割波形图样本,获取分割波形图样本对应的音频数据波形图;分割波形图样本是在音频数据波形图中划分出的波形形成的波形图;
23.以分割波形图样本对应的准确音素分割位置为基准,调整分割波形图样本包括的波形范围,获得新的分割波形图,将新的分割波形图加入多个分割波形图样本。
24.在其中一个实施例中,偏移量确定模型是根据多个分割波形图样本、多个分割波形图样本对应的准确音素分割位置对初始偏移量确定模型训练得到的,包括:
25.根据提取的每个分割波形图样本不同通道的图像特征,以及每个分割波形图样本对应的准确音素分割位置对初始偏移量确定模型进行训练,得到偏移量确定模型。
26.在其中一个实施例中,偏移量确定模型包括轻量级网络模型和回归损失函数。
27.第二方面,本技术一个实施例提供一种语音分割方法装置,包括:
28.分割波形图确定模块,用于根据待分割音频数据的初始音素分割位置对待分割音频数据的波形图进行划分,确定分割波形图;分割波形图包括以初始音素分割位置为中心的预设范围内的波形;
29.偏移量确定模块,用于将分割波形图输入偏移量确定模型,得到偏移量;偏移量模型是根据多个分割波形图样本、多个分割波形图样本对应的准确音素分割位置对初始偏移量确定模型训练得到的
30.第一音素分割位置确定模块,用于根据偏移量对初始音素分割位置进行校正,得到分割波形图中的目标音素分割位置;
31.第二音素分割位置确定模块,用于根据目标音素分割位置、分割波形图和初始音素分割点,确定待分割音频数据的波形图中的音素分割位置。
32.第三方面,本技术一个实施例提供一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现如上述实施例提供的方法的步骤。
33.第四方面,本技术一个实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如上述实施例提供的方法的步骤。
34.本技术实施例提供一种语音分割方法、装置、计算机设备和可读存储介质,该方法根据待分割音频数据的初始音素分割位置对待分割音频数据的波形图进行划分,确定分割波形图;将该分割波形图输入偏移量确定模型,得到偏移量;根据偏移量对初始音素分割位
置进行校正,得到分割波形图中的目标音素分割位置;根据目标音素分割位置、分割波形图和初始音素分割位置,确定待分割音频数据的波形图中的音素分割位置。本技术实施例提供的语音分割方法,基于偏移量确定模型得到的偏移量对初始的音素分割位置进行校正,可以得到待分割音频数据的波形图中较为准确的音素分割位置,能够可以实现对待分割音频数据的准确分割,从而使得语音与图像能够对齐,不会出现错位的情况。
附图说明
35.为了更清楚地说明本技术实施例或传统技术中的技术方案,下面将对实施例或传统技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域不同技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
36.图1为本技术一个实施例提供的语音分割方法的步骤流程示意图;
37.图2为本技术一个实施例提供的语音分割方法的步骤流程示意图;
38.图3为本技术一个实施例提供的语音分割方法的步骤流程示意图;
39.图4为本技术一个实施例提供的语音分割方法的步骤流程示意图;
40.图5为本技术一个实施例提供的语音分割方法的步骤流程示意图;
41.图6为本技术一个实施例提供的语音分割装置的结构示意图;
42.图7为本技术一个实施例提供的计算机设备的结构示意图。
具体实施方式
43.为使本技术的上述目的、特征和优点能够更加明显易懂,下面结合附图对本技术的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本技术。但是本技术能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本技术内涵的情况下做类似改进,因此本技术不受下面公开的具体实施例的限制。
44.本文中为部件所编序号本身,例如“第一”、“第二”等,仅用于区分所描述的对象,不具有任何顺序或技术含义。
45.在包含声音的动画场景中,需要语音与动画场景中的图像对齐,即动画场景中产生的声音与图像中人物或动物的面部形态要对应。在语音出现错位,即语音与图像未对齐时,图像显示与语音会存在明显的差异,从而会影响动画的效果,进而影响观看者的体验性。以25fps的动画视频为例,普通人可以察觉到2帧(80ms)以内的动画偏差,专业人士可以察觉到1帧(40ms)左右的偏差,因此1帧或以上的偏差对动画的效果会有比较明显的影响。
46.传统技术中,采用隐马尔可夫模型(hidden markov model,hmm)和混合高斯模型(gaussian mixture model,gmm)实现语音与图像对齐。然而,传统技术中的方法由于训练数据以及技术本身的限制,语音与图像对齐(整字读音切分)的效果不理想,通常会出现语音分割不准确的问题。为了解决语音分割问题,需要对hmm和gmm进行重新训练,工程量非常大。因此,针对语音分割不准确的问题,本技术提供一种语音分割方法。
47.本技术提供的语音分割方法可以通过计算机设备实现。计算机设备包括但不限于控制芯片、个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。本技术提供的方法可以通过java软件实现,也可以应用于其他软件。
48.下面以具体的实施例对本技术的技术方案以及本技术的技术方案如何解决技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本技术的实施例进行描述。
49.请参见图1,本技术一个实施例提供一种语音分割方法,本实施例以计算机设备作为执行主体对语音分割方法进行说明,该方法的具体步骤包括:
50.步骤100、根据待分割音频数据的初始音素分割位置对待分割音频数据的波形图进行划分,确定分割波形图;分割波形图包括以初始音素分割位置为中心的预设范围内的波形。
51.计算机设备在得到待分割音频数据,确定待分割音频数据的波形图,以及待分割音频数据的初始音素分割位置。并根据初始音素分割位置对待分割音频数据的波形图进行划分,得到以初始音素分割位置为中心的预设范围内的波形图,即分割波形图。待分割音频数据的波形图是指待分割音频数据中每个音素的波形组成的波形图。初始音素分割位置是指在待分割音频数据中的初始音素分割点的坐标。本实施例对获取待分割音频数据的方法,以及确定待分割音频数据的波形图的方法不作任何限制,只要能够实现其功能即可。
52.在一个可选的实施例中,计算机设备先获取文本数据,再根据文本数据确定该文本数据对应的待分割的音频数据。
53.在一个可选的实施例中,初始音素分割位置是文本数据对应的待分割音频数据中的字与字之间的分割位置。
54.步骤110、将分割波形图输入偏移量确定模型,得到偏移量;偏移量确定模型是根据多个分割波形图样本、多个分割波形图样本对应的准确音素分割位置对初始偏移量确定模型训练得到的。
55.步骤120、根据偏移量对初始音素分割位置进行校正,得到分割波形图中的目标音素分割位置。
56.计算机设备在得到分割波形图后,将其输入到偏移量确定模型,可以得到偏移量。偏移量确定模型是工作人员根据多个分割波形图样本、多个分割波形图样本对应的准确音素分割位置对初始的偏移量确定模型进行训练得到的。在训练过程中偏移量是指多个分割波形图样本对应的准确音素分割位置与多个分割波形图样本中的初始音素分割位置之间的偏差。通过偏移量确定模型得到的偏移量可以确定分割波形图对应的准确音素分割位置与初始音素分割位置之间的偏差,则根据偏移量对初始音素音素分割位置进行校正,就可以得到分割波形图中准确的音素分割位置,即目标音素分割位置。目标音素分割位置是指在分割波形图中目标音素分割点的坐标值。本实施例对偏移量确定模型的具体结构不作限制,只要能够实现其功能即可。
57.在一个可选的实施例中,输入偏移量确定模型的分割波形图的大小可以根据偏移量确定模型可以接收的图像的大小进行转换。例如:计算机设备确定的分割波形图的大小为64x64像素,但是偏移量确定模型只能接收96x96像素的的图像,则计算机设备需要先对分割波形图进行图像转换,将其转换为96x96像素的波形图。
58.步骤130、根据目标音素分割位置、分割波形图和初始音素分割位置,确定待分割音频数据的波形图中的音素分割位置。
59.计算机设备根据得到的目标音素分割位置、分割波形图和初始音素分割位置后,
对分割波形图和待分割音频数据的波形图进行对比处理,根据分割波形图中目标音素分割位置确定待分割音频数据的波形图中的音素分割位置。待分割音频数据的波形图中的音素分割位置是指在待分割音频数据的波形图中音素分割点的坐标值。也就是说,根据目标音素分割点在分割波形图中的坐标值,以及初始音素分割点在待分割音频数据的波形图中的音素分割点的坐标,确定待分割音频数据的波形图中目标音素分割点的坐标。本实施例对确定待分割音频数据的波形图中的音素分割位置的具体方法不作任何限制,只要能够实现其功能即可。
60.本技术实施例提供一种语音分割方法,该方法根据待分割音频数据的初始音素分割位置对待分割音频数据的波形图进行划分,确定分割波形图;将该分割波形图输入偏移量确定模型,得到偏移量;根据偏移量对初始音素分割位置进行校正,得到分割波形图中的目标音素分割位置;根据目标音素分割位置、分割波形图和初始音素分割位置,确定待分割音频数据的波形图中的音素分割位置。本技术实施例提供的语音分割方法,基于偏移量确定模型得到的偏移量对初始的音素分割位置进行校正,可以得到待分割音频数据的波形图中较为准确的音素分割位置,能够可以实现对待分割音频数据的准确分割,从而使得语音与图像能够对齐,不会出现错位的情况,进而提高了观看者的体验度。
61.请参见图2,在一个实施例中,提供一种根据目标音素分割位置、分割波形图和初始音素分割位置,确定待分割音频数据的波形图中的音素分割位置的实现方式,包括:
62.步骤200、根据初始音素分割位置对分割波形图表征的子波形与待分割音频数据的波形图进行匹配处理,确定子波形在待分割音频数据的波形图中的位置,得到波形位置。
63.计算机设备在得到初始音素分割位置、分割波形图和待分割音频数据的波形图后,由于分割波形图是根据初始音素分割位置对待分割音频数据的波形图进行划分得到的,则分割波形图中的波形是待分割音频数据的波形图中的部分波形图。根据初始音素分割位置对分割波形图表征的子波形与待分割音频数据的波形图进行匹配处理,可以确定子波形在待分割音频数据的波形图中的位置,即波形位置。也就是说,根据初始音素分割点在待分割音频数据的波形图中的坐标值可以得到分割波形图表征的子波形在待分割音频数据的波形图中的坐标值。
64.步骤210、根据波形位置和目标音素分割位置,确定待分割音频数据的波形图中的音素分割位置。
65.计算机设备在波形位置后,根据在分割波形图中的目标音素分割点的坐标可以确定目标音素分割点在待分割音频数据的波形图中的坐标,即待分割音频数据的波形图中的音素分割位置。
66.本实施例提供的确定待分割音频数据的波形图中的音素分割位置的方法简单易懂,容易实现。
67.请参见图3,在一个实施例中,根据波形位置和目标音素分割位置,确定待分割音频数据的波形图中的音素分割位置,包括:
68.步骤300、根据波形位置,确定子波形的起始位置在待分割音频数据的波形图中的位置,得到波形起始位置。
69.计算机设备在得到波形位置,即分割波形图表征的子波形在待分割音频数据的波形图中的位置后,确定子波形的起始点(子波形从左到右的起始位置,即子波形最左边的位
置)在待分割音频数据的波形图中的坐标值,得到波形起始位置。
70.步骤310、对波形起始位置与目标音素分割位置进行和运算处理,得到待分割音频数据的波形图中的音素分割位置。
71.计算机设备在确定波形起始位置,即波形起始点的坐标值后,计算该坐标值与目标音素分割位置(目标音素分割点在分割波形图中的坐标值)之间的和,可以得到待分割音频数据的波形图中的音素分割位置(音素分割点的坐标值)。
72.本实施例提供的根据波形位置最终确定待分割音频数据的波形图中的音素分割位置的方法简单易懂。
73.在一个具体的实施例中,假设初始音素分割点的坐标值为(a,0),目标音素分割点的坐标值为(b,0),分割波形图的大小为64x64像素的,分割波形图中的目标音素分割位置在分割波形图的中间位置,目标音素分割位置距离分割波形图的起始位置为w,则将分割波形图表征的子波形与待分割音频数据的波形图进行匹配处理,可以得到分割波形图的表征的子波形的起始点在待分割音频数据的波形图中的坐标值为(a-w,0),则待分割音频数据的波形图中的音素分割点的坐标值为(a-w+b,0)。
74.请参见图4,在一个实施例中,提供一种根据待分割音频数据的初始音素分割位置对待分割音频数据的波形图进行划分,确定分割波形图的一种实现方式,包括:
75.步骤400、基于隐马尔可夫模型和混合高斯模型,根据待分割音频数据,确定待分割音频数据的初始音素分割位置。
76.计算机设备在得到待分割音频数据后,基于预先训练好的隐马尔可夫模型(hidden markov model,hmm)和混合高斯模型(gaussian mixture model,gmm),可以确定待分割音频数据的初始音素分割位置。具体的,hmm和gmm通过计算待分割音频数据中各音素的概率(即待分割音频数据中各个音素属于所有音素中每个音素的概率),根据各个音素的概率确定待分割音频数据的初始音素分割位置。本实施例对hmm和gmm模型的具体训练过程不作限制,只要能够实现其功能即可。
77.步骤410、以初始音素分割位置为中心,在待分割音频数据的波形图中获取与初始音素分割位置为预设距离的波形图,得到分割波形图。
78.计算机设备在确定初始音素分割位置后,以初始音素分割位置为中心,在待分割音频数据的波形图中可以划分出分割波形图的子波形,形成分割波形图。子波形是在待分割音频数据的波形图中距离初始音素分割位置预设距离内的波形。预设距离可以由使用者设置,本实施例对此不作限制。
79.在本实施例中,具体描述了确定初始音素分割位置的方法,以及确定分割波形图的方法,该方法简单方便,容易实现。
80.请参见图5,在一个实施例中,语音分割方法还包括:
81.步骤500、根据多个分割波形图样本中分割波形的特征确定多个分割波形图样本对应的准确音素分割位置。
82.分割波形图样本的获取方法可以参考上述实施例中获取分割波形图的方法,在此不再赘述。针对每个分割波形图样本,计算机设备在获得分割波形图样本后,根据分割波形图样本中分割波形的特征,可以确定该分割波形图样本对应的准确音素分割位置。准确音素分割位置是指在分割波形图样本中准确音素分割点的坐标值。每个分割波形图样本中的
分割波形是各音素的部分波形图,对于每个音素的波形具有不同的特征。具体的,声母的波形的起始位置有比较显著的图像特征,韵母的波形的结束位置具有比较显著的图像特征。
83.在本实施例中,根据分割波形的特征确定分割波形图样本对应的准确音素分割位置的方法可以提高确定的准确音素分割位置的准确性。
84.在一个可选的实施例中,计算机设备可以通过对每个分割波形图样本中分割波形进行分析识别,确定分割波形样本对应的准确音素分割位置。
85.在另一个可选的实施例中,计算机可以将每个分割波形图样本进行显示,工作人员根据分割波形的特征,确定分割波形图样本对应的准确音素分割位置。
86.请继续参见图5,在一个实施例中,语音分割方法还包括:
87.步骤510、针对每一个分割波形图样本,获取分割波形图样本对应的音频数据波形图;分割波形图样本是在音频数据波形图中划分出的波形形成的波形图。
88.分割波形图样本是在音频数据波形图中划分出来的波形形成的波形图,则计算机设备根据每一个分割波形图样本,可以确定该分割波形图样本对应的音频数据波形图。
89.在一个可选的实施例中,多个分割波形图样本可以对应于同一个音频数据波形图,也就是说,在一个音频数据波形图中划分出了多个分割波形图样本。
90.步骤520、以分割波形图样本对应的准确音素分割位置为基准,调整分割波形图样本包括的波形区域,获得新的分割波形图,将新的分割波形图加入多个分割波形图样本。
91.计算机设备在得到准确音素分割位置后,以该位置为基准,调整分割波形图样本包括的音频数据波形区域,可以获得新的分割波形图。也就是说,在音频数据波形图中获取于分割波形图样本大小一样的波形图,但是该波形图中必须包括准确音素分割位置。计算机设备将得到的新的分割波形图加入多个分割波形图样本中,可以增加训练偏移量确定模型的样本数量。
92.在本实施例中,通过增加分割波形图样本的数量,可以提高偏移量确定模型的准确性,从而可以得到更加准确的偏移量,进而可以确定待分割音频数据的波形图中的音素分割位置。
93.在一个可选的实施例中,计算机设备可以将分割波形图和确定的分割波形图中目标音素位置加入偏移量确定模型的训练样本中,增加训练样本的数量。
94.在一个实施例中,偏移量确定模型是根据多个分割波形图样本、多个分割波形图样本对应的准确音素分割位置对初始偏移量确定模型训练得到的,包括:
95.根据提取的每个分割波形图样本不同通道的图像特征,以及每个分割波形图样本对应的准确音素分割位置对初始偏移量确定模型进行训练,得到偏移量确定模型。
96.在对初始偏移量确定模型进行训练的过程中,对于每个分割波形图样本均包括rgb三个通道的图像,计算机设备通过提取分割波形图样本中不同通道的图像特征,以及分割波形图样本对应的准确音素分割位置对每个通道的图像进行训练,最终将每个通道的图像训练后的结果统一,最终得到偏移量确定模型。
97.在本实施例中,不同的通道对应不同的图像特征,通过分通道对分割波形图样本进行训练,可以提高偏移量确定模型的准确性,也就是说,根据该偏移量模型可以得到更加准确的偏移量,从而可以提高确定分割波形图中目标音素分割位置的准确性。
98.在一个具体的实施例中,假设分割波形图中的w1是结束的音素,w2是开始的音素,
偏移量确定模型的多通道预测模式如下表所示:
[0099][0100]
在一个实施例中,偏移量确定模型包括轻量级网络模型和回归损失函数。
[0101]
偏移量确定模型是以轻量级网络模型(mobilenet v2)为骨干网络,主要用于获取分割波形图的特征。轻量级网络模型一般包括head(分类预测头)或heaaless(不包含分类预测头)的两种模式。在本实施例中,轻量级网络模型采用的是heaaless模式,在这种模式下采用fine-tuning的手段,即在轻量级网络模型的特征层后增加两个dense层,最后以回归损失函数作为偏移量确定模型的输出。在本实施例中,使用计算成本较低的轻量级网络模型,并且通过在轻量级网络模型的特征层后增加两个dense层,把获取的分割波形图的特征和最终输出结合在一个网络层中,能够通过对初始偏移量确定模型的训练,得到准确的偏移量确定模型。
[0102]
应该理解的是,虽然图中的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
[0103]
请参见图6,本技术一个实施例提供一种语音分割装置10,该装置包括分割波形图确定模块11、偏移量确定模块12、第一音素分割位置确定模块13和第二音素分割位置确定模块14。其中,
[0104]
分割波形图确定模块11用于根据待分割音频数据的初始音素分割位置对待分割音频数据的波形图进行划分,确定分割波形图;分割波形图包括以初始音素分割位置为中心的预设范围内的波形;
[0105]
偏移量确定模块12用于将分割波形图输入偏移量确定模型,得到偏移量;偏移量模型是根据多个分割波形图样本、多个分割波形图样本对应的准确音素分割位置对初始偏移量确定模型训练得到的
[0106]
第一音素分割位置确定模块13用于根据偏移量对初始音素分割位置进行校正,得到分割波形图中的目标音素分割位置;
[0107]
第二音素分割位置确定模块14用于根据目标音素分割位置、分割波形图和初始音素分割点,确定待分割音频数据的波形图中的音素分割位置。
[0108]
在一个实施例中,第二音素分割位置确定模块14包括第一确定单元和第二确定单元。其中,第一确定单元用于根据初始音素分割位置对分割波形图表征的子波形与待分割音频数据的波形图进行匹配处理,确定子波形在待分割音频数据的波形图中的位置,得到波形位置;第二确定单元用于根据波形位置和目标音素分割位置,确定待分割音频数据的波形图中的音素分割位置。
[0109]
在一个实施例中,第二确定单元具体用于根据波形位置,确定子波形的起始位置在待分割音频数据的波形图中的位置,得到波形起始位置;对波形起始位置与目标音素分割位置进行和运算处理,得到待分割音频数据的波形图中的音素分割位置。
[0110]
在一个实施例中,分割波形图确定模块11包括第三确定单元和第四确定单元。其中,第一确定单元用于基于隐马尔可夫模型和混合高斯模型,根据待分割音频数据,确定待分割音频数据的初始音素分割位置;第二确定单元用于以初始音素分割位置为中心,在待分割音频数据的波形图中获取与初始音素分割位置为预设距离的波形图,得到分割波形图。
[0111]
在一个实施例中,语音分割装置10还包括准确音素分割位置确定模块,该模块用于根据多个分割波形图样本中分割波形的特征确定多个分割波形图样本对应的准确音素分割位置。
[0112]
在一个实施例中,语音分割装置10还包括第一获取模块和第二获取模块。其中,第一获取模块用于针对每一个分割波形图样本,获取分割波形图样本对应的音频数据波形图;分割波形图样本是在音频数据波形图中划分出的波形形成的波形图;第二获取模块用于以分割波形图样本对应的准确音素分割位置为基准,调整分割波形图样本包括的波形范围,获得新的分割波形图,将新的分割波形图加入多个分割波形图样本。
[0113]
在一个实施例中,偏移量确定模块12具体用于根据提取的每个分割波形图样本不同通道的图像特征,以及每个分割波形图样本对应的准确音素分割位置对初始偏移量确定模型进行训练,得到偏移量确定模型。
[0114]
在一个实施例中,偏移量确定模型包括轻量级网络模型和回归损失函数。
[0115]
关于上述语音分割装置10的具体限定可以参见上文中对于语音分割方法的限定,在此不在赘述。语音分割装置10中的各个模块可以全部或部分通过软件、硬件及其组合来实现。上述各装置、各模块或者各单元可以以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个装置或模块对应的操作。
[0116]
请参见图7,在一个实施例中,提供了一种计算机设备,计算机设备可以是服务器,其内部结构图可以如图7所示。计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,计算机设备的处理器用于提供计算和控制能力。计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。计算机设备的数据库用于存储偏移量确定模型和分割波形图等。计算机设备的网络接口用于与外部的终端通过网络连接通信。计算机设备被处理器执行时以实现一种语音分割方法。
[0117]
本领域技术人员可以理解,图7中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备
可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0118]
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,处理器执行计算机程序时实现以下步骤:
[0119]
根据待分割音频数据的初始音素分割位置对待分割音频数据的波形图进行划分,确定分割波形图;分割波形图包括以初始音素分割位置为中心的预设范围内的波形;
[0120]
将分割波形图输入偏移量确定模型,得到偏移量;偏移量确定模型是根据多个分割波形图样本、多个分割波形图样本对应的准确音素分割位置对初始偏移量确定模型训练得到的;
[0121]
根据偏移量对初始音素分割位置进行校正,得到分割波形图中的目标音素分割位置;
[0122]
根据目标音素分割位置、分割波形图和初始音素分割位置,确定待分割音频数据的波形图中的音素分割位置。
[0123]
在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据初始音素分割位置对分割波形图表征的子波形与待分割音频数据的波形图进行匹配处理,确定子波形在待分割音频数据的波形图中的位置,得到波形位置;根据波形位置和目标音素分割位置,确定待分割音频数据的波形图中的音素分割位置。
[0124]
在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据波形位置,确定子波形的起始位置在待分割音频数据的波形图中的位置,得到波形起始位置;对波形起始位置与目标音素分割位置进行和运算处理,得到待分割音频数据的波形图中的音素分割位置。
[0125]
在一个实施例中,处理器执行计算机程序时还实现以下步骤:基于隐马尔可夫模型和混合高斯模型,根据待分割音频数据,确定待分割音频数据的初始音素分割位置;以初始音素分割位置为中心,在待分割音频数据的波形图中获取与初始音素分割位置为预设距离的波形图,得到分割波形图。
[0126]
在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据多个分割波形图样本中分割波形的特征确定多个分割波形图样本对应的准确音素分割位置。
[0127]
在一个实施例中,处理器执行计算机程序时还实现以下步骤:针对每一个分割波形图样本,获取分割波形图样本对应的音频数据波形图;分割波形图样本是在音频数据波形图中划分出的波形形成的波形图;以分割波形图样本对应的准确音素分割位置为基准,调整分割波形图样本包括的波形范围,获得新的分割波形图,将新的分割波形图加入多个分割波形图样本。
[0128]
在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据提取的每个分割波形图样本不同通道的图像特征,以及每个分割波形图样本对应的准确音素分割位置对初始偏移量确定模型进行训练,得到偏移量确定模型。
[0129]
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
[0130]
根据待分割音频数据的初始音素分割位置对待分割音频数据的波形图进行划分,确定分割波形图;分割波形图包括以初始音素分割位置为中心的预设范围内的波形;
[0131]
将分割波形图输入偏移量确定模型,得到偏移量;偏移量确定模型是根据多个分
割波形图样本、多个分割波形图样本对应的准确音素分割位置对初始偏移量确定模型训练得到的;
[0132]
根据偏移量对初始音素分割位置进行校正,得到分割波形图中的目标音素分割位置;
[0133]
根据目标音素分割位置、分割波形图和初始音素分割位置,确定待分割音频数据的波形图中的音素分割位置。
[0134]
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据初始音素分割位置对分割波形图表征的子波形与待分割音频数据的波形图进行匹配处理,确定子波形在待分割音频数据的波形图中的位置,得到波形位置;根据波形位置和目标音素分割位置,确定待分割音频数据的波形图中的音素分割位置。
[0135]
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据波形位置,确定子波形的起始位置在待分割音频数据的波形图中的位置,得到波形起始位置;对波形起始位置与目标音素分割位置进行和运算处理,得到待分割音频数据的波形图中的音素分割位置。
[0136]
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:基于隐马尔可夫模型和混合高斯模型,根据待分割音频数据,确定待分割音频数据的初始音素分割位置;以初始音素分割位置为中心,在待分割音频数据的波形图中获取与初始音素分割位置为预设距离的波形图,得到分割波形图。
[0137]
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据多个分割波形图样本中分割波形的特征确定多个分割波形图样本对应的准确音素分割位置。
[0138]
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:针对每一个分割波形图样本,获取分割波形图样本对应的音频数据波形图;分割波形图样本是在音频数据波形图中划分出的波形形成的波形图;以分割波形图样本对应的准确音素分割位置为基准,调整分割波形图样本包括的波形范围,获得新的分割波形图,将新的分割波形图加入多个分割波形图样本。
[0139]
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据提取的每个分割波形图样本不同通道的图像特征,以及每个分割波形图样本对应的准确音素分割位置对初始偏移量确定模型进行训练,得到偏移量确定模型。
[0140]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
[0141]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例
中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0142]
以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本技术专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术专利的保护范围应以所附权利要求为准。