首页 > 乐器声学 专利正文
解码实现方法及装置与流程

时间:2022-02-20 阅读: 作者:专利查询

解码实现方法及装置与流程

1.本发明属于神经网络技术领域,具体涉及一种解码实现方法及装置。


背景技术:

2.在语音识别中,输入语音序列和输出序列是不等长的,语音识别的一帧数据,很难给出一个发音单元,但是几十帧数据就容易判断出对应的发音单元。传统的语音识别的声学模型训练,对于每一帧的数据,需要知道对应的label才能进行有效的训练,在训练数据之前需要做语音强制对齐的预处理。与传统的声学模型相比,采用ctc作为损失函数的声学模型训练,是一种完全端到端形式,不需要预先对数据做对齐,只需要一个输入序列和一个输出序列。ctc模型引入了空白字符,空白字符的引入是为了与输入特征进行对齐的,它没有任何输出意义。在基于ctc模型的解码过程中,由于每个建模单元都会连接一个空白字符,因而解码网络中含有大量的空白字符模型,而空白字符并没有实际的输出含义,
3.hmm模型是序列对齐问题中常用的模型,在语音识别的解码过程中发挥着重要的作用。其包含如下部分:
4.n个发射状态的状态集合、状态转移概率、观察序列在这里每个o
t
属于声学模型建模单元的集合u、发射概率,即声学模型的似然,表示在状态i看到的观察o
t
的概率、初始状态和结束状态,使用这两个特殊状态可以更方便的把多个hmm拼接成一个更大的hmm。
5.相关技术中,hmm模型的拓扑结构包括开始状态、结束状态以及发射状态。状态到状态的之间的边表示跳转的方向和权重。每个发射状态代表一个声学模型的建模单元(声学模型的建模单元可以是音素、拼音、字等),t时刻发射概率为t时刻该建模单元的声学模型似然得分。
6.拓扑结构和序列对齐过程为在基于ctc模型的解码中,每个建模单元有一个hmm模型,每个hmm模型有三个状态,其中具有空白字符的hmm拓扑结构,可以自跳,而其他建模单元或有效字符的hmm拓扑结构,不能自跳。
7.现有技术中的hmm模型因为含有大量的空白字符模型,而空白字符并没有实际的输出含义,还会使得解码网络较大,导致语音识别解码所需的内存较大。


技术实现要素:

8.有鉴于此,本发明的目的在于克服现有技术的不足,提供一种解码实现方法及装置,以解决现有技术中解码网络较大,导致语音识别解码所需的内存较大的问题。
9.为实现以上目的,本发明采用如下技术方案:一种解码实现方法,包括:
10.提供建模单元的hmm模型的拓扑结构,所述拓扑结构包括开始状态、发射状态和结束状态;在所述发射状态设置自跳边,用于发射状态自跳;所述发射状态包括自跳路径和转移路径以使得所述拓扑结构完成序列对齐;所述使得所述拓扑结构完成序列对齐的步骤为:
11.在对每帧音频进行解码时,计算自跳路径使用的空白字符的声学得分和语言得分
以及转移路径使用的有效字符的声学得分和语言得分;
12.对比每条路径的得分,确定最高分为发射状态得分;
13.根据所述发射状态得分进行序列对齐。
14.进一步的,解码采用维特比算法计算自跳路径使用的空白字符的声学得分和语言得分以及转移路径使用的空白字符外的建模单元的声学得分和语言得分。
15.进一步的,对比每条路径的得分,确定最高分的路径
16.对比每条路径的声学得分与语言得分的和;
17.将声学得分与语言得分的和为最高分的路径确定为最高分的路径。
18.进一步的,所述根据最高分的路径进行序列对齐,包括:
19.如果当前帧的发射状态得分用的是空白字符的得分,表示该帧是和空白字符对齐的;
20.如果当前帧的发射状态得分用的是有效字符的得分,表示该帧是和该有效字符所属的建模单元对齐的。
21.进一步的,如果当前帧和空白字符对齐,则表现为建模单元的自跳,如果是当前帧和有效字符对齐则该有效字符所属的建模单元的hmm状态由发射状态跳转到结束状态,其结束状态会继续扩展连接其他建模单元的开始状态,直到解码结束。
22.进一步的,获取语音数据并对语音数据对应的带调拼音采用声母、韵母及声调进行建模,生成多个建模单元。
23.本技术实施例提供一种解码实现装置,包括:
24.构建模块,用于提供建模单元的hmm模型的拓扑结构,所述拓扑结构包括开始状态、发射状态和结束状态;在所述发射状态设置自跳边,用于发射状态自跳;所述发射状态包括自跳路径和转移路径以使得所述拓扑结构完成序列对齐;所述使得所述拓扑结构完成序列对齐的步骤为:
25.在对每帧音频进行解码时,计算自跳路径使用的空白字符的声学得分和语言得分以及转移路径使用的有效字符的声学得分和语言得分;
26.对比每条路径的得分,确定最高分为发射状态得分;
27.根据所述发射状态得分进行序列对齐。
28.本发明采用以上技术方案,能够达到的有益效果包括:
29.本发明提供一种解码实现方法及装置,包括提供建模单元的hmm模型的拓扑结构,所述拓扑结构包括开始状态、发射状态和结束状态;在所述发射状态设置自跳边,用于发射状态自跳;所述发射状态包括自跳路径和转移路径以使得所述拓扑结构完成序列对齐;所述使得所述拓扑结构完成序列对齐的步骤为:在对每帧音频进行解码时,计算自跳路径使用的空白字符的声学得分和语言得分以及转移路径使用的有效字符的声学得分和语言得分;对比每条路径的得分,确定最高分为发射状态得分;根据所述发射状态得分进行序列对齐。本发明能够使得解码网络中的模型数量大大减少,进而大大减小了解码过程所需的内存。
附图说明
30.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现
有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
31.图1为现有技术中hmm模型的拓扑结构序列对齐步骤示意图;
32.图2为本发明提供的hmm模型的拓扑结构示意图;
33.图3为本发明拓扑结构完成序列对齐的步骤示意图;
34.图4为本发明解码过程流程示意图。
具体实施方式
35.为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行详细的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本发明所保护的范围。
36.现有技术中的hmm模型的拓扑结构实现序列对齐的方式为:如图1所示,输入音频(你好)经过分帧加窗特征提取后,经过声学模型后得到声学后验序列,图1第三部分为hmm序列对齐的路径,图中只保留了第一个hmm模型的开始状态和最后一个hmm模型的结束状态,去掉了中间位置hmm模型的开始和结束状态。后验序列与建模单元对齐时,使用的是建模单元的hmm模型,该模型的发射概率为t时刻该建模单元的似然得分,这里我们假设建模单元为拼音。其中空白字符的hmm模型的发射状态是可以自跳的,如果连续语音帧的对齐结果都是空白字符,则空白字符的hmm就在发射状态自跳,如果某时刻(t=3)该帧的对齐结果为其他建模单元如ni3,则空白字符的hmm的状态就由发射状态转移到结束状态,该hmm的结束状态会连接其他建模单元的开始状态,比如ni3,并由其开始状态跳转到ni3的发射状态,该帧的发射概率即为ni3的声学似然得分,ni3不能自跳,因而会从发射状态跳转到结束状态,并进行新一轮的扩展,连接其他建模单元的开始状态。整个解码过程采用的是维特比算法,在每个时刻t,会分别计算空白字符和其他建模单元的声学和语言得分,然后进行裁剪,最终得到最优的解码结果。根据解码结果进行序列对齐。
37.下面结合附图介绍本技术实施例中提供的一个具体的解码实现方法及装置。
38.如图1所示,本技术实施例中提供的解码实现方法,
39.提供建模单元的hmm模型的拓扑结构,所述拓扑结构包括开始状态、发射状态和结束状态;在所述发射状态设置自跳边,用于发射状态自跳;所述发射状态包括自跳路径和转移路径以使得所述拓扑结构完成序列对齐;所述使得所述拓扑结构完成序列对齐的步骤为:
40.s101,在对每帧音频进行解码时,计算自跳路径使用的空白字符的声学得分和语言得分以及转移路径使用的有效字符的声学得分和语言得分;
41.s102,对比每条路径的得分,确定最高分为发射状态得分;
42.s103,根据所述发射状态得分进行序列对齐。
43.需要说明的是,如图2所示,其中每个圆圈代表的是hmm的状态,深色圆圈表示的开始状态,双圆环表示的结束状态,中间的圆圈表示的是发射状态。状态到状态的之间的边表示跳转的方向和权重,其中圆弧的边表示可以自跳。
44.相比于现有技术,本技术提供的拓扑结构去掉了空白字符的hmm模型,其他声学模型建模单元的hmm模型的发射状态增加了自跳边,其中,自跳边的发射概率为空白字符的发射概率,对于输入音频(你好),本技术提供的拓扑结构可以完成相同的序列对齐,其对齐过程如下:每个发音单元的hmm模型的发射状态都拥有自跳边,但是其自跳的发射概率为空白字符的发射概率,转移到结束状态的发射概率为有效字符的发射概率。每帧音频在解码的时候,遍历每个建模单元的发射状态的两条路径,自跳和转移,其中自跳路径使用的是空白字符的声学和语言得分,转移路径用的是该字符的声学和语言得分,计算每条路径的得分,选择比较高的得分为该字符发射状态的得分。对比每条路径的得分,确定最高分为发射状态得分;根据所述发射状态得分进行序列对齐。
45.一些实施例中,解码采用维特比算法计算自跳路径使用的空白字符的声学得分和语言得分以及转移路径使用的空白字符外的建模单元的声学得分和语言得分。
46.优选的,对比每条路径的得分,确定最高分的路径
47.对比每条路径的声学得分与语言得分的和;
48.将声学得分与语言得分的和为最高分的路径确定为最高分的路径。
49.优选的,所述根据最高分的路径进行序列对齐,包括:
50.如果当前帧的发射状态得分用的是空白字符的得分,表示该帧是和空白字符对齐的;
51.如果当前帧的发射状态得分用的是有效字符的得分,表示该帧是和该有效字符所属的建模单元对齐的。
52.一些实施例中,如果当前帧和空白字符对齐,则表现为建模单元的自跳,如果是当前帧和有效字符对齐则该有效字符所属的建模单元的hmm状态由发射状态跳转到结束状态,其结束状态会继续扩展连接其他建模单元的开始状态,直到解码结束。
53.优选的,获取语音数据并对语音数据对应的带调拼音采用声母、韵母及声调进行建模,生成多个建模单元。
54.如图4所示,本技术提供的技术方案是将空白字符的hmm模型通过维特比算法的形式实现。如果该帧和空白字符对齐,则表现为建模单元如(ni3)的自跳,如果是该帧和建模单元(ni3)对齐则该建模单元的hmm状态由发射状态跳转到结束状态,其结束状态会继续扩展连接其他建模单元的开始状态,直到解码结束。解码过程采用的算法依然是维特比算法,对齐的结果是一样的,由于解码过程中每条路径中的每个非空白字符的建模单元之间都会连接一个空白字符,解码过程的中的空白字符的hmm模型数量非常多的,并且空白字符没有输出含义,因而改进后的方案在不影响识别结果的情况下,会使得解码网络中的模型数量大大减少,进而大大减小了解码过程所需的内存。
55.本技术实施例提供一种解码实现装置,包括:
56.构建模块,用于提供建模单元的hmm模型的拓扑结构,所述拓扑结构包括开始状态、发射状态和结束状态;在所述发射状态设置自跳边,用于发射状态自跳;所述发射状态包括自跳路径和转移路径以使得所述拓扑结构完成序列对齐;所述使得所述拓扑结构完成序列对齐的步骤为:
57.在对每帧音频进行解码时,计算自跳路径使用的空白字符的声学得分和语言得分以及转移路径使用的有效字符的声学得分和语言得分;
58.对比每条路径的得分,确定最高分为发射状态得分;
59.根据所述发射状态得分进行序列对齐。
60.本技术实施例提供一种计算机设备,包括处理器,以及与处理器连接的存储器;
61.存储器用于存储计算机程序,计算机程序用于执行上述任一实施例提供的解码实现方法;
62.处理器用于调用并执行存储器中的计算机程序。
63.综上所述,本发明提供一种解码实现方法及装置,包括提供建模单元的hmm模型的拓扑结构,所述拓扑结构包括开始状态、发射状态和结束状态;在所述发射状态设置自跳边,用于发射状态自跳;所述发射状态包括自跳路径和转移路径以使得所述拓扑结构完成序列对齐;所述使得所述拓扑结构完成序列对齐的步骤为:在对每帧音频进行解码时,计算自跳路径使用的空白字符的声学得分和语言得分以及转移路径使用的有效字符的声学得分和语言得分;对比每条路径的得分,确定最高分为发射状态得分;根据所述发射状态得分进行序列对齐。本发明能够使得解码网络中的模型数量大大减少,进而大大减小了解码过程所需的内存。
64.可以理解的是,上述提供的方法实施例与上述的装置实施例对应,相应的具体内容可以相互参考,在此不再赘述。
65.本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
66.本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
67.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令方法的制造品,该指令方法实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
68.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
69.以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。