一种基于tann的语音识别技术
技术领域
1.本发明涉及语音识别技术领域,尤其涉及一种基于tann的语音识别技术。
背景技术:2.语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术,语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。
3.由于一个语音事件从发生到结束在时间上是连续的,所以在处理语音的特征时需要考虑它们在时间上的关系,经典的神经网络对于时序信号处理时并没有考虑信号在一定时间长度上的联系,即没有“记忆功能”,受此诟病。
技术实现要素:4.本发明的目的在于提供一种基于tann的语音识别技术,解决经典神经网络无法顾及的特征在时间上的联系问题,同时又降低了数据的噪声及冗余度,减小后端网络负担,提高网络自适应能力。
5.为了实现上述目的,本发明采用了如下技术方案:一种基于tann的语音识别技术,包括以下步骤:
6.s1:对一段语音进行预处理和特征提取,形成在时间轴上依次排开的特征帧序列
7.s2:为输入语音的特征序列,给定一个时延长度l,在t时刻,时延结果为时延矩阵xt[x(t),x(t
‑
1),x(t
‑
2),
…
,x(t
‑
l+1)];
[0008]
s3:时间集成处理,采用时间集成函数对时延矩阵xt进行累计迭加处理,实现在每一时刻上生成新的长度为m的特征矩阵,在时间上形成一个矩阵序列xt(t);
[0009]
s4:帧间集成处理,将矩阵序列xt(t)采用帧间集成函数进行帧间集成处理获取特征序列xf(t);
[0010]
s5:将帧间集成处理获得的特征序列xf(t)送入延迟神经网络进行训练,完成语音识别过程。
[0011]
作为上述技术方案的进一步描述:
[0012]
所述步骤s3中时间集成处理采用高斯函数作为时间集成函数,其中,时间集成函数的公式为:
[0013]
作为上述技术方案的进一步描述:
[0014]
所述步骤s4帧间集成处理采用指数函数作为帧间集成函数,帧间集成函数的公式为:
[0015]
作为上述技术方案的进一步描述:
[0016]
所述步骤s4帧间集成处理帧间时延累计生成的取特征序列为x
f(t)
=[g
(p,m,t)
]
p
×
m
,其中xf(t)为p
×
m的矩阵。
[0017]
作为上述技术方案的进一步描述:
[0018]
所述矩阵xf(t)中元素g(p,m,t)为集成函数f与特征向量作卷积运算,且g(p,m,t)的计算方法为:
[0019][0020]
其中,p=1,2,
…
p,m=1,2,
…
m,p为特征维数。
[0021]
作为上述技术方案的进一步描述:
[0022]
采用指数函数作为帧间集成函数,其中,σ
f
是帧间集成常数,总的帧间时延tfd=3σ
f
。
[0023]
作为上述技术方案的进一步描述:
[0024]
为输入语音的特征序列,给定一个时延长度l,在t时刻,时延结果为时延矩阵xt,在下一时刻的时延结果为时延矩阵xt+1[x(t+1),x(t),x(t
‑
1),
…
,x(t
‑
l+2)],以此类推,对于每一时刻得到了相应的时延输入矩阵。
[0025]
本发明提供了一种基于tann的语音识别技术。具备以下有益效果:
[0026]
该基于tann的语音识别技术将一段语音进行预处理和特征提取形成在时间轴上依次排开的特征序列,并通过时间集成和帧间集成两个步骤处理特征帧序列形成新的帧特征矩阵,每个帧特征矩阵包含了当前时刻往前的一定时间段内的特征信息,解决经典神经网络无法顾及的特征在时间上的联系问题,同时又降低了数据的噪声及冗余度,减小后端网络负担,提高网络自适应能力。
附图说明
[0027]
图1为本发明提出的一种基于tann的语音识别技术的工作流程示意图;
[0028]
图2为本发明中时间集成过程示意图。
具体实施方式
[0029]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
[0030]
参照图1
‑
2,一种基于tann的语音识别技术,包括以下步骤:
[0031]
s1:对一段语音进行预处理和特征提取,形成在时间轴上依次排开的特征帧序列
[0032]
s2:为输入语音的特征序列,给定一个时延长度l,在t时刻,时延结果为时延矩阵xt[x(t),x(t
‑
1),x(t
‑
2),
…
,x(t
‑
l+1)];
[0033]
s3:时间集成处理,采用时间集成函数对时延矩阵xt进行累计迭加处理,实现在每一时刻上生成新的长度为m的特征矩阵,在时间上形成一个矩阵序列xt(t);
[0034]
s4:帧间集成处理,将矩阵序列xt(t)采用帧间集成函数进行帧间集成处理获取特
征序列xf(t);
[0035]
s5:将帧间集成处理获得的特征序列xf(t)送入延迟神经网络进行训练,完成语音识别过程。
[0036]
步骤s3中时间集成处理采用高斯函数作为时间集成函数,其中,时间集成函数的公式为:
[0037]
具体的,时间集成处理就是对每一时刻的时延矩阵进行处理,在每个矩阵的每个特征向量之间建立“联系”,确立这种“联系”实现保持特征向量之间的时序关系,使特征序列在输入网络时不丢失时间信息,且,这种“联系”实现一定程度上缩小时延矩阵的规模,减小网络的负载。
[0038]
步骤s4帧间集成处理采用指数函数作为帧间集成函数,帧间集成函数的公式为:
[0039]
步骤s4帧间集成处理帧间时延累计生成的取特征序列为x
f(t)
=[g
(p,m,t)
]
p
×
m
,其中xf(t)为p
×
m的矩阵。
[0040]
矩阵xf(t)中元素g(p,m,t)为集成函数f与特征向量作卷积运算,且g(p,m,t)的计算方法为:
[0041][0042]
其中,p=1,2,
…
p,m=1,2,
…
m,p为特征维数。
[0043]
采用指数函数作为帧间集成函数,其中,σ
f
是帧间集成常数,总的帧间时延tfd=3σ
f
。
[0044]
具体的,在经过时间集成处理之后,每一时刻上生成新的长度为m的特征矩阵,帧间集成处理用于进一步保留特征的时序信息,通过指数函数作帧间集成,是对时间集成处理各集成点上出现的输入序列信息做出在当前时刻的联合概率估计,强调当前时刻对时延序列的影响是首要的,这样得到了两次集成的结果,其仍然是一个特征序列,送入延迟神经网络dnn进行训练,完成识别过程。
[0045]
为输入语音的特征序列,给定一个时延长度l,在t时刻,时延结果为时延矩阵xt,在下一时刻的时延结果为时延矩阵xt+1[x(t+1),x(t),x(t
‑
1),
…
,x(t
‑
l+2)],以此类推,对于每一时刻得到了相应的时延输入矩阵。
[0046]
该基于tann的语音识别技术将一段语音进行预处理和特征提取形成在时间轴上依次排开的特征序列,并通过时间集成和帧间集成两个步骤处理特征帧序列形成新的帧特征矩阵,每个帧特征矩阵包含了当前时刻往前的一定时间段内的特征信息,解决经典神经网络无法顾及的特征在时间上的联系问题,同时又降低了数据的噪声及冗余度,减小后端网络负担,提高网络自适应能力。
[0047]
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料过着特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。
而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
[0048]
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。