首页 > 乐器声学 专利正文
语音数据的处理方法、装置及设备与流程

时间:2022-02-13 阅读: 作者:专利查询

语音数据的处理方法、装置及设备与流程

1.本技术涉及语音处理技术领域,尤其涉及一种语音数据的处理方法、装置及设备。


背景技术:

2.语音设备包括扬声器和麦可风,在扬声器播放语音,且麦克风进行收音时,麦可风会采集到扬声器播放语音时的回声,使得通话质量较差。
3.目前,可以通过深度学习模型对语音信号进行处理,得到消除回声后的语音信号。例如,获取一段时长内的语音信号对应的语谱图,通过深度学习模型的图像处理功能对语谱图进行处理,得到消除回声后的语音信号。但是,通过深度学习模型对语谱图进行处理时,语谱图对应的语音信号的时长较长,例如,深度学习模型可以对3秒长的语音信号对应的语谱图进行处理,这样会使得语音交互时的实时性较差,进而导致语音处理的效果较差。


技术实现要素:

4.本技术实施例提供一种语音数据的处理方法、装置及设备,用于解决现有技术中,语音处理的效果较差的技术问题。
5.第一方面,本技术实施例提供一种语音数据的处理方法,该方法包括:
6.获取麦克风采集的第一语音信号和所述第一语音信号对应的第一残留回声信号,所述第一残留回声信号为非线性信号;
7.根据所述第一语音信号和所述第一残留回声信号,确定第一频域信号;
8.对所述第一频域信号进行卷积处理,得到第二频域信号和所述第二频率信号对应的回声消除参数;
9.根据所述第一残留回声信号和所述回声消除参数,确定所述第一语音信号对应的回声消除信号。
10.在一种可能的实施方式中,对所述第一频域信号进行卷积处理,得到第二频域信号和所述第二频率信号对应的回声消除参数,包括:
11.对所述第一频域信号进行压缩处理,得到第三频域信号;
12.通过预设模型对所述第三频域信号进行处理,得到所述第二频域信号和所述第二频域信号对应的回声消除参数;其中,所述第二频率信号的时长大于所述第一频域信号的时长,所述预设模型为对多组样本学习得到的,每组样本包括样本频域信号和样本回声消除参数,所述样本频域信号包括样本语音信号的频域信号和所述样本语音信号对应的非线性的样本残留回声信号的频域信号。
13.在一种可能的实施方式中,对所述第一频域信号进行压缩处理,得到第三频域信号,包括:
14.确定所述第一频域信号的幅值信息;
15.通过所述幅值信息对所述第一频域信号进行压缩处理,得到所述第三频域信号。
16.在一种可能的实施方式中,所述预设模型包括卷积层、全连接层和激活层;通过预
设模型对所述第三频域信号进行处理,得到所述第二频域信号和所述第二频域信号对应的回声消除参数,包括:
17.通过所述卷积层中的卷积核对所述第三频域信号进行一维卷积处理,得到所述第二频域信号,所述卷积核的长度大于2;
18.通过所述全连接层和所述激活层对所述第二频域信号进行处理,得到所述回声消除参数。
19.在一种可能的实施方式中,根据所述第一残留回声信号和所述回声消除参数,确定所述第一语音信号对应的回声消除信号,包括:
20.将所述第一残留回声信号和所述回声消除参数的乘积确定为所述回声消除信号。
21.在一种可能的实施方式中,根据所述第一残留回声信号和所述回声消除参数,确定所述第一语音信号对应的回声消除信号,包括:
22.根据所述回声消除参数,确定加扰信号;
23.将所述第一残留回声信号和所述回声消除参数乘积确定为所述第二语音信号;
24.根据所述加扰信号和所述第二语音信号,确定所述回声消除信号。
25.在一种可能的实施方式中,根据所述第一语音信号和所述第一残留回声信号,确定第一频域信号,包括:
26.获取所述第一语音信号对应的第四频域信号;
27.获取所述第一残留回声信号对应的第五频域信号;
28.对所述第四频域信号和所述第五频域信号进行拼接处理,得到所述第一频域信号。
29.第二方面,本技术实施例提供一种语音数据的处理装置,包括获取模块、第一确定模块、处理模块和第二确定模块,其中:
30.所述获取模块用于,获取麦克风采集的第一语音信号和所述第一语音信号对应的第一残留回声信号,所述第一残留回声信号为非线性信号;
31.所述第一确定模块用于,根据所述第一语音信号和所述第一残留回声信号,确定第一频域信号;
32.所述处理模块用于,对所述第一频域信号进行卷积处理,得到第二频域信号和所述第二频率信号对应的回声消除参数;
33.所述第二确定模块用于,根据所述第一残留回声信号和所述回声消除参数,确定所述第一语音信号对应的回声消除信号。
34.在一种可能的实施方式中,所述处理模块具体用于:
35.对所述第一频域信号进行压缩处理,得到第三频域信号;
36.通过预设模型对所述第三频域信号进行处理,得到所述第二频域信号和所述第二频域信号对应的回声消除参数;其中,所述第二频率信号的时长大于所述第一频域信号的时长,所述预设模型为对多组样本学习得到的,每组样本包括样本频域信号和样本回声消除参数,所述样本频域信号包括样本语音信号的频域信号和所述样本语音信号对应的非线性的样本残留回声信号的频域信号。
37.在一种可能的实施方式中,所述处理模块具体用于:
38.确定所述第一频域信号的幅值信息;
39.通过所述幅值信息对所述第一频域信号进行压缩处理,得到所述第三频域信号。
40.在一种可能的实施方式中,所述处理模块具体用于:
41.通过所述卷积层中的卷积核对所述第三频域信号进行一维卷积处理,得到所述第二频域信号,所述卷积核的长度大于2;
42.通过所述全连接层和所述激活层对所述第二频域信号进行处理,得到所述回声消除参数。
43.在一种可能的实施方式中,所述第二确定模块具体用于:
44.将所述第一残留回声信号和所述回声消除参数的乘积确定为所述回声消除信号。
45.在一种可能的实施方式中,所述第二确定模块具体用于:
46.根据所述回声消除参数,确定加扰信号;
47.将所述第一残留回声信号和所述回声消除参数乘积确定为所述第二语音信号;
48.根据所述加扰信号和所述第二语音信号,确定所述回声消除信号。
49.在一种可能的实施方式中,所述第一确定模块具体用于:
50.获取所述第一语音信号对应的第四频域信号;
51.获取所述第一残留回声信号对应的第五频域信号;
52.对所述第四频域信号和所述第五频域信号进行拼接处理,得到所述第一频域信号。
53.第三方面,本技术实施例提供一种语音数据的处理设备,包括:处理器、存储器;
54.所述存储器存储计算机执行指令;
55.所述处理器用于,执行所述存储器中存储的计算机程序,实现如第一方面所述的语音数据的处理方法。
56.第四方面,本技术实施例还提供一种可读存储介质,所述可读存储介质上存储语音数据的处理程序,当所述语音数据的处理程序被处理器执行时,实现如第一方面所述的语音数据的处理方法。
57.本技术实施例提供一种语音数据的处理方法、装置及设备,获取麦克风采集的第一语音信号和第一语音信号对应的第一残留回声信号,第一残留回声信号为非线性信号,根据第一语音信号和第一残留回声信号,确定第一频域信号,对第一频域信号进行卷积处理,得到第二频域信号和第二频域信号对应的回声消除参数,第二频域信号的时长大于第一频域信号的时长,根据第一残留回声信号和回声消除参数,确定第一语音信号对应的回声消除信号。在上述方法中,通过对第一频域信号进行卷积处理得到的第二频域信号,可以有效的得到更多的时间信息,由于频域信号可以准确的反映语音信号的相位信息,因此,对频域信号进行处理可以降低语音畸变的概率,提升回声抑制的准确度,并且实时的对采集的语音信号进行回声消除处理,可以提高回声消除的及时性,进而提高语音处理的效果。
附图说明
58.图1为本技术实施例提供的一种应用场景示意图;
59.图2为本技术实施例提供的一种语音数据的处理方法的流程示意图;
60.图3为本技术实施例提供的一种获取第一残留回声信号的示意图;
61.图4为本技术实施例提供的一种一维卷积处理过程示意图;
62.图5为本技术实施例提供的一种生成回声消除参数的过程示意图;
63.图6为本技术实施例提供的一种回声消除信号的示意图;
64.图7为本技术实施例提供的另一种确定回声消除信号的方法流程示意图;
65.图8为本技术实施例提供的一种语音数据的处理方法的过程示意图;
66.图9为本技术实施例提供的一种语音数据的处理装置的结构示意图;
67.图10为本技术实施例提供的语音数据的处理设备的硬件结构示意图。
具体实施方式
68.这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面,的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本技术的一些方面相一致的装置和方法的例子。
69.需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
70.在相关技术中,语音交互时语音信号中存在回声信号,而回声信号包括线性回声和非线性回声,非线性回声的消除是语音交互场景中的语音信号处理的难点。目前,在对语音信号中的非线性回声信号进行消除时,可以通过深度学习模型对语音信号进行处理,得到消除回声信号的语音信号。例如,获取一段时长内的语音信号对应的图谱图,通过已经训练好的深度学习模型对语音信号的语谱图进行处理,得到消除非线性回声信号的语音信号。但是,通过深度学习模型对语谱图进行处理时,语谱图对应的语音信号的时长较长,例如,深度学习模型可以对3秒长语音信号对应的语谱图进行处理,这样会使得语音交互时的语音信号的实时性较差,进而导致语音处理的效果较差。
71.为了解决相关技术中语音处理的效果较差的技术问题,本技术实施例提供一种语音数据的处理方法,获取麦克风采集的第一语音信号和第一语音信号对应的第一残留回声信号,第一残留回声信号为非线性信号,确定第一语音信号的频域信号和第一残留回声信号的频域信号,并将第一语音信号的频域信号和第一残留回声信号的频域信号拼接得到第一频域信号,对所述第一频域信号进行压缩处理,得到第三频域信号,通过预设模型的卷积层中的卷积核对第三频域信号进行一维卷积处理,得到第二频域信号,以及通过预设模型的全连接层和激活层对第二频域信号进行处理,得到回声消除参数,根据第一残留回声信号和回声消除参数,确定第一语音信号对应的回声消除信号。由于频域信号可以准确的反映语音信号的相位信息,因此,对频域信号进行处理可以降低语音畸变的概率,提升回声抑制的准确度,并且实时的对采集的语音信号进行回声消除处理,可以提高回声消除的及时性,进而提高语音处理的效果。
72.下面,结合图1,对本技术实施例适用的应用场景进行说明。
73.图1为本技术实施例提供的一种应用场景示意图。请参见图1,包括:终端设备a和终端设备b。其中,终端设备a和终端设备b通话连接。用户使用终端设备a向终端设备b发送
语音时,终端设备b也向终端设备a发送语音。此时,终端设备a的麦克风采集到的用户输入的语音和扬声器播放的终端设备b发送的语音。
74.终端设备a对获取麦克风采集的语音信号进行线性滤波处理,得到语音信号对应残留回声信号。终端设备a将残留回声信号的频域信号和语音信号的频域信号拼接,得到拼接后的频域信号,并通过预设模型对拼接后的频域信号进行处理,得到回声消除参数。通过回声消除参数和残留回声信号,得到用户输入的干净的语音,并向终端设备b发送用户输入的语音。这样可以实时的对采集的语音信号进行回声消除处理,提高回声消除的及时性,进而提高语音处理的效果。
75.下面,通过具体实施例对本技术所示的技术方案进行详细说明。需要说明的是,如下实施例可以单独存在,也可以相互结合,对于相同或相似的内容,在不同的实施例中不再重复说明。
76.图2为本技术实施例提供的一种语音数据的处理方法的流程示意图。请参见图2,该方法可以包括:
77.s201、获取麦克风采集的第一语音信号和第一语音信号对应的第一残留回声信号。
78.本技术实施例的执行主体可以为终端设备,也可以为设置在终端设备中的语音数据的处理装置,其中,语音数据的处理装置可以通过软件实现,也可以通过软件和硬件的结合来实现。可选的,终端设备可以为具备麦克风和扬声器的设备。例如,终端设备可以为手机、电脑等设备。在语音交互场景中,用户通过终端设备的麦克风输出语音,终端设备的扬声器可以播放语音连接另一端用户的语音。例如,终端设备a和终端设备b通话连接,用户a使用终端设备a的麦克风输出语音,终端设备a的扬声器可以播放用户b在终端设备b输入的语音。
79.第一语音信号为麦克风采集的语音信号。第一语音信号可以包括麦克风信号和回采信号。其中,麦克风信号为用户输入的语音信号,回采信号为终端设备从语音通话的另一端的终端设备接收到的语音信号。例如,用户a通过终端设备与用户b进行语音通话时,用户a在终端设备的麦克风输入的语音信号为麦克风信号,用户a的终端设备接收的用户b输出的语音信号为回采信号。
80.可选的,可以通过终端设备的收音装置获取第一语音信号。例如,用户a通过终端设备与用户b进行语音通话时,用户a的终端设备的麦克风可以获取用户a输出的语音信号和终端设备的扬声器播放的用户b的语音信号。
81.可选的,回声信号为第一语音信号中的回声信号。例如,在双工语音交互场景中,终端设备的麦克风不仅可以采集用户输出的语音,还可以采集扬声器播放的语音,这样使得麦克风采集的语音信号中包括多余的回声信号。
82.回声信号包括线性回声信号和非线性回声信号。其中,第一残留回声信号为非线性信号。可选的,第一语音信号中可以包括线性回声信号和非线性回声信号。第一残留回声信号为只包括非线性回声信号的语音信号。例如,第一语音信号对应的第一残留回声信号为只有线性回声信号的第一语音信号。
83.可以根据如下可行的实现方式获取第一语音信号对应的第一残留回声信号:通过线性滤波的方式对第一语音信号进行处理,得到第一残留回声信号。例如,可以通过归一化
lms(normalized lms)算法对第一语音信号进行处理,将第一语音信号中的线性回声信号剔除,保留非线性回声信号,得到第一残留回声信号。
84.下面,结合图3,详细说明获取第一语音信号对应的第一残留回声信号的过程。
85.图3为本技术实施例提供的一种获取第一残留回声信号的示意图。请参见图3,包括第一语音信号。其中,第一语音信号中包括语音信号a、线性回声信号和非线性回声信号。将第一语音信号输入至线性滤波器,对线性回声信号进行消除处理,得到第一语音信号对应的第一残留回声信号,其中,第一残留回声信号中包括语音信号a和非线性回声信号。
86.s202、根据第一语音信号和第一残留回声信号,确定第一频域信号。
87.第一频域信号用于指示第一语音信号和第一残留回声信号的频域信息。可以根据如下可行的实现方式,确定第一频域信号:获取第一语音信号对应的第四频域信号,获取第一残留回声信号对应的第五频域信号。可选的,可以通过傅里叶变换的方式将第一语音信号变换为第四频域信号,将第一残留回声信号转换为第五频域信号。例如,可以通过短时傅里叶变换(short

time fourier transform,stft)对第一语音信号进行处理,得到第一语音信号对应的第四频域信号,通过stft对第一残留回声信号进行处理,得到第五频域信号。可选的,频域信号为复数组。例如,若采样频率为16k,每帧的帧长为16毫秒,傅里叶变换的长度为512,则由于傅里叶变换的对称性,确定每个频域信号都为257(512/2+1=257)的复数组。
88.对第四频域信号和第五频域信号进行拼接处理,得到第一频域信号。例如,若第四频域信号为257的复数组,第五频域信号为257的复数组,则对第四频域信号和第五频域信号进行拼接处理,得到第一频域信号,其中,第一频域信号为514的复数组。
89.s203、对第一频域信号进行卷积处理,得到第二频域信号和所述第二频率信号对应的回声消除参数。
90.第二频域信号为对第一频域信号进行卷积处理后的频域信号。其中,第二频域信号的时长大于第一频域信号的时长。例如,第一频域信号为一帧时长的语音信号的频域信号和非线性残留回声信号的频域信号拼接而成的频域信号,第二频域信号可以为三帧时长的语音信号的频域信号和非线性残留回声信号的频域信号拼接而成的频域信号。第二频域信号对应的回声消除参数用于指示对第一残留回声信号的回声消除程度。可选的,回声消除参数为大于0且小于1的数值,回声消除参数与第一残留回声信号的消除程度成反比。例如,回声消除参数越大,第一残留回声信号的消除程度越小,回声消除参数越小,第一残留回声信号的消除程度越大。
91.可以根据如下可行的实现方式,得到第二频域信号和第二频域信号对应的回声消除参数:对第一频域信号进行压缩处理,得到第三频域信号。其中,第三频域信号为第一频域信号压缩后的频域信号。例如,若第一频域信号为257维度的复数组,则第三频域信号可以为64维度的实数组。可选的,可以通过如下可行的实现方式,确定第三频域信号:确定第一频域信号的幅值信息。其中,幅值信息为第一频域信号对应的幅度。例如,由于第一频域信号为复数组,因此,可以将第一频域信号的模的平方,确定为第一频域信号对应的幅值。通过幅值信息对第一频域信号进行压缩处理,得到第三频域信号。例如,可以将第一频域信号对应的幅值信息转换为bark、mfcc或fbank的特征,得到第三频域信号。例如,在使用bark域对第一频域信号的幅值信息进行压缩处理时,若第一频域信号为257维度的复数组,则通
过bark域可以将第一频域信号转换为64维度的实数组。
92.通过预设模型对第三频域信号进行处理,得到第二频域信号和第二频域信号对应的回声消除参数。其中,预设模型为对多组样本学习得到的,每组样本包括样本频域信号和样本回声消除参数,样本频域信号包括样本语音信号和样本语音信号对应的非线性的样本残留回声信号。多组样本可以为预先标记的样本。例如,对于样本频域信号1,获取样本频域信号1对应的样本回声消除参数1,得到一组样本,该组样本包括样本语音信号1的频域信号1、样本语音信号1对应的非线性的样本残留回声信号的频域信号1和样本回声消除信号1。采用该种方式,可以得到多组样本。例如,多组样本可以如表1所示:表1多组样本样本频域信号样本回声消除参数第一组样本样本频域信号1样本回声消除参数1第二组样本样本频域信号2样本回声消除参数2第三组样本样本频域信号3样本回声消除参数3
………………
93.需要说明的是,表1只是以示例的形式示意多组样本,并非对多组样本的限定。
94.例如,若输入预设模型的样本频域信号为样本频域信号1,则预设模型输出该样本频域信号对应的回声消除参数为样本回声消除参数1;若输入预设模型的样本频域信号为样本频域信号2,则预设模型输出该样本频域信号对应的回声消除参数为样本回声消除参数2;若输入预设模型的样本频域信号为样本频域信号3,则预设模型输出该样本频域信号对应的回声消除参数为样本回声消除参数3。
95.可选的,在对预设模型进行训练时,预设模型的输入可以为第一语音信号的频域信号与第一语音信号对应的第一残留回声信号的频域信号拼接之后的bark值,每帧为64*3的向量。
96.在数据准备阶段:分别获取近端单讲、远端单讲、双工、全静音的数据,其中,近端单讲占比为15%,远端单讲占比为30%,双工时占比为50%,全静音占比为5%。双工时数据的信回比在[

20,5]db之间。s指近端信号,e指回声。真实数据和仿真数据各占30%和70%。每条数据长度4s,由于线性第一残留回声信号存在收敛时间,因此先把数据补充1s,并在最后切掉前面的1s。
[0097]
可选的,预设模型包括卷积层、全连接层和激活层,可以根据如下可行的实现方式,得到第二频域信号和第二频域信号对应的回声消除参数:通过卷积层中的卷积核对第三频域信号进行一维卷积处理,得到第二频域信号。其中,卷积核的长度大于2。例如,在对第三频域信号进行一维卷积处理时,卷积核的长度可以为3,每次卷积的步长为1,每次卷积可以多获取两帧的语音信号,每计算一次卷积结果,前移一帧,继续计算卷积结果,这样由于语音信号的短时平稳性,可以更准确地消除语音信号中的非线性回声信号。
[0098]
下面,结合图4,详细说明通过卷积层中的卷积核对第三频域信号进行一维卷积处理,得到第二频域信号的过程。
[0099]
图4为本技术实施例提供的一种一维卷积处理过程示意图。请参见图4,每个数字代表一帧语音数据对应的第三频域信号。例如,1为第一帧语音数据对应的第三频域信号、2
为第二帧语音数据对应的第三频域信号、3为第三帧语音数据对应的第三频域信号等,语音数据包括语音信号和语音信号对应的非线性残留回声信号。一维卷积层的卷积核的长度为3,每次选取3帧的语音数据进行卷积计算。一维卷积层的步长为1,每次卷积之后,沿着帧方向移动1步继续卷积。
[0100]
请参见图4,在进行第一次卷积时,一维卷积层选取1、2、3对应的3帧第三频域信号做卷积,一维卷积层第一次计算的卷积结果为第一帧的第二频域信号。其中,第一帧的第二频域信号以数字“1”表示。在进行第二次卷积时,卷积核沿着帧方向移动1步,一维卷积层选取2、3、4对应的3帧第三频域信号做卷积,一维卷积层第二次计算的卷积结果为第二帧的第二频域信号。其中,第二帧的第二频域信号以数字“2”表示。这样,通过对第三频域信号进行一维卷积,可以获取更多的语音信号的时间信息,并且通过频域信号的相位信息,可以有效的防止语音畸变,提高语音处理的可靠性。
[0101]
通过全连接层和激活层对第二频域信号进行处理,得到回声消除参数。例如,将一维卷积层输出的第二频域信号输入至全连接层和激活层,全连接层和激活层可以输出第二频域信号对应的回声消除参数。
[0102]
下面,结合图5,详细说明生成回声消除参数的过程。
[0103]
图5为本技术实施例提供的一种生成回声消除参数的过程示意图。请参见图5,包括预设模型。其中,预设模型包括一维卷积层和长短期记忆网络(long short

term memory,lstm)层。预设模型的输入为对第一频域信号进行压缩处理之后的第三频域信号。
[0104]
请参见图5,将压缩后的第三频域信号输入至预设模型,预设模型中的一维卷积层对第三频域信号做一维卷积处理,得到第二频域信号。一维卷积层将第二频域信号输入至lstm层,lstm层中的全连接层和激活层对第二频域信号进行处理,得到第二频域信号对应的回声消除参数。由于第一卷积层的复杂度较低,因此,通过第一卷积层对第三频域信号进行卷积处理,可以有效的降低预设模型的系统复杂度,进而将预设模型设置在体积较小的设备中,提高预设模型的适用范围。
[0105]
s204、根据第一残留回声信号和回声消除参数,确定第一语音信号对应的回声消除信号。
[0106]
回声消除信号为第一语音信号消除回声后的信号。例如,第一残留回声信号中的回声为非线性回声,若将第一残留回声信号中的非线性回声信号消除,则得到第一语音信号对应的回声消除信号。
[0107]
下面,结合图6,对回声消除信号的结构进行说明。
[0108]
图6为本技术实施例提供的一种回声消除信号的示意图。请参见图6,包括第一语音信号。其中,第一语音信号中包括用户对麦克风输入的语音信号a、线性回声信号和非线性回声信号。通过线性滤波器对第一语音信号进行处理,消除第一语音信号中的线性回声信号,得到第一残留回声信号。其中,第一残留回声信号中包括语音信号a和非线性回声信号。对第一残留回声信号进行非线性回声消除处理,消除第一残留回声信号的非线性回声信号,得到回声消除信号,其中,回声消除信号中包括用户对麦克风输入的语音信号。
[0109]
可选的,可以根据如下可行的实现方式,确定第一语音信号对应的回声消除信号:将第一残留回声信号和回声消除参数的乘积确定为回声消除信号。例如,若第一语音信号对应的第一残留回声信号为第一残留回声信号a,通过第一语音信号和第一残留回声信号a
确定的回声消除参数为回声消除参数b,则将第一残留回声信号a与回声消除参数b的乘积,确定为第一语音信号对应的回声消除信号。
[0110]
本技术实施例提供一种语音数据的处理方法,获取麦克风采集的第一语音信号和第一语音信号对应的第一残留回声信号,第一残留回声信号为非线性信号,确定第一语音信号的频域信号和第一残留回声信号的频域信号,并将第一语音信号的频域信号和第一残留回声信号的频域信号拼接得到第一频域信号,对第一频域信号进行压缩处理,得到第三频域信号,通过预设模型的卷积层中的卷积核对第三频域信号进行一维卷积处理,得到第二频域信号,以及通过预设模型的全连接层和激活层对第二频域信号进行处理,得到回声消除参数,将第一残留回声信号和回声消除参数的乘积,确定第一语音信号对应的回声消除信号。由于频域信号可以准确的反映语音信号的相位信息,因此,对频域信号进行处理可以降低语音畸变的概率,提升回声抑制的准确度,并且通过一维卷积层对频域信号进行处理,可以获取更多的时间信息的语音数据,提高语音处理的准确率,由于一维卷积层的复杂度较低,因此,可以在体积较小的设备中设置预设模型,提高预设模型的适用范围,终端设备可以实时的对采集的语音信号进行回声消除处理,可以提高回声消除的及时性,进而提高语音处理的效果。
[0111]
在图2所示的实施例的基础上,在得到第一残留回声信号的回声消除参数时,本技术实施例还包括另一种确定第一语音信号对应的回声消除信号的方法。下面,结合图7,对另一种确定第一语音信号对应的回声消除信号的方法进行说明。
[0112]
图7为本技术实施例提供的另一种确定回声消除信号的方法流程示意图。请参见图7,该方法包括:
[0113]
s701、根据回声消除参数,确定加扰信号。
[0114]
加扰信号用于在语音信号中加入底噪。例如,语音信号中通常包括底层的噪声,这样可以提高语音信号的连续性,使得语音信号的播放效果较好,若语音信号为不包括底噪的干净语音信号,则每段语音之间会有较长时间的空白段,使得用户的听感较差。
[0115]
可选的,可以根据如下可行的实现方式确定加扰信号:获取第一预设关系。其中,第一预设关系包括至少一个回声消除参数和每个回声消除参数对应的加扰信号。例如,第一预设关系可以如表2所示:表2回声消除参数加扰信号回声消除参数1加扰信号1回声消除参数2加扰信号2回声消除参数3加扰信号3
…………
[0116]
需要说明的是,表2只是以示例的形式示意第一预设关系,并非对第一预设关系的限定。
[0117]
根据回声消除参数和第一预设关系,确定加扰信号。例如,若回声消除参数为回声消除参数1,则回声消除参数对应的加扰信号为加扰信号1;若回声消除参数为回声消除参数2,则回声消除参数对应的加扰信号为加扰信号2;若回声消除参数为回声消除参数3,则回声消除参数对应的加扰信号为加扰信号3。
[0118]
s702、将第一残留回声信号和回声消除参数的乘积确定为第二语音信号。
[0119]
可选的,在确定第一残留回声信号和回声消除参数之后,可以将第一残留回声信号与回声消除参数之间的乘积,确定为第二语音信号。
[0120]
s703、根据加扰信号和第二语音信号,确定回声消除信号。
[0121]
通过第一残留回声信号和回声消除参数的乘积,得到的第二语音信号为不包括线性回声信号和非线性回声的语音信号。但是,第二语音信号为不包括底噪的语音信号,因此,第二语音信号的语音播放连续性较差,导致用户听感的体验较差。将加扰信号添加在第二语音信号中,得到回声消除信号。这样可以为第二语音信号添加底噪,得到的回声消除信号的语音播放的连续性较好,进而提高用户的听感的体验。
[0122]
本技术实施例提供一种确定回声消除信号的方法,在得到回声消除参数和第一残留回声信号时,根据回声消除参数,确定加扰信号,以及将第一残留回声信号和回声消除参数的乘积确定为第二语音信号,根据加扰信号和第二语音信号,确定回声消除信号。在上述方法中,由于回声消除信号中消除了线性回声和非线性回声,并且在回声消除信号中添加响应的底噪,这样可以提高回声消除信号语音播放的连续性,进而提高用户听感的体验。
[0123]
在上述任意一个实施例的基础上,下面,结合图8,对上述语音数据的处理方法的过程进行说明。
[0124]
图8为本技术实施例提供的一种语音数据的处理方法的过程示意图。请参见图8,包括:第一语音信号。其中,第一语音信号中包括用户输出的语音信号a,线性回声信号和非线性回声信号。通过线性滤波器对第一语音信号进行处理,得到第一残留回声信号,第一残留回声信号中包括语音信号a和非线性回声信号。
[0125]
请参见图8,确定第一残留回声信号的频域信号和第一语音信号的频域信号,将第一残留回声信号的频域信号和第一语音信号的频域信号拼接为第一频域信号。对第一频域信号进行压缩处理,得到第三频域信号,并在预设模型中输入第三频域信号。预设模型中的一维卷积层接收到第三频域信号之后,对第三频域信号进行一维卷积处理,得到第二频域信号,并将第二频域信号输入至lstm层,lstm层接收到第二频域信号时,对第二频域信号进行处理,得到回声消除参数。将回声消除参数与第一残留回声信号相乘,得到第一语音信号对应的回声消除信号,其中,回声消除信号中包括语音信号a,回声消除信号中不包括线性回声信号和非线性回声信号。由于频域信号可以准确的反映语音信号的相位信息,因此,对频域信号进行处理可以降低语音畸变的概率,提升回声抑制的准确度,并且实时的对采集的语音信号进行回声消除处理,可以提高回声消除的及时性,进而提高语音处理的效果。
[0126]
图9为本技术实施例提供的一种语音数据的处理装置的结构示意图。请参见图9,该语音数据的处理装置10包括获取模块11、第一确定模块12、处理模块13和第二确定模块14,其中:
[0127]
所述获取模块11用于,获取麦克风采集的第一语音信号和所述第一语音信号对应的第一残留回声信号,所述第一残留回声信号为非线性信号;
[0128]
所述第一确定模块12用于,根据所述第一语音信号和所述第一残留回声信号,确定第一频域信号;
[0129]
所述处理模块13用于,对所述第一频域信号进行卷积处理,得到第二频域信号和所述第二频率信号对应的回声消除参数;
[0130]
所述第二确定模块14用于,根据所述第一残留回声信号和所述回声消除参数,确定所述第一语音信号对应的回声消除信号。
[0131]
在一种可能的实施方式中,所述处理模块13具体用于:
[0132]
对所述第一频域信号进行压缩处理,得到第三频域信号;
[0133]
通过预设模型对所述第三频域信号进行处理,得到所述第二频域信号和所述第二频域信号对应的回声消除参数;其中,所述第二频率信号的时长大于所述第一频域信号的时长,所述预设模型为对多组样本学习得到的,每组样本包括样本频域信号和样本回声消除参数,所述样本频域信号包括样本语音信号的频域信号和所述样本语音信号对应的非线性的样本残留回声信号的频域信号。
[0134]
在一种可能的实施方式中,所述处理模块13具体用于:
[0135]
确定所述第一频域信号的幅值信息;
[0136]
通过所述幅值信息对所述第一频域信号进行压缩处理,得到所述第三频域信号。
[0137]
在一种可能的实施方式中,所述处理模块13具体用于:
[0138]
通过所述卷积层中的卷积核对所述第三频域信号进行一维卷积处理,得到所述第二频域信号,所述卷积核的长度大于2;
[0139]
通过所述全连接层和所述激活层对所述第二频域信号进行处理,得到所述回声消除参数。
[0140]
在一种可能的实施方式中,所述第二确定模块14具体用于:
[0141]
将所述第一残留回声信号和所述回声消除参数的乘积确定为所述回声消除信号。
[0142]
在一种可能的实施方式中,所述第二确定模块14具体用于:
[0143]
根据所述回声消除参数,确定加扰信号;
[0144]
将所述第一残留回声信号和所述回声消除参数乘积确定为所述第二语音信号;
[0145]
根据所述加扰信号和所述第二语音信号,确定所述回声消除信号。
[0146]
在一种可能的实施方式中,所述第一确定模块12具体用于:
[0147]
获取所述第一语音信号对应的第四频域信号;
[0148]
获取所述第一残留回声信号对应的第五频域信号;
[0149]
对所述第四频域信号和所述第五频域信号进行拼接处理,得到所述第一频域信号。
[0150]
本技术实施例提供的语音数据的处理装置可以执行上述方法实施例所示的技术方案,其实现原理以及有益效果类似,此处不再进行赘述。
[0151]
本技术实施例所示的语音数据的处理装置可以为芯片、硬件模组、处理器等。当然,语音数据的处理装置可以为其它形态,本技术实施例对此不作具体限定。
[0152]
图10为本技术实施例提供的语音数据的处理设备的硬件结构示意图。请参见图10,该语音数据的处理设备20可以包括:处理器21和存储器22,其中,处理器21和存储器22可以通信;示例性的,处理器21和存储器22通过通信总线23通信,所述存储器22用于存储程序指令,所述处理器21用于调用存储器中的程序指令执行上述任意方法实施例所示的语音数据的处理方法。
[0153]
可选的,语音数据的处理设备20还可以包括通信接口,通信接口可以包括发送器和/或接收器。
[0154]
可选的,上述处理器可以是中央处理单元(central processing unit,cpu),还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本技术实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
[0155]
本技术实施例提供一种可读存储介质,所述可读存储介质上存储有计算机程序;所述计算机程序用于实现如上述任意实施例所述的语音数据的处理方法。
[0156]
本技术实施例提供一种计算机程序产品,所述计算机程序产品包括指令,当所述指令被执行时,使得计算机执行上述语音数据的处理方法。
[0157]
实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一可读取存储器中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储器(存储介质)包括:只读存储器(英文:read

only memory,缩写:rom)、ram、快闪存储器、硬盘、固态硬盘、磁带(英文:magnetic tape)、软盘(英文:floppy disk)、光盘(英文:optical disc)及其任意组合。
[0158]
本技术实施例是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理单元以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理单元执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0159]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0160]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0161]
显然,本领域的技术人员可以对本技术实施例进行各种改动和变型而不脱离本技术的精神和范围。这样,倘若本技术实施例的这些修改和变型属于本技术权利要求及其等同技术的范围之内,则本技术也意图包含这些改动和变型在内。
[0162]
在本技术中,术语“包括”及其变形可以指非限制性的包括;术语“或”及其变形可以指“和/或”。本技术中术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。本技术中,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。