首页 > 乐器声学 专利正文
基于语音识别的会议记录方法、装置、设备及存储介质与流程

时间:2022-02-13 阅读: 作者:专利查询

基于语音识别的会议记录方法、装置、设备及存储介质与流程

1.本发明涉及语音信号处理技术领域,尤其涉及一种基于语音识别的会议记录方法、装置、设备及存储介质。


背景技术:

2.在传统的会议模式中,会议记录等相关的信息需要会议记录人员进行手工录入,无法实时查看会议记录,只能会议结束后查看,而且在多人会议的场景下,会议记录人员还需要区分多个说话人的身份信息,以在手工录入过程中增加身份标识,由于会议上说话人的交谈是否频繁,往往会出现会议记录人员认错身份或者录入身份标识错误的情况,因此,现有的会议记录方案存在准确率低、耗时长和效率低的不足。


技术实现要素:

3.本发明提供一种基于语音识别的会议记录方法、装置、计算机设备及存储介质,实现了通过多通道人声分离,以及语音识别,自动识别出说话人信息,并通过基于上文语义的文本识别,识别出文本结果,从而自动输出会议记录,实现了便捷地、有效地、准确地输出会议记录。
4.一种基于语音识别的会议记录方法,包括:
5.实时获取待识别音频数据;
6.对所述待识别音频数据进行多通道分割处理,并对多通道分割处理后的所述待识别音频数据进行人声频率特征提取,以及根据提取的人声频率特征进行人声分离,得到人声数据;
7.运用sincnet过滤器,通过说话人识别模型对所述人声数据进行高低通滤波,以及对高低通滤波后的所述人声数据进行语音识别,得到说话人信息;
8.获取与所述说话人信息关联的历史记录文本,根据获取的所述历史记录文本,对所述人声数据进行基于上文语义的文本识别,得到文本结果;
9.根据所述说话人信息和所述文本结果,确定出与所述待识别音频数据对应的会议记录内容。
10.一种基于语音识别的会议记录装置,包括:
11.获取模块,用于实时获取待识别音频数据;
12.分离模块,用于对所述待识别音频数据进行多通道分割处理,并对多通道分割处理后的所述待识别音频数据进行人声频率特征提取,以及根据提取的人声频率特征进行人声分离,得到人声数据;
13.语音识别模块,用于运用sincnet过滤器,通过说话人识别模型对所述人声数据进行高低通滤波,以及对高低通滤波后的所述人声数据进行语音识别,得到说话人信息;
14.文本识别模块,用于获取与所述说话人信息关联的历史记录文本,根据获取的所述历史记录文本,对所述人声数据进行基于上文语义的文本识别,得到文本结果;
15.确定模块,用于根据所述说话人信息和所述文本结果,确定出与所述待识别音频数据对应的会议记录内容。
16.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于语音识别的会议记录方法的步骤。
17.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述基于语音识别的会议记录方法的步骤。
18.本发明提供的基于语音识别的会议记录方法、装置、计算机设备及存储介质,该方法通过实时获取待识别音频数据;对所述待识别音频数据进行多通道分割处理,并对多通道分割处理后的所述待识别音频数据进行人声频率特征提取,以及根据提取的人声频率特征进行人声分离,得到人声数据;运用sincnet过滤器,通过说话人识别模型对所述人声数据进行高低通滤波,以及对高低通滤波后的所述人声数据进行语音识别,得到说话人信息;获取与所述说话人信息关联的历史记录文本,根据获取的所述历史记录文本,对所述人声数据进行基于上文语义的文本识别,得到文本结果;根据所述说话人信息和所述文本结果,确定出与所述待识别音频数据对应的会议记录内容,如此,实现了通过多通道人声分离,以及语音识别,自动识别出说话人信息,并通过基于上文语义的文本识别,识别出文本结果,从而实现了自动输出会议记录的效果,可实时查看,且无需人工记录,提高了会议记录输出的准确性、及时性和效率。
附图说明
19.为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
20.图1是本发明一实施例中基于语音识别的会议记录方法的应用环境示意图;
21.图2是本发明一实施例中基于语音识别的会议记录方法的流程图;
22.图3是本发明一实施例中基于语音识别的会议记录方法的步骤s20的流程图;
23.图4是本发明一实施例中基于语音识别的会议记录方法的步骤s30的流程图;
24.图5是本发明一实施例中基于语音识别的会议记录方法的步骤s40的流程图;
25.图6是本发明一实施例中基于语音识别的会议记录装置的原理框图;
26.图7是本发明一实施例中计算机设备的示意图。
具体实施方式
27.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
28.本发明提供的基于语音识别的会议记录方法,可应用在如图1的应用环境中,其中,客户端(计算机设备或终端)通过网络与服务器进行通信。其中,客户端(计算机设备或
终端)包括但不限于为各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
29.在一实施例中,如图2所示,提供一种基于语音识别的会议记录方法,其技术方案主要包括以下步骤s10

s50:
30.s10,实时获取待识别音频数据。
31.可理解地,在多人会议的现实场景下,通过麦克风或者录音设备实时记录多人会议过程中的音频信号,对实时采集的所述音频信号进行预设时间间隔的实时数据提取,得到所述待识别音频数据,其中,所述预设时间间隔可以根据需求设定,比如200ms、500ms等等,也可以在多人视频会议的场景下,接收到多人视频会议的实时采集的视频数据,从所述视频数据中分离出音频信号和时序的图像信号,将分离出的音频信号进行预设时间间隔的数据提取,得到所述待识别音频数据,所述待识别音频数据为需要识别的音频数据。
32.s20,对所述待识别音频数据进行多通道分割处理,并对多通道分割处理后的所述待识别音频数据进行人声频率特征提取,以及根据提取的人声频率特征进行人声分离,得到人声数据。
33.可理解地,可通过多尺度多频带音频源分离模型实现对所述待识别音频数据进行多通道分割处理,并对多通道分割处理后的所述待识别音频数据进行人声频率特征提取,以及根据提取的人声频率特征进行人声分离,得到人声数据的功能,该多尺度多频带音频源分离模型可为基于mmdensenet(multiscale multiband densenet)的模型,即多尺度多频带音频源分离模型为训练完成的基于密集卷积网络(densenet)的频率域音频源分离模型,所述多通道分割处理的处理过程为对输入的音频内容或者音频文件进行短时傅里叶变换处理,得到全频带频谱图,并对所述全频带频谱图划分成不同频带的子频带频谱图,通过全频特征提取模型进行全频特征提取,以及不同频带的子频带特征提取模型进行不同频带的音频特征的提取,最终得到全频带特征数据和子频带特征数据的分解过程,对多通道分割处理后的所述待识别音频数据进行人声频率特征提取,其中,所述人声频率特征为所述人声频率特征为人所发出的声音频率的范围的特征,所述人声分离为根据提取的人声频率特征,从所述待识别音频数据中分离出人声的部分的操作过程,所述人声数据为只有人声的部分的音频内容。
34.在一实施例中,如图3所示,所述步骤s20中,即所述对所述待识别音频数据进行多通道人声分离,得到人声数据,包括:
35.s201,对所述待识别音频数据进行多通道分割处理,得到多个全频带特征数据和多个子频带特征数据;其中,一个所述全频带特征数据对应多个所述子频带特征数据。
36.可理解地,通过多尺度多频带音频源分离模型实现对所述待识别音频数据进行多通道分割处理,得到多个全频带特征数据和多个子频带特征数据,所述多尺度多频带音频源分离模型可为基于mmdensenet(multiscale multiband densenet)的模型,即多尺度多频带音频源分离模型为训练完成的基于密集卷积网络(densenet)的频率域音频源分离模型,所述密集卷积网络为在接近输入和接近输出的层之间包含较短的连接,将每层与相邻层的连接更加密集和紧密,学习的特征更加准确和有效的网络模型,所述多尺度多频带音频源分离模型为通过学习多个通道(即多个尺度)以及多个子频带的相应的音频特征的提取进行特征向量分离的模型,所述多尺度多频带音频源分离模型包含一个所述全频特征提
取模型和若干个所述子频带特征提取模型,通过所述多尺度多频带音频源分离模型能够实现所述全频特征提取模型和所有所述子频带特征提取模型的功能,所述全频特征提取模型为对输入的待识别音频数据的全频段范围的频率进行全频特征提取的模型,所述全频特征为整个频段范围的时域与频率之间的音频特征或特性,所述子频带特征提取模型的个数可以根据需求设定,比如所述子频带特征提取模型的个数为四个,那么为对全频的音频范围划分为四等分,划分的子频带的个数就为四个,每一等分的子频带对应一个所述子频带特征提取模型,而该子频带特征提取模型提取时域与其所对应的等分的子频带范围内的频率之间的音频特征。
37.其中,所述多通道分割处理的处理过程为对输入的音频内容或者音频文件进行短时傅里叶变换处理,得到全频带频谱图,并对所述全频带频谱图划分成不同频带的子频带频谱图,通过全频特征提取模型进行全频特征提取,以及不同频带的子频带特征提取模型进行不同频带的音频特征的提取,最终得到全频带特征数据和子频带特征数据的分解过程,其中,一个所述全频带特征数据对应多个所述子频带特征数据,所述全频带特征数据为针对全频带频谱图的特征向量,所述子频带特征数据为针对子频带频谱图的特征向量。
38.在一实施例中,所述步骤s201中,即所述对所述待识别音频数据进行多通道分割处理,得到多个全频带特征数据和多个子频带特征数据,包括:
39.s2011,对所述待识别音频数据进行短时傅里叶变换处理,得到多个全频带频谱图。
40.可理解地,所述待识别音频数据可以看做时间维度上多个频率点混合的音频数据,即每一个时刻点包括多个频率点的混合的信号,所述多尺度多频带音频源分离模型,即cws(channel

wise subband)模型,通过所述多尺度多频带音频源分离模型进行所述短时傅里叶变换处理,所述短时傅里叶变换处理的过程为:首先,对所述待识别音频数据进行分帧加窗,即按照帧移划分预设窗口大小的窗口的语音数据中的音频信号,相邻两窗口的起始帧的时间差叫做帧移,起始帧为窗口的开始时间帧,例如:预设窗口大小为32毫秒,帧移为8毫秒;然后,对分帧加窗后的每一个窗口的音频信号进行快速傅里叶变换(fft),快速傅里叶变换的作用是把时域信号转为频域信号,即把每一窗口的时域的音频信号转换成频域信号,即全频带频谱图,一个窗口对应一个所述全频带频谱图。
41.s2012,对各所述全频带频谱图进行多通道子频带分解,得到与各所述全频带频谱图对应的子频带频谱图;一个所述全频带频谱图对应预设子频带个数的所述子频带频谱图,且每一个所述子频带频谱图对应一个子频带。
42.可理解地,所述子频带为全频的音频范围内的划分的一段频带范围,通过所述多尺度多频带音频源分离模型对每个所述全频带频谱图进行分解,所述频带分解的过程为对所述全频带频谱图进行预设子频带个数的等分的划分过程,经过所述频带分解后获得的频谱图记录为所述子频带频谱图,例如:预设子频带个数为四,那么频带分解的过程为对所述全频带频谱图划分为四等分,每个频带的范围为四分之一全频带频谱图的频率范围,一个全频带频谱图对应四个子频带频谱图,如此,能够将全频带频谱图划分成多个子频带频谱图,增加对音频信号的细粒度,为后续的音频特征学习提供了数据基础。
43.其中,所述频带为一段频率范围,例如:一个频带为100hz到800hz的频率范围。
44.s2013,将各所述全频带频谱图输入全频特征提取模型,通过所述全频特征提取模
型对所述全频带频谱图中的全频特征进行提取,得到与各所述全频带频谱图一一对应的所述全频带特征数据。
45.可理解地,所述全频特征提取模型为训练完成的用于对输入的语音数据的全频段范围的频率进行全频特征提取的模型,所述全频特征为整个频段范围的时域与频率之间的音频特征或特性,通过所述全频特征提取模型对所述全频特征的提取可以转换为相应的特征向量,从而得到所述全频带特征数据,一个所述全频带频谱图对应一个所述全频带特征数据。
46.s2014,将各所述子频带频谱图输入与其子频带对应的子频带特征提取模型,提取各所述子频带频谱图中的与其子频带对应的音频特征,得到与各所述子频带频谱图一一对应的所述子频带特征数据;其中,一个子频带特征提取模型对应一个子频带。
47.可理解地,所述子频带特征提取模型为训练完成的用于在不同频率范围的维度上具有的音频的成分或者特性进行提取的模型,所述子频带特征提取模型能够有助于对音频信号进行更加细粒度的性能进行提取,更加有效的提取,因为分析提取的频率范围小,无需更高的计算模型,所以分析的过程更快跟高效,以及更快的效率,不同的频带相应的有不同的音频特征,所述子频带特征提取模型可以为基于mmdensenet的深度学习模型,所述mmdensenet的网络结构引入了具有相同特征映射大小的任意两个层之间的直接串联连接,因为mmdensenet的网络结构没有从极深或极宽的体系结构中学习表示能力,而是通过特征重用来开发多个尺度(时域或者通道)和多个频带(频段)的网络潜力,从而产生易于训练和高参数效率的紧密浓缩的模型,由于该模型不需要重新学习冗余特征图,因此相对于传统的卷积网络只需要更少的参数即可学习到相应的音频特征,例如:所述频带包括低频频带、中频频带和高频频带,每一个所述子频带频谱图对应一个子频带,将所述子频带频谱图输入至于该子频带频谱图对应的子频带所对应的所述子频带特征提取模型,通过该子频带特征提取模型对该子频带频谱图进行与该子频带对应的音频特征的提取,转换成具有与该子频带对应的音频特征的特征向量,将该转换后的特征向量记录为与该子频带频谱图对应的所述子频带数据。
48.其中,所述步骤s2013和所述步骤s2014的执行顺序可以是串行,也可以并行,在此不做限制。
49.本发明实现了通过对所述待识别音频数据进行短时傅里叶变换处理,得到多个全频带频谱图;对各所述全频带频谱图进行多通道子频带分解,得到与各所述全频带频谱图对应的子频带频谱图;将各所述全频带频谱图输入全频特征提取模型,通过所述全频特征提取模型对所述全频带频谱图中的全频特征进行提取,得到与各所述全频带频谱图一一对应的所述全频带特征数据;将各所述子频带频谱图输入与其子频带对应的子频带特征提取模型,提取各所述子频带频谱图中的与其子频带对应的音频特征,得到与各所述子频带频谱图一一对应的所述子频带特征数据;如此,能够通过自动对输入的待分离语音数据进行分解,分解出全频带频谱图和不同频带的频谱图,并且提取全频特征和不同的子频带所对应的音频特征,转换获得全频带特征数据和子频带数据,实现了对不同频带的高细粒度的学习,更加深入的提取不同的子频带的音频特征,能够获得全频的特征向量以及不同频带更高细粒度的特征向量,为后续的人声分离提高了分离准确率和可靠性。
50.s202,对各所述全频带特征数据以及与各所述全频带特征数据对应的所有所述子
频带特征数据进行人声频率特征提取,根据提取的所述人声频率特征进行人声频率点识别,得到与各所述全频带特征数据一一对应的人声识别矩阵。
51.可理解地,可以通过频带人声识别模型完成对各所述全频带特征数据以及与各所述全频带特征数据对应的所有所述子频带特征数据进行人声频率特征提取,根据提取的所述人声频率特征进行人声频率点识别,得到与各所述全频带特征数据一一对应的人声识别矩阵的过程,所述频带人声识别模型为训练完成的用于结合全频的特征向量和不同频带的特征向量进行人声频率特征提取,并识别出相应的人声识别矩阵的模型,所述人声频率特征为人所发出的声音频率的范围的特征,所述人声频率特征提取的过程为对每个所述全频带特征数据的特征向量矩阵进行人声频率特征的卷积,而且对每个所述子频带数据的特征向量矩阵进行人声频率特征的卷积的过程,其中,卷积的过程为下采样的方式进行卷积,下采样的层级为5层,最后每个全频带特征数据或者子频带数据会提取得到与其一一对应的一维数组,即最终提取的人声频率特征,根据提取的所述人声频率特征进行人声频率点识别的过程为对提取的一维数组进行上采样的过程,其中,上采样的过程为每上采样一次,就和特征提取相应的层级输出的特征向量进行相同通道数的尺度融合,以及结合所述全频带特征数据下采样获得的相同通道数的特征向量进行融合,通过相同通道数的子频带数据的上采样的特征向量、子频带数据的下采样的特征向量以及全频带特征数据的下采样的特征向量进行融合,能够更加准确地识别出每个全频带特征数据(时间

频率维度的矩阵)中的每个频率点(相当于一个图像矩阵中的每个像素点)是否为人声的占比或者概率的识别过程,经过所述频带人声识别模型的提取及识别,能够得到与每个所述全频带特征数据一一对应的所述人声识别矩阵,所述人声识别矩阵为全频带特征数据中的每个频率点是否为人声的占比或者概率的集合矩阵。
52.s203,根据所有人声识别矩阵,对所述待识别音频数据进行人声分离,得到与所述待识别音频数据对应的人声数据。
53.可理解地,所述人声分离为将所有根据提取的所述人声频率特征进行人声频率点识别得到的所述人声识别矩阵按照所述待识别音频数据的时序进行拼接,将拼接过程中出现重叠的部分进行取均值处理,从而得到一个与所述待识别音频数据相同时间轴的矩阵,该矩阵中的每个频率点都有一个分离出人声的占比值,然后将该矩阵与所述待识别音频数据进行点乘处理,从而能够得到所述待识别音频数据中只有人声的部分,将该人声的部分记录为所述人声数据,所述人声数据为之后人声的音频文件或者音频信号。
54.本发明实现了通过对所述待识别音频数据进行多通道分割处理,得到多个全频带特征数据和多个子频带特征数据;对各所述全频带特征数据以及与各所述全频带特征数据对应的所有所述子频带特征数据进行人声频率特征提取,根据提取的所述人声频率特征进行人声频率点识别,得到与各所述全频带特征数据一一对应的人声识别矩阵;根据所有人声识别矩阵,对所述待识别音频数据进行人声分离,得到与所述待识别音频数据对应的人声数据,如此,实现了通过多通道分割处理,以及进行人声频率特征提取,自动分离出待识别音频数据中的人声部分,大大降低了人声分离的门槛和成本,提高了分离准确率和质量,大大提升了分离效率,为后续的语音识别提供了无杂音或者无噪音的音频文件或者音频信号,提高了后续语音识别的准确率。
55.s30,运用sincnet过滤器,通过说话人识别模型对所述人声数据进行高低通滤波,
以及对高低通滤波后的所述人声数据进行语音识别,得到说话人信息。
56.可理解地,所述说话人识别模型为训练完成的基于sinc函数(也称辛格函数)和卷积神经网络(cnn)的架构的模型,所述说话人识别模型能够识别出输入的所述人声数据中说话人的相关信息的模型,所述说话人识别模型包括基于sinc函数的sincnet过滤器,所述sincnet过滤器为经过sinc函数学习到低通和高通频率响应,通过sincnet过滤器来学习特定频率范围的内容,即低通截止频率和高通截止频率之间的频率范围的内容,通过低通和高通的对称性,只要学习低通频率响应就可以对称获得高通频率响应,因此,只要学习一半,就可以复制另一半,提高了50%的学习速度,所述说话人识别模型的处理过程为先通过所述sincnet过滤器进行过滤之后,再通过卷积神经网络(cnn)进行说话人语音特征提取,最后根据提取的说话人语音特征进行识语音识别,从而识别出说话人,并获得与识别出的说话人的所述说话人信息的操作过程。
57.在一实施例中,如图4所示,所述步骤s30中,即所述通过说话人识别模型对所述人声数据进行语音识别,得到说话人信息,包括:
58.s301,运用sincnet过滤器,对所述人声数据进行高低通滤波,得到滤波音频信号。
59.可理解地,将所述人声数据划分为n个人声片段,比如按照200ms时长进行划分,剩余不足200ms的人声片段自动填充无人声的音频内容得到最后一个人声片段,对每个人声片段进行h个不同频段长度为l=n=251的sincnet过滤器进行高低通滤波得到w各采样点的采样向量,从而得到成n
×
h
×
w的三维的滤波音频信号。
60.其中,sincnet过滤器的滤波函数为:
61.g[f,f1f2]=rect(f/2f2)

rect(f/2f1)
[0062]
其中,f1为不同频段的低通截止频率;f2为不同频段的高通截止频率;通过逆向傅里叶变换来获得滤波器在频域上的参数,从而转换成时域的滤波函数为:
[0063]
g[n,f1,f2]=2f2sinc(2πf2n)

2f1sinc(2πf1n)
[0064]
其中,n=251为滤波器长度;sinc(x)=sin(x)/x;对低通高通频率响应的初始化采用[0,f
s
/2]区间的随机值,其中f
s
为预设的频率值,f
s
在[f1,f2]之间,并保证f2>f1,增加了汉明窗进行汉明窗处理以保持滤波器结果的连续性,最终得到所述滤波音频信号。
[0065]
在一实施例中,所述步骤s301中,即所述运用sincnet过滤器,对所述人声数据进行高低通滤波,得到滤波音频信号,包括:
[0066]
对所述人声数据进行分块处理,得到多个语音块数据。
[0067]
可理解地,所述分块处理为将所述人声数据划分为n个人声片段,比如按照200ms时长进行划分,剩余不足200ms的人声片段自动填充无人声的音频内容得到最后一个人声片段,将划分后的人声片段记录为所述语音块数据。
[0068]
对各所述语音块数据进行基于sinc的带通滤波处理,得到与各所述语音块数据对应的时域块数据。
[0069]
可理解地,所述基于sinc的带通滤波处理为经过sinc函数学习到低通和高通频率响应,让低通和高通频率之间的特定频带(连续频率范围)的数字信号通过的处理过程,从而对所述语音块数据起到过滤的处理过程,从而过滤后获得所述时域块数据,所述时域块数据为在时域上与其对应的语音块数据经过滤后体现的数据。
[0070]
对各所述时域块数据进行汉明窗处理,得到所述滤波音频信号。
[0071]
可理解地,所述汉明窗处理为对带通滤波处理后的时域块数据执行汉明窗口化,来缓解通带中的纹波和阻带中的有限衰减,即将滤波函数g[n,f1,f2]和汉明窗函数w[n]相乘,即
[0072]
gw[n,f1,f2]=g[n,f1,f2]
·
w[n]
[0073]
其中,所述汉明窗函数为:
[0074]
w[n]=0.54

0.46
×
cos(2πn/l)
[0075]
其中,l为时间窗的宽度,可以与n相同。
[0076]
本发明实现了通过对所述人声数据进行分块处理,得到多个语音块数据;对各所述语音块数据进行基于sinc的带通滤波处理,得到与各所述语音块数据对应的时域块数据;对各所述时域块数据进行汉明窗处理,得到所述滤波音频信号,如此,运用sincnet过滤器,加快了语音识别对原始的音频信号进行有效内容的提取,而且为后续的语音识别提供了有效的内容,提高了后续语音识别的精准性。
[0077]
s302,对滤波音频信号进行池化及正则化处理,得到中间特征向量。
[0078]
可理解地,对所述滤波音频信号依次进行池化处理、正则化处理和非线性激活处理,得到所述中间特征向量,所述中间特征向量为为对所述滤波音频信号进行聚合统计并防止过拟合进行处理后的特征向量。
[0079]
在一实施例中,所述步骤s302中,即所述对滤波音频信号进行池化及正则化处理,得到中间特征向量,包括:
[0080]
对所述滤波音频信号进行池化处理,得到池化结果。
[0081]
可理解地,所述池化处理为pooling处理,即对所述滤波音频信号进行降维处理,对所述滤波音频信号中不同位置的特征进行聚合统计,得到所述池化结果。
[0082]
对所述池化结果进行正则化处理,得到正则结果。
[0083]
可理解地,所述正则化处理为进行归一化处理和增加范数以防止过拟合,从而得到所述正则结果。
[0084]
对所述正则结果进行非线性激活处理,得到所述中间特征向量。
[0085]
可理解地,所述非线性激活处理为运用leaky

relu激活函数进行激活的处理过程,所述leaky

relu激活函数是在relu激活函数基础上给所有负值赋予一个非零斜率,从而将经过非线性激活处理的所述正则结果记录为所述中间特征向量。
[0086]
本发明实现了通过对所述滤波音频信号进行池化处理,得到池化结果;对所述池化结果进行正则化处理,得到正则结果;对所述正则结果进行非线性激活处理,得到所述中间特征向量,如此,能够对所述滤波音频信号做有效内容的增强处理,并防止过拟合,提高了后续语音识别的准确性和可靠性。
[0087]
s303,对所述中间特征向量进行说话人语音特征提取,根据提取的说话人语音特征进行语音识别,得到所述说话人信息。
[0088]
可理解地,所述说话人语音特征为训练所有会议参与的成员学习的与该会议的参与人或者所有成员的语音相关的特征,在所有会议参与的成员在开始语音识别之前均已经学习到所述说话人语音特征,学习的过程可以为在所有会议参与的成员在进入会议之前录制每个参与会议的成员一段“喂”或者自我介绍的话术,以学习语音特征以及学习sincnet过滤器中的低通频率和高通频率响应,能够在短时间内完成sincnet过滤器的参数设定,以
及语音特征的学习,提高了语音识别的准确率。
[0089]
其中,所述说话人语音特征提取为对所述中间特征向量进行卷积,提取所述中间特征向量中说话人语音特征,对提取的说话人语音特征进行语音识别,所述语音识别的过程为softmax的处理过程,即对各个说话人的标签进行分类识别出落入的概率的处理过程,从而可以识别出说话人,并获得与识别出的说话人的所述说话人信息,所述说话人信息为与说话人相关的信息,比如说话人的id号或者职位等等。
[0090]
本发明实现了通过运用sincnet过滤器,对所述人声数据进行高低通滤波,得到滤波音频信号;对滤波音频信号进行池化及正则化处理,得到中间特征向量;对所述中间特征向量进行说话人语音特征提取,根据提取的说话人语音特征进行语音识别,得到所述说话人信息,如此,能够运用sincnet过滤器加快说话人的语音识别,并提高了语音识别的准确性和可靠性。
[0091]
s40,获取与所述说话人信息关联的历史记录文本,根据获取的所述历史记录文本,对所述人声数据进行基于上文语义的文本识别,得到文本结果。
[0092]
可理解地,获取与所述说话人信息关联的历史记录文本的过程为获取缓存中当前的会议记录的编号,通过该会议记录的编号获取该编号所关联的正在记录着的会议记录,从该会议记录中获取与该说话人信息关联的所述历史记录文本的过程,所述历史记录文本为在记录着的会议记录过程中,与所述说话人信息对应的说话人关联的记录的与当前相邻的文本内容,即与所述说话人信息对应的说话人相同的前一个记录的文本内容或者当前记录着的说话人的文本内容,所述历史记录文本在记录的时间轴上与所述待识别音频数据相邻,所述基于上文语义的文本识别的过程为提取与所述历史记录文本关联的历史音频片段,将所述历史音频片段与所述人声数据进行拼接,拼接后的数据进行语音语义识别,预测出与所述人声数据对应的所述文本结果的识别过程。
[0093]
其中,所述语音语义识别为运用bert模型基于上文的语义预测出当前的语义文本的识别过程,所述文本结果为识别出与所述待识别音频数据中说话人所述的文本内容。
[0094]
在一实施例中,如图5所示,所述步骤s40中,即所述根据获取的所述历史记录文本,对所述人声数据进行基于上文语义的文本识别,得到文本结果,包括:
[0095]
s401,根据所述历史记录文本,提取与所述历史记录文本关联的历史音频片段。
[0096]
可理解地,在缓存中存储有所有各说话人在会议上说话的历史记录文本,每个历史记录文本都关联一个历史音频片段,所述历史音频片段为提取出的说话人说与其关联的历史记录文本的音频数据。
[0097]
s402,将所述历史音频片段与所述人声数据进行拼接,得到待处理音频数据。
[0098]
可理解地,将所述历史音频片段与所述人声数据进行拼接成一段音频内容,从而得到所述待处理音频数据。
[0099]
s403,对所述待处理音频数据进行语音语义识别,预测出与所述人声数据对应的所述文本结果。
[0100]
可理解地,通过训练完成的bert模型对所述待处理音频数据进行语音语义识别,所述bert模型为基于bert(bidirectional encoder representation from transformers)语言模型的网络结构架构的模型,通过对所述待处理音频数据进行语音识别出多个文本的内容,对多个文本的内容进行向量转换,对转换后的多个文本的内容进行
语义上的预测,预测出概率最高的文本的内容,将该文本的内容中与所述历史记录文本进行校验,并从该文本的内容中提取出与所述人声数据所对应的内容,将该内容记录为所述文本结果。
[0101]
本发明实现了通过根据所述历史记录文本,提取与所述历史记录文本关联的历史音频片段;将所述历史音频片段与所述人声数据进行拼接,得到待处理音频数据;对所述待处理音频数据进行语音语义识别,预测出与所述人声数据对应的所述文本结果,如此,通过语音语义识别,能够准确地识别出人声数据所对应的文本结果,提高了识别出的文本的准确性,提高了会议记录输出的准确率和正确性。
[0102]
s50,根据所述说话人信息和所述文本结果,确定出与所述待识别音频数据对应的会议记录内容。
[0103]
可理解地,将所述说话人信息和所述文本结果进行关联,并作为所述待识别音频数据所对应的会议记录内容,从而将该会议记录内容增加如与该待识别音频数据对应的当前的会议记录编号的会议记录中,该会议记录可以实时发送至各个会议记录参与成员的终端,以让各个参与成员可以查看会议记录。
[0104]
本发明实现了通过实时获取待识别音频数据;对所述待识别音频数据进行多通道分割处理,并对多通道分割处理后的所述待识别音频数据进行人声频率特征提取,以及根据提取的人声频率特征进行人声分离,得到人声数据;运用sincnet过滤器,通过说话人识别模型对所述人声数据进行高低通滤波,以及对高低通滤波后的所述人声数据进行语音识别,得到说话人信息;获取与所述说话人信息关联的历史记录文本,根据获取的所述历史记录文本,对所述人声数据进行基于上文语义的文本识别,得到文本结果;根据所述说话人信息和所述文本结果,确定出与所述待识别音频数据对应的会议记录内容,如此,实现了通过多通道人声分离,以及语音识别,自动识别出说话人信息,并通过基于上文语义的文本识别,识别出文本结果,从而实现了自动输出会议记录的效果,可实时查看,且无需人工记录,提高了会议记录输出的准确性、及时性和效率。
[0105]
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
[0106]
在一实施例中,提供一种基于语音识别的会议记录装置,该基于语音识别的会议记录装置与上述实施例中基于语音识别的会议记录方法一一对应。如图6所示,该基于语音识别的会议记录装置包括获取模块11、分离模块12、语音识别模块13、文本识别模块14和确定模块15。各功能模块详细说明如下:
[0107]
获取模块11,用于实时获取待识别音频数据;
[0108]
分离模块12,用于对所述待识别音频数据进行多通道分割处理,并对多通道分割处理后的所述待识别音频数据进行人声频率特征提取,以及根据提取的人声频率特征进行人声分离,得到人声数据;
[0109]
语音识别模块13,用于运用sincnet过滤器,通过说话人识别模型对所述人声数据进行高低通滤波,以及对高低通滤波后的所述人声数据进行语音识别,得到说话人信息;
[0110]
文本识别模块14,用于获取与所述说话人信息关联的历史记录文本,根据获取的所述历史记录文本,对所述人声数据进行基于上文语义的文本识别,得到文本结果;
[0111]
确定模块15,用于根据所述说话人信息和所述文本结果,确定出与所述待识别音频数据对应的会议记录内容。
[0112]
关于基于语音识别的会议记录装置的具体限定可以参见上文中对于基于语音识别的会议记录方法的限定,在此不再赘述。上述基于语音识别的会议记录装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0113]
在一个实施例中,提供了一种计算机设备,该计算机设备可以是客户端或者服务端,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括可读存储介质、内存储器。该可读存储介质存储有操作系统、计算机程序和数据库。该内存储器为可读存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于语音识别的会议记录方法。
[0114]
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中基于语音识别的会议记录方法。
[0115]
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中基于语音识别的会议记录方法。
[0116]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
[0117]
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
[0118]
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。