音频类别预测方法、装置、存储介质及电子设备与流程

1.本技术涉及人工智能技术领域，具体涉及一种音频类别预测方法、装置、存储介质及电子设备。

背景技术：

2.音频类别预测即分析音频的类别的工作，例如在口语考试中对音频打分的工作，由于多种因素，如不同发言地区的发音、音频录音质量、音频录音环境等影响，导致音频类别预测具有较高难度。
3.目前，相关技术方案中，会通过采集大量的音频样本进行大规模学习，存在计算复杂度高的问题，或者会从从大量的音频样本中选取部分进行学习，存在抽取的样本不可靠导致音频类别预测效果较差的问题。
4.因此，目前存在音频类别预测工作计算复杂度高、音频类别预测效果较差的问题。

技术实现要素：

5.本技术实施例提供一种音频类别预测方法及相关装置，可以有效降低音频类别预测工作中计算复杂度的同时提升音频类别预测效果。
6.为解决上述技术问题，本技术实施例提供以下技术方案：
7.根据本技术的一个实施例，一种音频类别预测方法，该方法包括：获取至少一个音频的声学特征信息及音素对齐信息，每个所述音频标定对应的音频类别；采用音频分析模型，对每个所述音频的声学特征信息及音素对齐信息进行深度提取处理，得到每个所述音频的深度发音特征；将相同音频类别的所述音频的深度发音特征进行压缩映射处理，得到至少一个压缩特征集；基于所述至少一个压缩特征集进行高斯过程构建，以获得音频类别预测函数；基于所述音频类别预测函数对所述音频分析模型中的参数进行调整，以获得训练后音频分析模型预测待分析音频的音频类别。
8.根据本技术的一个实施例，一种音频类别预测装置，其包括：获取模块，用于获取至少一个音频的声学特征信息及音素对齐信息，每个所述音频标定对应的音频类别；输入模块，用于采用音频分析模型，对每个所述音频的声学特征信息及音素对齐信息进行深度提取处理，得到每个所述音频的深度发音特征；压缩模块，用于将相同音频类别的所述音频的深度发音特征进行压缩映射处理，得到至少一个压缩特征集；高斯模块，用于基于所述至少一个压缩特征集进行高斯过程构建，以获得音频类别预测函数；预测模块，用于基于所述音频类别预测函数对所述音频分析模型中的参数进行调整，以获得训练后音频分析模型预测待分析音频的音频类别。
9.在本技术的一些实施例中，所述音频的声学特征信息中包括所述音频的至少一帧子声学特征，所述音频的音素对齐信息中包括所述音频中词的发音起止时间段；所述输入模块，包括：深度提取单元，用于对每个所述音频的至少一帧子声学特征进行深度提取处理，得到每个所述音频对应的至少一帧深度特征；第一归一化单元，用于将每个所述音频对
应的至少一帧深度特征中属于相同发音起止时间段的深度特征进行归一化处理，得到每个所述音频中词的词特征；第二归一化单元，用于对每个所述音频中词的词特征进行归一化处理，得到每个所述音频的深度发音特征。
10.在本技术的一些实施例中，所述深度提取单元，包括：网络输入子单元，用于将每个所述音频的至少一帧子声学特征输入特征提取神经网络；网络提取子单元，用于基于所述特征提取神经网络对输入的至少一帧子声学特征进行深度提取处理，得到每个所述音频对应的至少一帧深度特征。
11.在本技术的一些实施例中，所述压缩模块，包括：聚类单元，用于根据每个所述音频对应的音频类别，对每个所述音频的深度发音特征进行聚类处理，得到至少一个特征簇，每个所述特征簇中包括至少一个音频的深度发音特征，每个所述特征簇对应一种音频类别；映射单元，用于将每个所述特征簇压缩映射为对应的压缩特征集，得到所述至少一个压缩特征集，每个所述压缩特征集的特征维度小于对应的特征簇。
12.在本技术的一些实施例中，所述映射单元，包括：映射输入子单元，用于将每个所述特征簇分别输入压缩映射神经网络；网络隐射单元，用于基于所述压缩映射神经网络将输入的特征簇压缩映射处理为对应的压缩特征集。
13.在本技术的一些实施例中，所述高斯模块，包括：样本构建模块，用于基于所述至少一个压缩特征集中的压缩特征构建训练特征集及测试特征集；矩阵生成单元，用于基于协方差函数对所述训练特征集及测试特征集中的压缩特征进行协方差运算处理，以生成目标协方差矩阵；均值生成单元，用于基于均值函数对所述训练特征集及测试特征集中的压缩特征进行均值运算处理，以生成目标均值向量；函数构建单元，用于基于所述协方差矩阵及所述目标均值向量构建所述音频类别预测函数。
14.在本技术的一些实施例中，所述矩阵生成单元，包括：第一协方差生成子单元，用于基于所述协方差函数对所述训练特征集中的压缩特征进行协方差运算处理，得到第一协方差矩阵；第二协方差生成子单元，用于基于所述协方差函数对所述测试特征集中的压缩特征进行协方差运算处理，得到第二协方差矩阵；第三生成子单元，用于基于所述协方差函数对所述训练特征集及所述测试特征集中的压缩特征进行协方差运算处理，得到第三协方差协方差矩阵；矩阵确定子单元，用于将所述第一协方差矩阵、所述第二协方差矩阵及所述第三协方差矩阵作为所述目标协方差矩阵。
15.在本技术的一些实施例中，所述均值生成单元，包括：第一均值生成子单元，用于基于所述均值函数对所述训练特征集中的压缩特征进行均值运算处理，得到第一均值向量；第二均值生成子单元，用于基于所述均值函数对所述训练特征集中的压缩特征进行均值运算处理，得到第二均值向量；均值确定子单元，用于将所述第一均值向量及所述第二均值向量作为所述目标均值向量。
16.在本技术的一些实施例中，所述函数构建单元，包括：分布函数获取子单元，用于获取基于所述均值函数及所述协方差函数生成的满足高斯分布的音频类别分布函数；训练类别获取子单元，用于获取所述训练特征集中压缩特征对应的音频类别；预测函数构建子单元，用于基于所述音频类别分布函数、所述训练特征集中压缩特征对应的音频类别、所述目标协方差矩阵及所述目标均值向量，构建预测所述测试特征集中压缩特征对应的音频类别的音频类别预测函数。
17.在本技术的一些实施例中，所述预测模块，包括：目标后验概率确定单元，用于确定所述音频类别预测函数预测的音频类别的目标后验概率；估计单元，用于基于所述目标后验概率进行极大似然估计，以对所述音频分析模型中的参数进行调整。
18.在本技术的一些实施例中，所述目标后验概率确定单元，包括：第一概率获取子单元，用于获取所述音频类别预测函数预测的音频类别的先验概率；第二概率获取子单元，用于确定所述音频类别预测函数预测的音频类别的后验概率；第三概率获取子单元，用于将所述先验概率与所述后验概率的乘积，作为所述目标后验概率。
19.在本技术的一些实施例中，所述待分析音频包括跟读目标文本的口语音频；所述预测模块，包括：口语信息提取单元，用于基于所述目标文本提取所述口语音频对应的声学特征信息以及音素对齐信息；口语分类单元，用于将所述口语音频对应的声学特征信息以及音素对齐信息，输入所述训练后音频分析模型，以输出所述口语音频的音频类别。
20.根据本技术的另一实施例，一种存储介质，其上存储有计算机可读指令，当所述计算机可读指令被计算机的处理器执行时，使计算机执行本技术实施例所述的方法。
21.根据本技术的另一实施例，一种电子设备，包括：存储器，存储有计算机可读指令；处理器，读取存储器存储的计算机可读指令，以执行本技术实施例所述的方法。
22.根据本技术的另一实施例，一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本技术实施例所述的各种可选实现方式中提供的方法。
23.本技术实施例中，获取至少一个音频的声学特征信息及音素对齐信息，每个音频标定对应的音频类别；采用音频分析模型，对每个音频的声学特征信息及音素对齐信息进行深度提取处理，得到每个音频的深度发音特征；将相同音频类别的音频的深度发音特征进行压缩映射处理，得到至少一个压缩特征集；基于至少一个压缩特征集进行高斯过程构建，以获得音频类别预测函数；基于音频类别预测函数对音频分析模型中的参数进行调整，以获得训练后音频分析模型预测待分析音频的音频类别。
24.以这种方式，基于深度特征提取处理及压缩映射处理得到至少一个压缩特征集作为高斯过程的输入进行高斯过程的构建，建立稀疏高斯深度核学习过程，可以有效降低计算复杂度的同时保证音频类别预测准确性。
附图说明
25.为了更清楚地说明本技术实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
26.图1示出了可以应用本技术实施例的系统的示意图。
27.图2示出了可以应用本技术实施例的另一个系统的示意图。
28.图3示出了根据本技术的一个实施例的音频类别预测方法的流程图。
29.图4示出了根据本技术的一个实施例的深度特征提取方法的流程图。
30.图5示出了根据本技术的一个实施例的深度特征提取网络的示意图。
31.图6示出了根据本技术的一个实施例的压缩映射处理的流程图。
32.图7示出了根据本技术的一个实施例的进行似然估计的流程图。
33.图8示出了一种场景下进行音频类别预测过程的终端界面图。
34.图9示出了一种场景下进行音频类别预测过程的另一终端界面图。
35.图10示出了一种场景下进行音频类别预测过程的另一终端界面图。
36.图11示出了根据本技术的另一个实施例的音频类别预测装置的框图。
37.图12示出了根据本技术的一个实施例的电子设备的框图。
具体实施方式
38.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
39.在以下的说明中，本技术的具体实施例将参考由一部或多部计算机所执行的步骤及符号来说明，除非另有述明。因此，这些步骤及操作将有数次提到由计算机执行，本文所指的计算机执行包括了由代表了以一结构化型式中的数据的电子信号的计算机处理单元的操作。此操作转换该数据或将其维持在该计算机的内存系统中的位置处，其可重新配置或另外以本领域测试人员所熟知的方式来改变该计算机的运作。该数据所维持的数据结构为该内存的实体位置，其具有由该数据格式所定义的特定特性。但是，本技术原理以上述文字来说明，其并不代表为一种限制，本领域测试人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。
40.图1示出了可以应用本技术实施例的系统100的示意图。如图1所示，系统100可以包括服务器101及终端102。服务器101及终端102可以通过无线通信方式进行直接或间接地连接，本技术在此不做特殊限制。
41.服务器101及终端102之间可以通过目标协议链路传输数据，目标协议链路可以包括基于运输层协议的链路，例如传输控制协议(tcp，transmission control protocol)链路或者用户数据报协议(udp，user datagram protocol)链路传输以及其他运输层协议。
42.服务器101可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn、以及大数据和人工智能平台等基础云计算服务的云服务器。
43.本示例的一种实施方式中，服务器101为云服务器，服务器101可以提供人工智能云服务，例如提供大型多人在线角色扮演游戏(mmorpg)的人工智能云服务。所谓人工智能云服务，一般也被称作是aiaas(ai as a service，中文为“ai即服务”)。这是目前主流的一种人工智能平台的服务方式，具体来说aiaas平台会把几类常见的ai服务进行拆分，并在云端提供独立或者打包的服务。这种服务模式类似于开了一个ai主题商城：所有的开发者都可以通过api接口的方式来接入使用平台提供的一种或者是多种人工智能服务，部分资深的开发者还可以使用平台提供的ai框架和ai基础设施来部署和运维自已专属的云人工智能服务。例如，服务器101可以提供基于人工智能的音频类别预测服务。
44.终端102可以是任意的设备，终端102包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、vr/ar设备、智能手表以及计算机等等。
45.本示例的一种实施方式中，服务器101可以获取至少一个音频的声学特征信息及音素对齐信息，每个音频标定对应的音频类别；采用音频分析模型，对每个音频的声学特征信息及音素对齐信息进行深度提取处理，得到每个音频的深度发音特征；将相同音频类别的音频的深度发音特征进行压缩映射处理，得到至少一个压缩特征集；基于至少一个压缩特征集进行高斯过程构建，以获得音频类别预测函数；基于音频类别预测函数对音频分析模型中的参数进行调整，以获得训练后音频分析模型预测待分析音频的音频类别。
46.其中，一个示例中，参考图1，服务器101可以将获取的待分析音频的相关信息(包括待分析音频及待分析音频对应的文本)发送至语音识别模块，获取到待分析音频的声学特征信息及音素对齐信息，然后，将待分析音频的声学特征信息及音素对齐信息发送至音频类别预测模块，采用其中的训练后音频分析模型预测待分析音频的音频类别。
47.图2示出了可以应用本技术实施例的另一种系统200的示意图。如图2所示，系统200可以是由客户端201、多个节点202通过网络通信的形式连接形成的分布式系统。
48.以分布式系统为区块链系统为例，参见图2，图2是本技术实施例提供的分布式系统200应用于区块链系统的一个可选的结构示意图，由多个节点202和客户端201形成，节点之间形成组成的点对点(p2p，peer to peer)网络，p2p协议是一个运行在传输控制协议(tcp，transmission control protocol)协议之上的应用层协议。在分布式系统中，任何机器如服务器都可以加入而成为节点202(每个节点202可以是如图1中的服务器101)，节点202中可以提供音频类别预测服务，节点包括硬件层、中间层、操作系统层和应用层。
49.参见图2示出的区块链系统中各节点的功能，涉及的功能包括：
50.1)路由，节点具有的基本功能，用于支持节点之间的通信。
51.节点除具有路由功能外，还可以具有以下功能：
52.2)应用，用于部署在区块链中，根据实际业务需求而实现特定业务，记录实现功能相关的数据形成记录数据，在记录数据中携带数字签名以表示任务数据的来源，将记录数据发送到区块链系统中的其他节点，供其他节点在验证记录数据来源以及完整性成功时，将记录数据添加到临时区块中。
53.例如，应用实现的业务包括：
54.2.1)钱包，用于提供进行电子货币的交易的功能，包括发起交易(即，将当前交易的交易记录发送给区块链系统中的其他节点，其他节点验证成功后，作为承认交易有效的响应，将交易的记录数据存入区块链的临时区块中；当然，钱包还支持查询电子货币地址中剩余的电子货币；
55.2.2)共享账本，用于提供账目数据的存储、查询和修改等操作的功能，将对账目数据的操作的记录数据发送到区块链系统中的其他节点，其他节点验证有效后，作为承认账目数据有效的响应，将记录数据存入临时区块中，还可以向发起操作的节点发送确认。
56.2.3)智能合约，计算机化的协议，可以执行某个合约的条款，通过部署在共享账本上的用于在满足一定条件时而执行的代码实现，根据实际的业务需求代码用于完成自动化的交易，例如查询买家所购买商品的物流状态，在买家签收货物后将买家的电子货币转移到商户的地址；当然，智能合约不仅限于执行用于交易的合约，还可以执行对接收的信息进
行处理的合约。
57.3)区块链，包括一系列按照产生的先后时间顺序相互接续的区块(block)，新区块一旦加入到区块链中就不会再被移除，区块中记录了区块链系统中节点提交的记录数据。
58.本示例的一种实施方式中，节点202可以获取至少一个音频的声学特征信息及音素对齐信息，每个音频标定对应的音频类别；采用音频分析模型，对每个音频的声学特征信息及音素对齐信息进行深度提取处理，得到每个音频的深度发音特征；将相同音频类别的音频的深度发音特征进行压缩映射处理，得到至少一个压缩特征集；基于至少一个压缩特征集进行高斯过程构建，以获得音频类别预测函数；基于音频类别预测函数对音频分析模型中的参数进行调整，以获得训练后音频分析模型预测待分析音频的音频类别。
59.图3示意性示出了根据本技术的一个实施例的音频类别预测方法的流程图。该音频类别预测方法的执行主体可以是任意的终端，例如图1所示的服务器101或者如图2所示的节点202。
60.如图3所示，该音频类别预测方法可以包括步骤s310至步骤s350。
61.步骤s310，获取至少一个音频的声学特征信息及音素对齐信息，每个音频标定对应的音频类别；
62.步骤s320，采用音频分析模型，对每个音频的声学特征信息及音素对齐信息进行深度提取处理，得到每个音频的深度发音特征；
63.步骤s330，将相同音频类别的音频的深度发音特征进行压缩映射处理，得到至少一个压缩特征集；
64.步骤s340，基于至少一个压缩特征集进行高斯过程构建，以获得音频类别预测函数；
65.步骤s350，基于音频类别预测函数对音频分析模型中的参数进行调整，以获得训练后音频分析模型预测待分析音频的音频类别。
66.下面描述进行音频类别预测时，所进行的各步骤的具体过程。
67.在步骤s310中，获取至少一个音频的声学特征信息及音素对齐信息，每个音频标定对应的音频类别。
68.本示例的实施方式中，音频即语音，例如口语或者歌声等，音频类别即描述音频所属分类的标签，可以理解音频类别可以根据需求标定。至少一个音频中音频的数量可以根据需求选择，至少一个音频中可以包括至少一种音频类别的音频，每种音频类别下可以包括预定数目个音频。例如至少一个音频包括500个，音频类别可以包括五种，每种音频类别下可以包括100个音频。
69.一个示例中，音频包括跟读目标文本的口语音频(例如英语口语音频)，音频类别可以包括五种：一星、二星、三星、四星以及五星，星级越高音频对应的分数越高。
70.声学特征信息即表示音频声学特性的物理量，也是声音诸要素声学表现的统称，声学特征信息例如频率倒谱系数(mfcc)、基频特征以及共振峰特征等。音素对齐信息即音频中词的发音时间对齐信息，音素对齐信息可以包括音频中每个词对应的发音起止时间段(即每个词对应的发音起始时间至发音终止时间之间的时间段)，例如某个词的发音起止时间段为1.5s至2秒。
71.获取每个音频的声学特征信息及音素对齐信息时，可以首先采集音频以及音频对
应的文本；然后，对音频的音频信号进行声学特征提取，例如提取音频信号频率倒谱系数(mfcc))，提取得到的声学特征中包括每一帧对应一子声学特征，同时可以记录每一帧的子声学特征在音频信号中对应的特征起止时间段(子声学特征对应的起始时间至终止时间之间的时间段)；对音频以及音频对应的文本通过语音识别进行音素对齐，得到音频中词在音频信号中对应的发音起止时间段作为音素对齐信息。其中，可以将音频以及音频对应的文本发送至训练好的基于语音识别技术(automatic speech recognition，asr)的信息提取器进行提取，得到音频的声学特征信息及音素对齐信息。
72.在步骤s320中，采用音频分析模型，对每个音频的声学特征信息及音素对齐信息进行深度提取处理，得到每个音频的深度发音特征。
73.本示例的实施方式中，音频分析模型即待训练的用于进行音频类别预测的模型，音频分析模型中可以包括深度提取处理单元、压缩映射处理单元以及高斯过程构建单元。
74.深度提取处理即提取相较于声学特征信息表示更丰富音频信息的深度发音特征的过程，可以在深度提取处理单元对每个音频的声学特征信息及音素对齐信息进行深度提取处理，得到每个音频的深度发音特征。
75.基于对每个音频的声学特征信息及音素对齐信息进行深度提取处理，得到每个音频的深度发音特征，可以使得后续步骤中基于压缩映射处理构建的伪样本(即压缩特征集)时，对声学特征信息实现稀疏化的同时使得伪样本具有极优的音频信息表示能力。
76.一种实施例中，音频的声学特征信息中包括音频的至少一帧子声学特征，音频的音素对齐信息中包括音频中词的发音起止时间段；步骤s320中，对每个音频的声学特征信息及音素对齐信息进行深度提取处理，得到每个音频的深度发音特征，包括：
77.对每个音频的至少一帧子声学特征进行深度提取处理，得到每个音频对应的至少一帧深度特征；将每个音频对应的至少一帧深度特征中属于相同发音起止时间段的深度特征进行归一化处理，得到每个音频中词的词特征；对每个音频中词的词特征进行归一化处理，得到每个音频的深度发音特征。
78.音频的声学特征信息中包括音频的至少一帧子声学特征，即每个音频的声学特征信息由一帧帧子声学特征组成，声学特征信息为帧级别。每一帧子声学特征可以包括多元特征，例如一个子声学特征可以为[1，0.2，3]共三元特征，其中1为音素的起始发音特征，0.2为音素的中间稳定发音特征，3为音素的尾部发音特征。
[0079]
对每个音频的至少一帧子声学特征进行深度提取处理，可以针对每个音频，将音频的声学特征信息中包括的至少一帧子声学特征进行深度提取处理，得到每一帧子声学特征对应的深度特征，进而得到音频对应的至少一帧深度特征。
[0080]
其中，对音频的至少一帧子声学特征进行深度提取处理时，一种方式中，可以对音频的至少一帧子声学特征通过卷积处理进行深度提取，得到音频的至少一帧子声学特征，卷积处理的方式例如首先构建至少一帧子声学特征的特征矩阵，每帧子声学特征在特征矩阵对应一个位置，然后，可以对特征矩阵基于预设卷积矩阵进行卷积运算，得到卷积结果矩阵，从卷积结果矩阵中确定每帧子声学特征对应位置的特征值作为每帧子声学特征对应的深度特征。另一种方式中，可以对音频的至少一帧子声学特征通过长短期记忆融合处理进行深度提取，得到音频的至少一帧子声学特征，长短期记忆融合处理的方式例如针对每帧子声学特征聚合其它帧子声学特征的部分特征(例如通过点乘等方式聚合)，得到每帧子声
学特征对应的深度特征。可以理解，在其它实施方式中，可以通过基于注意力机制的融合方式等对音频的至少一帧子声学特征进行深度提取处理。
[0081]
例如，参阅图4，音频“i like apple”的声学特征信息中包括共六帧子声学特征[1，0.2，3]、[1.2，3，0.5]、[0.3，2，3]、[0.2，3，0.4]、[1，1.2，3]及[2，3.5，4]，对音频“i like apple”的声学特征信息中六帧子声学特征进行深度提取处理，可以得到六帧深度特征[1，2，3]、[2，3，4]、[1，1，3]、[1，3，4]、[4，2，3]及[2，3，4]。
[0082]
每一帧子声学特征在提取时可以记录子声学特征在音频信号中对应的特征起止时间段(子声学特征对应的起始时间至终止时间之间的时间段)，进而确定每一帧子声学特征对应的深度特征所对应特征起止时间段，进而，根据每个词的发音起止时间段可以确定属于相同发音起止时间段的深度特征。
[0083]
例如，参阅图4，音频
‘
i like apple’中i对应的发音起止时间段可以为1
‑
1.5秒，可以根据子声学特征对应的特征起止时间段，确定子声学特征[1，0.2，3]、[1.2，3，0.5]为属于相同的i对应的发音起止时间段，进而，确定子声学特征[1，0.2，3]对应的深度特征[1，2，3]及子声学特征[1.2，3，0.5]对应的深度特征[2，3，4]属于相同的i对应的发音起止时间段。
[0084]
将属于相同发音起止时间段的深度特征进行归一化处理，可以是对属于相同发音起止时间段的深度特征进行求平均值或者求和等，本示例中归一化处理选择求平均，例如，将i对应的深度特征[1，2，3]及[2，3，4]中各元特征分别取平均，得到i对应的词特征[1.5，2.5，3.5]。
[0085]
最后，可以对音频中词的词特征进行求平均值或者求和等归一化处理，本示例中选择求平均的方式，例如i的词特征[1.5，2.5，3.5]，like的词特征[1，2，3.5]，apple的词特征[3，2.5，3.5]，各元特征分别取平均得到音频“i like apple”的深度发音特征[1.53，2.33，3.5]。
[0086]
一种实施例中，对每个音频的至少一帧子声学特征进行深度提取处理，得到每个音频对应的至少一帧深度特征，包括：
[0087]
将每个音频的至少一帧子声学特征输入特征提取神经网络；基于特征提取神经网络对输入的至少一帧子声学特征进行深度提取处理，得到每个音频对应的至少一帧深度特征。
[0088]
特征提取神经网络可以是卷积神经网络(可以进行卷积处理)、长短期记忆网络(可以进行长短期记忆融合处理)等神经网络，特征提取神经网络可以是多层神经网络的叠加，也可以是多层相同或不同的神经网络的叠加，如3层卷积网络叠加作为特征提取神经网络。基于特征提取神经网络进行卷积处理或者长短期记忆融合处理等深度提取处理，特征提取神经网络作为音频分析模型中的深度提取处理单元，可以保证音频分析模型对于音频类别预测的稳定性。
[0089]
其中，特征提取神经网络可以是预训练的特征提取神经网络，特征提取神经网络的预训练过程可以包括：针对如图5所示的目标特征提取模型，该目标特征提取模型中可以包括特征提取神经网络以及全连接网络；可以获取声学特征信息集，声学特征信息集中每个声学特征信息中包括至少一帧子声学特征，每个子声学特征标定特征标签(senone标签)；然后，基于该声学特征信息集中每个声学特征信息作为目标特征提取模型中的输入特
征，基于特征提取神经网络提取深度特征，基于全连接网络对深度特征进行全连接处理，输出声学特征信息中每个子声学特征标定特征标签(senone标签)，对该目标特征提取模型进行迭代训练，直到该目标特征提取模型预测特征标签(senone标签)的准确性符合预测准确性要求，然后将训练后的目标特征提取模型中的特征提取神经网络设置为音频分析模型中的特征提取神经网络，这样可以进一步降低音频类别预测工作的计算复杂度。
[0090]
在步骤s330中，将相同音频类别的音频的深度发音特征进行压缩映射处理，得到至少一个压缩特征集。
[0091]
本示例的实施方式中，至少一个音频中可以包括至少一种音频类别的音频，每种音频类别下可以包括预定数目个音频，每种音频类别下包括的音频即相同音频类别的音频，例如，对应音频类别为一星的所有音频为相同音频类别的音频。
[0092]
压缩映射处理即将深度发音特征集(相同音频类别的音频的深度发音特征组成的集合)压缩隐射为更低特征维度的压缩特征集的过程，可以在音频分析模型中的压缩映射处理单元中，将相同音频类别的音频的深度发音特征进行压缩映射处理，得到至少一个压缩特征集。
[0093]
参阅图6，属于相同音频类别(label)l1的音频的深度发音特征包括n个：的音频的深度发音特征包括n个：及通过对相同音频类别(label)l1的音频的深度发音特征进行压缩隐射处理得到m(m<<n)个压缩特征：组成的一个音频类别(label)l1对应的压缩特征集，进而共得到c个压缩特征集。
[0094]
因此，每个压缩特征集对应一种音频类别，每个压缩特征集中包括至少一个压缩特征，每个压缩特征集的特征维度(即压缩特征的个数)小于每个压缩特征集对应的音频类别下深度发音特征集(相同音频类别的音频的深度发音特征组成的集合)。
[0095]
其中，将相同音频类别的音频的深度发音特征进行压缩映射处理时，一种实施方式中，可以对相同音频类别的音频的深度发音特征通过卷积处理进行压缩映射处理，得到该音频类别对应的压缩特征集，卷积处理的方式例如首先构建相同音频类别的音频的深度发音特征的特征矩阵，然后，可以对特征矩阵基于预设卷积矩阵进行卷积运算，得到卷积结果矩阵，卷积结果矩阵中每一行作为一个压缩特征，进而得到压缩特征集。另一种方式中，可以对相同音频类别的音频的深度发音特征通过长短期记忆提取压缩进行压缩映射处理，长短期记忆提取压缩的方式例如针对每个深度发音特征聚合其它深度发音特征的部分特征信息(例如通过点乘等方式聚合)，得到每个深度发音特征对应的压缩特征，然后，从所有压缩特征中抽取部分压缩特征得到压缩特征集。可以理解，在其它实施方式中，可以通过压缩隐射方式进行压缩映射处理。
[0096]
通过对深度发音特征集的压缩处理可以显式地构建稀疏伪样本(即至少一个压缩特征集)具有极优的音频信息表示能力，使得后续步骤中的稀疏高斯过程，可以可靠地降低计算量的同时保证音频类别预测准确性。
[0097]
一种实施例中，步骤s330中，将相同音频类别的音频的深度发音特征进行压缩映射处理，得到至少一个压缩特征集，包括：
[0098]
根据每个音频对应的音频类别，对每个音频的深度发音特征进行聚类处理，得到至少一个特征簇，每个特征簇中包括至少一个音频的深度发音特征，每个特征簇对应一种
音频类别；将每个特征簇压缩映射为对应的压缩特征集，得到至少一个压缩特征集，每个压缩特征集的特征维度小于对应的特征簇。
[0099]
根据每个音频对应的音频类别可以将相同音频类别的音频的深度发音特征聚合在一起，得到至少一个特征簇，例如属于相同音频类别(label)l1的音频的n个深度发音特征：及可以组成一个特征簇。通过对特征簇进行压缩隐射处理即例如对及组成的特征簇进行压缩隐射处理得到m(m<<n)个压缩特征：组成的压缩特征集。
[0100]
一种实施例中，将每个特征簇压缩映射为对应的压缩特征集，包括：
[0101]
将每个特征簇分别输入压缩映射神经网络；基于压缩映射神经网络将输入的特征簇压缩映射处理为对应的压缩特征集。
[0102]
压缩映射神经网络可以是卷积神经网络(可以进行卷积处理)、长短期记忆网络(可以进行长短期记忆提取压缩处理)等神经网络，特征提取神经网络可以是多层神经网络的叠加，也可以是多层相同或不同的神经网络的叠加，如3层卷积网络叠加作为压缩映射神经网络。基于压缩映射神经网络进行压缩映射神经网络，压缩映射神经网络作为音频分析模型中的压缩映射神经网络单元，可以进一步保证音频分析模型对于音频类别预测的稳定性。
[0103]
在步骤s340中，基于至少一个压缩特征集进行高斯过程构建，以获得音频类别预测函数。
[0104]
本示例的实施方式中，高斯过程可以由均值函数m(x)以及协方差函数(即高斯核)k确定，其中，x为压缩特征，高斯过程构建即基于至少一个压缩特征集进行协方差函数及均值函数的构建，获得基于均值函数以及协方差函数的音频类别预测函数的过程。该基于高斯过程构建获得的音频类别预测函数为待训练参数的音频类别预测函数，训练后的音频分析模型中的音频类别预测函数可以用于预测待分类音频的音频类别。
[0105]
基于输入特征(即声学特征)x＝{x1，
…
，x
n
}进行高斯过程的构建，可以得到输出f＝{f(x1)，
…
，f(x
n
)}，f(x)服从于如公式(1)所示的高斯分布n，其中，m(x)为基于均值函数对输入特征进行运算生成的高斯分布的均值，k(x，x)为基于协方差函数(即高斯核)对输入特征进行运算生成的协方差矩阵。
[0106]
f～n(m(x),k(x,x))
ꢀꢀꢀ
(i)
[0107]
对于输出y，假设输出y和输出f之间存在高斯噪声，则最终输出y的分布如公式(2)所示，其中，σ2i为超参数。
[0108]
y～n(m(x),k(x,x)+σ2i)
ꢀꢀꢀꢀ
(2)
[0109]
假设基于输入特征(即声学特征)的训练数据x的输出y(音频类别)与基于输入特征(即声学特征)的测试数据x*的输出y*(音频类别)的联合概率分布符合高斯分布，则得到公式(3)，其中，大写k为对应测试数据的协方差矩阵，小写的k对应测试数据的协方差矩阵，m(x)设定为0，该0可以设定为均值向量。
[0110]
[0111]
对于每一个即将预测的音频类别y*，则它的后验概率如公式(4)所示，d可以包括超参数σ2i。
[0112][0113]
最终得到音频类别预测函数如公式(5)和(6)所示，为预测的音频类别，为预测的音频类别的不确定性分数，不确定性分数越大表示预测的音频类别不确定性越高。
[0114][0115][0116]
其中，协方差函数k可以根据需求选定，一个示例中如公式(7)所示。
[0117][0118]
最终，本技术中基于至少一个压缩特征集对于前述高斯过程中的协方差函数k(x，x)进行如公式k(x
i
，x
j
|θ)
→
k(g(x
i
，w)，g(x
j
，w)|θ，w)所示的稀疏高斯深度核学习，基于深度特征提取处理及压缩映射处理得到至少一个压缩特征集作为高斯过程的输入进行高斯过程的构建，将基于声学特征构建高斯核k(x
i
，x
j
|θ)(x
i
可以为第i个声学特征、x
j
可以为第j个声学特征，θ可以为协方差函数中的参数)，转换为基于压缩特征形成稀疏高斯深度核k(g(x
i
，w)，g(x
j
，w)|θ，w)(g可以表示深度特征提取处理及压缩映射处理，w可以为处理过程参数)的构建，这样可以有效降低计算复杂度的同时保证音频类别预测准确性。
[0119]
一种实施例中，步骤s340，基于至少一个压缩特征集进行高斯过程构建，以获得音频类别预测函数，包括：
[0120]
基于至少一个压缩特征集中的压缩特征构建训练特征集及测试特征集；基于协方差函数对训练特征集及测试特征集中的压缩特征进行协方差运算处理，以生成目标协方差矩阵；基于均值函数对训练特征集及测试特征集中的压缩特征进行均值运算处理，以生成目标均值向量；基于协方差矩阵及目标均值向量构建音频类别预测函数。
[0121]
从至少一个压缩特征集中的压缩特征中，可以选定一部分压缩特征构建训练特征集选定一部分压缩特征构建测试特征集h(x)，训练特征集及测试特征集中压缩特征的维度可以根据约定的维度选择。
[0122]
协方差函数k的类型可以根据需求选定，协方差矩阵可以计算压缩特征两两之间的协方差，形成目标协方差矩阵，目标协方差矩阵中的每个元素是压缩特征两两之间的协方差。均值函数m(x)可以计算压缩特征的均值，得到目标均值向量。进而，基于获取的协方差矩阵及目标均值向量，可以生成基于压缩特征集的待训练参数的音频类别预测函数
[0123]
一种实施例中，基于协方差函数对训练特征集及测试特征集中的压缩特征进行协方差运算处理，以生成目标协方差矩阵，包括：
[0124]
基于协方差函数对训练特征集中的压缩特征进行协方差运算处理，得到第一协方
差矩阵；基于协方差函数对测试特征集中的压缩特征进行协方差运算处理，得到第二协方差矩阵；基于协方差函数对训练特征集及测试特征集中的压缩特征进行协方差运算处理，得到第三协方差矩阵；将第一协方差矩阵、第二协方差矩阵及第三协方差矩阵作为目标协方差矩阵。
[0125]
对训练特征集中的压缩特征进行协方差运算处理，可以生成表征训练特征集中的压缩特征两两之间协方差的、基于压缩特征的第一协方差矩阵，基于压缩特征的第一协方差矩阵可以将公式(3)中k(x，x)转换为k(第一协方差矩阵可以将公式(3)中k(x，x)转换为k(
[0126]
基于协方差函数对测试特征集中的压缩特征h(x)进行协方差运算处理，可以生成表征测试特征集中压缩特征h(x)两两之间协方差的、基于压缩特征h(x)的第二协方差矩阵，基于压缩特征h(x)的第二协方差矩阵可以将公式(3)中k(x*，x*)转换为k(h(x)，h(x))。
[0127]
基于协方差函数对训练特征集及测试特征集中的压缩特征进行协方差运算处理，可以生成表征测试特征集中压缩特征h(x)与训练特征集中的压缩特征之间协方差的、基于压缩特征h(x)及的第三协方差矩阵，基于压缩特征h(x)及的第三协方差矩阵可以将公式(3)中k(x*，x)转换为k(h(x)，)。
[0128]
一种实施例中，基于均值函数对训练特征集及测试特征集中的压缩特征进行均值运算处理，以生成目标均值向量，包括：
[0129]
基于均值函数对训练特征集中的压缩特征进行均值运算处理，得到第一均值向量；基于均值函数对训练特征集中的压缩特征进行均值运算处理，得到第二均值向量；将第一均值向量及第二均值向量作为目标均值向量。
[0130]
对测试特征集中的所有压缩特征h(x)进行取均值，可以得到第一均值向量μ1，对训练特征集中的所有压缩特征进行取均值，可以得到第二均值向量μ2，可以基于μ1和μ2可以生成均值向量矩阵替换公式(3)中的0。
[0131]
一种实施例中，基于所述协方差矩阵及所述目标均值向量构建所述音频类别预测函数，包括：
[0132]
获取基于均值函数及协方差函数生成的满足高斯分布的音频类别分布函数；获取训练特征集中压缩特征对应的音频类别；基于音频类别分布函数、训练特征集中压缩特征对应的音频类别、目标协方差矩阵及目标均值向量，构建预测测试特征集中压缩特征对应的音频类别的音频类别预测函数。
[0133]
音频类别分布函数可以是根据预先选定的均值函数及协方差函数生成的如公式(1)所示的满足高斯分布n的函数。可以确定训练特征集中压缩特征所来源的压缩特征集对应的音频类别，得到训练特征集中压缩特征对应的音频类别y。
[0134]
然后，训练特征集中压缩特征对应的音频类别、目标协方差矩阵及目标均值向量输入音频类别分布函数，进而可以得到如公式(5)和(6)所示的预测测试特征集中压缩特征对应的音频类别的音频类别预测函数。进而，可以根据该音频类别预测函数的预测结果进行音频分析模型中参数的调整，得到训练后的音频分析模型。
[0135]
在步骤s350中，基于音频类别预测函数对音频分析模型中的参数进行调整，以获得训练后音频分析模型预测待分析音频的音频类别。
[0136]
本示例的实施方式中，音频类别预测函数为带训练参数的音频类别预测函数，音频类别预测函数基于压缩特征集生成，可以对压缩特征集中目标压缩特征(例如测试特征集中压缩特征)的音频类别进行预测，得到预测结果，根据该预测结果的误差即可以对音频分析模型中的参数进行调整，直至音频类别预测函数的预测准确性符合目标要求，得到训练后音频分析模型。基于训练后音频分析模型即可以预测待分析音频的音频类别。
[0137]
其中，对音频分析模型中的参数进行调整时，调整的参数可以包括音频分析模型中深度提取处理过程中的参数(例如特征提取神经网络中的参数)、压缩映射处理中的参数(例如压缩映射神经网络中的参数)、高斯过程中的参数(例如音频类别预测函数中的参数，可以包括协方差函数中的超参数)进行联合调整，形成整体上的稀疏高斯深度核学习过程，计算复杂度有效降低且可以保证音频分析模型对于音频类别预测的准确性。
[0138]
一种实施例中，步骤s350中，基于音频类别预测函数对音频分析模型中的参数进行调整，包括：
[0139]
确定音频类别预测函数预测的音频类别的目标后验概率；基于目标后验概率进行极大似然估计，以对音频分析模型中的参数进行调整。
[0140]
目标后验概率可以根据音频类别预测函数预测的音频类别根据贝叶斯估计等方式确定，目标后验概率的确定公式如下公式所示：
[0141][0142]
其中，t为转置，y为训练特征集中压缩特征对应的音频类别，y为预测的测试特征集中压缩特征对应的音频类别，为目标后验概率。
[0143]
然后，根据目标后验概率通过极大似然估计进行梯度下降便可以对音频分析模型中的参数进行更新调整。
[0144]
一种实施例中，确定所述音频类别预测函数预测的音频类别的目标后验概率，包括：
[0145]
获取音频类别预测函数预测的音频类别的先验概率；确定音频类别预测函数预测的音频类别的后验概率；将先验概率与后验概率的乘积，作为目标后验概率。
[0146]
音频类别预测函数预测的音频类别的先验概率，具体可以为测试特征集中压缩特征对应的音频类别的先验概率，例如音频类别的后验概率例如先验概率与后验概率的乘积即
[0147]
以这种结合先验概率与后验概率的方式，然后进行极大似然估计根据音频分析模型中参数，可以使得音频分析模型训练过程中稀疏伪样本(即压缩特征集)与真实的深度发音特征的分布更加接近，进一步保证预测准确性。
[0148]
其中，结合先验概率与后验概率得到目标后验概率的方式下，极大似然估计可以根据如下似然估计公式进行：
[0149][0150]
其中，该似然估计公式中，θ可以是深度提取处理过程中的参数及压缩映射处理中的参数，σ
y
，l可以为高斯过程中的参数。该似然估计公式可以分解成两项损失函数loss1及loss2，如下公式所示：
[0151][0152]
其中，参考图7所示，损失函数loss1可以基于测试特征集中压缩特征h(x)(包括h(x1)至h(x
n
))对应的预测误差的估计，损失函数loss2可以表示基于训练特征集中压缩特征(包括至)对应的预测误差的估计。
[0153]
一种应用场景中，前述实施例中的音频为口语音频，待分析音频包括跟读目标文本的口语音频；获得训练后音频分析模型预测待分析音频的音频类别，包括：
[0154]
基于目标文本提取口语音频对应的声学特征信息以及音素对齐信息；将口语音频对应的声学特征信息以及音素对齐信息，输入训练后音频分析模型，以输出口语音频的音频类别。
[0155]
跟读目标文本的口语音频，例如用户在英语学习应用中跟读英文文本产生的口语音频，然后，可以基于口语音频即目标文本根据步骤s310对应的实施例，提取到口语音频对应的声学特征信息以及音素对齐信息。将口语音频对应的声学特征信息以及音素对齐信息输入训练后音频分析模型，可以基于训练好的步骤s320中的深度提取处理过程可以提取口语音频对应的深度发音特征，然后，基于训练好的步骤s330中的压缩映射处理过程对应口语音频对应的深度发音特征进行压缩映射处理得到口语音频对应的压缩特征，最后基于训练好的步骤s330中的音频类别预测函数对压缩特征进行预测，得到口语音频对应的音频类别，同时可以输出音频类别对应的不确定性。
[0156]
参阅图8至图10所示的终端界面变化过程，在图8所示的终端界面中，用户可以通过触发(例如点击一下或者长按等触发)“开始朗读”随后跟读文本“ilike apple”，终端(例如图1所示的终端102或者图2所示客户端201对应终端)便可以采集用户的口语音频，然后，在图9所示的终端界面中，用户可以通过触发(例如点击一下或者放开长按)“结束朗读”使得终端完成采集用户的口语音频，此时，终端可以将口语音频及文本发送至服务器(例如图1所示的服务器101或者图2所示的节点202对应服务器)，服务器可以基于训练后音频分析模型基于口语音频及文本预测口语音频的音频类别及音频类别的不确定性分数，最后，通过如图10所示的终端界面显示，其中音频类别为四星，四星的不确定性分数(即分数置信度)为0.5。
[0157]
以这种方式，基于步骤s310至步骤s350，基于深度特征提取处理及压缩映射处理得到至少一个压缩特征集作为高斯过程的输入进行高斯过程的构建，显式地建模声学特征信息与伪样本(即压缩特征集)的关系，建立稀疏高斯深度核学习过程，可以有效降低计算复杂度的同时保证音频类别预测准确性。
[0158]
为便于更好的实施本技术实施例提供的音频类别预测方法，本技术实施例还提供
一种基于上述音频类别预测方法的音频类别预测装置。其中名词的含义与上述音频类别预测方法中相同，具体实现细节可以参考方法实施例中的说明。图11示出了根据本技术的一个实施例的音频类别预测装置的框图。图11示出了根据本技术的另一个实施例的音频类别预测装置的框图。
[0159]
如图11所示，音频类别预测装置400中可以包括获取模块410、输入模块420、压缩模块430、高斯模块440及预测模块450，音频类别预测装置400可以应用于终端。
[0160]
获取模块410可以用于获取至少一个音频的声学特征信息及音素对齐信息，每个所述音频标定对应的音频类别；输入模块420可以用于采用音频分析模型，对每个所述音频的声学特征信息及音素对齐信息进行深度提取处理，得到每个所述音频的深度发音特征；压缩模块430可以用于将相同音频类别的所述音频的深度发音特征进行压缩映射处理，得到至少一个压缩特征集；高斯模块440可以用于基于所述至少一个压缩特征集进行高斯过程构建，以获得音频类别预测函数；预测模块450可以用于基于所述音频类别预测函数对所述音频分析模型中的参数进行调整，以获得训练后音频分析模型预测待分析音频的音频类别。
[0161]
在本技术的一些实施例中，所述音频的声学特征信息中包括所述音频的至少一帧子声学特征，所述音频的音素对齐信息中包括所述音频中词的发音起止时间段；所述输入模块，包括：深度提取单元，用于对每个所述音频的至少一帧子声学特征进行深度提取处理，得到每个所述音频对应的至少一帧深度特征；第一归一化单元，用于将每个所述音频对应的至少一帧深度特征中属于相同发音起止时间段的深度特征进行归一化处理，得到每个所述音频中词的词特征；第二归一化单元，用于对每个所述音频中词的词特征进行归一化处理，得到每个所述音频的深度发音特征。
[0162]
在本技术的一些实施例中，所述深度提取单元，包括：网络输入子单元，用于将每个所述音频的至少一帧子声学特征输入特征提取神经网络；网络提取子单元，用于基于所述特征提取神经网络对输入的至少一帧子声学特征进行深度提取处理，得到每个所述音频对应的至少一帧深度特征。
[0163]
在本技术的一些实施例中，所述压缩模块，包括：聚类单元，用于根据每个所述音频对应的音频类别，对每个所述音频的深度发音特征进行聚类处理，得到至少一个特征簇，每个所述特征簇中包括至少一个音频的深度发音特征，每个所述特征簇对应一种音频类别；映射单元，用于将每个所述特征簇压缩映射为对应的压缩特征集，得到所述至少一个压缩特征集，每个所述压缩特征集的特征维度小于对应的特征簇。
[0164]
在本技术的一些实施例中，所述映射单元，包括：映射输入子单元，用于将每个所述特征簇分别输入压缩映射神经网络；网络隐射单元，用于基于所述压缩映射神经网络将输入的特征簇压缩映射处理为对应的压缩特征集。
[0165]
在本技术的一些实施例中，所述高斯模块，包括：样本构建模块，用于基于所述至少一个压缩特征集中的压缩特征构建训练特征集及测试特征集；矩阵生成单元，用于基于协方差函数对所述训练特征集及测试特征集中的压缩特征进行协方差运算处理，以生成目标协方差矩阵；均值生成单元，用于基于均值函数对所述训练特征集及测试特征集中的压缩特征进行均值运算处理，以生成目标均值向量；函数构建单元，用于基于所述协方差矩阵及所述目标均值向量构建所述音频类别预测函数。
[0166]
在本技术的一些实施例中，所述矩阵生成单元，包括：第一协方差生成子单元，用于基于所述协方差函数对所述训练特征集中的压缩特征进行协方差运算处理，得到第一协方差矩阵；第二协方差生成子单元，用于基于所述协方差函数对所述测试特征集中的压缩特征进行协方差运算处理，得到第二协方差矩阵；第三生成子单元，用于基于所述协方差函数对所述训练特征集及所述测试特征集中的压缩特征进行协方差运算处理，得到第三协方差协方差矩阵；矩阵确定子单元，用于将所述第一协方差矩阵、所述第二协方差矩阵及所述第三协方差矩阵作为所述目标协方差矩阵。
[0167]
在本技术的一些实施例中，所述均值生成单元，包括：第一均值生成子单元，用于基于所述均值函数对所述训练特征集中的压缩特征进行均值运算处理，得到第一均值向量；第二均值生成子单元，用于基于所述均值函数对所述训练特征集中的压缩特征进行均值运算处理，得到第二均值向量；均值确定子单元，用于将所述第一均值向量及所述第二均值向量作为所述目标均值向量。
[0168]
在本技术的一些实施例中，所述函数构建单元，包括：分布函数获取子单元，用于获取基于所述均值函数及所述协方差函数生成的满足高斯分布的音频类别分布函数；训练类别获取子单元，用于获取所述训练特征集中压缩特征对应的音频类别；预测函数构建子单元，用于基于所述音频类别分布函数、所述训练特征集中压缩特征对应的音频类别、所述目标协方差矩阵及所述目标均值向量，构建预测所述测试特征集中压缩特征对应的音频类别的音频类别预测函数。
[0169]
在本技术的一些实施例中，所述预测模块，包括：目标后验概率确定单元，用于确定所述音频类别预测函数预测的音频类别的目标后验概率；估计单元，用于基于所述目标后验概率进行极大似然估计，以对所述音频分析模型中的参数进行调整。
[0170]
在本技术的一些实施例中，所述目标后验概率确定单元，包括：第一概率获取子单元，用于获取所述音频类别预测函数预测的音频类别的先验概率；第二概率获取子单元，用于确定所述音频类别预测函数预测的音频类别的后验概率；第三概率获取子单元，用于将所述先验概率与所述后验概率的乘积，作为所述目标后验概率。
[0171]
在本技术的一些实施例中，所述待分析音频包括跟读目标文本的口语音频；所述预测模块，包括：口语信息提取单元，用于基于所述目标文本提取所述口语音频对应的声学特征信息以及音素对齐信息；口语分类单元，用于将所述口语音频对应的声学特征信息以及音素对齐信息，输入所述训练后音频分析模型，以输出所述口语音频的音频类别。
[0172]
以这种方式，基于音频类别预测装置400，可以基于深度特征提取处理及压缩映射处理得到至少一个压缩特征集作为高斯过程的输入进行高斯过程的构建，显式地建模声学特征信息与伪样本(即压缩特征集)的关系，建立稀疏高斯深度核学习过程，可以有效降低计算复杂度的同时保证音频类别预测准确性。
[0173]
应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本技术的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
[0174]
此外，本技术实施例还提供一种电子设备，该电子设备可以为终端或者服务器，如图12所示，其示出了本技术实施例所涉及的电子设备的结构示意图，具体来讲：
[0175]
该电子设备可以包括一个或者一个以上处理核心的处理器501、一个或一个以上计算机可读存储介质的存储器502、电源503和输入单元504等部件。本领域技术人员可以理解，图12中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：
[0176]
处理器501是该电子设备的控制中心，利用各种接口和线路连接整个计算机设备的各个部分，通过运行或执行存储在存储器502内的软件程序和/或模块，以及调用存储在存储器502内的数据，执行计算机设备的各种功能和处理数据，从而对电子设备进行整体监控。可选的，处理器501可包括一个或多个处理核心；优选的，处理器501可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户页面和应用程序等，调制解调处理器主要处理无线通讯。可以理解的是，上述调制解调处理器也可以不集成到处理器501中。
[0177]
存储器502可用于存储软件程序以及模块，处理器501通过运行存储在存储器502的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器502可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器502可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器502还可以包括存储器控制器，以提供处理器501对存储器502的访问。
[0178]
电子设备还包括给各个部件供电的电源503，优选的，电源503可以通过电源管理系统与处理器501逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源503还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
[0179]
该电子设备还可包括输入单元504，该输入单元504可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
[0180]
尽管未示出，电子设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，电子设备中的处理器501会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器502中，并由处理器501来运行存储在存储器502中的应用程序，从而实现各种功能，如处理器501可以执行：
[0181]
获取至少一个音频的声学特征信息及音素对齐信息，每个所述音频标定对应的音频类别；采用音频分析模型，对每个所述音频的声学特征信息及音素对齐信息进行深度提取处理，得到每个所述音频的深度发音特征；将相同音频类别的所述音频的深度发音特征进行压缩映射处理，得到至少一个压缩特征集；基于所述至少一个压缩特征集进行高斯过程构建，以获得音频类别预测函数；基于所述音频类别预测函数对所述音频分析模型中的参数进行调整，以获得训练后音频分析模型预测待分析音频的音频类别。
[0182]
一种实施例中，所述音频的声学特征信息中包括所述音频的至少一帧子声学特征，所述音频的音素对齐信息中包括所述音频中词的发音起止时间段；所述对每个所述音频的声学特征信息及音素对齐信息进行深度提取处理，得到每个所述音频的深度发音特征，包括：对每个所述音频的至少一帧子声学特征进行深度提取处理，得到每个所述音频对
应的至少一帧深度特征；将每个所述音频对应的至少一帧深度特征中属于相同发音起止时间段的深度特征进行归一化处理，得到每个所述音频中词的词特征；对每个所述音频中词的词特征进行归一化处理，得到每个所述音频的深度发音特征。
[0183]
一种实施例中，所述对每个所述音频的至少一帧子声学特征进行深度提取处理，得到每个所述音频对应的至少一帧深度特征，包括：将每个所述音频的至少一帧子声学特征输入特征提取神经网络；基于所述特征提取神经网络对输入的至少一帧子声学特征进行深度提取处理，得到每个所述音频对应的至少一帧深度特征。
[0184]
一种实施例中，所述将相同音频类别的所述音频的深度发音特征进行压缩映射处理，得到至少一个压缩特征集，包括：根据每个所述音频对应的音频类别，对每个所述音频的深度发音特征进行聚类处理，得到至少一个特征簇，每个所述特征簇中包括至少一个音频的深度发音特征，每个所述特征簇对应一种音频类别；将每个所述特征簇压缩映射为对应的压缩特征集，得到所述至少一个压缩特征集，每个所述压缩特征集的特征维度小于对应的特征簇。
[0185]
一种实施例中，所述将每个所述特征簇压缩映射为对应的压缩特征集，包括：将每个所述特征簇分别输入压缩映射神经网络；基于所述压缩映射神经网络将输入的特征簇压缩映射处理为对应的压缩特征集。
[0186]
一种实施例中，所述基于所述至少一个压缩特征集进行高斯过程构建，以获得音频类别预测函数，包括：基于所述至少一个压缩特征集中的压缩特征构建训练特征集及测试特征集；基于协方差函数对所述训练特征集及测试特征集中的压缩特征进行协方差运算处理，以生成目标协方差矩阵；基于均值函数对所述训练特征集及测试特征集中的压缩特征进行均值运算处理，以生成目标均值向量；基于所述协方差矩阵及所述目标均值向量构建所述音频类别预测函数。
[0187]
一种实施例中，所述基于协方差函数对所述训练特征集及测试特征集中的压缩特征进行协方差运算处理，以生成目标协方差矩阵，包括：基于所述协方差函数对所述训练特征集中的压缩特征进行协方差运算处理，得到第一协方差矩阵；基于所述协方差函数对所述测试特征集中的压缩特征进行协方差运算处理，得到第二协方差矩阵；基于所述协方差函数对所述训练特征集及所述测试特征集中的压缩特征进行协方差运算处理，得到第三协方差矩阵；将所述第一协方差矩阵、所述第二协方差矩阵及所述第三协方差矩阵作为所述目标协方差矩阵。
[0188]
一种实施例中，所述基于均值函数对所述训练特征集及测试特征集中的压缩特征进行均值运算处理，以生成目标均值向量，包括：基于所述均值函数对所述训练特征集中的压缩特征进行均值运算处理，得到第一均值向量；基于所述均值函数对所述训练特征集中的压缩特征进行均值运算处理，得到第二均值向量；将所述第一均值向量及所述第二均值向量作为所述目标均值向量。
[0189]
一种实施例中，所述基于所述协方差矩阵及所述目标均值向量构建所述音频类别预测函数，包括：获取基于所述均值函数及所述协方差函数生成的满足高斯分布的音频类别分布函数；获取所述训练特征集中压缩特征对应的音频类别；基于所述音频类别分布函数、所述训练特征集中压缩特征对应的音频类别、所述目标协方差矩阵及所述目标均值向量，构建预测所述测试特征集中压缩特征对应的音频类别的音频类别预测函数。
[0190]
一种实施例中，所述基于所述音频类别预测函数对所述音频分析模型中的参数进行调整，包括：确定所述音频类别预测函数预测的音频类别的目标后验概率；基于所述目标后验概率进行极大似然估计，以对所述音频分析模型中的参数进行调整。
[0191]
一种实施例中，所述确定所述音频类别预测函数预测的音频类别的目标后验概率，包括：获取所述音频类别预测函数预测的音频类别的先验概率；确定所述音频类别预测函数预测的音频类别的后验概率；将所述先验概率与所述后验概率的乘积，作为所述目标后验概率。
[0192]
一种实施例中，所述待分析音频包括跟读目标文本的口语音频；所述获得训练后音频分析模型预测待分析音频的音频类别，包括：基于所述目标文本提取所述口语音频对应的声学特征信息以及音素对齐信息；将所述口语音频对应的声学特征信息以及音素对齐信息，输入所述训练后音频分析模型，以输出所述口语音频的音频类别。
[0193]
本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过计算机程序来完成，或通过计算机程序控制相关的硬件来完成，该计算机程序可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。
[0194]
为此，本技术实施例还提供一种存储介质，其中存储有计算机程序，该计算机程序能够被处理器进行加载，以执行本技术实施例所提供的任一种方法中的步骤。
[0195]
其中，该存储介质可以包括：只读存储器(rom，read only memory)、随机存取记忆体(ram，random access memory)、磁盘或光盘等。
[0196]
由于该存储介质中所存储的计算机程序，可以执行本技术实施例所提供的任一种方法中的步骤，因此，可以实现本技术实施例所提供的方法所能实现的有益效果，详见前面的实施例，在此不再赘述。
[0197]
根据本技术的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本技术上述实施例中各种可选实现方式中提供的方法。
[0198]
本领域技术人员在考虑说明书及实践这里公开的实施方式后，将容易想到本技术的其它实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本技术未公开的本技术领域中的公知常识或惯用技术手段。
[0199]
应当理解的是，本技术并不局限于上面已经描述并在附图中示出的实施例，而可以在不脱离其范围的情况下进行各种修改和改变。