首页 > 乐器声学 专利正文
音频检测模型训练和音频检测方法、装置、设备及介质与流程

时间:2022-02-06 阅读: 作者:专利查询

音频检测模型训练和音频检测方法、装置、设备及介质与流程

1.本公开涉及计算机技术领域,进一步涉及深度学习、音频处理等人工智能领域,具体涉及一种音频检测模型训练和音频检测方法、装置、电子设备、计算机可读存储介质和计算机程序产品。


背景技术:

2.在当前人工智能技术及计算机硬件性能高速提升的情况下,近年来计算机听觉、自然语言处理和音频检测等应用领域取得了突破性进展。音频检测作为计算机听觉领域中的一项基础任务,其精度也得到了大幅提升,在各行各业的应用越来越广泛。


技术实现要素:

3.本公开实施例提供了一种音频检测模型训练和音频检测方法、装置、设备及介质,能够提高音频检测的准确率。
4.第一方面,本公开实施例提供了一种音频检测模型训练方法,包括:
5.获取音频样本数据;其中,每个所述音频样本数据包括至少两种音频样本子数据;
6.通过多模态联合音频检测模型对所述音频样本数据提取多模态音频特征,得到多模态音频特征样本数据;
7.根据所述多模态音频特征样本数据训练多模态联合音频检测模型。
8.第二方面,本公开实施例提供了一种音频检测方法,包括:
9.获取待检测音频数据;其中,每个所述待检测音频数据包括至少两种待检测音频子数据;
10.将所述待检测音频数据输入至多模态联合音频检测模型进行音频检测,得到所述待检测音频数据的音频检测结果;
11.其中,所述多模态联合音频检测模型通过第一方面所述的音频检测模型训练方法训练得到。
12.第三方面,本公开实施例提供了一种音频检测模型训练装置,包括:
13.音频样本数据获取模块,用于获取音频样本数据;其中,每个所述音频样本数据包括至少两种音频样本子数据;
14.多模态音频特征提取模块,用于通过多模态联合音频检测模型对所述音频样本数据提取多模态音频特征,得到多模态音频特征样本数据;
15.多模态联合音频检测模型训练模块,用于根据所述多模态音频特征样本数据训练多模态联合音频检测模型。
16.第四方面,本公开实施例提供了一种音频检测装置,包括:
17.待检测音频数据获取模块,用于获取待检测音频数据;其中,每个所述待检测音频数据包括至少两种待检测音频子数据;
18.音频检测结果获取模块,用于将所述待检测音频数据输入至多模态联合音频检测
模型进行音频检测,得到所述待检测音频数据的音频检测结果;
19.其中,所述多模态联合音频检测模型通过第三方面所述的音频检测模型训练装置训练得到。
20.第五方面,本公开实施例提供了一种电子设备,包括:
21.至少一个处理器;以及
22.与所述至少一个处理器通信连接的存储器;其中,
23.所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面实施例所提供的音频检测模型训练方法或第二方面实施例所提供的音频检测方法。
24.第六方面,本公开实施例还提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行第一方面实施例所提供的音频检测模型训练方法或第二方面实施例所提供的音频检测方法。
25.第七方面,本公开实施例还提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现第一方面实施例所提供的音频检测模型训练方法或第二方面实施例所提供的音频检测方法。
26.本公开实施例通过多模态联合音频检测模型对获取的每个样本包括至少两种音频样本子数据的音频样本数据提取多模态音频特征,得到多模态音频特征样本数据,以根据提取的多模态音频特征样本数据训练多模态联合音频检测模型,从而利用多模态联合音频检测模型对获取的待检测音频数据进行音频检测,解决现有音频检测方法仅依据单一样本类型或单一特征进行音频检测存在的音频检测准确率较低的问题,从而提高音频检测的准确率。
27.应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
28.附图用于更好地理解本方案,不构成对本公开的限定。其中:
29.图1是本公开实施例提供的一种音频检测模型训练方法的流程图;
30.图2是本公开实施例提供的一种音频检测模型训练方法的流程图;
31.图3是本公开实施例提供的一种音频数据中噪声干扰数据的效果示意图;
32.图4是本公开实施例提供的一种音频数据中偏移音频数据的效果示意图;
33.图5是本公开实施例提供的一种第二分段音频数据的效果示意图;
34.图6是本公开实施例提供的一种时频图的效果示意图;
35.图7是本公开实施例提供的一种多模态联合音频检测模型的训练流程示意图;
36.图8是本公开实施例提供的一种音频检测方法的流程图;
37.图9是本公开实施例提供的一种音频检测模型训练装置的结构图;
38.图10是本公开实施例提供的一种音频检测装置的结构图;
39.图11是用来实现本公开实施例的音频检测模型训练方法或音频检测方法的电子设备的结构示意图。
cepstral coefficients,梅尔倒谱系数)和mel滤波组特征等。相应的,多模态音频特征可以是多种不同单一维度音频特征的组合,或者,也还可以是某一维度音频特征中不同类型音频特征的组合。例如可以是时域特征与频域特征的组合,或者还可以是时域特征、频域特征以及声学特征的多种不同形式的组合,或者也还可以是不同类型的频域特征的组合。优选的,多模态音频特征可以包括全部维度中全部类型的音频特征。只要能够包括不同的音频特征构成多模态的音频特征即可,本公开实施例并不对多模态音频特征的特征维度和特征类型进行限定。多模态音频特征样本数据也即多模态音频特征多构成的样本数据。
48.相应的,在获取到音频样本数据之后,可以通过多模态联合音频检测模型对获取的音频样本数据提取多模态音频特征。可以理解的是,多模态音频特征的特征维度和特征类型越丰富,则多模态音频特征构成的多模态音频特征样本数据包括的特征类型越丰富,因此,根据多模态音频特征样本数据训练的多模态联合音频检测模型的检测精度和准确率越高。
49.可选的,对音频样本数据提取多模态音频特征,可以是分别对每个音频样本数据包括的音频样本子数据分别提取多模态音频特征,然后对每个音频样本的音频样本子数据分别提取的多模态音频特征进行拼接,得到该音频样本对应的多模态音频特征样本数据。
50.s130、根据所述多模态音频特征样本数据训练多模态联合音频检测模型。
51.其中,多模态联合音频检测模型可以是能够对多模态音频特征样本数据进行特征提取和识别的模型。可选的,多模态联合音频检测模型可以由多个不同的音频检测模型构成,每个音频检测模型可以检测识别多模态音频特征样本数据的其中一个类型的音频特征样本数据。或者,多模态联合音频检测模型还可以仅由一个音频检测模型构成,该音频检测模型可以同时提取、识别多种不同类型的音频特征样本数据。只要能够完成对多模态音频特征样本数据的提取和识别即可,本公开实施例并不对多模态联合音频检测模型的模型组成和模型架构进行限定。
52.现有技术中,通过采用单一的样本类型或音频特征训练音频检测模型。例如,针对设备工作状态进行检测时,往往仅采集设备在运行中状态正常和状态异常的音频数据作为样本数据,而设备在初始化配置状态以及关机状态中均有可能出现异常。因此,仅利用单一状态的音频样本数据进行音频检测难以满足检测需求,检测准确率并不高。又例如,仅利用音频的mfcc这一声学特征进行音频的分类检测和识别,或者,仅依据音频的频率范围这一频域特征进行音频的分类检测和识别等。可以理解的是,单一的音频特征仅能反应音频的简单的特征属性,当不同类型音频在这一音频特征具有相同特征属性时,会导致音频检测模型无法有效检测识别不同的音频类型。示例性的,对男生音频和女生音频进行分类检测时,如果仅依据音频的频率进行音频检测,则中性的音频可能会被检测为既可以是男生音频,又可以是女生音频,导致音频检测准确率不高。或者,对正常音频和异常音频进行分类检测时,如果仅依据音频的mfcc进行音频检测,则容易出现将正常音频检测为异常音频,或将异常音频检测为正常音频的情况,导致音频检测准确率不高。
53.由此可见,首先对音频样本数据的样本类型进行扩充,能够丰富音频样本数据的多样性,以保证模型训练信息的全面性,从而提高多模态联合音频检测模型进行音频检测的准确率。同时,提取音频样本数据的多模态音频特征构成的多模态音频特征样本数据,可以包括音频样本数据复杂特征属性的组合,特征表示更全面、更准确,从而实现全面提取音
频样本数据的有用信息,进而根据全面的有用信息训练多模态联合音频检测模型,可以提高多模态联合音频检测模型对各类音频特征的敏感度,最大程度避免出现检测误差,从而提高多模态联合音频检测模型进行音频检测的准确率。
54.本公开实施例通过多模态联合音频检测模型对获取的每个样本包括至少两种音频样本子数据的音频样本数据提取多模态音频特征,得到多模态音频特征样本数据,以根据提取的多模态音频特征样本数据训练多模态联合音频检测模型,从而利用多模态联合音频检测模型对获取的待检测音频数据进行音频检测,解决现有音频检测方法仅依据单一样本类型或单一特征进行音频检测存在的音频检测准确率较低的问题,从而提高音频检测的准确率。
55.在一个示例中,图2是本公开实施例提供的一种音频检测模型训练方法的流程图,本公开实施例在上述各实施例的技术方案的基础上,进行了优化改进,给出了获取音频样本数据、对所述音频样本数据提取多模态音频特征以及根据所述多模态音频特征样本数据训练多模态联合音频检测模型的多种具体可选的实现方式。
56.在本公开的一个可选实施例中,所述音频样本数据可以包括电机运转音频样本数据,所述电机运转音频样本数据可以包括电机正转音频样本子数据和电机反转音频样本子数据。
57.其中,电机运转音频样本数据也即在电机运转时采集到的音频样本数据。电机可以是任意类型的电机,如汽车座椅电机或电梯电机等,本公开实施例并不对电机的类型进行限定。可以理解的是,电机的运转方式包括正转和反转两种形式。电机正转音频样本子数据也即电机正转时采集到的音频样本数据,电机反转音频样本子数据也即电机反转时采集到的音频样本数据。可以理解的是,电机正转音频样本子数据和电机反转音频样本子数据是同一个电机在正转和反转时采集的音频样本数据。
58.在对电机进行质量评估时,可以对电机运转音频进行检测,根据电机运转音频是否存在异常来判断电机质量。现有技术中,往往在电机运转时采用有经验的检测人员通过人工听音的方式来判断电机质量是否过关,这种人工检测电机运转音频是否存在异常的方式对检测人员的要求极高。在大型工厂中,一条产线一天能产出几千个电机马达,采用人工检测电机运转音频的方式需要大量的人力进行质量判断,且不同人耳的听觉灵敏度不同,质量判断受到主观因素影响过大,因此往往会有一些产生质量争议的电机,导致电机质量评估标准不统一,电机的良率容易上下波动。
59.因此,为了提高对电机运转音频样本数据进行音频检测的效率,可以预先训练音频检测模型,并利用音频检测模型取代人工检测的方式自动对电机运转音频样本数据进行判断,以自动确定电机运转音频样本数据是正常数据还是异常数据,实现对电机运转音频样本数据的自动化、高效率地检测。
60.如图2所示的一种音频检测模型训练方法,包括:
61.s210、获取音频样本数据;其中,每个所述音频样本数据包括至少两种音频样本子数据。
62.相应的,s210具体可以包括下述操作:
63.s211、获取原始音频数据;其中,每个所述原始音频数据包括至少两种原始音频子数据。
64.其中,原始音频数据可以是未经预处理的音频数据。原始音频子数据可以是构成原始音频数据的不同类型的子数据。
65.以电机为例说明,原始音频数据可以是在电机运转时,由音频采集设备原始采集到的音频数据。由于部分电机正转工作时无异常,反转工作时存在异常。因此,为了实现对电机的全面检测,针对一个电机采集的原始音频数据可以包括电机正转和反转两条原始的音频子数据。
66.s212、对所述原始音频数据进行数据预处理,得到预处理音频数据。
67.在本公开的一个可选实施例中,所述对所述原始音频数据进行数据预处理,可以包括:对所述原始音频数据进行归一化处理,得到归一化音频数据;根据所述归一化音频数据中的噪声干扰数据对所述归一化音频数据进行截断处理,得到第一分段音频数据;删除所述第一分段音频数据中的偏移音频数据,得到第二分段音频数据;对所述第二分段音频数据进行数据长度的标准化处理,得到所述预处理音频数据。
68.其中,归一化音频数据可以是对原始音频数据进行归一化处理得到的音频数据。第一分段音频数据可以对是归一化音频数据删除噪声干扰数据后得到的片段音频数据。第二分段音频数据可以是对第一分段音频数据删除偏移的音频数据后得到的片段音频数据。偏移音频数据也即发生偏移的音频数据。
69.可选的,如果原始音频数据为音频采集设备通过ad(analog-to-digital convert,模数转换)芯片直接采集的,则原始音频数据为数字形式的音频数据。因此可以对原始音频数据进行归一化操作,根据数据采集特性,可以采用公式:x=x/32767,将原始音频数据范围规范到[-1,1]的区间内。其中,x标识原始音频数据,x表示归一化音频数据。
[0070]
受到音频采集设备安装和设备本身结构的影响,在进行音频数据采集时,会不可避免的出现某些噪声干扰数据,如图3两侧所示的噪声干扰数据。因此,可以利用统计学方法动态计算出归一化音频数据中因采集导致的噪声干扰数据,并对该噪声干扰数据进行截断操作,也即删除归一化音频数据中的噪声干扰数据。删除噪声干扰数据之后,归一化音频数据会被划分成多个片段形式的第一分段音频数据。
[0071]
另外,收到音频采集设备中传感器安装位置的影响,会造成音频数据的偏移,如图4所示。因此,如果确定第一分段音频数据中存在偏移音频数据,则可以采用高阶处理的方法,删除偏移音频数据,得到如图5所示的第二分段音频数据。如图5所示,第二分段音频数据中已经去除了噪声干扰和偏移异常的音频数据片段。
[0072]
由于原始音频数据本身长度就各自不同,原始音频数据经过噪声阶段和偏移删除处理后,得到的第二分段音频数据的数据长度可能各不相同。采用音频检测模型进行音频检测时,往往需要音频样本数据具有统一的数据长度。因此,为了满足音频检测模型的输入需求,可以对第二分段音频数据进行数据长度的标准化处理,将所有的第二分段音频数据规整到统一的数据长度,得到预处理音频数据。
[0073]
上述技术方案,通过对原始音频数据进行归一化处理,可以防止音频数据进行特征提取出现数值计算错误的问题,并加速多模态联合音频检测模型的收敛速度,提升多模态联合音频检测模型的精度。对音频数据的噪声干扰数据和偏移音频数据进行删除,可以避免非主观因素产生的异常音频对音频数据的干扰和影响,从而提高多模态联合音频检测模型的精度和准确性。
[0074]
在本公开的一个可选实施例中,所述对所述第二分段音频数据进行数据长度的标准化处理,得到所述预处理音频数据,包括:在确定所述第二分段音频数据的数据长度小于分段音频标准长度的情况下,根据所述第二分段音频数据的数据长度和所述分段音频标准长度确定所述第二分段音频数据的补齐长度;从所述第二分段音频数据中采集所述补齐长度的采集音频数据;并根据所述采集音频数据对所述第二分段音频数据进行补齐,得到所述预处理音频数据;或,在确定所述第二分段音频数据的数据长度大于所述分段音频标准长度的情况下,从所述第二分段音频数据中截取所述分段音频标准长度的截取音频数据;并将所述截取音频数据作为所述预处理音频数据。
[0075]
其中,分段音频标准长度可以是对分段音频预设的统一标准长度。补齐长度可以是需要对第二分段音频数据补齐至分段音频标准长度所需的数据长度。采集音频数据可以是从第二分段音频数据中采集的音频数据,其数据长度为补齐长度。截取音频数据也即从第二分段音频数据中截取的音频数据,其数据长度为分段音频标准长度。
[0076]
对第二分段音频数据进行数据长度的标准化处理时,可以首先分析第二分段音频数据的数据长度。如果确定第二分段音频数据的数据长度小于分段音频标准长度,则可以根据分段音频标准长度与该第二分段音频数据的数据长度之间的差值计算该第二分段音频数据的补齐长度,然后从第二分段音频数据中采集补齐长度的采集音频数据,从而根据采集音频数据对第二分段音频数据进行补齐,以得到预处理音频数据。可选的,可以在第二分段音频数据的任意位置插入采集音频数据,实现补齐处理。其中,采集补齐长度的采集音频数据的方式可以为随机采集,也可以为按照预设的数据采集规则进行采集,本公开实施例对此并不进行限制。其中,随机采集音频数据的方式对第二分段音频数据进行补齐处理可以保证第二分段音频数据的特征一致性,避免加入其它音频数据造成对第二分段音频数据的不良干扰,从而保证音频样本数据的准确性和可靠性。
[0077]
相应的,确定第二分段音频数据的数据长度大于分段音频标准长度,则可以从第二分段音频数据中截取分段音频标准长度的截取音频数据。示例性的,可以删除第二分段音频数据两端的数据,保留中间位置处分段音频标准长度的音频数据作为截取音频数据,以最大程度保留音频数据中的有用信息,并将截取音频数据作为预处理音频数据。如果第二分段音频数据的有用信息分布较为均匀,则可以直接将第二分段音频数据分为至少两个片段数据,并对各片段数据分别进行补齐处理,得到多个预处理音频数据。
[0078]
以电机运转音频样本数据为例说明,一个电机对应的一组原始的正转音频子数据和反转音频子数据可以同时进行上述的预处理过程。也即,一个电机的原始音频数据经过预处理后,可以对应获取电机正转的预处理音频数据和电机反转的预处理音频数据两条预处理音频数据。
[0079]
s213、获取所述预处理音频数据的音频样本标签。
[0080]
其中,音频样本标签也即对预处理音频数据进行标记的标签。示例性的,音频样本标签可以是一组或多组标签,如男生、女生的标签,正常、异常的标签等,本公开实施例并不对音频样本标签的标签类型和标签数量进行限定。
[0081]
在本公开的一个可选实施例中,所述获取所述预处理音频数据的音频样本标签,可以包括:获取预处理音频数据的标签判断结果;根据预处理音频数据的标签判断结果确定预处理音频数据匹配的音频样本标签。
[0082]
s214、根据所述音频样本标签对所述预处理音频数据进行标记,得到所述音频样本数据。
[0083]
以电机运转音频样本数据为例说明,当电机运转的原始音频数据进行预处理后,可以通过人工检测的方式对预处理音频数据进行判断,生成预处理音频数据的正常或异常的标签判断结果,并根据标签判断结果对预处理音频数据进行标记。可选的,一个预处理后的电机运转音频数据中可以对应标记一个标签。示例性的,当预处理后的电机运转音频样本数据中的电机正转音频样本子数据和电机反转音频样本子数据全部为正常状态时,可以对该预处理后的电机运转音频样本数据标记为正常。当预处理后的电机运转音频样本数据中的电机正转音频样本子数据和电机反转音频样本子数据至少有一个子样本数据为异常状态时,可以对该预处理后的电机运转音频样本数据标记为异常。可选的,音频样本标签的形式可以转换为one-hot形式,用于后续模型的训练。可以理解的是,音频样本数据可以包括一个或多个音频样本标签。
[0084]
上述技术方案,通过对原始音频数据进行数据预处理,并利用标签对预处理后的预处理音频数据进行标记处理,实现了音频样本数据的完整采集和处理,保证了音频样本数据的可用性和准确性。
[0085]
s220、通过多模态联合音频检测模型对所述音频样本数据提取多模态音频特征,得到多模态音频特征样本数据。
[0086]
在本公开的一个可选实施例中,所述音频样本数据包括第一音频样本子数据和第二音频样本子数据。
[0087]
其中,第一音频样本子数据和第二音频样本子数据可以是同一检测对象不同状态的音频样本数据。以电机作为检测对象为例说明,第一音频样本子数据可以是电机正转音频样本子数据,第二音频样本子数据可以是电机反转音频样本子数据。
[0088]
相应的,s220具体可以包括下述操作:
[0089]
s221、通过所述多模态联合音频检测模型对所述第一音频样本子数据提取设定数量的单模态音频特征。
[0090]
其中,设定数量可以根据实际需求设定,如可以是3、5或6等,本公开实施例对此并不进行限制。单模态音频特征可以是一个维度的音频特征。
[0091]
s222、通过所述多模态联合音频检测模型对所述第二音频样本子数据提取所述设定数量的单模态音频特征。
[0092]
其中,单模态音频特征可以包括但不限于时频图特征、mfcc特征、梅尔mel滤波器组特征、时域数学统计特征、频域数学统计特征以及短时分帧特征。
[0093]
在本公开实施例中,需要同时对第一音频样本子数据和第二音频样本子数据提取设定数量的单模态音频特征。每个单模态音频特征还可以包括多个不同类型的音频特征。
[0094]
示例性的,在提取时频图特征时,可以对第一音频样本子数据和第二音频样本子数据进行短时傅里叶变换(short-time fourier transform,或short-term fourier transform,stft)得到信号对应的如图6所示的时频图,傅里叶变换选用汉明窗,窗长度可以为512,步长可以为256。时频图表示了信号在时域和频域上的能量表示,为一个二维矩阵的形式,此特征是包含第一音频样本子数据和第二音频样本子数据中最多信息的特征。
[0095]
可选的,如果音频检测需要参考人工检测因素,则可以将mfcc特征作为其中一种
单模态音频特征。mfcc特征的提取过程具体可以为:连续语音-预加重-加窗分帧-傅里叶变换-梅尔滤波器组-对数运算-动态差分参数提取-特征向量。mfcc特征的维度可以为[1
×
n],其中n为梅尔滤波器组中滤波器的数量,可选的,n的取值可以为40。
[0096]
由于mfcc特征只考虑了动态差分参数,存在一定的原始信息损失,因此,可选的,还可以将梅尔mel滤波器组特征作为其中一种单模态音频特征。梅尔mel滤波器组特征也可以是二维矩阵的形式,特征的维度可以为[t
×
n],其中,t与时频图的列数相同,n可以为梅尔滤波器组中滤波器的数量。
[0097]
可选的,时域数学统计特征可以是对第一音频样本子数据和第二音频样本子数据在时间尺度上统计的数学特征。可选的,时域数学统计特征可以包括但不限于均值、峰值、整流平均值、均方根、峰度、偏度、峭度、波形因子、脉冲因子、方根幅值、裕度因子以及峰值因子。时域数学统计特征的维度可以为[1
×
m],其中,m表示在时间尺度上统计的不同类型的数学特征。
[0098]
可选的,频域数学统计特征可以是对第一音频样本子数据和第二音频样本子数据进行快速傅里叶变换之后,将音频信号映射到频域上,然后对变换之后的音频信号在频率尺度上统计的数学特性。可选的,频域数学统计特征可以包括但不限于总能量、频率重心、频率谱线、均方根频率、峰度、偏度、峭度、波形因子、脉冲因子、方根幅值、裕度因子、峰值因子。时域数学统计特征的维度可以为[1
×
m],其中,m表示在时间尺度上统计的不同类型的数学特征。时域数学统计特征和频域数学统计特征的维度可以相同,也可以不同,本公开实施例对此并不进行限制。
[0099]
可选的,对所述音频样本数据提取短时分帧特征,可以包括:对第一音频样本子数据和第二音频样本子数据进行短时切片处理,从而将第一音频样本子数据和第二音频样本子数据切分成大小相同的帧片段,然后对每个帧片段进行单独计算,最后将所有帧片段的结果进行统合,例如对所有帧片段的能量、幅度、过零率、自相关以及幅度差等特征量计算平均值,得到短时能量、短时平均幅度、短时平均过零率、短时自相关性、短时平均幅度差等。可选的,短时分帧特征的维度可以为[1
×
5]。
[0100]
s223、对所述第一音频样本子数据的单模态音频特征和所述第二音频样本子数据的单模态音频特征进行拼接,得到拼接单模态音频特征样本数据。
[0101]
s224、根据各所述拼接单模态音频特征样本数据构成所述多模态音频特征样本数据。
[0102]
其中,拼接单模态音频特征样本数据可以是对第一音频样本子数据和第二音频样本子数据某一种相同维度的单模态音频特征进行拼接融合得到的特征数据。
[0103]
由于第一音频样本子数据和第二音频样本子数据属于同源的音频样本数据,因此在对第一音频样本子数据和第二音频样本子数据分别提取了设定数量的单模态音频特征之后,可以对第一音频样本子数据的单模态音频特征和第二音频样本子数据的单模态音频特征进行拼接融合,得到各单模态音频特征对应的拼接单模态音频特征,各拼接单模态音频特征可以构成音频样本数据的多模态音频特征样本数据。
[0104]
可选的,对第一音频样本子数据的单模态音频特征和第二音频样本子数据的单模态音频特征进行拼接融合可以是对第一音频样本子数据和第二音频样本子数据的每一种单模态音频特征进行拼接,得到拼接的单模态音频样本特征。例如,可以将第一音频样本子
数据和第二音频样本子数据的时频图特征进行拼接,将第一音频样本子数据和第二音频样本子数据的时域数学统计特征进行拼接,以此类推,直至完成对所有多模态音频特征的拼接融合处理。
[0105]
上述技术方案,通过对音频样本数据包括第一音频样本子数据和第二音频样本子数据的单模态音频特征进行拼接,可以实现对检测对象在多种不同状态下生成的音频数据的音频特征提取处理,丰富了音频样本数据的数据内容和特征表示。
[0106]
s230、根据所述多模态音频特征样本数据训练多模态联合音频检测模型。
[0107]
在本公开的一个可选实施例中,所述多模态联合音频检测模型包括结果汇总模型和设定数量的音频检测模型。
[0108]
其中,音频检测模型可以对一种类型的单模态音频特征进行识别和检测,音频检测模型的数量和单模态音频特征的数量相同。结果汇总模型可以对各音频检测模型的音频检测结果进行汇总统计,得到最终的音频检测结果。可选的,各音频检测模型的架构可以不同,音频检测模型和结果汇总模型的架构也可以不同。
[0109]
相应的,s230具体可以包括下述操作:
[0110]
s231、将所述多模态音频特征样本数据的各拼接单模态音频特征样本数据分别输入至所述多模态联合音频检测模型的各个音频检测模型中,得到各所述音频检测模型的单模态音频检测结果。
[0111]
其中,单模态音频检测结果可以是音频检测模型对每种拼接单模态音频特征样本数据进行音频检测的结果。
[0112]
图7是本公开实施例提供的一种多模态联合音频检测模型的训练流程示意图。在一个具体的例子中,如图7所示,以电机的电机正转音频样本子数据(即正转信号)和电机反转音频样本子数据(即反转信号)作为音频样本数据为例说明,假设音频样本数据总共可以提取6种不同类型的单模态音频特征,则多模态联合音频检测模型总共可以包括7个模型,其中6个模型为音频检测模型,也即如图7所示的6个神经网络,一个为结果汇总模型,也即如图7所示的结果投票神经网络。可以理解的是,针对不同的特征量,其对应的网络模块也不相同,对于时频图特征和梅尔mel滤波器组特征这种图片类特征,可以采用二维卷积、batch normalization(批标准化)、最大池化、relu(rectified linear units,激活函数)、全连接等模块的组合构成对应的音频检测模型。对于mfcc特征、时域数学统计特征、频域数学统计特征以及短时分帧特征这种一维数据类特征,可以采用一维卷积和batch normalization、最大池化、relu、全连接等模块的组合构成对应的音频检测模型。
[0113]
由于每个拼接单模态音频特征样本数据(正转和反转的特征量拼接到一起)可以包括不同维度的特征量,因此,可以将每个拼接单模态音频特征样本数据分别输入到对应的音频检测模型中,每个音频检测模型可以对单独的特征量进行计算,得到单独的1*2维度的音频检测结果作为单模态音频检测结果,单模态音频检测结果中的第一个分量结果可以表征音频正常的概率,第二个分量结果可以表征音频异常的概率。
[0114]
s232、对各所述音频检测模型的单模态音频检测结果进行拼接,得到拼接单模态音频检测结果。
[0115]
相应的,在每个音频检测模型输出单模态音频检测结果之后,可以对各个单模态音频检测结果进行拼接,得到拼接单模态音频检测结果。可以理解的是,拼接单模态音频检
测结果的维度与单模态音频检测结果的维度相同。
[0116]
s233、将所述拼接单模态音频检测结果输入至所述多模态联合音频检测模型的结果汇总模型中,以获取目标音频检测结果。
[0117]
其中,目标音频检测结果也即结果汇总模型对各拼接单模态音频检测结果进行汇总统计所得到的最终检测结果。
[0118]
s234、根据所述目标音频检测结果计算模型损失,并根据模型损失更新所述多模态联合音频检测模型的模型参数。
[0119]
其中,模型损失可以是多模态联合音频检测模型中每个模型的损失。
[0120]
示例性的,如图7所示,所有音频检测模型的拼接单模态音频检测结果可以输入到最后的结果汇总模型中,由结果汇总模型对拼接单模态音频检测结果进行统合计算,得到最终的目标音频检测结果。进一步的,根据目标音频检测结果和音频样本数据中的标签进行对比,并利用对比结果和损失函数计算各个模型的损失,以根据模型损失对多模态联合音频检测模型中的每个模型的模型参数同时进行更新。
[0121]
可选的,损失函数可以采用交叉熵损失,其表达式可以为:其中,l
cross
(y,p)表示模型损失,y表示音频样本数据的标签数据,p表示目标音频检测结果,n表示训练样本数量,k表示训练样本类别的数量,y
i,k
表示数据集真实标签,p
i,k
表示模型输出值。同时,可以采用随机梯度下降法最小化损失函数,实现多模态联合音频检测模型中的全部模型的参数更新。
[0122]
上述技术方案,通过利用多模态联合音频检测模型的各个音频检测模型对每种拼接单模态音频特征样本数据分别进行识别和计算,可以提高拼接单模态音频特征样本数据的音频检测的准确率,再对各音频检测模型的单模态音频检测结果拼接得到的拼接单模态音频检测结果进行统合计算,实现全面结合多种不同类型音频特征的音频检测结果准确确定最终的音频检出结果。
[0123]
在本公开的一个可选实施例中,所述获取目标音频检测结果,可以包括:通过所述结果汇总模型根据所述拼接单模态音频检测结果确定第一音频检测结果的数量和第二音频检测结果的数量;通过所述结果汇总模型根据所述第一音频检测结果的数量和第二音频检测结果的数量,以及各所述拼接单模态音频检测结果的权重,确定所述目标音频检测结果。
[0124]
其中,第一音频检测结果和第二音频检测结果可以是两种不同类型的检测结果,如正常和异常的两种结果。
[0125]
可以理解的是,不同的音频特征能够包含的音频的有用信息的比重也不同。因此,针对不同的拼接单模态音频检测结果可以分别设置相应的权重,以表征各拼接单模态音频检测结果的重要程度,从而明确各音频特征对音频检测结果的影响程度,提高音频检测的准确率。可选的,时频图特征对应的拼接单模态音频检测结果的权重最高,梅尔mel滤波器组特征,对应的拼接单模态音频检测结果的权重值位列第二,mfcc特征对应的拼接单模态音频检测结果的权重值位列第三,其他类型的音频特征对应的拼接单模态音频检测结果的权重可以是最小的。
[0126]
因此,结果汇总模型可以考虑第一音频检测结果的数量和第二音频检测结果的数
量,以及各拼接单模态音频检测结果的权重两种因素来确定目标音频检测结果。示例性的,如果时频图特征、时域数学统计特征对应的拼接单模态音频检测结果为正常,其余的拼接单模态音频检测结果为异常,时频图特征、时域数学统计特征对应的拼接单模态音频检测结果分别为0.5和0.08,其余的拼接单模态音频检测结果的权重分别为0.2、0.1、0.05和0.07,则正常检测结果的概率为:0.5+0.08=0.58,异常检测结果的概率为:0.2+0.1+0.05+0.07=0.42,则目标音频检测结果为正常的概率为0.58,异常的概率为0.42。
[0127]
上述技术方案,通过多个不同的模型构成多模态联合音频检测模型,并通过多模态联合音频检测模型提取多模态音频特征以获取多模态音频特征样本数据,进而根据多模态音频特征样本数据训练多模态联合音频检测模型,能够提高多模态联合音频检测模型音频检测的准确率。
[0128]
在一个示例中,图8是本公开实施例提供的一种音频检测方法的流程图,本实施例可适用于利用多模态联合音频检测模型进行音频检测的情况,该方法可以由音频检测装置来执行,该装置可以由软件和/或硬件的方式来实现,并一般可集成在电子设备中。该电子设备可以是终端设备,也可以是服务器设备,本公开实施例并不对电子设备的设备类型进行限定。相应的,如图8所示,该方法包括如下操作:
[0129]
s810、获取待检测音频数据;其中,每个所述待检测音频数据包括至少两种待检测音频子数据。
[0130]
其中,待检测音频数据可以是需要进行音频检测的数据。待检测音频子数据可以是一个待检测音频数据中包括的音频子数据。每个音频子数据可以是对应音频的其中一个状态或类型的数据。
[0131]
在本公开的一个可选实施例中,所述音频样本数据可以包括待检测电机运转音频数据,所述待检测电机运转音频样本数据可以包括待检测电机正转音频子数据和待检测电机反转音频子数据。
[0132]
其中,待检测电机运转音频数据也即在电机运转时采集到的需要进行检测的音频数据。电机可以是任意类型的电机,如汽车座椅电机或电梯电机等,本公开实施例并不对电机的类型进行限定。可以理解的是,电机的运转方式包括正转和反转两种形式。待检测电机正转音频子数据也即电机正转时采集到的需要进行检测的音频数据,待检测电机反转音频子数据也即电机反转时采集到的需要进行检测的音频数据。可以理解的是,待检测电机正转音频子数据和待检测电机反转音频子数据是同一个电机在正转和反转时采集的需要检测的音频数据。
[0133]
s820、将所述待检测音频数据输入至多模态联合音频检测模型进行音频检测,得到所述待检测音频数据的音频检测结果。
[0134]
其中,多模态联合音频检测模型通过上述任一所述的音频检测模型训练方法训练得到。
[0135]
相应的,在获取待检测音频数据之后,可以利用模态联合音频检测模型对待检测音频数据提取多模态音频特征,得到待检测音频数据的多模态音频特征数据。进一步的,当多模态联合音频检测模型提取到多模态音频特征数据之后,即可根据多模态音频特征数据进行音频检测,得到待检测音频数据的音频检测结果。
[0136]
以电机作为检测对象为例说明,利用多模态联合音频检测模型接收的待检测音频
数据输入为正转和反转2条电机运转音频数据,多模态联合音频检测模型可以对输入的待检测音频数据进行多模态音频特征的提取、识别和检测,从而直接给出该待检测音频数据对应电机的正常和异常的概率。
[0137]
本公开实施例通过多模态联合音频检测模型对获取的每个样本包括至少两种音频样本子数据的音频样本数据提取多模态音频特征,得到多模态音频特征样本数据,以根据提取的多模态音频特征样本数据训练多模态联合音频检测模型,从而利用多模态联合音频检测模型对获取的待检测音频数据进行音频检测,解决现有音频检测方法仅依据单一样本类型或单一特征进行音频检测存在的音频检测准确率较低的问题,从而提高音频检测的准确率。
[0138]
本公开的技术方案中,所涉及用户个人信息(如用户语音信息等)的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
[0139]
需要说明的是,以上各实施例中各技术特征之间的任意排列组合也属于本公开的保护范围。
[0140]
在一个示例中,图9是本公开实施例提供的一种音频检测模型训练装置的结构图,本公开实施例可适用于利用包括多个子样本的音频样本数据的多模态的音频特征训练多模态联合音频检测模型的情况,该装置通过软件和/或硬件实现,并具体配置于电子设备中。该电子设备可以是终端设备,也可以是服务器设备,本公开实施例并不对电子设备的设备类型进行限定。
[0141]
如图9所示的一种音频检测模型训练装置900,包括:音频样本数据获取模块910、多模态音频特征提取模块920和多模态联合音频检测模型训练模块930。其中,
[0142]
音频样本数据获取模块910,用于获取音频样本数据;其中,每个所述音频样本数据包括至少两种音频样本子数据;
[0143]
多模态音频特征提取模块920,用于通过多模态联合音频检测模型对所述音频样本数据提取多模态音频特征,得到多模态音频特征样本数据;
[0144]
多模态联合音频检测模型训练模块930,用于根据所述多模态音频特征样本数据训练所述多模态联合音频检测模型。
[0145]
本公开实施例通过多模态联合音频检测模型对获取的每个样本包括至少两种音频样本子数据的音频样本数据提取多模态音频特征,得到多模态音频特征样本数据,以根据提取的多模态音频特征样本数据训练多模态联合音频检测模型,从而利用多模态联合音频检测模型对获取的待检测音频数据进行音频检测,解决现有音频检测方法仅依据单一样本类型或单一特征进行音频检测存在的音频检测准确率较低的问题,从而提高音频检测的准确率。
[0146]
可选的,音频样本数据获取模块910还用于:获取原始音频数据;其中,每个所述原始音频数据包括至少两种原始音频子数据;对所述原始音频数据进行数据预处理,得到预处理音频数据;获取所述预处理音频数据的音频样本标签;根据所述音频样本标签对所述预处理音频数据进行标记,得到所述音频样本数据。
[0147]
可选的,音频样本数据获取模块910还用于:对所述原始音频数据进行归一化处理,得到归一化音频数据;根据所述归一化音频数据中的噪声干扰数据对所述归一化音频数据进行截断处理,得到第一分段音频数据;删除所述第一分段音频数据中的偏移音频数
据,得到第二分段音频数据;对所述第二分段音频数据进行数据长度的标准化处理,得到所述预处理音频数据。
[0148]
可选的,音频样本数据获取模块910还用于:在确定所述第二分段音频数据的数据长度小于分段音频标准长度的情况下,根据所述第二分段音频数据的数据长度和所述分段音频标准长度确定所述第二分段音频数据的补齐长度;从所述第二分段音频数据中采集所述补齐长度的采集音频数据;并根据所述采集音频数据对所述第二分段音频数据进行补齐,得到所述预处理音频数据;或,在确定所述第二分段音频数据的数据长度大于所述分段音频标准长度的情况下,从所述第二分段音频数据中截取所述分段音频标准长度的截取音频数据;并将所述截取音频数据作为所述预处理音频数据。
[0149]
可选的,所述音频样本数据包括第一音频样本子数据和第二音频样本子数据;模态音频特征提取模块920还用于:通过所述多模态联合音频检测模型对所述第一音频样本子数据提取设定数量的单模态音频特征;通过所述多模态联合音频检测模型对所述第二音频样本子数据提取所述设定数量的单模态音频特征;对所述第一音频样本子数据的单模态音频特征和所述第二音频样本子数据的单模态音频特征进行拼接,得到拼接单模态音频特征样本数据;根据各所述拼接单模态音频特征样本数据构成所述多模态音频特征样本数据。
[0150]
可选的,所述单模态音频特征包括以下至少之一:时频图特征、梅尔倒谱系数mfcc特征、梅尔mel滤波器组特征、时域数学统计特征、频域数学统计特征以及短时分帧特征。
[0151]
可选的,所述时域数学统计特征包括以下至少之一:均值、峰值、整流平均值、均方根、峰度、偏度、峭度、波形因子、脉冲因子、方根幅值、裕度因子以及峰值因子;和/或,所述频域数学统计特征包括以下至少之一:总能量、频率重心、频率谱线、均方根频率、峰度、偏度、峭度、波形因子、脉冲因子、方根幅值、裕度因子、峰值因子;和/或,所述短时分帧特征包括短时能量、短时平均幅度、短时平均过零率、短时自相关性以及短时平均幅度差。
[0152]
可选的,所述多模态联合音频检测模型包括结果汇总模型和设定数量的音频检测模型;多模态联合音频检测模型训练模块930还用于:将所述多模态音频特征样本数据的各拼接单模态音频特征样本数据分别输入至所述多模态联合音频检测模型的各个音频检测模型中,得到各所述音频检测模型的单模态音频检测结果;对各所述音频检测模型的单模态音频检测结果进行拼接,得到拼接单模态音频检测结果;将所述拼接单模态音频检测结果输入至所述多模态联合音频检测模型的结果汇总模型中,以获取目标音频检测结果;根据所述目标音频检测结果计算模型损失,并根据模型损失更新所述多模态联合音频检测模型的模型参数。
[0153]
可选的,多模态联合音频检测模型训练模块930还用于:通过所述结果汇总模型根据所述拼接单模态音频检测结果确定第一音频检测结果的数量和第二音频检测结果的数量;通过所述结果汇总模型根据所述第一音频检测结果的数量和第二音频检测结果的数量,以及各所述拼接单模态音频检测结果的权重,确定所述目标音频检测结果。
[0154]
可选的,所述音频样本数据包括电机运转音频样本数据,所述电机运转音频样本数据包括电机正转音频样本子数据和电机反转音频样本子数据。
[0155]
上述音频检测模型训练装置可执行本公开任意实施例所提供的音频检测模型训练方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,
可参见本公开任意实施例提供的音频检测模型训练方法。
[0156]
在一个示例中,图10是本公开实施例提供的一种音频检测装置的结构图,本公开实施例可适用于利用多模态联合音频检测模型进行音频检测的情况,该装置通过软件和/或硬件实现,并具体配置于电子设备中。该电子设备可以是终端设备,也可以是服务器设备,本公开实施例并不对电子设备的设备类型进行限定。
[0157]
如图10所示的一种音频检测模型训练装置1000,包括:待检测音频数据获取模块1010和音频检测结果获取模块1020。其中,
[0158]
待检测音频数据获取模块1010,用于获取待检测音频数据;其中,每个所述待检测音频数据包括至少两种待检测音频子数据;
[0159]
音频检测结果获取模块1020,用于将所述待检测音频数据输入至多模态联合音频检测模型进行音频检测,得到所述待检测音频数据的音频检测结果;
[0160]
其中,所述多模态联合音频检测模型通过上述任一所述的音频检测模型训练装置训练得到。
[0161]
上述音频检测模型训练装置可执行本公开任意实施例所提供的音频检测模型训练方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本公开任意实施例提供的音频检测模型训练方法。
[0162]
在一个示例中,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
[0163]
图11示出了可以用来实施本公开的实施例的示例电子设备1100的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
[0164]
如图11所示,设备1100包括计算单元1101,其可以根据存储在只读存储器(rom)1102中的计算机程序或者从存储单元1108加载到随机访问存储器(ram)1103中的计算机程序,来执行各种适当的动作和处理。在ram 1103中,还可存储设备1100操作所需的各种程序和数据。计算单元1101、rom 1102以及ram 1103通过总线1104彼此相连。输入/输出(i/o)接口1105也连接至总线1104。
[0165]
设备1100中的多个部件连接至i/o接口1105,包括:输入单元1106,例如键盘、鼠标等;输出单元1107,例如各种类型的显示器、扬声器等;存储单元1108,例如磁盘、光盘等;以及通信单元1109,例如网卡、调制解调器、无线通信收发机等。通信单元1109允许设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
[0166]
计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1101的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的各个方法和处理,例如音频检测模型训练方法或音频检测方法。例如,在一些实施例中,音频检测模型训练方法或音频检测方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,
例如存储单元1108。在一些实施例中,计算机程序的部分或者全部可以经由rom 1102和/或通信单元1109而被载入和/或安装到设备1100上。当计算机程序加载到ram 1103并由计算单元1101执行时,可以执行上文描述的音频检测模型训练方法或音频检测方法的一个或多个步骤。备选地,在其他实施例中,计算单元1101可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行音频检测模型训练方法或音频检测方法。
[0167]
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
[0168]
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0169]
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0170]
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
[0171]
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)、区块链网络和互联网。
[0172]
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与vps服务中,存在的管理难度大,业务扩展性弱的缺陷。服务器还可以分布式系统的服务器,或者是结合了区块链的服务器。
[0173]
本公开实施例通过多模态联合音频检测模型对获取的每个样本包括至少两种音频样本子数据的音频样本数据提取多模态音频特征,得到多模态音频特征样本数据,以根据提取的多模态音频特征样本数据训练多模态联合音频检测模型,从而利用多模态联合音频检测模型对获取的待检测音频数据进行音频检测,解决现有音频检测方法仅依据单一样本类型或单一特征进行音频检测存在的音频检测准确率较低的问题,从而提高音频检测的准确率。
[0174]
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
[0175]
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。