音频处理方法、装置、存储介质、电子设备与流程

1.本发明涉及音频处理领域，具体而言，涉及一种音频处理方法、装置、存储介质、电子设备。

背景技术：

2.随着音视频通信系统的普及，不可避免地会碰到各式各样复杂的声学环境，同时也对音频算法有了更高的要求，即保证音视频通信系统在不同的声学环境下都能保持高效能。在实时语音通信中，区分前景声音还是背景声音对于音频3a算法中的自动增益控制(automatic gain control，agc)模块是至关重要的，而在一些情况下，例如在前景声音很小或没有前景声音的情况下，语音活动检测(voice activity detection，vad)算法无法区分前景声音与背景声音，进而agc会误将背景声音音量提高，导致远端用户听到更大的背景声音，极大影响用户体验，尤其是在开放式会议室，经常会出现背景人声场景。
3.目前很多方案都是基于训练模型来区分前景声音与背景声音，但是此类方案不仅计算量大、无法实时工作，而且分辨准确率并没有质的提高。
4.针对上述的问题，目前尚未提出有效的解决方案。

技术实现要素：

5.本发明实施例提供了一种音频处理方法、装置、存储介质、电子设备，以至少解决相关技术中音频系统无法分辨前景声音和背景声音造成的音频分辨效率低、用户体验差的技术问题。
6.根据本发明实施例的一个方面，提供了一种音频处理方法，包括：获取音频采集端采集到的待处理音频；对上述待处理音频进行滤波处理，得到处理结果，其中，上述滤波处理用于从上述待处理音频中滤除部分音频信号分量，上述部分音频信号分量的频率低于预设阈值；从上述处理结果中提取第一预设时长内的多个语音帧；获取上述多个语音帧的能量变化量；基于上述能量变化量确定上述待处理音频的类别。
7.根据本发明实施例的另一方面，还提供了一种音频处理方法，包括：经由音频采集端采集线上会议的会议音频；对上述会议音频进行滤波处理，得到处理结果，其中，上述滤波处理用于从上述会议音频中滤除部分音频信号分量，上述部分音频信号分量的频率低于预设阈值；从上述处理结果中提取第一预设时长内的多个语音帧；获取上述多个语音帧的能量变化量；基于上述能量变化量确定上述会议音频是否为上述线上会议的主讲人语音。
8.根据本发明实施例的另一方面，还提供了一种音频处理方法，包括：经由音频采集端采集线上课堂的教学音频；对上述教学音频进行滤波处理，得到处理结果，其中，上述滤波处理用于从上述教学音频中滤除部分音频信号分量，上述部分音频信号分量的频率低于预设阈值；从上述处理结果中提取第一预设时长内的多个语音帧；获取上述多个语音帧的能量变化量；基于上述能量变化量确定上述教学音频是否为上述线上课堂的主讲人语音。
9.根据本发明实施例的另一方面，还提供了一种音频处理装置，包括：第一获取模
块，用于获取音频采集端采集到的待处理音频；滤波模块，用于对上述待处理音频进行滤波处理，得到处理结果，其中，上述滤波处理用于从上述待处理音频中滤除部分音频信号分量，上述部分音频信号分量的频率低于预设阈值；提取模块，用于从上述处理结果中提取第一预设时长内的多个语音帧；第二获取模块，用于获取上述多个语音帧的能量变化量；确定模块，用于基于上述能量变化量确定上述待处理音频的类别。
10.根据本发明实施例的另一方面，还提供了一种计算机可读存储介质，上述存储介质包括存储的程序，其中，在上述程序运行时控制上述存储介质所在设备执行任意一项上述的音频处理方法。
11.根据本发明实施例的另一方面，还提供了一种电子设备，包括：处理器；以及存储器，与上述处理器连接，用于为上述处理器提供处理以下处理步骤的指令：获取音频采集端采集到的待处理音频；对上述待处理音频进行滤波处理，得到处理结果，其中，上述滤波处理用于从上述待处理音频中滤除部分音频信号分量，上述部分音频信号分量的频率低于预设阈值；从上述处理结果中提取第一预设时长内的多个语音帧；获取上述多个语音帧的能量变化量；基于上述能量变化量确定上述待处理音频的类别。
12.在本发明实施例中，采用滤波处理音频的方式，通过获取音频采集端采集到的待处理音频；对上述待处理音频进行滤波处理，得到处理结果，其中，上述滤波处理用于从上述待处理音频中滤除部分音频信号分量，上述部分音频信号分量的频率低于预设阈值；从上述处理结果中提取第一预设时长内的多个语音帧；获取上述多个语音帧的能量变化量；基于上述能量变化量确定上述待处理音频的类别。
13.容易注意到的是，通过本技术实施例，即使在前景声音很小或没有前景声音的情况下，在对音频采集端采集到的待处理音频进行高通滤波处理得到处理结果之后，从处理结果之后提取第一预设时长内的多个语音帧，并获取多个语音帧的能量变化量，进而可以基于该能量变化量确定待处理音频的类别，即可以区分待处理音频是前景声音还是背景声音，在远端音视频场景中，不会造成远端用户听到更大的背景声音，影响用户体验的情况发生。
14.由此，本技术实施例达到了快速准确区分前景声音和背景声音的目的，从而实现了提高音频分辨效率、提升用户体验的技术效果，进而解决了相关技术中音频系统无法分辨前景声音和背景声音造成的音频分辨效率低、用户体验差的技术问题。
附图说明
15.此处所说明的附图用来提供对本发明的进一步理解，构成本技术的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：
16.图1根据现有技术的一种用于实现音频处理方法的计算机终端(或移动设备)的硬件结构框图；
17.图2是根据本发明实施例的一种音频处理方法的流程图；
18.图3是根据本发明实施例的一种可选的高通滤波器的频响曲线示意图；
19.图4是根据本发明实施例的一种可选的前景声音与背景声音的振幅分布示意图；
20.图5是根据本发明实施例的一种可选的音频处理方法的流程图；
21.图6是根据本发明实施例的另一种可选的音频处理方法的流程图；
22.图7是根据本发明实施例的又一种可选的音频处理方法的流程图；
23.图8是根据本发明实施例的一种音频处理装置的结构示意图；
24.图9是根据本发明实施例的一种计算机终端的结构框图。
具体实施方式
25.为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。
26.需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
27.首先，在对本技术实施例进行描述的过程中出现的部分名词或术语适用于如下解释：
28.音频3a算法：即同时采用自动回声消除(aec)技术、自动噪声消除(ans)技术和自动增益控制(agc)技术保证语音通话清新自然。
29.自动增益控制(automatic gain control，agc)：通过输入音频音量的估计，以及其与制定音量的差距来自动增大或减小输入音频音量模块。
30.高通滤波器(highpass filter)：通过滤波器设计，让高频信号通过的同时压制低频信号能量。
31.语音活动检测(voice activity detection，vad)：又称语音端点检测，语音边界检测，目的是从声音信号流里识别和消除长时间的静音期，以达到在不降低业务质量的情况下节省话路资源的作用，可用于区别语音与非语音。
32.实施例1
33.根据本发明实施例，提供了一种音频处理的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。
34.本技术实施例1所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现音频处理方法的计算机终端(或移动设备)的硬件结构框图。如图1所示，计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b，
……
，102n来示出)处理器102(处理器102可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。除此以外，还可以包括：显示器、输入/输出接口(i/o接口)、通用串行总线(usb)端口
(可以作为bus总线的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。
35.应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本技术实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
36.存储器104可用于存储应用软件的软件程序以及模块，如本发明实施例中的音频处理的方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的应用程序的音频处理方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
37.传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(network interface controller，nic)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(radio frequency，rf)模块，其用于通过无线方式与互联网进行通讯。
38.显示器可以例如触摸屏式的液晶显示器(lcd)，该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。
39.在上述运行环境下，本技术提供了如图2所示的一种音频处理方法。图2是根据本发明实施例的一种音频处理方法的流程图，如图2所示，上述方法包括：
40.步骤s202，获取音频采集端采集到的待处理音频；
41.步骤s204，对上述待处理音频进行滤波处理，得到处理结果，其中，上述滤波处理用于从上述待处理音频中滤除部分音频信号分量，上述部分音频信号分量的频率低于预设阈值；
42.步骤s206，从上述处理结果中提取第一预设时长内的多个语音帧；
43.步骤s208，获取上述多个语音帧的能量变化量；
44.步骤s210，基于上述能量变化量确定上述待处理音频的类别。
45.容易注意到的是，通过本技术实施例，即使在前景声音很小或没有前景声音的情况下，在对音频采集端采集到的待处理音频进行滤波处理得到处理结果之后，从处理结果之后提取第一预设时长内的多个语音帧，并获取多个语音帧的能量变化量，进而可以基于该能量变化量确定待处理音频的类别，即可以区分待处理音频是前景声音还是背景声音，在远端音视频场景中，不会造成远端用户听到更大的背景声音，影响用户体验的情况发生。
46.由此，本技术实施例达到了快速准确区分前景声音和背景声音的目的，从而实现了提高音频分辨效率、提升用户体验的技术效果，进而解决了相关技术中音频系统无法分
辨前景声音和背景声音造成的音频分辨效率低、用户体验差的技术问题。
47.可选的，本技术实施例所提供的上述音频处理方法可以但不限于应用在音视频实时通信项目(如远程视频会议等)、音视频产品(如音视频通信系统、会议音频设备等)、音视频传递课堂等，通过采用本技术实施例中的音频处理方法，可以自动处理不同音视频设备中自带的麦克风设备采集到的音频。
48.可选的，上述音频采集端即语音通信设备采集端，例如，可以为麦克风设备，该麦克风设备可以为应用或者设置在音视频产品中，在音视频产品的使用过程中，可以根据实际情况对麦克风设备采集到的待处理音频进行音频处理，以确定该待处理音频的类别。
49.可选的，上述滤波处理方式可以为带通滤波处理、高通滤波处理，以高通滤波处理方式为例，则可以采用高通滤波器对上述待处理音频进行高通滤波处理，以实现从上述待处理音频中滤除部分音频信号分量，该部分音频信号分量的频率低于预设阈值，其中，高通滤波处理对应的预设阈值的范围可以为4khz以上，在此范围内滤波处理的效果相比于带通滤波处理的效果更佳，带通滤波处理对应的预设阈值的范围可以为3khz
‑
8khz。
50.在从上述待处理音频中滤除部分音频信号分量之后，得到上述处理结果，可选的，该高通滤波器又称为高频滤波器，例如，非递归型滤波器、有限长单位冲激响应滤波器等；需要说明的是，滤波处理是为了获取待处理音频中高频信号的能量，即通过高通滤波器设计使得待处理音频的高频信号在通过的同时压制低频信号的能量，进而可以利用高频能量变化来区分前景音与背景音。
51.可选的，上述第一预设时长即为预设时间段，例如，3秒等，本技术实施例对此并不具体限定，以可以实现本技术实施例为准，在具体使用过程中，可以根据用户的实际需要对上述第一预设时长进行设置和更改。
52.可选的，可以但不限于采用采用语音活动检测方式从处理结果中提取上述第一预设时长内的多个语音帧；上述多个语音帧的能量变化量包括多个能量值的能量平均值和能量方差值。
53.可选的，上述待处理音频的类别包括：前景声音和背景声音；以本技术实施例所提供的音频音量的调节方法应用在远程视频会议场景为例，本技术实施例中，基于前景声音(例如，主讲人语音)与背景声音在语音通信设备采集端的高频表现，通过高通滤波器来实现自动区分待处理音频中的前景声音与背景声音，即根据语音信号的传播原理，高频信号接近直线传播，不容易绕过障碍物，经过高通滤波器后的高频信号特性可作为判断采集到的语音信号是否为背景声音。
54.本技术实施例与现有的自动增益控制agc技术之间的技术融合性高，计算量小，已获实验证实，与音视频设备的兼容性强，在产品化过程中可以但不限于应用于音视频传递课堂，音视频及其生态等场景中。
55.在一种可选的实施例中，对上述待处理音频进行滤波处理，得到上述处理结果包括：采用有限长单位冲激响应滤波器对上述待处理音频进行高通滤波处理，得到上述处理结果，其中，上述有限长单位冲激响应滤波器的滤波器阶数为大于或等于1的正整数。
56.在上述可选的实施例中，可以采用有限长单位冲激响应滤波器fir(finite impulse response)filter,对上述待处理音频进行高通滤波处理，得到上述处理结果。
57.可选的，有限长单位冲激响应滤波器的滤波器阶数n(n通常为大于等于1的正整
数)，n的阶数越高，低频压制越大，例如，假设n＝2，高通滤波器的频响曲线如图3所示，对上述待处理音频进行语音活动检测后，前景声音与背景声音的振幅分布，以及对上述待处理音频进行高通滤波处理前，前景声音与背景声音的振幅分布，如图4所示。
58.在一种可选的实施例中，从上述处理结果中提取上述第一预设时长内的上述多个语音帧，包括如下方法步骤：
59.步骤s302，获取第二预设时长；
60.步骤s304，基于上述第一预设时长和上述第二预设时长，采用语音活动检测方式从上述处理结果中提取上述多个语音帧。
61.可选的，如图5所示，获取的第二预设时长为上述多个语音帧中每个语音帧对应的单位时长，上述第二预设时长即为小于第一预设时长的预设时间段，例如，10毫秒等，本技术实施例对此并不具体限定，以可以实现本技术实施例为准，在具体使用过程中，可以根据用户的实际需要对上述第二预设时长进行设置和更改。
62.作为一种可选的实施例，通过将音频采集端采集到的待处理音频输入高通滤波器进行高通滤波处理，得到处理结果，并结合语音活动检测vad模块，在第一预设时长(可以为3s)内将第二预设时长的多个语音帧(每帧可以为10ms)进行信号处理(排除噪音)，进而从上述处理结果中提取上述多个语音帧。
63.在一种可选的实施例中，获取上述多个语音帧的上述能量变化量，包括如下方法步骤：
64.步骤s402，获取上述多个语音帧中每个语音帧对应的能量值，得到多个能量值；
65.步骤s404，计算上述多个能量值的能量平均值和能量方差值。
66.仍如图4所示，由于背景人声(background speech)音量基本上都达到了主讲人(foreground speech)音量，语音活动检测方式vad检测到的都是语音，经过高频滤波后很清晰地看出主讲人声音的音频信号具有更大能量以及更大的方差值。
67.如图4所示，如果采样率为48khz的话，在0.2处对应的是48k/2*0.2＝4800hz，存在
‑
8db的衰减，低频范围(小于4800hz)衰减更大，即衰减低频能量，保持高频能量。
68.作为一种可选的实施例，仍如图5所示，对上述第一预设时长内的多个语音帧中每个语音帧进行能量统计得到能量变化量，包括能量平均值mean和能量方差值variance；设定能量平均值的第一阈值thres1，以及方差值的第二阈值thres2来确定上述待处理音频的类别，即判定当前状态是否进入背景人声状态。
69.在一种可选的实施例中，基于上述能量变化量确定上述待处理音频的类别包括：基于上述能量平均值与第一阈值的比较结果以及上述能量方差值与第二阈值的比较结果，确定上述待处理音频的类别。
70.在一种可选的实施例中，基于上述能量平均值与上述第一阈值的比较结果以及上述能量方差值与上述第二阈值的比较结果，确定上述待处理音频的类别包括：当上述能量平均值小于上述第一阈值且上述能量方差值小于上述第二阈值时，确定上述待处理音频为背景声音。
71.在一种可选的实施例中，基于上述能量平均值与上述第一阈值的比较结果以及上述能量方差值与上述第二阈值的比较结果，确定上述待处理音频的类别包括：当上述能量平均值大于或等于上述第一阈值且上述能量方差值大于或等于上述第二阈值时，确定上述
待处理音频为前景声音。
72.仍如图5所示，通过比较能量平均值与第一阈值，以及比较能量方差值与第二阈值，确定上述待处理音频的类别，当上述能量平均值小于上述第一阈值且上述能量方差值小于上述第二阈值时，确定上述待处理音频为背景声音；当上述能量平均值大于或等于上述第一阈值且上述能量方差值大于或等于上述第二阈值时，确定上述待处理音频为前景声音。
73.通过本技术实施例，可以充分利用实际应用场景来提取用于区分主讲/背景人声的特征值，达到了快速准确区分前景声音和背景声音的目的；而且计算量小更便于实现，从而实现了提高音频分辨效率、提升用户体验的技术效果。
74.本技术提供了如图6所示的一种音频处理方法。图6是根据本发明实施例的另一种可选的音频处理方法的流程图，如图6所示，上述音频处理方法，包括：
75.步骤s502，经由音频采集端采集线上会议的会议音频；
76.步骤s504，对上述会议音频进行滤波处理，得到处理结果，其中，上述滤波处理用于从上述会议音频中滤除部分音频信号分量，上述部分音频信号分量的频率低于预设阈值；
77.步骤s506，从上述处理结果中提取第一预设时长内的多个语音帧；
78.步骤s508，获取上述多个语音帧的能量变化量；
79.步骤s510，基于上述能量变化量确定上述会议音频是否为上述线上会议的主讲人语音。
80.可选的，本技术实施例所提供的上述音频处理方法可以但不限于应用在远程会议应用场景，例如，音视频实时通信项目(如远程视频会议等)，通过采用本技术实施例中的音频处理方法，可以自动处理远程会议应用场景中，采用不同音视频设备的麦克风设备采集到的音频。
81.可选的，上述音频采集端即语音通信设备采集端，例如，可以为麦克风设备，该麦克风设备可以为应用或者设置在音视频产品中，在音视频产品的使用过程中，可以根据实际情况对麦克风设备采集到的会议音频进行音频处理，以确定该会议音频的类别。
82.可选的，上述滤波处理方式可以为带通滤波处理、高通滤波处理，以高通滤波处理方式为例，则可以采用高通滤波器对上述会议音频进行高通滤波处理，以实现从上述会议音频中滤除部分音频信号分量，该部分音频信号分量的频率低于预设阈值，其中，高通滤波处理对应的预设阈值的范围可以为4khz以上，在此范围内滤波处理的效果相比于带通滤波处理的效果更佳，带通滤波处理对应的预设阈值的范围可以为3khz
‑
8khz。
83.在从上述会议音频中滤除部分音频信号分量之后，得到上述处理结果，可选的，该高通滤波器又称为高频滤波器，例如，非递归型滤波器、有限长单位冲激响应滤波器等；需要说明的是，滤波处理是为了获取会议音频中高频信号的能量，即通过高通滤波器设计使得会议音频的高频信号在通过的同时压制低频信号的能量，进而可以利用高频能量变化来区分前景音与背景音。
84.可选的，上述第一预设时长即为预设时间段，例如，3秒等，本技术实施例对此并不具体限定，以可以实现本技术实施例为准，在具体使用过程中，可以根据用户的实际需要对上述第一预设时长进行设置和更改。
85.可选的，可以但不限于采用采用语音活动检测方式从处理结果中提取上述第一预设时长内的多个语音帧；上述多个语音帧的能量变化量包括多个能量值的能量平均值和能量方差值。
86.可选的，上述会议音频的类别包括：前景声音和背景声音；以本技术实施例所提供的音频音量的调节方法应用在远程视频会议场景为例，本技术实施例中，基于前景声音(例如，主讲人语音)与背景声音在语音通信设备采集端的高频表现来实现自动区分会议音频中的前景声音与背景声音，即根据语音信号的传播原理，高频信号接近直线传播，不容易绕过障碍物，经过高通滤波器后的高频信号特性可作为判断采集到的语音信号是否为背景声音。
87.通过本技术实施例，即使在前景声音(即线上会议的主讲人语音)很小或没有前景声音的情况下，在对音频采集端采集到的会议音频进行滤波处理得到处理结果之后，从处理结果之后提取第一预设时长内的多个语音帧，并获取多个语音帧的能量变化量，进而可以基于该能量变化量确定会议音频的类别，即可以区分会议音频是前景声音还是背景声音，在远端音视频场景中，不会造成远端用户听到更大的背景声音，影响用户体验的情况发生。
88.由此，本技术实施例达到了快速准确区分前景声音和背景声音的目的，从而实现了提高音频分辨效率、提升用户体验的技术效果，进而解决了相关技术中音频系统无法分辨前景声音和背景声音造成的音频分辨效率低、用户体验差的技术问题。
89.本技术提供了如图7所示的一种音频处理方法。图7是根据本发明实施例的又一种可选的音频处理方法的流程图，如图7所示，上述音频处理方法，包括：
90.步骤s602，经由音频采集端采集线上课堂的教学音频；
91.步骤s604，对上述教学音频进行滤波处理，得到处理结果，其中，上述滤波处理用于从上述教学音频中滤除部分音频信号分量，上述部分音频信号分量的频率低于预设阈值；
92.步骤s606，从上述处理结果中提取第一预设时长内的多个语音帧；
93.步骤s608，获取上述多个语音帧的能量变化量；
94.步骤s610，基于上述能量变化量确定上述教学音频是否为上述线上课堂的主讲人语音。
95.可选的，本技术实施例所提供的上述音频处理方法可以但不限于应用在远程教学应用场景，例如，音视频实时通信项目(如音视频传递课堂等)，通过采用本技术实施例中的音频处理方法，可以自动处理远程教学应用场景中，采用不同音视频设备的麦克风设备采集到的教学音频。
96.可选的，上述音频采集端即语音通信设备采集端，例如，可以为麦克风设备，该麦克风设备可以为应用或者设置在音视频产品中，在音视频产品的使用过程中，可以根据实际情况对麦克风设备采集到的教学音频进行音频处理，以确定该教学音频的类别。
97.可选的，上述滤波处理方式可以为带通滤波处理、高通滤波处理，以高通滤波处理方式为例，则可以采用高通滤波器对上述教学音频进行高通滤波处理，以实现从上述教学音频中滤除部分音频信号分量，该部分音频信号分量的频率低于预设阈值，其中，高通滤波处理对应的预设阈值的范围可以为4khz以上，在此范围内滤波处理的效果相比于带通滤波
处理的效果更佳，带通滤波处理对应的预设阈值的范围可以为3khz
‑
8khz。
98.在从上述教学音频中滤除部分音频信号分量之后，得到上述处理结果，可选的，该高通滤波器又称为高频滤波器，例如，非递归型滤波器、有限长单位冲激响应滤波器等；需要说明的是，滤波处理是为了获取教学音频中高频信号的能量，即通过高通滤波器设计使得教学音频的高频信号在通过的同时压制低频信号的能量，进而可以利用高频能量变化来区分前景音与背景音。
99.可选的，上述第一预设时长即为预设时间段，例如，3秒等，本技术实施例对此并不具体限定，以可以实现本技术实施例为准，在具体使用过程中，可以根据用户的实际需要对上述第一预设时长进行设置和更改。
100.可选的，可以但不限于采用采用语音活动检测方式从处理结果中提取上述第一预设时长内的多个语音帧；上述多个语音帧的能量变化量包括多个能量值的能量平均值和能量方差值。
101.可选的，上述教学音频的类别包括：前景声音和背景声音；以本技术实施例所提供的音频音量的调节方法应用在远程视频教学场景为例，本技术实施例中，基于前景声音(例如，主讲人语音)与背景声音在语音通信设备采集端的高频表现来实现自动区分教学音频中的前景声音与背景声音，即根据语音信号的传播原理，高频信号接近直线传播，不容易绕过障碍物，经过高通滤波器后的高频信号特性可作为判断采集到的语音信号是否为背景声音。
102.通过本技术实施例，即使在前景声音(即线上课堂的主讲人语音)很小或没有前景声音的情况下，在对音频采集端采集到的教学音频进行滤波处理得到处理结果之后，从处理结果之后提取第一预设时长内的多个语音帧，并获取多个语音帧的能量变化量，进而可以基于该能量变化量确定教学音频的类别，即可以区分教学音频是前景声音还是背景声音，在远端音视频场景中，不会造成远端用户听到更大的背景声音，影响用户体验的情况发生。
103.需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。
104.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例上述的方法。
105.实施例2
106.根据本发明实施例，还提供了一种用于实施上述音频处理方法的装置实施例，图8是根据本发明实施例的一种音频处理装置的结构示意图，如图8所示，上述音频处理装置，包括：第一获取模块600、滤波模块602、提取模块604、第二获取模块606、确定模块608，其
中，
107.第一获取模块600，用于获取音频采集端采集到的待处理音频；滤波模块602，用于对上述待处理音频进行滤波处理，得到处理结果，其中，上述滤波处理用于从上述待处理音频中滤除部分音频信号分量，上述部分音频信号分量的频率低于预设阈值；提取模块604，用于从上述处理结果中提取第一预设时长内的多个语音帧；第二获取模块606，用于获取上述多个语音帧的能量变化量；确定模块608，用于基于上述能量变化量确定上述待处理音频的类别。
108.容易注意到的是，通过本技术实施例，即使在前景声音很小或没有前景声音的情况下，在对音频采集端采集到的待处理音频进行高通滤波处理得到处理结果之后，从处理结果之后提取第一预设时长内的多个语音帧，并获取多个语音帧的能量变化量，进而可以基于该能量变化量确定待处理音频的类别，即可以区分待处理音频是前景声音还是背景声音，在远端音视频场景中，不会造成远端用户听到更大的背景声音，影响用户体验的情况发生。
109.由此，本技术实施例达到了快速准确区分前景声音和背景声音的目的，从而实现了提高音频分辨效率、提升用户体验的技术效果，进而解决了相关技术中音频系统无法分辨前景声音和背景声音造成的音频分辨效率低、用户体验差的技术问题。
110.此处需要说明的是，上述第一获取模块600、滤波模块602、提取模块604、第二获取模块606、确定模块608对应于实施例1中的步骤s202至步骤s210，五个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。
111.需要说明的是，本实施例的优选实施方式可以参见实施例1中的相关描述，此处不再赘述。
112.实施例3
113.根据本技术实施例，还提供了一种电子设备的实施例，该电子设备可以是计算设备群中的任意一个计算设备。该电子设备包括：处理器和存储器，其中：
114.处理器；以及存储器，与上述处理器连接，用于为上述处理器提供处理以下处理步骤的指令：获取音频采集端采集到的待处理音频；对上述待处理音频进行滤波处理，得到处理结果，其中，上述滤波处理用于从上述待处理音频中滤除部分音频信号分量，上述部分音频信号分量的频率低于预设阈值；从上述处理结果中提取第一预设时长内的多个语音帧；获取上述多个语音帧的能量变化量；基于上述能量变化量确定上述待处理音频的类别。
115.容易注意到的是，通过本技术实施例，即使在前景声音很小或没有前景声音的情况下，在对音频采集端采集到的待处理音频进行高通滤波处理得到处理结果之后，从处理结果之后提取第一预设时长内的多个语音帧，并获取多个语音帧的能量变化量，进而可以基于该能量变化量确定待处理音频的类别，即可以区分待处理音频是前景声音还是背景声音，在远端音视频场景中，不会造成远端用户听到更大的背景声音，影响用户体验的情况发生。
116.由此，本技术实施例达到了快速准确区分前景声音和背景声音的目的，从而实现了提高音频分辨效率、提升用户体验的技术效果，进而解决了相关技术中音频系统无法分辨前景声音和背景声音造成的音频分辨效率低、用户体验差的技术问题。
117.需要说明的是，本实施例的优选实施方式可以参见实施例1中的相关描述，此处不再赘述。
118.实施例4
119.根据本发明实施例，还提供了一种计算机终端的实施例，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。
120.可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。
121.在本实施例中，上述计算机终端可以执行应用程序的音频处理方法中以下步骤的程序代码：获取音频采集端采集到的待处理音频；对上述待处理音频进行滤波处理，得到处理结果，其中，上述滤波处理用于从上述待处理音频中滤除部分音频信号分量，上述部分音频信号分量的频率低于预设阈值；从上述处理结果中提取第一预设时长内的多个语音帧；获取上述多个语音帧的能量变化量；基于上述能量变化量确定上述待处理音频的类别。
122.可选地，图9是根据本技术实施例的另一种计算机终端的结构框图，如图9所示，该计算机终端可以包括：一个或多个(图中仅示出一个)处理器702、存储器704、以及外设接口706。
123.其中，存储器可用于存储软件程序以及模块，如本发明实施例中的音频处理方法和装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的音频处理方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
124.处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取音频采集端采集到的待处理音频；对上述待处理音频进行滤波处理，得到处理结果，其中，上述滤波处理用于从上述待处理音频中滤除部分音频信号分量，上述部分音频信号分量的频率低于预设阈值；从上述处理结果中提取第一预设时长内的多个语音帧；获取上述多个语音帧的能量变化量；基于上述能量变化量确定上述待处理音频的类别。
125.可选的，上述处理器还可以执行如下步骤的程序代码：对上述待处理音频进行高通滤波处理，得到上述处理结果包括：采用有限长单位冲激响应滤波器对上述待处理音频进行高通滤波处理，得到上述处理结果，其中，上述有限长单位冲激响应滤波器的滤波器阶数为大于或等于1的正整数。
126.可选的，上述处理器还可以执行如下步骤的程序代码：从上述处理结果中提取上述第一预设时长内的上述多个语音帧包括：获取第二预设时长，其中，上述第二预设时长为上述多个语音帧中每个语音帧对应的单位时长；基于上述第一预设时长和上述第二预设时长，采用语音活动检测方式从上述处理结果中提取上述多个语音帧。
127.可选的，上述处理器还可以执行如下步骤的程序代码：获取上述多个语音帧的上述能量变化量包括：获取上述多个语音帧中每个语音帧对应的能量值，得到多个能量值；计算上述多个能量值的能量平均值和能量方差值。
internet devices，mid)、pad等终端设备。图9其并不对上述电子设备的结构造成限定。例如，计算机终端还可包括比图9中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图9所示不同的配置。
137.本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(read
‑
only memory，rom)、随机存取器(random access memory，ram)、磁盘或光盘等。
138.实施例5
139.根据本发明实施例，还提供了一种计算机可读存储介质的实施例。可选地，在本实施例中，上述存储介质可以用于保存上述实施例1所提供的音频音量的调节方法所执行的程序代码。
140.可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。
141.可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：为上述处理器提供处理以下处理步骤的指令：获取音频采集端采集到的待处理音频；对上述待处理音频进行滤波处理，得到处理结果，其中，上述滤波处理用于从上述待处理音频中滤除部分音频信号分量，上述部分音频信号分量的频率低于预设阈值；从上述处理结果中提取第一预设时长内的多个语音帧；获取上述多个语音帧的能量变化量；基于上述能量变化量确定上述待处理音频的类别。
142.可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：对上述待处理音频进行高通滤波处理，得到上述处理结果包括：采用有限长单位冲激响应滤波器对上述待处理音频进行高通滤波处理，得到上述处理结果，其中，上述有限长单位冲激响应滤波器的滤波器阶数为大于或等于1的正整数。
143.可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：从上述处理结果中提取上述第一预设时长内的上述多个语音帧包括：获取第二预设时长，其中，上述第二预设时长为上述多个语音帧中每个语音帧对应的单位时长；基于上述第一预设时长和上述第二预设时长，采用语音活动检测方式从上述处理结果中提取上述多个语音帧。
144.可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取上述多个语音帧的上述能量变化量包括：获取上述多个语音帧中每个语音帧对应的能量值，得到多个能量值；计算上述多个能量值的能量平均值和能量方差值。
145.可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：基于上述能量变化量确定上述待处理音频的类别包括：基于上述能量平均值与第一阈值的比较结果以及上述能量方差值与第二阈值的比较结果，确定上述待处理音频的类别。
146.可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：基于上述能量平均值与上述第一阈值的比较结果以及上述能量方差值与上述第二阈值的比较结果，确定上述待处理音频的类别包括：当上述能量平均值小于上述第一阈值且上述能量方差值小于上述第二阈值时，确定上述待处理音频为背景声音。
147.可选的，上述处理器还可以执行如下步骤的程序代码：基于上述能量平均值与上
述第一阈值的比较结果以及上述能量方差值与上述第二阈值的比较结果，确定上述待处理音频的类别包括：当上述能量平均值大于或等于上述第一阈值且上述能量方差值大于或等于上述第二阈值时，确定上述待处理音频为前景声音。
148.可选的，上述处理器还可以执行如下步骤的程序代码：经由音频采集端采集线上会议的会议音频；对上述会议音频进行滤波处理，得到处理结果，其中，上述滤波处理用于从上述会议音频中滤除部分音频信号分量，上述部分音频信号分量的频率低于预设阈值；从上述处理结果中提取第一预设时长内的多个语音帧；获取上述多个语音帧的能量变化量；基于上述能量变化量确定上述会议音频是否为上述线上会议的主讲人语音。
149.可选的，上述处理器还可以执行如下步骤的程序代码：经由音频采集端采集线上课堂的教学音频；对上述教学音频进行滤波处理，得到处理结果，其中，上述滤波处理用于从上述教学音频中滤除部分音频信号分量，上述部分音频信号分量的频率低于预设阈值；从上述处理结果中提取第一预设时长内的多个语音帧；获取上述多个语音帧的能量变化量；基于上述能量变化量确定上述教学音频是否为上述线上课堂的主讲人语音。
150.上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。
151.在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。
152.在本技术所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。
153.上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
154.另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
155.所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、只读存储器(rom，read
‑
only memory)、随机存取存储器(ram，random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
156.以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应
视为本发明的保护范围。