语音处理方法和电子设备与流程

1.本技术涉及语音处理领域，尤其涉及一种语音处理方法和电子设备。

背景技术：

2.手机、平板、pc等具有录音功能的产品，随着当前办公及使用场景多样化，其录音需求也随之增加，产品录音功能的好坏也影响着用户对产品的评价，其中去混响效果就是其指标之一。
3.现有技术中，一种去混响优化方案是自适应滤波器方案，该方案在去除人声混响的同时，会对平稳底噪造成频谱破坏，进而影响底噪的平稳性，造成去混响后的语音有不平稳的情况。

技术实现要素：

4.本技术提供了一种语音处理方法和电子设备，电子设备可以处理语音信号得到不损伤底噪的融合频域信号，以有效确保经过语音处理后的语音信号的底噪平稳。
5.第一方面，本技术提供了一种语音处理方法，应用于电子设备，电子设备包括n个麦克风，n大于或等于二，该方法包括:对n个麦克风所拾取的语音信号进行傅里叶变换以得到对应的n路第一频域信号s，每路第一频域信号s具有m个频点，m为进行傅里叶变换时所采用的变换点数；对n路第一频域信号s进行去混响处理，得到n路第二频域信号s
e
；以及，对n路第一频域信号s进行降噪处理，得到n路第三频域信号s
s
；确定第一频域信号s
i
对应的第二频域信号s
ei
的m个频点对应的第一语音特征，以及第一频域信号s
i
对应的第三频域信号s
si
的m个频点对应的第二语音特征，并根据第一语音特征、第二语音特征、第二频域信号s
ei
、第三频域信号s
si
得到第一频域信号s
i
对应的m个目标幅度值，其中i＝1,2，
……
n，第一语音特征用于表征第二频域信号s
ei
的去混响程度，第二语音特征用于表征第三频域信号s
si
的降噪程度；根据m个目标幅度值确定第一频域信号s
i
对应的融合频域信号。
6.实施第一方面的方法，电子设备先对第一频域信号进行去混响处理得到第二频域信号，以及对第一频域信号进行降噪处理得到第三频域信号，再根据第二频域信号的第一语音特征和第三频域信号的第二语音特征，对归属于同一路第一频域信号的第二频域信号和第三频域信号进行融合处理以得到融合频域信号，其中，该融合频域信号不损伤底噪，可以有效确保经过语音处理后的语音信号的底噪平稳。
7.结合第一方面，在一种实施方式中，根据第一语音特征、第二语音特征、第二频域信号s
ei
、第三频域信号s
si
得到第一频域信号s
i
对应的m个目标幅度值，具体包括：确定m个频点中的频点a
i
对应的第一语音特征和第二语音特征满足第一预设条件时，将第二频域信号s
ei
中频点a
i
对应的第一幅度值确定为频点a
i
对应的目标幅度值；或者，根据第一幅度值和第三频域信号s
si
中频点a
i
对应的第二幅度值确定频点a
i
对应的目标幅度值；其中i＝1,2，
……
m；确定频点a
i
对应的第一语音特征和第二语音特征不满足第一预设条件时，将第二幅度值确定为频点a
i
对应的目标幅度值。
8.在上述实施例中，利用第一预设条件进行融合判断，以根据第二频域信号s
ei
中频点a
i
对应的第一幅度值和第三频域信号s
si
中频点a
i
对应的第二幅度值确定频点a
i
对应的目标幅度值。当频点a
i
满足第一预设条件时，可以将第一幅度值确定为频点a
i
对应的目标幅度值，或者，根据第一幅度值和第二幅度值确定频点a
i
对应的目标幅度值。而当频点a
i
不满足第一预设条件时，可以将第二幅度值确定为频点a
i
对应的目标幅度值。
9.结合第一方面，在一种实施方式中，根据第一幅度值和第三频域信号s
si
中频点a
i
对应的第二幅度值确定频点a
i
对应的目标幅度值，具体包括：根据频点a
i
对应的第一幅度值及对应的第一权重确定第一加权幅度值；根据频点a
i
对应的第二幅度值及对应的第二权重确定第二加权幅度值；将第一加权幅度值和第二加权幅度值之和确定为频点a
i
对应的目标幅度值。
10.在上述实施例中，利用加权运算原理，根据第一幅度值和第二幅度值得到频点a
i
对应的目标幅度值，既可以实现去混响，又能保障底噪平稳。
11.结合第一方面，在一种实施方式中，第一语音特征包括第一双麦相关系数和第一频点能量值，第二语音特征包括第二双麦相关系数和第二频点能量值；第一双麦相关系数用于表征第二频域信号s
ei
和第二频域信号s
et
在相对应频点上的信号相关程度，第二频域信号s
et
为n路第二频域信号s
e
中除第二频域信号s
ei
之外的任意一路第二频域信号s
e
；第二双麦相关系数用于表征第三频域信号s
si
和第三频域信号s
st
在相对应频点上的信号相关程度，第三频域信号s
st
为n路第三频域信号s
s
中与第二频域信号s
et
对应同一个第一频域信号的第三频域信号s
s
。进一步地，第一预设条件包括频点a
i
的第一双麦相关系数和第二双麦相关系数满足第二预设条件，且频点a
i
的第一频点能量值和第二频点能量值满足第三预设条件。
12.在上述实施例中，第一预设条件包括关于双麦相关系数的第二预设条件和关于频点能量值的第三预设条件，利用双麦相关系数和频点能量值进行融合判断，使得第二频域信号和第三频域信号融合更加准确。
13.结合第一方面，在一种实施方式中，第二预设条件为频点a
i
的第一双麦相关系数减去第二双麦相关系数的第一差值大于第一阈值；第三预设条件为频点a
i
的第一频点能量值减去第二频点能量值的第二差值小于第二阈值。
14.在上述实施例中，当频点a
i
满足第二预设条件时，可以认为去混响效果明显，去混响后人声成分比降噪成分大到了一定程度。而当频点a
i
满足第三预设条件时，认为去混响后的能量比降噪后的能量小到了一定程度，认为去混响后的第二频域信号去除了更多的无用信号。
15.结合第一方面，在一种实施方式中，去混响处理的方法包括基于相干扩散功率比的去混响方法或基于加权预测误差的去混响方法。
16.在上述实施例中，提供了两种去混响的方法，可以有效去除第一频域信号中的混响信号。
17.结合第一方面，在一种实施方式中，方法还包括：对融合频域信号进行傅里叶逆变换得到融合语音信号。
18.结合第一方面，在一种实施方式中，对语音信号进行傅里叶变换之前，方法还包括：显示拍摄界面，拍摄界面包括第一控件；检测到对第一控件的第一操作；响应于第一操
作，电子设备进行视频拍摄得到包含语音信号的视频。
19.在上述实施例中，在获得语音信号方面，电子设备可以是通过录制视频来得到该语音信号。
20.结合第一方面，在一种实施方式中，对语音信号进行傅里叶变换之前，方法还包括：显示录音界面，录音界面包括第二控件；检测到对第二控件的第二操作；响应于第二操作，电子设备进行录音得到语音信号。
21.在上述实施例中，在获得语音信号方面，电子设备也可以是通过录音来得到该语音信号。
22.第二方面，本技术提供了一种电子设备，该电子设备包括一个或多个处理器和一个或多个存储器；其中，所述一个或多个存储器与所述一个或多个处理器耦合，所述一个或多个存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，当所述一个或多个处理器执行所述计算机指令时，使得所述电子设备执行如第一方面或第一方面的任意一种实施方式所述的方法。
23.第三方面，本技术提供了一种芯片系统，所述芯片系统应用于电子设备，所述芯片系统包括一个或多个处理器，所述处理器用于调用计算机指令以使得所述电子设备执行如第一方面或第一方面的任意一种实施方式所述的方法。
24.第四方面，本技术提供了一种计算机可读存储介质，包括指令，当所述指令在电子设备上运行时，使得所述电子设备执行如第一方面或第一方面的任意一种实施方式所述的方法。
25.第五方面，本技术实施例提供了一种包含指令的计算机程序产品，当该计算机程序产品在电子设备上运行时，使得该电子设备执行如第一方面或第一方面的任意一种实施方式所描述的方法。
附图说明
26.图1是本技术实施例提供的电子设备的结构示意图；
27.图2是本技术实施例提供的语音处理方法的流程图；
28.图3是本技术实施例提供的语音处理方法的具体流程图；
29.图4是本技术实施例提供的录制视频的场景示意图；
30.图5是本技术实施例中语音处理方法的一个示例性流程示意图；
31.图6a、图6b、图6c是本技术实施例提供的语音处理方法的效果对比示意图。
具体实施方式
32.本技术以下实施例中所使用的术语只是为了描述特定实施例的目的，而并非旨在作为对本技术的限制。如在本技术的说明书和所附权利要求书中所使用的那样，单数表达形式“一个”、“一种”、“所述”、“上述”、“该”和“这一”旨在也包括复数表达形式，除非其上下文中明确地有相反指示。还应当理解，本技术中使用的术语“和/或”是指并包含一个或多个所列出项目的任何或所有可能组合。
33.以下，术语“第一”、“第二”仅用于描述目的，而不能理解为暗示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者
隐含地包括一个或者更多个该特征，在本技术实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。
34.由于本技术实施例涉及语音处理方法，为了便于理解，下面先对本技术实施例涉及的相关术语及概念进行介绍。
35.(1)混响
36.声波在室内传播时，要被墙壁、天花板、地板等障碍物反射，每反射一次都要被障碍物吸收一些。这样，当声源停止发声后，声波在室内要经过多次反射和吸收，最后才消失，我们就感觉到声源停止发声后还有若干个声波混合持续一段时间(室内声源停止发声后仍然存在的声延续现象)。这种现象叫做混响，这段时间叫做混响时间。
37.(2)底噪
38.背景噪声，一译“本底噪声”。一般指在发生、检查、测量或记录系统中与信号存在与否无关的一切干扰。但在工业噪声或环境噪声测量中则是指被测噪声源以外的周围环境噪声。如对在工厂附近的街道测量噪声来说，若要测量的是交通噪声，则工厂噪声便是背景噪声。若测量的目的在于测定工厂噪声，交通噪声便成为背景噪声。
39.(3)wpe
40.基于加权预测误差(weighted prediction error，wpe)的去混响方法的主要思路是首先估计信号的混响尾部，然后再从观测信号中减去混响尾部，得到对弱混响信号的极大似然意义下的最优估计，以实现去混响。
41.(4)cdr
42.基于相干扩散功率比(coherent
‑
to
‑
diffuse power ratio，cdr)的去混响方法的主要思路是对语音信号进行基于相干性的去混响处理。
43.下面结合上述术语，对一些实施例中，电子设备的语音处理方法以及本技术实施例中涉及的语音处理方法进行介绍。
44.现有技术中，由于使用的去混响技术(如滤波器滤波等)会滤除部分的底噪，导致去混响之后的语音底噪不平稳，影响去混响之后的语音在听觉上的舒适性。
45.由此，本技术实施例提供一种语音处理方法，其先对语音信号对应的第一频域信号进行去混响处理得到第二频域信号，以及对第一频域信号进行降噪处理得到第三频域信号，再根据第二频域信号的第一语音特征和第三频域信号的第二语音特征，对归属于同一路第一频域信号的第二频域信号和第三频域信号进行融合处理以得到融合频域信号，其中，由于该融合频域信号不损伤底噪，可以有效确保经过上述处理后的语音信号的底噪平稳，保障处理后的语音在听觉上的舒适性。
46.下面首先介绍本技术实施例提供的示例性电子设备。
47.图1是本技术实施例提供的电子设备的结构示意图。
48.下面以电子设备为例对实施例进行具体说明。应该理解的是，电子设备可以具有比图1中所示的更多的或者更少的部件，可以组合两个或多个的部件，或者可以具有不同的部件配置。图1中所示出的各种部件可以在包括一个或多个信号处理和/或专用集成电路在内的硬件、软件、或硬件和软件的组合中实现。
49.电子设备可以包括：处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，usb)接口130，充电管理模块140，电源管理模块141，电池142，
天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170a，受话器170b，麦克风170c，耳机接口170d，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194以及用户标识模块(subscriber identification module，sim)卡接口195等。其中传感器模块180可以包括压力传感器180a，陀螺仪传感器180b，气压传感器180c，磁传感器180d，加速度传感器180e，距离传感器180f，接近光传感器180g，指纹传感器180h，温度传感器180j，触摸传感器180k，环境光传感器180l，骨传导传感器180m，多光谱传感器(未示出)等。
50.处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，ap)，调制解调处理器，图形处理器(graphics processing unit，gpu)，图像信号处理器(image signal processor，isp)，控制器，存储器，视频编解码器，数字信号处理器(digital signal processor，dsp)，基带处理器，和/或神经网络处理器(neural
‑
network processing unit，npu)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。
51.其中，控制器可以是电子设备的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。
52.处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。
53.在一些实施例中，处理器110可以包括一个或多个接口。接口可以包括集成电路(inter
‑
integrated circuit，i2c)接口，集成电路内置音频(inter
‑
integrated circuit sound，i2s)接口，脉冲编码调制(pulse code modulation，pcm)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，uart)接口，移动产业处理器接口(mobile industry processor interface，mipi)，通用输入输出(general
‑
purpose input/output，gpio)接口，用户标识模块(subscriber identity module，sim)接口，和/或通用串行总线(universal serial bus，usb)接口等。
54.i2c接口是一种双向同步串行总线，包括一根串行数据线(serial data line，sda)和一根串行时钟线(derail clock line，scl)。
55.i2s接口可以用于音频通信。
56.pcm接口也可以用于音频通信，将模拟信号抽样，量化和编码。
57.uart接口是一种通用串行数据总线，用于异步通信。该总线可以为双向通信总线。它将要传输的数据在串行通信与并行通信之间转换。
58.mipi接口可以被用于连接处理器110与显示屏194，摄像头193等外围器件。mipi接口包括摄像头串行接口(camera serial interface，csi)，显示屏串行接口(display serial interface，dsi)等。
59.gpio接口可以通过软件配置。gpio接口可以被配置为控制信号，也可被配置为数据信号。
60.sim接口可以被用于与sim卡接口195通信，实现传送数据到sim卡或读取sim卡中数据的功能。
emitting diodes，qled)等。在一些实施例中，电子设备可以包括1个或n个显示屏194，n为大于1的正整数。
73.电子设备可以通过isp，摄像头193，视频编解码器，gpu，显示屏194以及应用处理器等实现拍摄功能。
74.isp用于处理摄像头193反馈的数据。例如，拍照时，打开快门，光信号通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将所述电信号传递给isp处理，转化为肉眼可见的图像。isp还可以对图像的噪点，亮度，肤色进行算法优化。isp还可以对拍摄场景的曝光，色温等参数优化。在一些实施例中，isp可以设置在摄像头193中。该感光元件又可被称为图像传感器。
75.摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，ccd)或互补金属氧化物半导体(complementary metal
‑
oxide
‑
semiconductor，cmos)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给isp转换成数字图像信号。isp将数字图像信号输出到dsp加工处理。dsp将数字图像信号转换成标准的rgb，yuv等格式的图像信号。在一些实施例中，电子设备可以包括1个或n个摄像头193，n为大于1的正整数。
76.数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。例如，当电子设备在处理语音信号时，数字信号处理器用于对语音信号进行傅里叶变换等。
77.视频编解码器用于对数字视频压缩或解压缩。电子设备可以支持一种或多种视频编解码器。这样，电子设备可以播放或录制多种编码格式的视频，例如：动态图像专家组(moving picture experts group，mpeg)1，mpeg2，mpeg3，mpeg4等。
78.npu为神经网络(neural
‑
network，nn)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过npu可以实现电子设备的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。
79.外部存储器接口120可以用于连接外部存储卡，例如micro sd卡，实现扩展电子设备的存储能力。
80.内部存储器121可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令，从而执行电子设备的各种功能应用以及数据处理。内部存储器121可以包括存储程序区和存储数据区。
81.电子设备可以通过音频模块170，扬声器170a，受话器170b，麦克风170c，耳机接口170d，以及应用处理器等实现音频功能。例如音乐播放，录音等。本实施例中，电子设备可以包括n个麦克风170c，n为大于或等于2的正整数。
82.音频模块170用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。
83.环境光传感器180l用于感知环境光亮度。电子设备可以根据感知的环境光亮度自适应调节显示屏194亮度。环境光传感器180l也可用于拍照时自动调节白平衡。
84.马达191可以产生振动提示。马达191可以用于来电振动提示，也可以用于触摸振动反馈。例如，作用于不同应用(例如拍照，音频播放等)的触摸操作，可以对应不同的振动反馈效果。
85.本技术实施例中，该处理器110可以调用内部存储器121中存储的计算机指令，以使得电子设备执行本技术实施例中的语音处理方法。
86.下面结合上述示例性电子设备的硬件结构示意图，对本技术实施例中的语音处理方法进行具体描述，参考图2和图3，图2是本技术实施例提供的语音处理方法的流程图，图3是本技术实施例提供的语音处理方法的具体流程图；语音处理方法包括以下步骤：
87.201、电子设备对n个麦克风所拾取的语音信号进行傅里叶变换以得到对应的n路第一频域信号s，每路第一频域信号s具有m个频点，m为进行傅里叶变换时所采用的变换点数。
88.具体地，傅里叶变换能将满足一定条件的某个函数表示成三角函数(正弦和/或余弦函数)或者它们的积分的线性组合。而时域分析与频域分析是对信号的两个观察面。时域分析是以时间轴为坐标表示动态信号的关系；频域分析是把信号变为以频率轴为坐标表示出来。一般来说，时域的表示较为形象与直观，而频域分析则更为简练，剖析问题更为深刻和方便。因此，本实施例中，为了便于对语音信号进行处理分析，对麦克风拾取得到的语音信号进行时频域转换，即傅里叶变换；其中，进行傅里叶变换时所采用的变换点数为m，则傅里叶变换后得到的第一频域信号s具有m个频点。m的取值为正整数，具体的取值可以根据实际情况进行设置，例如，将m设置为2
x
，x大于等于1，如m为256、1024或2048等。
89.202、电子设备对n路第一频域信号s进行去混响处理，得到n路第二频域信号s
e
；以及，对n路第一频域信号s进行降噪处理，得到n路第三频域信号s
s
。
90.具体地，利用去混响方法对n路第一频域信号s进行去混响处理，减少第一频域信号s中的混响信号，以得到对应的n路第二频域信号s
e
，其中，每路第二频域信号s
e
具有m个频点。另外，利用降噪方法对n路第一频域信号s进行降噪处理，减少第一频域信号s中的噪声，以得到对应的n路第三频域信号s
s
，其中，每路第三频域信号s
s
具有m个频点。
91.203、电子设备确定第一频域信号s
i
对应的第二频域信号s
ei
的m个频点对应的第一语音特征，以及第一频域信号s
i
对应的第三频域信号s
si
的m个频点对应的第二语音特征，并根据第一语音特征、第二语音特征、第二频域信号s
ei
、第三频域信号s
si
得到第一频域信号s
i
对应的m个目标幅度值，其中i＝1,2，
……
n，第一语音特征用于表征第二频域信号s
ei
的去混响程度，第二语音特征用于表征第三频域信号s
si
的降噪程度。
92.具体地，对于每一路第一频域信号s对应的第二频域信号s
e
和第三频域信号s
s
，均进行步骤203的处理，则可以得到n路第一频域信号s对应的m个目标幅度值，即可以得到n组目标幅度值，一组目标幅度值包括m个目标幅度值。
93.204、根据m个目标幅度值确定第一频域信号s
i
对应的融合频域信号。
94.具体地，根据一组目标幅度值可以确定一路第一频域信号s对应的融合频域信号，则n路第一频域信号s可以得到对应的n个融合频域信号。其中，可以将m个目标幅度值进行拼接可以一个融合频域信号。
95.利用图1的语音处理方法，电子设备根据第二频域信号的第一语音特征和第三频域信号的第二语音特征，对归属于同一路第一频域信号的第二频域信号和第三频域信号进行融合处理以得到融合频域信号，可以有效确保经过上述处理后的语音信号的底噪平稳，进而有效确保经过语音处理后的语音信号的底噪平稳，保障处理后的语音信号在听觉上的舒适性。
96.在一个可能的实施例中，参考图2，步骤203中，根据第一语音特征、第二语音特征、第二频域信号s
ei
、第三频域信号s
si
得到第一频域信号s
i
对应的m个目标幅度值，具体包括：
97.确定m个频点中的频点a
i
对应的第一语音特征和第二语音特征满足第一预设条件时，表明去混响效果较好，此时，可以将第二频域信号s
ei
中频点a
i
对应的第一幅度值确定为频点a
i
对应的目标幅度值；或者，根据第一幅度值和第三频域信号s
si
中频点a
i
对应的第二幅度值确定频点a
i
对应的目标幅度值；其中i＝1,2，
……
m。
98.而确定频点a
i
对应的第一语音特征和第二语音特征不满足第一预设条件时，表明此时去混响效果不佳，可以直接将第二幅度值确定为频点a
i
对应的目标幅度值。
99.在一个可能的实施例中，参考图2，本实施例中，语音处理方法还包括：
100.电子设备对融合频域信号进行傅里叶逆变换得到融合语音信号。
101.具体地，电子设备利用图1的方法可以处理得到n路融合频域信号，接着，电子设备可以对n路融合频域信号进行时频域逆变换，即傅里叶逆变换，以得到对应的n路融合语音信号。可选地，电子设备还可以接着对n路融合语音信号进行其他处理，例如语音识别等处理。另外，可选地，电子设备也可以是处理n路融合语音信号得到双声道信号进行输出，例如，可以利用扬声器播放该双声道信号。
102.值得注意的是，本技术所指的语音信号可以是电子设备进行录音得到的语音信号，也可以是指电子设备进行视频录制得到的视频中所包含的语音信号。
103.在一个可能的实施例中，对语音信号进行傅里叶变换之前，方法还包括：
104.a1、电子设备显示拍摄界面，拍摄界面包括第一控件。其中，第一控件为控制视频录制过程的控件，通过操作第一控件，可以控制开始录制视频和停止录制视频，例如，通过点击第一控件，可以控制电子设备开始录制视频，再次点击第一控件时，可以控制电子设备停止录制视频。又或者，通过长按第一控件，可以控制电子设备开始进行视频录制，松开第一控件时，则停止视频录制。当然，操作第一控件以控制视频开始和结束录制的操作不限于上述提供的示例。
105.a2、电子设备检测到对第一控件的第一操作。本实施例中，第一操作为控制电子设备开始录制视频的操作，可以为上述点击第一控件或者长按第一控件的操作。
106.a3、电子设备响应于第一操作，电子设备进行图像拍摄得到包含语音信号的视频。电子设备响应于第一操作进行视频录制(也即连续图像拍摄)得到录制的视频，其中，录制的视频包括图像和语音。电子设备可以在每录制得到一段时间的视频的时候，即利用本实施例的语音处理方法对视频中的语音信号进行处理，实现一边录制视频一边处理语音信号，减少语音信号的处理等待时间。或者，电子设备也可以在视频录制完成后，再用本实施例的语音处理方法对视频中的语音信号进行处理。
107.参考图4，图4是本技术实施例提供的录制视频的场景示意图；其中，用户可以在办公室401中，手持电子设备403(例如手机)进行视频录制。其中，教师402正在给学生授课，当电子设备403打开相机应用，显示预览界面，用户在用户界面上选择了视频录制功能，进入视频录制界面，视频录制界面显示有第一控件404，用户可以通过操作第一控件404以控制电子设备403开始录制视频，本实施例中，在视频录制过程中，电子设备可以利用本技术实施例中的语音处理方法对录制得到的视频中的语音信号进行处理。
108.在一个可能的实施例中，对语音信号进行傅里叶变换之前，方法还包括：
109.b1、电子设备显示录音界面，录音界面包括第二控件。其中，第二为控制录音过程的控件，通过操作第二控件，可以控制开始录音和停止录音，例如，通过点击第二控件，可以控制电子设备开始录音，再次点击第二控件时，可以控制电子设备停止录音。又或者，通过长按第二控件，可以控制电子设备开始进行录音，松开第二控件时，则停止录音。当然，操作第二控件以控制开始录音和结束录音的操作不限于上述提供的示例。
110.b2、电子设备检测到对第二控件的第二操作。本实施例中，第一操作为控制电子设备开始录音的操作，可以为上述点击第二控件或者长按第二控件的操作。
111.b3、电子设备响应于第二操作，电子设备进行录音得到语音信号。其中，电子设备可以在每录制得到一段时间的语音的时候，即利用本实施例的语音处理方法对该语音信号进行处理，实现一边录音一边处理语音信号，减少语音信号的处理等待时间。或者，电子设备也可以在完成录音后，再用本实施例的语音处理方法对录制的语音信号进行处理。
112.在一个可能的实施例中，步骤201中的傅里叶变换具体可以包括短时傅里叶变换(short
‑
time fourier transform，stft)或快速傅里叶变换(fast fourier transform,fft)。短时傅里叶变换的思想是：选择一个时频局部化的窗函数，假定分析窗函数g(t)在一个短时间间隔内是平稳(伪平稳)的，移动窗函数，使f(t)g(t)在不同的有限时间宽度内是平稳信号，从而计算出各个不同时刻的功率谱。
113.而快速傅里叶变换的基本思想是把原始的n点序列，依次分解成一系列的短序列。其充分利用离散傅里叶变换(discrete fourier transform，dft)计算式中指数因子所具有的对称性质和周期性质，进而求出这些短序列相应的dft并进行适当组合，达到删除重复计算，减少乘法运算和简化结构的目的。因此，快速傅里叶变换的处理速度比短时傅里叶变换快，本实施例中，优先选择快速傅里叶变换对语音信号进行傅里叶变换，以得到第一频域信号。
114.在一个可能的实施例中，步骤202中去混响处理的方法可以包括基于cdr的去混响方法或基于wpe的去混响方法。
115.在一个可能的实施例中，步骤202中降噪处理的方法可以包括双麦降噪或多麦降噪。其中，当电子设备具有两个麦克风时，可以利用双麦降噪技术对两个麦克风对应的第一频域信号进行降噪处理。而当电子设备具有三个以上的麦克风时，有两种降噪处理方案，第一种，可以利用多麦降噪技术同时对三个以上的麦克风的第一频域信号进行降噪处理。
116.第二种，可以对三个以上的麦克风的第一频域信号以组合的方式进行双麦降噪处理，其中，以麦克风a、麦克风b、麦克风c三个麦克风为例：可以对麦克风a和麦克风b对应的第一频域信号进行双麦降噪，得到麦克风a和麦克风b对应的第三频域信号a1。再对麦克风a和麦克风c对应的第一频域信号进行双麦降噪，得到麦克风c对应的第三频域信号。此时，可以再次得到一个麦克风a对应的第三频域信号a2，可以忽略该第三频域信号a2，将第三频域信号a1作为麦克风a的第三频域信号；也可以是忽略第三频域信号a1，将第三频域信号a2作为麦克风a的第三频域信号；还可以是为a1和a2赋予不同的权重，再根据第三频域信号a1和第三频域信号a2进行加权运算得到麦克风a最终的第三频域信号。
117.可选地，也可以是对麦克风b和麦克风c对应的第一频域信号进行双麦降噪处理，以得到麦克风c对应的第三频域信号。而麦克风b的第三频域信号的确定方法可以参考上述麦克风a的第三频域信号的确定方法，不做赘述。这样，可以利用双麦降噪技术对三个麦克
风对应的第一频域信号进行降噪处理，得到三个麦克风对应的第三频域信号。
118.其中，双麦克风降噪技术是大规模应用的最普遍的降噪技术，一个麦克风为普通的用户通话时使用的麦克风，用于收集人声，而另一个配置在机身顶端的麦克风，具备背景噪声采集功能，方便采集周围环境噪音。以手机为例，假设手机设有a、b两个性能相同的电容式麦克风，其中a是主话筒，用于拾取通话的语音，话筒b是背景声拾音话筒，它通常安装在手机话筒的背面，并且远离a话筒，两个话筒在内部有主板隔离。正常语音通话时，嘴巴靠近话筒a，它产生较大的音频信号va，与此同时，话筒b多多少少也会得到一些语音信号vb，但它要比a小得多，这两个信号输入话筒处理器，其输入端是个差分放大器，也就是把两路信号相减后再放大，于是得到的信号是vm＝va
‑
vb。如果在使用环境中有背景噪音，因为音源是远离手机的，所以到达手机的两个话筒时声波的强度几乎是一样的，也就是va≈vb，于是对于背景噪音，两个话筒虽然是都拾取了，但vm＝va
‑
vb≈0从上面的分析可以看出，这样的设计可以有效地抵御手机周边的环境噪声干扰，大大提高正常通话的清晰度，即实现降噪。
119.进一步地，双麦降噪方案可以包括双卡尔曼滤波方案或其他降噪方案。卡尔曼滤波方案的主要思想是通过对主麦频域信号s1和副麦频域信号s2进行分析，如取副麦频域信号s1为参考信号，通过卡尔曼滤波器的不断迭代优化来滤除主麦频域信号s2中的噪声信号，从而可以得到干净的语音信号。
120.在一个可能的实施例中，第一语音特征包括第一双麦相关系数和第一频点能量，和/或，第二语音特征包括第二双麦相关系数和第二频点能量。
121.其中，第一双麦相关系数用于表征第二频域信号s
ei
和第二频域信号s
et
在相对应频点上的信号相关程度，第二频域信号s
et
为n路第二频域信号s
e
中除第二频域信号s
ei
之外的任意一路第二频域信号s
e
；第二双麦相关系数用于表征第三频域信号s
si
和第三频域信号s
st
在相对应频点上的信号相关程度，第三频域信号s
st
为n路第三频域信号s
s
中与第二频域信号s
et
对应同一个第一频域信号的第三频域信号s
s
。而频点的第一频点能量是指第二频域信号上的频点的幅度的平方值，频点的第二频点能量是指第三频域信号上的频点的幅度的平方值。由于第二频域信号和第三频域信号均具有m个频点，则对于每路第二频域信号来说，可以得到m个第一双麦相关系数和m个第一频点能量；对于每路第三频域信号来说，可以得到m个第二双麦相关系数和m个第二频点能量。
122.进一步地，可以将n路第二频域信号s
e
中除第二频域信号s
ei
之外的第二频域信号中，麦克风位置最接近第二频域信号s
ei
的麦克风的第二频域信号作为第二频域信号s
et
。
123.特别地，相关系数是研究变量之间线性相关程度的量，一般用字母γ表示。本技术实施例中，第一双麦相关系数和第二双麦相关系数均表征两个麦克风对应的频域信号之间的相似性。如果两个麦克风的频域信号的双麦相关系数越大，表明两个麦克风的信号互相关性越大，其语音的成分越高。
124.进一步地，第一双麦相关系数的计算公式为：
[0125][0126]
式中，γ
12
(t，f)表示第二频域信号s
ei
和第二频域信号s
et
在相对应的频点的相关
性，φ
12
(t，f)表示该频点上第二频域信号s
ei
和第二频域信号s
et
之间的互功率谱，φ
11
(t，f)表示该频点上第二频域信号s
ei
的自功率谱，φ
22
(t，f)表示该频点上第二频域信号s
et
的自功率谱。
[0127]
其中，求解φ
12
(t，f)、φ
11
(t，f)、φ
22
(t，f)的公式分别为：
[0128][0129][0130][0131]
上述三个式子中，e{}为期望，x1{t，f}＝a(t,f)*cos(w)+j*a(,f)*sin()，其表示第二频域信号s
ei
中该频点的复数域，其表示该频点对应的频域信号的幅度与相位信息；其中，a(t，f)表示第二频域信号s
ei
中该频点对应的声音的能量。x2{t，f}＝a
′
(t,f)*cos(w)+j*a
′
(,f)*sin()，其表示第二频域信号s
et
中该频点的复数域，其表示该频点对应的频域信号的幅度与相位信息；其中，a
′
(t，f)表示第二频域信号s
et
中该频点对应的声音的能量。
[0132]
另外，第二双麦相关系数的计算公式与第一双麦相关系数相似，不再赘述。
[0133]
在一个可能的实施例中，第一预设条件包括频点a
i
的第一双麦相关系数和第二双麦相关系数满足第二预设条件，且频点a
i
的第一频点能量和第二频点能量满足第三预设条件。
[0134]
其中，当频点a
i
同时满足第二预设条件和第三预设条件时，认为去混响效果比较好，表明第二频域信号去除了更多的无用信号，第二频域信号剩余的信号中人声成分占比也较大，此时，选用第二频域信号s
ei
中频点a
i
对应的第一幅度值作为频点a
i
对应的目标幅度值。或者，将第二频域信号s
ei
中频点a
i
对应的第一幅度值和第三频域信号s
si
中频点a
i
对应的第二幅度值进行平滑融合，以得到频点a
i
对应的目标幅度值，实现用降噪的优点去除掉去混响时对平稳噪声的负面影响，以保证融合后的频域信号不会破坏底噪，保障处理后的语音信号的听觉舒适性。进一步地，平滑融合具体包括：
[0135]
根据第二频域信号s
ei
中对应频点a
i
的第一幅度值及对应的第一权重q1得到第一加权幅度值，以及根据第三频域信号s
si
中对应频点a
i
的第二幅度值及对应的第二权重q2得到第二加权值，将第一加权幅度值和第二加权幅度值之和确定为频点a
i
对应的目标幅度值，频点a
i
对应的目标幅度值s
ri
＝q1*s
ei
+q2*s
si
。其中，第一权重q1和第二权重q2之和为一，可以根据实际情况设置第一权重q1和第二权重q2的具体数值，例如，第一权重q1为0.5，第二权重q2为0.5；或者，第一权重q1为0.6，第二权重q2为0.3，或者，第一权重为0.7，第二权重q2为0.3。
[0136]
而如果频点a
i
不满足第二预设条件，或者，频点a
i
不满足第三预设条件，或者，频点a
i
不满足第二预设条件和第三预设条件，此时，表明去混响的效果不佳，则将第三频域信号s
si
中频点a
i
对应的第二幅度值确定为频点a
i
对应的目标幅度值，避免去混响的负面效果引入，保障处理后的语音信号的底噪的舒适性。
[0137]
在一个可能的实施例中，第二预设条件为频点a
i
的第一双麦相关系数减去频点a
i
的第二双麦相关系数的第一差值大于第一阈值。
[0138]
其中，第一阈值的具体数值可以根据实际情况进行设置，不做特别限定。当频点a
i
满足第二预设条件时，可以认为去混响效果明显，去混响后人声成分比降噪成分大到了一定程度。
[0139]
在一个可能的实施例中，第三预设条件为频点a
i
的第一频点能量减去频点a
i
的第二频点能量的第二差值小于第二阈值。
[0140]
其中，第二阈值的具体数值可以根据实际情况进行设置，不做特别限定，第二阈值为负值。当频点a
i
满足第三预设条件时，认为去混响后的能量比降噪后的能量小到了一定程度，认为去混响后的第二频域信号去除了更多的无用信号。
[0141]
下面介绍本技术实施例中涉及的语音处理方法的2个示例性使用场景。
[0142]
使用场景1：
[0143]
参考图5，图5是本技术实施例中语音处理方法的一个示例性流程示意图。
[0144]
本实施例中，电子设备具有设置在电子设备的顶部和电子设备的底部的两个麦克风，相应地，电子设备能获得两路语音信号。参考图4，以录制视频得到语音信号为例，电子设备打开相机应用，显示预览界面，用户在用户界面上选择了视频录制功能，进入视频录制界面，视频录制界面显示有第一控件404，用户可以通过操作第一控件404以控制电子设备403开始录制视频。以在录制视频过程中，对视频中的语音信号进行语音处理为例进行说明。
[0145]
电子设备对两路语音信号进行时频域转换得到两路第一频域信号，接着，分别对两路第一频域信号进行去混响处理和降噪处理，得到两路第二频域信号s
e1
和s
e2
，以及对应的两路第三频域信号s
s1
和s
s2
。
[0146]
电子设备计算第二频域信号s
e1
和第二频域信号s
e2
之间的第一双麦相关系数a，以及第二频域信号s
e1
的第一频点能量c1和第二频域信号s
e2
的第一频点能量c2。
[0147]
电子设备计算第三频域信号s
s1
和第三频域信号s
s2
之间的第二双麦相关系数b，以及第三频域信号s
s1
的第二频点能量d1和第三频域信号s
s2
的第二频点能量d2。
[0148]
接着，电子设备判断第i路第一频域信号对应的第二频域信号s
ei
和第三频域信号s
si
是否符合融合条件，下面以电子设备判断第1路第一频域信号对应的第二频域信号s
e1
和第三频域信号s
s1
是否符合融合条件为例进行说明，具体地，对于第二频域信号s
e1
上的每个频点a进行以下判断处理：
[0149]
频点a对应的a
a
减去频点a对应的b
a
的第一差值是否大于第一阈值y1，以及，
[0150]
频点a对应的c
1a
减去频点a对应的d
1a
的第二差值是否小于第二阈值y2；
[0151]
当频点a满足以上两个判断条件，则将第二频域信号s
e1
中频点a对应的第一幅度值作为频点a的目标幅度值，即s
r1
＝s
e1
；或者，根据第一幅度值及对应的第一权重q1、第三频域信号s
s1
中频点a对应的第二幅度值及对应的第二权重q2进行加权运算得到频点a的目标幅度值，即sr1＝q1*s
e1
+q2*s
s1
。而反之，频点a不满足以上至少一个判断条件时，将频点a对应的第二幅度值作为频点a的目标幅度值，即s
r1
＝s
s1
。
[0152]
经过上述处理后，假设第二频域信号和第三频域信号均有m个频点，则可以得到对应的m个目标幅度值，根据该m个目标幅度值，电子设备可以融合第二频域信号s
e1
和第三频域信号s
s1
得到第1路融合频域信号。
[0153]
电子设备可以用判断第1路第一频域信号对应的第二频域信号s
e1
和第三频域信号s
s1
的方法，对第2路第一频域信号对应的第二频域信号s
e2
和第三频域信号s
s2
进行判断，不
做赘述。因此，电子设备可以融合第二频域信号s
e2
和第三频域信号s
s2
得到第2路融合频域信号。
[0154]
电子设备再对第1路融合频域信号和第2路融合频域信号进行时频域逆变换，以得到第1路融合语音信号和第2路融合语音信号。
[0155]
使用场景2：
[0156]
本实施例中，电子设备具有设置在电子设备的顶部、电子设备的底部和电子设备的背部的三个麦克风，相应地，电子设备能获得三路语音信号。参考图5，类似地，电子设备对三路语音信号进行时频域转换得到三路第一频域信号，而电子设备对三路第一频域信号进行去混响处理得到三路第二频域信号，以及对三路第一频域信号进行降噪处理得到三路第三频域信号。
[0157]
接着，在计算第一双麦相关系数和第二双麦相关系数时，对于一路第一频域信号来说，可以随机选择另外一路第一频域信号来计算第一双麦相关系数，或者，可以选择麦克风位置比较接近的那一路第一频域信号进行第一双麦相关系数的计算。同样地，电子设备需要计算每一路第二频域信号的第一频点能量和每一路第三频域信号的第二频点能量。接着，电子设备可以利用使用场景1相似的判断方法对第二频域信号和第三频域信号进行融合得到融合频域信号，最后将融合频域信号转换成融合语音信号，完成语音处理过程。
[0158]
应该理解的，除了上述使用场景，本技术实施例涉及的语音处理方法还可以运用在其他的场景中，上述使用场景不应该对本技术实施例形成限制。
[0159]
本技术实施例中，参考图1和图2，电子设备的内部存储器121中或者外部存储器接口120外接的存储设备中可以预先存储本技术实施例涉及的语音处理方法涉及的相关指令，使得电子设备执行本技术实施例中的语音处理方法。
[0160]
下面以结合步骤201
‑
步骤203为例，示例性说明电子设备的工作流程。
[0161]
1.电子设备获取麦克风拾取的语音信号；
[0162]
在一些实施例中，电子设备的触摸传感器180k接收到触摸操作(用户触摸第一控件或第二控件时触发的)，相应的硬件中断被发给内核层。内核层将触摸操作加工成原始输入事件(包括触摸坐标，触摸操作的时间戳等信息)。原始输入事件被存储在内核层。应用程序框架层从内核层获取原始输入事件，识别该输入事件所对应的控件。
[0163]
例如，以上触摸操作是触摸单击操作，该单击操作所对应的控件为相机应用中的第一控件为例。相机应用调用应用框架层的接口，启动相机应用，进而通过调用内核层启动摄像头驱动，通过摄像头193获取待处理图像。
[0164]
具体的，电子设备的摄像头193可以将拍摄对象反射的光信号通过镜头传递到摄像头193的图像传感器上，该图像传感器将该光信号转换为电信号，该图像传感器将该电信号传递给isp，该isp将该电信号转成为对应的图像，进而得到拍摄视频。而拍摄视频的同时，电子设备的麦克风170c将会拾取周围的声音得到语音信号，电子设备可以将该拍摄视频和对应采集得到的语音信号存储到内部存储器121中或者外部存储器接口120外接的存储设备中。其中，电子设备具有n个麦克风，则可以得到n路语音信号。
[0165]
2.电子设备将n路语音信号转换成n路第一频域信号；
[0166]
电子设备可以通过处理器110获取内部存储器121中或者外部存储器接口120外接的存储设备中存储的语音信号。电子设备的处理器110调用相关计算机指令，对语音信号进
行时频域转换，以得到对应的第一频域信号。
[0167]
3.电子设备对n路第一频域信号进行去混响处理得到n路第二频域信号，以及，对n路第一频域信号进行降噪处理得到n路第三频域信号；
[0168]
电子设备的处理器110调用相关计算机指令，分别对第一频域信号进行去混响处理和降噪处理，以得到n路第二频域信号和n路第三频域信号。
[0169]
4.电子设备确定每路第二频域信号的第一语音特征和每路第三频域信号的第二语音特征；
[0170]
电子设备的处理器110调用相关计算机指令，计算第二频域信号的第一语音特征，以及计算第三频域信号的第二语音特征。
[0171]
5.电子设备将对应同一路第一频域信号的第二频域信号和第三频域信号进行融合处理，得到融合频域信号；
[0172]
电子设备的处理器110调用相关计算机指令，从内部存储器121中或者外部存储器接口120外接的存储设备中获取第一阈值和第二阈值，处理器110根据第一阈值、第二阈值、频点对应的第二频域信号的第一语音特征以及频点对应的第三频域信号的第二语音特征确定该频点对应的目标幅度值，对m个频点进行上述融合处理，继而得到m个目标幅度值，根据该m个目标幅度值可以得到对应的融合频域信号。
[0173]
对应一路第一频域信号可以得到一路融合频域信号，因此，电子设备可以得到n路融合频域信号。
[0174]
6.电子设备根据n路融合频域信号进行时频域逆转换得到n路融合语音信号。
[0175]
电子设备的处理器110可以调用相关计算机指令，对n路融合频域信号进行时频域逆转换处理，以得到n路融合语音信号。
[0176]
综上所述，利用本技术实施例提供的语音处理方法，电子设备先对第一频域信号进行去混响处理得到第二频域信号，以及对第一频域信号进行降噪处理得到第三频域信号，再根据第二频域信号的第一语音特征和第三频域信号的第二语音特征，对归属于同一路第一频域信号的第二频域信号和第三频域信号进行融合处理以得到融合频域信号，由于同时考虑到了去混响效果以及底噪平稳，即能实现去混响，又能有效确保经过语音处理后的语音信号的底噪平稳。
[0177]
下面对本技术实施例的语音处理方法的效果进行说明，参考图6a、图6b、图6c，图6a、图6b、图6c是本技术实施例提供的语音处理方法的效果对比示意图，其中，图6a为原始语音的语谱图，图6b为利用基于wpe的去混响方法处理原始语音后的语谱图，图6c为利用本技术实施例的去混响、降噪融合的语音处理方法处理原始语音后的语谱图；而语谱图的横坐标是时间，纵坐标是频率，图中某个地方的颜色的深浅表示某一时刻某个频率的能量大小，颜色越亮，代表该时刻该频率段的能量越大。
[0178]
其中，图6a中，原始语音的语谱图在横坐标(时间轴)方向上有拖尾现象，表明有混响跟在录音后，图6b和图6c两幅图就没有这种明显的拖尾，代表已经将混响消除。
[0179]
另外，图6b中，低频部分(纵坐标方向数值偏小的部分)在横坐标方向(时间轴)的语谱图，在某一段时间之内其明亮的部分和昏暗的部分差异较大，即颗粒感较强，表明其经过wpe去混响后低频部分在时间轴上能量变化比较突兀，会让在原始语音有平稳底噪的地方听起来会有能量快速变化导致的不平稳的感觉——类似人工生成的噪音。而图6c中，使
用去混响和降噪融合的语音处理方法使得该问题得到了很好的优化，颗粒感有所改善，增强处理后的语音的舒适感。以框601所框中区域为例，原始语音中存在混响，混响能量较大；而原始语音在经过wpe去混响之后，框601所在区域颗粒感较强；而原始语音在经过本技术的语音处理方法处理后，框601所在区域颗粒感明显有所改善。
[0180]
以上所述，以上实施例仅用以说明本技术的技术方案，而非对其限制；尽管参照前述实施例对本技术进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本技术各实施例技术方案的范围。
[0181]
上述实施例中所用，根据上下文，术语“当
…
时”可以被解释为意思是“如果
…”
或“在
…
后”或“响应于确定
…”
或“响应于检测到
…”
。类似地，根据上下文，短语“在确定
…
时”或“如果检测到(所陈述的条件或事件)”可以被解释为意思是“如果确定
…”
或“响应于确定
…”
或“在检测到(所陈述的条件或事件)时”或“响应于检测到(所陈述的条件或事件)”。
[0182]
在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本技术实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如dvd)、或者半导体介质(例如固态硬盘)等。
[0183]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，该流程可以由计算机程序来指令相关的硬件完成，该程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法实施例的流程。而前述的存储介质包括：rom或随机存储记忆体ram、磁碟或者光盘等各种可存储程序代码的介质。