1.本技术属于信号处理技术领域,具体涉及一种音频处理方法和装置。
背景技术:2.目前,语音识别技术可以自动将音频处理成文字,以便通过文字的形式对音频进行展示或存储。在一些应用场景中,可以会存在多个声源,相应获得的音频中可以包括多个声源的语音。然而,现有技术往往难以准确分离音频中不同声源的语音,进而导致音频处理效果较差。
技术实现要素:3.本技术实施例的目的是提供一种音频处理方法和装置,以解决现有技术难以准确分离音频中不同声源的语音,进而导致音频处理效果较差。
4.第一方面,本技术实施例提供了一种音频处理方法,该方法包括:
5.获取第一音频信号;
6.确定第一音频信号的n个声源的声源信息,n为正整数;
7.根据声源信息,从第一音频信号中分离出至少一个子音频信号,其中,一个子音频信号为n个声源中的一个声源的音频信号。
8.第二方面,本技术实施例提供了一种音频处理装置,该装置包括:
9.获取模块,用于获取第一音频信号;
10.确定模块,用于确定第一音频信号的n个声源的声源信息,n为正整数;
11.分离模块,用于根据声源信息,从第一音频信号中分离出至少一个子音频信号,其中,一个子音频信号为n个声源中的一个声源的音频信号。
12.第三方面,本技术实施例提供了一种电子设备,该电子设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序或指令,程序或指令被处理器执行时实现如第一方面的方法的步骤。
13.第四方面,本技术实施例提供了一种可读存储介质,可读存储介质上存储程序或指令,程序或指令被处理器执行时实现如第一方面的方法的步骤。
14.第五方面,本技术实施例提供了一种芯片,芯片包括处理器和通信接口,通信接口和处理器耦合,处理器用于运行程序或指令,实现如第一方面的方法。
15.本技术实施例提供的音频处理方法,获取第一音频信号,确定第一音频信号的n个声源的声源信息,根据声源信息,从第一音频信号中分离出至少一个子音频信号,其中,一个子音频信号为n个声源中的一个声源的音频信号。本技术实施例通过确定第一音频信号的n个声源的声源信息,可以为后续对第一音频信号的分离处理提供先验数据,从有助于准确分离出的各声源的音频信号,提升音频处理效果。
附图说明
16.图1是本技术实施例提供的音频处理方法的流程示意图;
17.图2是一个应用场景中,电子设备与用户位置关系示意图;
18.图3是空间谱图的一个示例图;
19.图4是目标变化曲线的一个示例图;
20.图5是一个具体应用例中音频处理方法的流程示意图;
21.图6是声源信息辅助模块获取声源信息的原理图;
22.图7是本技术实施例提供的音频处理装置的结构示意图;
23.图8是本技术实施例提供的电子设备的结构示意图;
24.图9是本技术实施例的一种电子设备的硬件结构示意图。
具体实施方式
25.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本技术保护的范围。
26.本技术的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
27.下面结合附图,通过具体的实施例及其应用场景对本技术实施例提供的音频处理方法和装置进行详细地说明。
28.如图1所示,本技术实施例提供的音频处理方法,包括:
29.步骤101,获取第一音频信号;
30.步骤102,确定第一音频信号的n个声源的声源信息,n为正整数;
31.步骤103,根据声源信息,从第一音频信号中分离出至少一个子音频信号,其中,一个子音频信号为n个声源中的一个声源的音频信号。
32.本技术实施例提供的音频处理方法,可以应用于例如移动终端、平板电脑等类型的电子设备,此处对电子设备的具体类型可以不作限定。
33.步骤101中获取的第一音频信号,可以包括来自至少一个声源的音频信号,任一个声源的音频信号均可以对应上述的子音频信号。
34.为简化说明,可以认为音频信号对应有n个声源,n为正整数,但在对音频信号进行进一步的处理之前,n的值通常是未知的。
35.在一些举例中,对第一音频信号进行音频处理的主要目的,可以认为是将各个子音频信号从第一音频信号中分离出来,以便后续准确对子音频信号进行语音识别。
36.当然,这里只是对本技术实施例提供的音频处理方法的应用的一种举例说明,其具体的应用形式可以根据实际需要进行设定。
37.结合一些应用场景,第一音频信号可以是针对n个声源发出的声音进行录制得到。
38.比如,在会议或者课堂讨论等场景中,可能存在多个用户,每一个用户对应了一个声源。这些用户可能会依次发言,也有可能至少两个用户同时发言。因此,针对这些场景录制得到的第一音频信号中,可能存在多个子音频信号,每一个子音频信号对应有一个声源。而电子设备可能需要将不同用户的发言分别进行识别。
39.在存在多个用户同时发言的情况下,上述多个子音频信号在时间轴上可能存在重叠的部分。此时,电子设备往往需要处理“鸡尾酒会效应”(cocktail party effect)的问题,即电子设备需要在多个用户同时发言的情况下,能聚焦到某一个用户的发言。
40.可见,在以上应用场景中,电子设备可能需要将各个子音频信号进行分离。而如果直接将第一音频数据输入到相关的音频分离模型中进行分离,可能导致分离结果不够准确,或者导致对电子设备的算力要求较高。
41.当然,步骤101中获取的第一音频信号,可以是麦克风等传感器采集得到的原始音频信号,也可以是存储在电子设备中的音频信号,或者,还是可以对上述原始音频信号等进行了预处理的音频信号等等,此处不作具体限定。
42.如上文所示的,第一音频信号可以是针对n个声源发出的声音进行录制得到,换而言之,第一音频信号可以对应有n个声源。
43.在步骤102中,电子设备可以确定第一音频信号的n个声源的声源信息。
44.举例来说,第一音频信号的n个声源的声源信息,可以包括声源方位。一般来说,在如上文所示的会议或者课程讨论等应用场景中,声源方位与用户可以存在相互对应的关系。在确定了声源方位的情况下,电子设备实际上可以确定出在各个时间点,具体是哪些用户在发言,进而有助于为子音频信号的分离提供相应的参考信息。
45.再例如,上述的声源信息,可以包括声源数量。容易理解的是,对声源数量的确定过程,在一定程度上可以认为是对n的值进行确定的过程。
46.在确定了声源数量的情况下,电子设备可以为第一音频信号分配相应数量的音频处理通道,每一音频处理通道用于处理来自一个声源的子音频信号。从而为子音频信号的分离或者识别提供相应的参考信息。
47.可见,声源信息实际上可以作为后续对第一音频信号的分离处理过程的参考信息,或者,也可以将声源信息称为音频分离处理的辅助信息或者先验信息。
48.至于上述声源信息的获取,可以通过各种手段实现。
49.比如,上述的声源方位,可以基于到达时间差(time difference of arrival,tdoa)、可控响应功率(steered response power,srp)或者多重信号分类(multiple signal classification,music)等方法进行估计的。
50.而至于声源数据,则可以根据声源方位的数量进行确定,或者,通过对第一音频信号中的音频特征进行提取,来确定声源数量等。
51.总的来说,在步骤102中确定的声源信息,可以作为先验信息,为后续对第一音频信号的音频分离处理提供辅助。
52.相应地,在步骤103中,电子设备可以根据声源信息,从第一音频信号从分离出至少一个子音频信号,其中,一个子音频信号为n个声源中的一个声源的音频信号。
53.至于音频分离处理的方式,可以通过现有技术实现,例如,可以通过基于深度学习的音频分离模型或者语音分离模型实现音频分离,此处不作一一举例说明。
54.本实施例中,可以根据需要,从音频信号中分离出n个声源中全部声源的子音频信号,也可以是从音频信号中分离中n个声源中部分声源的子音频信号,可以根据实际需要进行设定。
55.换而言之,理论上从音频信号中可以分离出n个子音频信号,而在实际应用中,可以根据需要,从音频信号中分离出至少一个子音频信号,至少一个子音频信号是n个子音频信号中的至少部分子音频信号。而这至少一个子音频信号中,一个子音频信号可以对应一个声源,即一个子音频信号可以是一个声源的音频信号。
56.本技术实施例提供的音频处理方法,获取第一音频信号,确定第一音频信号的n个声源的声源信息,根据声源信息,从第一音频信号中分离出至少一个子音频信号,其中,一个子音频信号为n个声源中的一个声源的音频信号。本技术实施例通过确定第一音频信号的n个声源的声源信息,可以为后续对第一音频信号的分离处理提供先验数据,从有助于准确分离出的各声源的音频信号,提升音频处理效果。
57.在一个示例中,电子设备还可以分别针对分离出的每一子音频信号进行语音识别,得到语音识别结果。
58.本示例中,由于各个子音频信号在一定程度上均可以认为是单独的声源发声所带来的音频信号,因此,电子设备对各子音频信号进行语音识别时,相当于已经充分考虑了“鸡尾酒会效应”等问题,进而可以有效提高语音识别的准确性。
59.在一个示例中,上述的第一音频信号可以是经过预处理的音频信号。具体来说,上述步骤101中,获取第一音频信号的步骤,可以包括:
60.获取传感器采集的第二音频信号;
61.预处理第二音频信号,得到第一音频信号。
62.换而言之,在本示例中,第二音频信号可以认为是原始音频信号,而第一音频信号可以是对原始音频信号进行预处理后得到的音频信号。
63.上述预处理的方式可以包括回声消除处理、噪声抑制处理以及去混响处理等处理方式中的至少一项,而具体的预处理方式的选择可以根据实际需要进行设置,此处不作一一举例说明。
64.本示例中,经过预处理得到的第一音频信号,具有较高的音频质量,基于第一音频信号,可以比较准确地确定声源信息,并有助于提升后续音频分离或语音识别的效果。
65.可选地,第一音频信号包括多个音频帧,一个音频帧关联有一个空间谱信息,空间谱信息包括空间谱与预设方位之间的对应关系;
66.确定第一音频信号的n个声源的声源信息,具体包括:
67.根据空间谱信息,确定第一音频信号的n个声源的声源信息。
68.容易理解的是,对于第一音频信号,可以包括多个音频帧。比如,可以按照一定的采样频率对第一音频信号进行采样,每一个采样点对应有一个音频帧。
69.本实施例中,每一音频帧可以关联有一个空间谱信息。空间谱信息可以包括空间谱与预设方位之间的对应关系。
70.空间谱在一定程度上,可以对应为音频信号的能量强度或者功率值。相应地,本实施例中,可以将空间谱数值化,空间谱的值,可以是与音频信号的功率值正相关的。
71.预设方位可以是以录制第一音频帧的电子设备为中心,按照预设起始角度与方向
进行定义的方位。
72.如图2所示,图2为具有录音功能的电子设备以及对其定义的预设方位的示例图。结合图2,图2中沿电子设备正向下延伸的方向为0度的预设方位,沿电子设备正右延伸的方向为90度的预设方位,依次类推。
73.当然,这里仅仅是针对预设方位的一种举例说明,在实际应用中,预设方位也可以根据需要进行设定。
74.如上文所示的,声源方位可以基于tdoa、srp或者music等方法进行估计,而基于这些方法实际上也可以得到空间谱与预设方位之间的对应关系。
75.如图2所示,图2还可以是在一个会议场景中,电子设备与用户之间的位置关系示例图,每一用户可以是通过圆圈中的数字进行编号与表示。
76.如图3所示,图3可以在使用srp方法,针对图2所示会议场景进行音频信号采集得到的空间谱图。图3中,横坐标可以是时间,或者对应音频帧的采样点;左侧纵坐标对应预设方位;右侧的刻度可以对应空间谱的值。
77.图2和图3之间的关系可以描述为:在图2所示的会议场景中,编号为1~6的用户可以按照编号顺序依次发言,在依次发言结束后,6个用户可以同时发言。而图3则是针对以上发言过程采集得到的第一音频信号的空间谱图。
78.基于图3可见,在某一个采样点处,每一个预设方位对应有一个空间谱。相应地,可以根据该采样点中最大空间谱对应的预设方位,确定为声源所在的方位。
79.而在图3中,如果结合根据多个采样点确定出的多个声源的方位,也可以得到声源的数量。
80.以上声源所在的方位,或者声源的数量,均可以认为是上述n个声源的声源信息。
81.结合以上举例可见,在第一音频信号中的各个音频帧分别关联有一个空间谱信息的情况下,可以根据空间谱信息,确定出第一音频信号的n个声源的声源信息。
82.本实施例中,基于空间谱信息,可以以较少的算力确定第一音频信号的n个声源的声源信息,在为音频分离处理提供先验信息的同时,节省算力的消耗。
83.结合上文的举例,在一些实施方式中,声源信息包括声源数量与声源方位中的至少一项。
84.在声源信息包括声源方位的情况下,在后续音频分离处理的过程中,声源方位可以为确定具体为哪一声源的声源信息提供相应的参考。
85.具体来说,在一些应用场景中,各个声源相对录音设备的位置比较固定,因此,每一个声源方位在一定程度上可以对应一个声源。因此,在确定了声源方位的情况下,可以将其作为先验信息应用在音频分离处理过程中,为确定各第二声源信号所归属的声源提供参考,提高音频分离的准确度。
86.在声源信息包括声源数量的情况下,电子设备可以为第一音频信号分配相应数量的音频处理通道,每一音频处理通道用于处理来自一个声源的子音频信号,提高音频分离效果。与此同时,电子设备可以分别聚焦各个子音频信号,提高音频识别的准确度。
87.可选地,在声源信息包括声源方位的情况下,根据空间谱信息,确定第一音频信号的n个声源的声源信息,包括:
88.根据p个空间谱信息,确定p个目标方位,p个目标方位与p个空间谱信息一一对应,
且每一目标方位为对应的空间谱信息中对应有最大空间谱的预设方位,p个空间谱信息关联多个音频帧中的p个音频帧,p为正整数;
89.根据p个目标方位,确定声源方位。
90.如上文所示的,空间谱信息可以包括空间谱与预设方位之间的对应关系,对于任一音频帧,可以对应一个时刻下的采样点,即每一个音频帧可以对应有一时刻,该时刻记为t;将预设方位记为θ;结合图3,在确定了t和θ的情况下,可以确定空间谱。
91.也就是说,空间谱可以是关于t和θ的函数,因此可以将空间谱记为spectrum(θ,t)。
92.对于每一个音频帧,可以关联一个空间谱信息,进而可以确定出一个目标方位。换而言之,对于一个音频帧,其对应的t可以是固定的,spectrum(θ,t)是关于θ的函数。通过遍历各个预设角度下的空间谱,可以确定出最大空间谱,而最大空间谱对应的预设方位,即上述的目标方位(图中记为doa)。
93.此时,若将目标方位记为θ(t),则θ(t)=arg max((spectrum(θ,t))。
94.在一个示例中,上述的p可以等于1,相应地,可以将根据一个音频帧确定的目标方位,直接确定为声源方位。换个角度来说,本示例中,可以认为是实时对声源方位进行确定。
95.在另一个示例中,上述的p可以等于3,3个空间谱信息可以关联第一音频信号中3个连续的音频帧。3个空间谱信息可以确定3个目标方位,可以将3个目标方位的众数或者均值确定为声源方位。
96.在又一示例中,可以p可以等于第一音频信号中音频帧的数量,电子设备可以确定每一音频帧关联的空间谱信息中的目标方位,并根据这些目标方位的分布情况,来确定声源方位。
97.比如,针对这些目标方位,可以大概确定出目标方位分布较为集中的预设方位区间,分别将这些预设方位区间中的目标方位计算平均值或者众数,进而确定声源方位。
98.结合图3可见,根据各目标方位在分布情况,可以确定出6个声源方位,分别为230
°
、130
°
、310
°
、10
°
、180
°
以及50
°
,这些声源方位与图2中用户相对电子设备的角度位置基本相符。
99.当然,在实际应用中,上述p的值可以根据需要进行选取,而根据p个目标方位,确定声源方位的具体方式,可以是上述的实时确定声源方位,也可以是根据多个声源方位的均值或者众数等来确定声源方位。
100.本实施例中根据各个空间谱信息确定相应的目标方位,并根据这些目标方位,确定声源方位。可见,本实施例中,通过对空间谱信息的各个数值的直接比较处理,即可方便地确定出声源方位,进而有助于节省声源方位的确定所带来的算力消耗。
101.可选地,在声源信息包括声源数量的情况下,根据空间谱信息,确定第一音频信号的n个声源的声源信息,包括:
102.根据q个空间谱信息,确定目标变化曲线,目标变化曲线为总空间谱随预设方位的变化曲线,每一预设方位处的总空间谱等于每一预设方位关联的q个空间谱的和值,q个空间谱信息关联多个音频帧中连续的q个音频帧,q为大于1的整数;
103.根据目标变化曲线,确定声源数量,声源数量等于目标变化曲线中目标波峰的数量,目标波峰为对应的峰值大于空间谱阈值的波峰。
104.本实施例中,q的取值可以根据需要进行调整,若将q个空间谱信息对应的时刻分别记为t1、t2、
……
、t
i
、
……
、t
q
,则任一个空间谱信息中,空间谱可以是关于θ的函数,因此可以将空间谱记为spectrum(θ,t
i
)。
105.将q个空间谱信息中,相同预设方位的空间谱相加,可以得到总空间谱与预设方位之间的对应关系。
106.本实施例中,将多个空间谱信息作为一个整体进行处理,这种整体处理的方式可以记为block,相应地,总空间谱可以记为spectrum(block),在q个时刻确定的情况下,spectrum(block)与θ的对应关系可以记为:
107.spectrum(block)=∑
qi=1
spectrum(θ,t
i
)
108.spectrum(block)与θ的对应关系可以通过目标变化曲线进行体现。如图4所示,图4为目标变化曲线的一个示例图。其中,图4中的横坐标为预设方位,纵坐标为总空间谱。
109.基于目标变化曲线,可以确定出其中的波峰,具体可以通过计算局部极值等方式进行确定,此处不作具体说明。每一个波峰可以记为一个peak。
110.容易理解的是,对于任一个波峰,当其对应的峰值,也就是该波峰中总空间谱的最大值大于空间谱阈值时,可以认为该波峰对应的预设方位处存在一个有效的声源。而如果一个波峰对应的峰值小于或等于空间谱阈值时,可以认为该波峰对应的预设方位处可能存在偶尔的声响,或者是存在干扰或误差等,进而可以认为该预设方位不存有效的声源。
111.图4中将对应的峰值大于空间谱阈值的波峰,也就是目标波峰通过椭圆进行了圈出。目标波峰的数量可以通过num of peaks(spectrum(block)>t)表示,其中,t为上述的空间谱阈值。
112.如若将声源数量用n表示,则有:
113.n=num of peaks(spectrum(block)>t)。
114.比如,结合图4,当空间谱阈值等于0.24时,从目标变化曲线中确定出的声源数量等于5,分别对应5个椭圆圈出的位置。
115.本实施例中,基于q个空间谱信息,可以得到总空间谱随预设方位的变化曲线,即上述的目标变化曲线。而在目标变化曲线的基础上,仅需确定对应的峰值大于空间谱阈值的目标波峰的数量,即可得到声源数量。可见,本实施例中,确定声源数量的方式较为简单,可以有效节省相应产生的计算资源。
116.以下结合一具体应用例来对本技术实施例提供的音频处理方法进行说明。
117.如图5所示,该具体应用例中,音频处理方法可以应用于包括多个麦克风的电子设备,该方法可以大致包括如下步骤:
118.步骤501,信号输入;
119.本步骤中,可以获取多个麦克风采集的会议音频信号,即初始的音频信号。
120.步骤502,前端语音信号处理;
121.本步骤中,可以对会议音频信号进行回声消除、噪声抑制、去混响等音频处理,即对初始的音频信号进行预处理,得到上述的第一音频信号;
122.步骤503,声源信息获取;
123.从第一音频信号中获取声源信息,声源信息可以包括声源方位和声源数量。下文再对声源信息的获取方式在具体举例说明。
124.步骤504,音频分离与语音识别;
125.将声源信息作为先验数据,对第一音频信号进行音频分离与语音识别。
126.一般来说,音频分离和语音识别通常对应有深度学习模型,基于声源信息这些先验数据,可以有效降低深度学习模型的分类难度,提高分类的准确性,进而也有助于获得更为可靠的语音识别结果。
127.上述步骤503中声源信息获取可以是基于预设的声源信息辅助模块来实现的。
128.如图6所示,上述的第一音频信号输入到声源信息辅助模块后,声源信息辅助模块可以将第一音频信号分别输入到两个通路中。这两个通路分别命名为实时通路与block通路。
129.其中实时通路用于根据当前帧的空间谱信息,输入声源方位这一声源信息;而block通路则可以将预设时段(记为block时段)内相同预设方位的空间谱进行叠加,得到目标变化曲线,基于目标变化曲线,可以输出声源数量这一声源信息。
130.基于以上具体应用例可见,本技术实施例提供的音频处理方法,可以对空间谱信息进行充分的利用,确定出更多的声源信息;这些声源信息可以为声源分离的处理提供先验信息,从而简化音频分离处理的算法难度,提高音频分离结果的准确性;此外,本技术实施例还可以有效解决“鸡尾酒会效应”等问题。
131.需要说明的是,本技术实施例提供的音频处理方法,执行主体可以为音频处理装置,或者该音频处理装置中的用于执行音频处理方法的控制模块。本技术实施例中以音频处理装置执行音频处理方法为例,说明本技术实施例提供的音频处理装置。
132.如图7所示,本技术实施例提供的音频处理装置700,包括:
133.获取模块701,用于获取第一音频信号;
134.确定模块702,用于确定第一音频信号的n个声源的声源信息,n为正整数;
135.分离模块703,用于根据声源信息,从第一音频信号中分离出至少一个子音频信号,其中,一个子音频信号为n个声源中的一个声源的音频信号。
136.可选地,第一音频信号包括多个音频帧,一个音频帧关联有一个空间谱信息,空间谱信息包括空间谱与预设方位之间的对应关系;
137.确定模块702,可具体用于:
138.根据空间谱信息,确定第一音频信号的n个声源的声源信息。
139.可选地,声源信息包括声源数量与声源方位中的至少一项。
140.可选地,确定模块702,可以包括:
141.第一确定单元,用于根据p个空间谱信息,确定p个目标方位,p个目标方位与p个空间谱信息一一对应,且每一目标方位为对应的空间谱信息中对应有最大空间谱的预设方位,p个空间谱信息关联多个音频帧中的p个音频帧,p为正整数;
142.第二确定单元,用于根据p个目标方位,确定声源方位。
143.可选地,确定模块702,可以包括:
144.第三确定单元,用于根据q个空间谱信息,确定目标变化曲线,目标变化曲线为总空间谱随预设方位的变化曲线,每一预设方位处的总空间谱等于每一预设方位关联的q个空间谱的和值,q个空间谱信息关联多个音频帧中连续的q个音频帧,q为大于1的整数;
145.第四确定单元,用于根据目标变化曲线,确定声源数量,声源数量等于目标变化曲
线中目标波峰的数量,目标波峰为对应的峰值大于空间谱阈值的波峰。
146.本技术实施例提供的音频处理装置,获取第一音频信号,确定第一音频信号的n个声源的声源信息,该声源信息可以作为先验信息,应用到对第一音频信号中各声源的子音频信号的分离处理中,进而有助于降低音频分离处理的难度,提高分离得到的各声源的子音频信号的准确度,提升音频处理效果。
147.本技术实施例中的音频处理装置可以是装置,也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备,也可以为非移动电子设备。示例性的,移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra
‑
mobile personal computer,umpc)、上网本或者个人数字助理(personal digital assistant,pda)等,非移动电子设备可以为服务器、网络附属存储器(network attached storage,nas)、个人计算机(personal computer,pc)、电视机(television,tv)、柜员机或者自助机等,本技术实施例不作具体限定。
148.本技术实施例中的音频处理装置可以为具有操作系统的装置。该操作系统可以为安卓(android)操作系统,可以为ios操作系统,还可以为其他可能的操作系统,本技术实施例不作具体限定。
149.本技术实施例提供的音频处理装置能够实现图1至图6的方法实施例实现的各个过程,为避免重复,这里不再赘述。
150.可选地,如图8所示,本技术实施例还提供一种电子设备800,包括处理器801,存储器802,存储在存储器802上并可在处理器801上运行的程序或指令,该程序或指令被处理器801执行时实现上述音频处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
151.需要说明的是,本技术实施例中的电子设备包括上述的移动电子设备和非移动电子设备。
152.图9为实现本技术实施例的一种电子设备的硬件结构示意图。
153.该电子设备900包括但不限于:射频单元901、网络模块902、音频输出单元903、输入单元904、传感器905、显示单元906、用户输入单元907、接口单元908、存储器909、以及处理器910等部件。
154.本领域技术人员可以理解,电子设备900还可以包括给各个部件供电的电源(比如电池),电源可以通过电源管理系统与处理器910逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图9中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,在此不再赘述。
155.其中,处理器910,用于获取第一音频信号;
156.确定第一音频信号的n个声源的声源信息,n为正整数;
157.根据声源信息,从第一音频信号中分离出至少一个子音频信号,其中,一个子音频信号为n个声源中的一个声源的音频信号。
158.本技术实施例提供的电子设备,获取第一音频信号,确定第一音频信号的n个声源的声源信息,根据声源信息,从第一音频信号中分离出至少一个子音频信号,其中,一个子音频信号为n个声源中的一个声源的音频信号。本技术实施例通过确定第一音频信号的n个
声源的声源信息,可以为后续对第一音频信号的分离处理提供先验数据,从有助于准确分离出的各声源的音频信号,提升音频处理效果。
159.可选地,第一音频信号包括多个音频帧,一个音频帧关联有一个空间谱信息,空间谱信息包括空间谱与预设方位之间的对应关系;
160.相应地,处理器910,可具体用于根据空间谱信息,确定第一音频信号的n个声源的声源信息。
161.可选地,声源信息包括声源数量与声源方位中的至少一项。
162.可选地,处理器910,还可以用于:
163.根据p个空间谱信息,确定p个目标方位,p个目标方位与p个空间谱信息一一对应,且每一目标方位为对应的空间谱信息中对应有最大空间谱的预设方位,p个空间谱信息关联多个音频帧中的p个音频帧,p为正整数;
164.根据p个目标方位,确定声源方位。
165.可选地,处理器910,还可以用于:
166.根据q个空间谱信息,确定目标变化曲线,目标变化曲线为总空间谱随预设方位的变化曲线,每一预设方位处的总空间谱等于每一预设方位关联的q个空间谱的和值,q个空间谱信息关联多个音频帧中连续的q个音频帧,q为大于1的整数;
167.根据目标变化曲线,确定声源数量,声源数量等于目标变化曲线中目标波峰的数量,目标波峰为对应的峰值大于空间谱阈值的波峰。
168.应理解的是,本技术实施例中,输入单元904可以包括图形处理器(graphics processing unit,gpu)9041和麦克风9042,图形处理器9041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元906可包括显示面板9061,可以采用液晶显示器、有机发光二极管等形式来配置显示面板9061。用户输入单元907包括触控面板9071以及其他输入设备9072。触控面板9071,也称为触摸屏。触控面板9071可包括触摸检测装置和触摸控制器两个部分。其他输入设备9072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。存储器909可用于存储软件程序以及各种数据,包括但不限于应用程序和操作系统。处理器910可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器910中。
169.本技术实施例还提供一种可读存储介质,可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述音频处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
170.其中,处理器为上述实施例中的电子设备中的处理器。可读存储介质,包括计算机可读存储介质,如计算机只读存储器(read
‑
only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等。
171.本技术实施例另提供了一种芯片,芯片包括处理器和通信接口,通信接口和处理器耦合,处理器用于运行程序或指令,实现上述音频处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
172.应理解,本技术实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或
片上系统芯片等。
173.需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本技术实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
174.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,或者网络设备等)执行本技术各个实施例的方法。
175.上面结合附图对本技术的实施例进行了描述,但是本技术并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本技术的启示下,在不脱离本技术宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本技术的保护之内。