1.本发明实施例涉及语音处理领域,特别是涉及一种语音采集方法、装置、电子设备及计算机可读存储介质。
背景技术:2.在大量的场景中(例如:电视节目录制、电影录制、音乐录制、教学视频录制等)都涉及到语音的采集。然而,在进行语音采集的时候,难以避免噪声的干扰,主要包括环境噪声和录音设备内部噪声。从而导致最终采集到的音频数据中包含噪声,影响音频质量。因此,需要尽可能采集多的目标说话声音提高音量,或者降低噪声影响,以提高采集到的音频数据的信噪比,以提高音频质量。
3.在相关技术中,主要有两种解决方案,一种是麦克风阵列方案,一种是数字增益方案。
4.其中,麦克风阵列方案中采用麦克风阵列由其阵列增益来增强语音信号的音量。然而这种解决方案涉及到多个麦克风传感器及采集电路,采集系统结构复杂,成本较高,同时由于多个麦克风传感器之间通道增益、频响曲线及采集调理电路一致性的差异,导致增强的语音在时域存在混响,在频域存在畸变。
5.数字增益方案实际上是采用数字增益进行声音信号放大的动态增益调节方式。这种方案在放大采集到的弱信号的同时,会提升语音信号中混杂的噪声信号的能量,因此其并不能有效提高采集到的语音的信噪比。
6.可见,目前亟需一种简单有效地提高音频数据的信噪比以提高音频质量的技术方案。
技术实现要素:7.本发明提供一种语音采集方法、装置、电子设备及计算机可读存储介质,通过对用户发出的语音先进行过采样,再进行降采样,以对用户发出的语音中的语音信号进行增强,进而提高语音信号的信噪比。
8.为了解决上述问题,第一方面,本发明实施例提供了一种语音采集方法,所述方法包括:
9.确定所需的目标音频数据的目标采样频率;
10.根据所述目标采样频率,对用户发出的语音先进行过采样,再进行降采样,以对用户发出的语音中的语音信号进行增强处理;
11.将增强处理后的语音数据作为所需的目标音频数据。
12.可选地,根据所述目标采样频率,对用户发出的语音先进行过采样,再进行降采样,包括:
13.以高于所述目标采样频率n倍的实际采样频率,采集用户发出的语音,得到单位时间内n个采样值的音频数据;
14.将每n个相邻采样值的音频数据相加,作为一个单位时间内的采样值的音频数据;
15.将得到的多个采样值的音频数据作为增强处理后的语音数据。
16.可选地,确定所需的目标音频数据的目标采样频率,包括:
17.根据音频分析需求或采样对象的实际有效频率范围,确定所述目标采样频率。
18.可选地,以高于所述目标采样频率n倍的实际采样频率,采集用户发出的语音,包括:
19.选取与所述实际采样频率相对应的高频响麦克风及高速信号采集电路组成的实际高速音频采集电路;
20.利用所述实际高速音频采集电路,采集用户发出的语音。
21.可选地,所述方法还包括:
22.在初始时间段内,采集用户发出的语音;
23.对采集到的语音进行分析,确定所述用户发出的语音是否为远场语音;
24.根据所述目标采样频率,对采集到的语音先进行过采样,再进行降采样,包括:
25.在所述采集到的语音是远场语音的情况下,根据所述目标采样频率,对采集到的语音先进行过采样,再进行降采样。
26.第二方面,本发明实施例提供了一种语音采集装置,所述装置包括:
27.目标采样频率确定模块,用于确定所需的目标音频数据的目标采样频率;
28.增强处理模块,用于根据所述目标采样频率,对用户发出的语音先进行过采样,再进行降采样,以对用户发出的语音中的语音信号进行增强处理;
29.目标音频数据获取模块,用于将增强处理后的语音数据作为所需的目标音频数据。
30.可选地,所述增强处理模块,包括:
31.过采样子模块,用于以高于所述目标采样频率n倍的实际采样频率,采集用户发出的语音,得到单位时间内n个采样值的音频数据;
32.降采样子模块,用于将每n个相邻采样值的音频数据相加,作为一个单位时间内的采样值的音频数据;
33.语音数据确定子模块,用于将得到的多个采样值的音频数据作为增强处理后的语音数据。
34.可选地,所述目标采样频率确定模块,包括:
35.目标采样频率确定子模块,用于根据音频分析需求或采样对象的实际有效频率范围,确定所述目标采样频率。
36.可选地,所述过采样子模块,包括:
37.选择单元,用于选取与所述实际采样频率相对应的高频响麦克风及高速信号采集电路组成的实际高速音频采集电路;
38.采集单元,用于利用所述实际高速音频采集电路,采集用户发出的语音。
39.可选地,所述装置还包括:
40.采集模块,用于在初始时间段内,采集用户发出的语音;
41.分析模块,用于对采集到的语音进行分析,确定所述用户发出的语音是否为远场语音;
42.所述增强处理模块,进一步用于在所述采集到的语音是远场语音的情况下,根据所述目标采样频率,对采集到的语音先进行过采样,再进行降采样。
43.第三方面,本发明实施例还提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本发明实施例所提出的语音采集方法。
44.第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时本发明实施例提出的语音采集方法的步骤。
45.在本发明实施例中,首先确定所需的目标音频数据的目标采样频率,再根据目标采样频率,对用户发出的语音先进行过采样,再进行降采样,在这一过程中,用户发出的语音信号被增强,但是设备内部的噪声不受过采样影响,因此,本发明可以通过增强语音信号能量,同时不改变设备内部噪声能量的方法,简单有效的提高语音信号的信噪比,从而改善音频质量。
附图说明
46.为了更清楚地说明本发明实施例的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
47.图1是本发明实施例提供的一种语音采集方法的流程图;
48.图2是本发明实施例提供的一种语音采集方法的流程图;
49.图3是本发明实施例提供的一种语音采集装置结构的示意图。
具体实施方式
50.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
51.本发明实施例提出的一种语音采集方法的流程图,如图1所示。本发明提供的语音采集方法可应用于电视节目录制、电影录制、音乐录制、教学视频录制等语音采集过程中。所述语音采集方法包括:
52.步骤s110,确定所需的目标音频数据的目标采样频率。
53.在本实施例中,可以针对具体应用定制声音采集方案,具体表现在根据语音分析实际需求或者采集对象有效频率范围确定目标采样频率,并以目标采样频率为目标进行语音信号采集。
54.步骤s120,根据所述目标采样频率,对用户发出的语音先进行过采样,再进行降采样,以对用户发出的语音中的语音信号进行增强处理。
55.在本实施例中,过采样是指:在确定目标采样频率之后,利用n倍于该目标采样频率的实际采样频率对采样对象发出的语音信号进行采集。
56.在本实施例中,降采样是指:在利用实际采样频率采集得到音频数据之后,按照实
际采样频率与目标采样频率之间的比值对音频数据中的采样值进行整合,将单位时间(将目标采样频率的采样周期的一个采样时间间隔作为单位时间)内的n个采样值相加,得到单位时间内的采样值。
57.步骤s130,将增强处理后的语音数据作为所需的目标音频数据。
58.在本实施例中,对用户发出的语音先进行过采样,从而可以在单位时间采集到n个采样值。再对采集到的多个采样值进行降采样,将单位时间内的n个采样值相加,从而可以得到增强后的语音数据,将该增强后的语音数据作为所需的目标音频数据即可得到语音信号增强后的音频数据。
59.在本发明实施例中,首先确定所需的目标音频数据的目标采样频率,再根据目标采样频率,对用户发出的语音先进行过采样,再进行降采样,在这一过程中,用户发出的语音信号被增强,但是设备内部的噪声不受过采样和降采样过程影响,因此,本发明可以通过增强语音信号能量,同时不改变设备内部噪声能量的方法,简单有效的提高语音信号的信噪比,从而改善音频质量。
60.在本实施例中,在执行所述步骤s120之前,所述语音采集方法还可以包括:
61.步骤s1,在初始时间段内,采集用户发出的语音;
62.在本实施例中,还可以在初始时间段内,采集用户发出的语音,以进行测试。
63.步骤s2,对采集到的语音进行分析,确定所述用户发出的语音是否为远场语音;
64.在本实施例中,可以对初始时间段内采集到的用户语音进行分析,确定用户发出的语音是否为远场语音。
65.在本实施例中,将距离采集传感器参考点的距离远大于信号波长的语音称为远场语音。在本实施例中,可以通过分析麦克风参考点与声源位置之间的距离,以及声源语音信号的波长,判断该声源语音是否为远场语音。
66.本实施例中,在所述采集到的语音是远场语音的情况下,根据所述目标采样频率,对采集到的语音先进行过采样,再进行降采样。
67.在本实施例中,当判断声源语音为远场语音的情况下,则可以采用先过采样,再降采样的方法,对后续采集到的语音信号进行增强处理。
68.在本发明中,发明人发现,在目标说话人距离采集传感器较远的远场语音采集条件下,声音由于空间路径的衰减而变得微弱,到达采集传感器的声音能量弱,每次直接采集得到语音信号的能量少,容易受到噪声的干扰。
69.发明人进一步探索发现,在语音采集场景下,采集到的音频数据中包含的噪声主要有环境噪声和设备内部噪声,其中,在远场语音采集场景下,环境噪声和设备内部噪声对语音信号的影响力相当,可以近似达到一比一的影响力。因此,发明人提出可以对用户发出的语音先进行过采样,再进行降采样,以对用户发出的语音中的语音信号进行增强处理。在过采样过程中,虽然对语音信号和环境噪声信号均进行了信号增强,但是设备内部噪声信号是保持不变的,因而可以有效提高语音信号的信噪比。
70.本发明实施例提出的一种语音采集方法的流程图,如图2所示。在本实施例中,所述语音采集方法包括:
71.步骤s210,确定所需的目标音频数据的目标采样频率。
72.在本实施例中,上述步骤s210具体包括:根据音频分析需求或采样对象的实际有
效频率范围,确定所述目标采样频率。
73.在本实施例中,可以根据实际应用场景确定所需的目标音频数据的目标采样频率,例如:在语音通话过程中,语音采样频率需求为8khz,从而可以确定目标采样频率为8khz。
74.在本实施例中,还可以根据实际应用场景中采样对象的实际有效频率范围确定目标采用频率。
75.步骤s220,以高于所述目标采样频率n倍的实际采样频率,采集用户发出的语音,得到单位时间内n个采样值的音频数据。
76.在本实施例中,在确定目标采样频率之后,可以根据实际需求确定n倍于目标采样频率的实际采样频率。其中,n可以为大于1的任意自然数,可以根据实际需要定制。
77.示例的,假设目标采样频率为8khz采样频率,可以选取2倍或4倍或8倍的实际采样频率(16khz、32khz、64khz)进行过采样,得到单位时间内2倍、4倍及8倍采样值的音频数据。在本实施例中,单位时间指的是目标采样频率的采样周期的一个采样时间间隔。
78.在本实施例中,可以采用目标采样频率进行测试采样,并分析采集到的语音的能量大小,再确定实际需要的语音信号能量大小,根据二者的比值,确定所需倍数。
79.在实际应用中,上述步骤s220具体包括以下子步骤:
80.步骤s221,选取与所述实际采样频率相对应的高频响麦克风及高速信号采集电路组成的实际高速音频采集电路。
81.在本实施例中,在确定所需的实际采样频率之后,可以选取相对应的高频响麦克风,利用该高频响麦克风和高速采集信号采集电路组成实际高速音频采集电路。
82.步骤s222,利用所述实际高速音频采集电路,采集用户发出的语音。
83.在本实施例中,可以根据实际语音分析需要,定制对应的实际高速音频采集电路,从而利用该实际高速音频采集电路作为采集传感器,对用户语音进行采集。
84.步骤s230,将每n个相邻采样值的音频数据相加,作为一个单位时间内的采样值的音频数据。
85.在本实施例中,在得到单位时间内的n个采样值的音频数据之后,按照过采样的倍数,对该音频数据进行降采样,将每n个相邻采样值的音频数据相加,得到一个单位时间类的采样值的音频数据。
86.示例地,在得到单位时间内2倍或4倍或8倍采样值的音频数据之后,可以分别将每2个采样值、每4个采样值、每8个采样值进行多点累加作为单个采样值,从而提升单个采样点能量。
87.步骤s240,将得到的多个采样值的音频数据作为增强处理后的语音数据。
88.在本实施例中,经过过采样和降采样可以得到多个采样值的音频数据,在该音频数据中,采集设备内部电路产生的内部噪声不变,每个单位时间内的采样点能量增加,从而可以得到采样值增强,但内部噪声不变的音频数据。
89.步骤s250,将增强处理后的语音数据作为所需的目标音频数据。
90.在本实施例中,在得到增强处理后的语音数据之后,可将该语音数据作为所需的目标音频数据,从而得到较高信噪比的优质音频数据。
91.在本实施例中,在确定所需的目标音频数据的目标采样频率,可以定制对应的语
音采集方案,对用户发出的语音先进行过采样,再进行降采样,在语音采集过程中,用户发出的语音信号被增强,但是设备内部的噪声不受过采样和降采样过程影响,因此,本发明可以基于实际需求,通过增强语音信号能量,同时不改变设备内部噪声能量的方法,简单有效的提高语音信号的信噪比,从而改善音频质量。
92.参见图3,示出了本发明的一种语音采集装置300的结构框图,具体的,所述语音采集装置300可以包括如下模块:
93.目标采样频率确定模块301,用于确定所需的目标音频数据的目标采样频率;
94.增强处理模块302,用于根据所述目标采样频率,对用户发出的语音先进行过采样,再进行降采样,以对用户发出的语音中的语音信号进行增强处理;
95.目标音频数据获取模块303,用于将增强处理后的语音数据作为所需的目标音频数据。
96.可选地,所述增强处理模块302,包括:
97.过采样子模块,用于以高于所述目标采样频率n倍的实际采样频率,采集用户发出的语音,得到单位时间内n个采样值的音频数据;
98.降采样子模块,用于将每n个相邻采样值的音频数据相加,作为一个单位时间内的采样值的音频数据;
99.语音数据确定子模块,用于将得到的多个采样值的音频数据作为增强处理后的语音数据。
100.可选地,所述目标采样频率确定模块301,包括:
101.目标采样频率确定子模块,用于根据音频分析需求或采样对象的实际有效频率范围,确定所述目标采样频率。
102.可选地,所述过采样子模块,包括:
103.选择单元,用于选取与所述实际采样频率相对应的高频响麦克风及高速信号采集电路组成的实际高速音频采集电路;
104.采集单元,用于利用所述实际高速音频采集电路,采集用户发出的语音。
105.可选地,所述装置还包括:
106.采集模块,用于在初始时间段内,采集用户发出的语音;
107.分析模块,用于对采集到的语音进行分析,确定所述用户发出的语音是否为远场语音;
108.所述增强处理模块302,进一步用于在所述采集到的语音是远场语音的情况下,根据所述目标采样频率,对采集到的语音先进行过采样,再进行降采样。
109.对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
110.相应的,本发明还提出了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如本发明实施例所述的语音采集方法,且能达到相同的技术效果,为避免重复,这里不再赘述。所述电子设备可以为pc机、移动终端、个人数字助理、平板电脑等。
111.本发明还提出了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例所述的语音采集方法的步骤,且能达到相同的技术效果,
为避免重复,这里不再赘述。其中,计算机可读存储介质,如只读存储器(read
‑
only memory,简称rom)、随机存取存储器(random access memory,简称ram)、磁碟或者光盘等。
112.本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
113.以上对本发明提供的语音采集方法、装置、电子设备及计算机可读存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
114.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件实现。基于这样的理解,上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。