首页 > 乐器声学 专利正文
音频降噪方法、装置及计算机可读存储介质与流程

时间:2022-02-17 阅读: 作者:专利查询

音频降噪方法、装置及计算机可读存储介质与流程

1.本技术涉及语音处理技术领域,具体而言,本技术涉及一种音频降噪方法、装置及计算机可读存储介质。


背景技术:

2.在网络数字时代,声音被录制下来以后,无论是说话声、歌声、乐器,乃至噪音都可以通过数字音乐软件处理,而人们为了追求优良的音质往往需要对音频文件做进一步的降噪处理,减少外界噪音对听众的干扰。
3.现有技术中,一般通过服务器端配置固定的降噪参数。例如,在网络直播场景下,为了改善主播的声音质量,录制过程中会加入降噪功能来消除主播语音采集过程中带入的背景杂音。但是固定的降噪参数无法匹配不同的音频文件,使得降噪效果不理想。


技术实现要素:

4.本技术提供了一种音频降噪方法、装置及计算机可读存储介质,用于解决降噪效果不理想的技术问题。
5.第一方面,提供了一种音频降噪方法,该方法包括:
6.从音频流中获取当前时刻的当前音频数据和预设的场景标签;
7.对当前音频数据进行语音识别,确定当前音频数据的第一人声类别;
8.基于第一人声类别和场景标签,生成针对当前音频数据的目标降噪参数;
9.基于目标降噪参数对音频流进行降噪处理。
10.在一个可能的实现方式中,基于第一人声类别和场景标签,生成针对当前音频数据的目标降噪参数,包括:
11.获取前一时刻的音频数据对应的第二人声类别;
12.若第一人声类别与第二人声类别不匹配,则基于第一人声类别和场景标签,生成针对当前音频数据的目标降噪参数。
13.在一个可能的实现方式中,对当前音频数据进行语音识别,确定当前音频数据的第一人声类别,包括:
14.对当前音频数据进行语音检测,提取至少一个人声片段;
15.获取每一人声片段的音频特征;
16.基于音频特征确定当前音频数据的第一人声类别;其中,所述第一人声类别包括讲话声和歌声。
17.在另一个可能的实现方式中,基于第一人声类别和场景标签,生成针对当前音频数据的目标降噪参数,包括:
18.对第一人声类别对应的人声降噪参数、场景标签对应的场景降噪参数进行加权处理,得到目标降噪参数;其中,当第一人声类别为讲话声时所对应的人声降噪参数大于当第一人声类别为歌声时所对应的人声降噪参数。
19.在另一个可能的实现方式中,基于第一人声类别和场景标签,生成针对当前音频数据的目标降噪参数,包括:
20.确定音频数据的采集通路;
21.基于第一人声类别、场景标签和采集通路,生成针对当前音频数据的目标降噪参数。
22.在又一个可能的实现方式中,基于第一人声类别、场景标签和采集通路,生成针对当前音频数据的目标降噪参数,包括:
23.若采集通路不存在相匹配的降噪属性,则基于第一人声类别、场景标签和采集通路,生成针对当前音频数据的目标降噪参数。
24.在又一个可能的实现方式中,基于第一人声类别、场景标签和采集通路,生成针对当前音频数据的目标降噪参数,包括:
25.对第一人声类别对应的人声降噪参数、场景标签对应的场景降噪参数和采集通路对应的通路降噪参数进行加权处理,得到目标降噪参数。
26.在又一个可能的实现方式中,对第一人声类别对应的人声降噪参数、场景标签对应的场景降噪参数和采集通路对应的通路降噪参数进行加权处理,得到目标降噪参数,包括:
27.确定人声降噪参数的第一权重,场景降噪参数的第二权重,通路降噪参数的第三权重;
28.基于第一权重、第二权重和第三权重,对人声降噪参数、场景降噪参数和通路降噪参数加权求和,得到目标降噪参数;其中第一权重大于第二权重和第三权重中的任一项。
29.第二方面,提供了一种音频降噪装置,该装置包括:
30.获取模块,用于从音频流中获取当前时刻的当前音频数据和预设的场景标签;
31.识别模块,用于对当前音频数据进行语音识别,确定当前音频数据的第一人声类别;
32.生成模块,用于基于第一人声类别和场景标签,生成针对当前音频数据的目标降噪参数;
33.降噪模块,用于基于目标降噪参数对音频流进行降噪处理。
34.在一个可能的实现方式中,上述生成模块,具体用于:
35.获取前一时刻的音频数据对应的第二人声类别;
36.若第一人声类别与第二人声类别不匹配,则基于第一人声类别和场景标签,生成针对当前音频数据的目标降噪参数。
37.在一个可能的实现方式中,上述识别模块,具体用于:
38.对当前音频数据进行语音检测,提取至少一个人声片段;
39.获取每一人声片段的音频特征;
40.基于音频特征确定当前音频数据的第一人声类别,其中第一人声类别包括讲话声和歌声。
41.在另一个可能的实现方式中,上述生成模块,具体用于:
42.对第一人声类别对应的人声降噪参数、场景标签对应的场景降噪参数进行加权处理,得到目标降噪参数;其中,当第一人声类别为讲话声时所对应的人声降噪参数大于当第
一人声类别为歌声时所对应的人声降噪参数。
43.在另一个可能的实现方式中,上述生成模块,具体包括:
44.确定单元,用于确定音频数据的采集通路;
45.生成单元,用于基于第一人声类别、场景标签和采集通路,生成针对当前音频数据的目标降噪参数。
46.在又一个可能的实现方式中,上述生成单元,具体用于:
47.若采集通路不存在相匹配的降噪属性,则基于第一人声类别、场景标签和采集通路,生成针对当前音频数据的目标降噪参数。
48.在又一个可能的实现方式中,上述生成单元,还用于:
49.对第一人声类别对应的人声降噪参数、场景标签对应的场景降噪参数和采集通路对应的通路降噪参数进行加权处理,得到目标降噪参数。
50.在又一个可能的实现方式中,上述生成单元,还用于:
51.确定人声降噪参数的第一权重,场景降噪参数的第二权重,通路降噪参数的第三权重;
52.基于第一权重、第二权重和第三权重,对人声降噪参数、场景降噪参数和通路降噪参数加权求和,得到目标降噪参数;其中第一权重大于第二权重和第三权重中的任一项。
53.第三方面,提供了一种电子设备,该电子设备包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现本技术第一方面所示的音频降噪方法。
54.第四方面,提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现本技术第一方面所示的音频降噪方法。
55.第五方面,本技术实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行时实现第一方面实施例或第二方面实施例中所提供的方法。
56.本技术提供的技术方案带来的有益效果是:
57.本技术通过对当前音频数据进行语音识别,并结合预设的场景标签来确定针对该当前音频数据的目标降噪参数,进而实现了对音频流进行有效的降噪处理,相对于现有技术中采用服务器端配置固定的降噪参数进行降噪,本技术的降噪方案可以基于当前音频数据实时配置目标降噪参数,当音频流的人声类别发生改变时,就算场景标签没有及时变更,目标降噪参数也能实时匹配当前音频数据的语音识别结果,从而可以有效提高音频流的降噪效果,提升了降噪效率。
附图说明
58.为了更清楚地说明本技术实施例中的技术方案,下面将对本技术实施例描述中所需要使用的附图作简单地介绍。
59.图1a为本技术实施例提供的一种音频降噪方法的一种应用场景图;
60.图1b为本技术实施例提供的一种音频降噪方法的另一种应用场景图;
61.图2为本技术实施例提供的一种音频降噪方法的流程示意图;
62.图3为本技术实施例提供的一种直播开播页面的配置图;
63.图4为本技术实施例提供的一种语音识别方案的流程示意图;
64.图5为本技术实施例提供的一种针对场景标签的目标降噪参数配置表;
65.图6为本技术实施例提供的一种针对第一人声类别的目标降噪参数配置表;
66.图7为本技术实施例提供的一种针对采集通路的目标降噪参数配置表;
67.图8为本技术实施例提供的一个示例中的音频降噪方法的流程示意图;
68.图9为本技术实施例提供的一个示例中的网络直播过程的流程示意图;
69.图10为本技术实施例提供的一种音频降噪装置的结构示意图;
70.图11为本技术实施例提供的一种音频降噪的电子设备的结构示意图。
具体实施方式
71.下面详细描述本技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本技术,而不能解释为对本发明的限制。
72.本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本技术的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
73.为使本技术的目的、技术方案和优点更加清楚,下面将结合附图对本技术实施方式作进一步地详细描述。
74.人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
75.人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
76.语音技术(speech technology)的关键技术有自动语音识别技术(asr)和语音合成技术(tts)以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。
77.本技术提供的音频降噪方法,能够实时匹配当前音频数据的降噪需求,从而可以有效提升音频流的音质。
78.自然语言处理(nature language processing,nlp)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种
理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
79.区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
80.区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中,用户管理模块负责所有区块链参与者的身份信息管理,包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等,并且在授权的情况下,监管和审计某些真实身份的交易情况,提供风险控制的规则配置(风控审计);基础服务模块部署在所有区块链节点设备上,用来验证业务请求的有效性,并对有效请求完成共识后记录到存储上,对于一个新的业务请求,基础服务先对接口适配解析和鉴权处理(接口适配),然后通过共识算法将业务信息加密(共识管理),在加密之后完整一致的传输至共享账本上(网络通信),并进行记录存储;智能合约模块负责合约的注册发行以及合约触发和合约执行,开发人员可以通过某种编程语言定义合约逻辑,发布到区块链上(合约注册),根据合约条款的逻辑,调用密钥或者其它的事件触发执行,完成合约逻辑,同时还提供对合约升级注销的功能;运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出,例如:告警、监控网络情况、监控节点设备健康状态等。
81.本技术实施例提供的音频降噪方案中,可以将音频流的场景标签、音频数据的第一人声类别和对应的目标降噪参数存储于区块链中,用于进行音频降噪的服务器或终端在执行音频降噪时,可以先查询区块链中是否有与当前的场景标签和第一人声类别对应的目标降噪参数,从区块链中获取目标降噪参数,以便对该音频数据进行降噪处理。
82.本技术实施例提供的方案涉及自然语言处理的语音处理技术,具体通过如下实施例进行说明。
83.在网络数字时代,随着语音处理技术的不断进步,录音技术在促进社会发展中发挥着不可替代的作用。比如,智能手机的使用,电影行业以及音乐行业的发展,都需要录音技术的支持与保障。声音被录制下来以后,无论是说话声、歌声、乐器,乃至噪音都可以通过数字音乐软件处理,而人们为了追求优良的音质往往需要对音频文件做进一步的降噪处理,减少外界噪音对听众的干扰。
84.现有技术中,一般通过服务器端配置固定的降噪参数或通过用户手动调整降噪的力度。比如,在网络直播过程中,为了改善主播的声音质量,直播录制过程中会加入降噪功能来消除主播语音采集过程中带入的背景噪音;在聊天场景中,可以使用固定的降噪配置,但是在唱歌,跳舞,户外灯情况下,这些配置的要求是不同的。比如在唱歌时,要降低降噪参数甚至关闭降噪,在跳舞时,降噪处理降低舞蹈音乐的效果;而户外的情况下,背景的风声和其他环境噪音较大可能会影响说话的效果。
85.一般情况下,通过服务器端配置降噪参数或者主播来手动调整降噪力度,这种降噪方式存在如下缺点:当音频流的音频数据在实时变换时,音频流的降噪需求是不同的,固定的配置不能匹配实时变化的音频流;当直播的场景发生变化时,主播不便及时对场景标签进行调整,并不能根据场景的变化来自动化的配置降噪参数。
86.本技术提供的音频降噪方法实现了基于当前音频数据实时配置目标降噪参数,能够满足实时变换的音频流的降噪需求,相比现有技术,改善了音频流的降噪效果和效率,达到了提升音质的目的,有效提升了用户体验。
87.本技术提供的音频降噪方法、装置和计算机可读存储介质,旨在解决现有技术的如上技术问题。
88.下面以具体地实施例对本技术的技术方案以及本技术的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本技术的实施例进行描述。
89.如图1a所示,本技术的音频降噪方法,可以应用于图1a所示的场景中,具体的,服务器102获取待处理的音频流101之后,对音频流中的当前音频数据101进行语音识别并获取预设的场景标签,基于识别得到的第一人声类别和场景标签确定针对当前音频数据的目标降噪参数,进而根据上述目标降噪参数对音频流101进行降噪处理,得到降噪后的音频流103。
90.如图1b所示,本技术的音频降噪方法,还可以应用于图1b所示的场景中,具体的,终端104可以采集音频流101,将音频流101发送到服务器,服务器102对音频流中的当前音频数据进行识别后,进而根据识别得到的第一人声类别和预设场景标签确定目标降噪参数,将目标降噪参数发送至终端104用于降噪的app(application,应用程序)进行处理。在其他场景中,还可以是终端采集音频数据,终端确定目标降噪参数,并根据目标降噪参数对音频进行处理。
91.本技术领域技术人员可以理解,这里所使用的“终端”可以是手机、平板电脑、pda(personal digital assistant,个人数字助理)、mid(mobile internet device,移动互联网设备)等;“服务器”可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
92.本技术实施例中提供了一种音频降噪方法,如图2所示,该方法可以应用于图1a和图1b所示的服务器中,也可以应用于终端中,可以包括如下步骤:
93.s201,从音频流中获取当前时刻的当前音频数据和预设的场景标签。
94.其中,用于进行音频降噪处理的服务器或终端可以将从音频流中实时采集得到的音频数据作为当前音频数据,例如通过音频采集设备,如麦克风,对音频流信号进行录制得到当前音频数据;还可以将已有的音频流进行处理得到当前音频数据,如利用音频处理软件从音频流中捕获截取声音,剥离视频中音频流的声音,或从音频流中截取一段声音,作为当前音频数据。
95.具体的,可以从终端或服务器中获取预设的场景标签;其中,场景标签可以表征音频流的的信号源所处场景或活动类别,或者是与音频流的内容所对应的场景或活动类别;场景标签可以是用户预设的,还可以是系统根据用户的历史使用数据确定的。
96.以网络直播为例,直播过程中的音频数据的场景可以分为:会议、授课、唱歌、聊天、户外、跳舞等。如图3所述,为直播开播页面的配置图。t1为头像区或者封面区,作为推荐
页展示;t2为标题区,用于展示用户设置开播标题;t3为标签区,标签是差异化的无特定场景分类,可以为会议,唱歌,授课,聊天,户外,跳舞,相亲等;t4为功能区,主播开播时可以在功能区设置摄像头的前后,选择合适的美颜滤镜等。用户可以根据实际直播内容和直播场景在标签区设置所需要的场景标签。
97.s202,对当前音频数据进行语音识别,确定当前音频数据的第一人声类别。
98.其中,第一人声类别可以是音频数据中的音频特征的类别,如人声类别可以包括讲话声和歌声。
99.在一些实施方式中,用于进行音频降噪处理的服务器或终端可以先识别当前音频数据的文本内容,然后对文本内容进行分类得到第一人声类别;具体的,可以基于语音识别网络对音频数据进行语音识别,得到与音频数据的内容对应的文本数据,实现音频到文字的转化;然后基于预训练的分类网络对文本数据进行分类,确定当前音频数据的第一人声类别。
100.在另一些实施方式中,用于进行音频降噪处理的服务器或终端可以从当前音频数据中提取音频特征,然后通过对音频特征进行数字信号处理确定当前音频数据的第一人声类别。其中,基于音频特征的具体识别过程将在下文进行详细阐述。
101.s203,基于第一人声类别和场景标签,生成针对当前音频数据的目标降噪参数。
102.其中,目标降噪参数的取值可以为0

1,目标降噪参数实际可以表征采用降噪软件或设备的全部降噪能力的百分比大小。比如,当音频流数据对降噪处理要求较高,目标降噪参数的取值范围可以为0.6

1,也就是针对该音频流,运用降噪软件或设备的全部降噪能力的60%

100%来进行降噪处理。
103.在一些实施方式中,用于进行音频降噪处理的服务器或终端中可以预先设置有不同分类结果、不同场景标签和不同的降噪参数之间的对应关系,可以根据音频数据的第一人声类别和场景标签,直接查询针对该音频数据的降噪参数;还可以设置分类结果、场景标签和降噪参数之间的函数关系,根据第一人声类别和场景标签计算得到降噪参数。
104.在另一些实施方式中,还可以将分类结果、场景类别结合其他参数,例如音频数据的采集通路对应的降噪参数,确定针对当前音频数据的降噪参数,具体的确定降噪参数的过程将在下文进行详细阐述。
105.s204,基于目标降噪参数对音频流进行降噪处理。
106.具体的,用于进行音频降噪处理的服务器或终端可以基于目标降噪参数对预设的降噪软件进行配置,通过配置好的降噪软件对音频流进行降噪处理。其中,在对音频流进行降噪处理之前,还需要获取噪声音频,基于噪声音频对降噪软件进行降噪设置,使得降噪软件能够准确识别噪声,以便对音频流进行降噪处理。
107.在一个实施方式中,以游戏音频采集的应用场景为例,在一般的大型游戏中,由于背景音和音效较多,且多个游戏玩家之前需要保持实时的语音通话,故需要根据不同的游戏场景来进行实时的降噪,以达到在确保游戏效果的同时还要保证玩家的语音通话效果的目的;在音频采集之前,用户根据游戏场景的需要预先设置一个场景标签如格斗、音乐、射击等,然后基于当前的游戏音频数据进行语音识别,得到游戏音频数据的第一人声类别如讲话声和歌声等,然后基于场景标签和第一人声类别生成目标降噪参数,以便对游戏的音频流进行降噪处理。
108.本技术通过对当前音频数据进行语音识别,并结合预设的场景标签来确定针对该当前音频数据的目标降噪参数,进而实现了对音频流进行有效的降噪处理,相对于现有技术中采用服务器端配置固定的降噪参数进行降噪,本技术的降噪方案可以基于当前音频数据实时配置目标降噪参数,当音频流的人声类别发生改变时,就算场景标签没有及时变更,目标降噪参数也能实时匹配当前音频数据的语音识别结果,从而可以有效提高音频流的降噪效果,提升了降噪效率。
109.本技术实施例中提供了一种可能的实现方式,上述步骤s202中的对当前音频数据进行语音识别,确定当前音频数据的第一人声类别,可以包括:
110.(1)对当前音频数据进行语音检测,提取至少一个人声片段。
111.具体的,可以基于vad(voice activity detection,语音活动检测)算法检测当前音频数据的时域信号的波动情况,从而识别出当前音频数据中的人声部分和非人声部分,并对人声片段进行提取。
112.其中,人声片段包括清音与浊音,语音学中,发音时声带振动的音称为浊音,声带不振动的音称为清音。语音特征中的短时能量更适合检测浊音,而短时过零率更适合检测清音。vad算法采用了双门限端点检测法,该方法结合短时过零率与短时能量作为判断指标;其中,短时平均过零率是指一帧语音时域信号穿过横轴(零电平)次数;短时能量即一帧语音信号能量,人声段部分能量通常比非人声段部分的能量小,清音部分的能量比浊音部分的能量小。
113.具体的vad检测步骤为:先对当前语音数据进行分帧,然后计算每一帧语音信号的短时能量和短时过零率,接着基于预设的短时能量或短时过零率上限与下限阈值来判定人声片段的开始帧和结束帧,进而实现人声片段的提取。
114.(2)获取每一人声片段的音频特征。
115.具体的,可以对每一人声片段进行特征提取处理,进而得到随时间变化的语音特征序列即音频特征。其中,该音频特征可以为lpc(linear predictive coding,线性预测系数)、mfcc(mei

freguencyceptrai coefficients,梅尔倒谱系数)或cep(cepstrum,倒谱系数)等声学特征。
116.具体的,以mfcc特征提取为例进行说明:将vad预处理后的人声片段通过一个高通滤波器进行预加重;接着对预加重后的音频按照20ms的时间长度来分帧,并对每一帧信号加窗以减少音频信号的频谱泄漏;然后对音频信号进行离散傅里叶变化得到频域信号,并通过梅尔刻度滤波器组过滤得到梅尔频谱,最后对梅尔频谱进行倒谱分析得到mfcc系数。
117.音频特征可以从多维度表征人声片段的特征信息,基于音频特征对音频数据的人声类别进行识别,可以有效提高识别的准确率。
118.(3)基于音频特征确定当前音频数据的第一人声类别,其中,第一人声类别包括讲话声和歌声。
119.在一些实施方式中,可以采用数字信号处理的方式对音频特征进行分类,从而确定第一人声类别。
120.上述数字信号处理的主要分类方法为判断基频变化率的频次,通过获取音频特征的基频变化率,来判别人声片段是属于歌声还是讲话声。在乐音中,歌声的每一个音都是不变的,而讲话声是基频在不断变化的。具体分类方法包括:针对音频特征,采用matlab(一种
主要面对科学计算、可视化以及交互式程序设计的高科技计算环境的软件)工具并基于findpeaks(寻找峰值函数)函数运算就得到每一音频特征的基频频率值,并在预设时间段例如1秒钟内,检测基频变化;如果一秒钟内,基频从200hz变化到400hz,又从400hz变化到200hz,一秒钟变化了400次,那么这种音频特征所对应的人声片段可以确定为讲话声;如果一秒钟内,基频在300hz左右变化,相差不到10hz,那么可以判断这种音频特征所对应的人声片段属于歌声。
121.在另一些实施方式中,第一人声类别可以是通过语音识别网络所确定的音频数据的文本内容来分类确定的。
122.具体的,如图4所示,通过语音识别网络得到第一人声类别的过程包括:
123.首先,基于训练好的声学模型计算每一帧音频特征由预设训练集中每一音素产生的概率,进而确定得到概率最大的音素序列,实现音频特征到音素序列的转化。声学模型可以是gmm(gaussian mixture model,高斯混合模型)或hmm(hidden markov model,隐马尔可夫模型)等。
124.然后,基于训练好的语言模型确定得到文本数据,使得音素序列转化为该文本数据的概率最大,实现音素序列到文本数据的转化。其中,语言模型可以用于计算音素序列组成每一完整的文本的概率;语言模型可以是基于统计的n

gram(n元语言模型),也可以是神经网络语言模型或者基于transformer(数据转换器)架构的模型。
125.最后,基于预训练的分类网络对文本数据进行分类得到第一人声类别,分类网络可以基于随机森林模型、svm(support vector machine,支持向量机)分类模型或神经网络分类模型;其中,神经网络分类模型可以为textcnn(text convolutional neural networks,文本卷积神经网络)或lstm(long short

term memory,长短期记忆网络)等文本分类网络。
126.本技术实施例通过数字信号处理或语音识别网络得到第一人声类别,提高了音频数据的人声识别的准确性,为后续的降噪方案满足实时变化的音频流信号的降噪需求提供了可靠的保障。
127.本技术实施例中提供了一种可能的实现方式,上述步骤s203中基于第一人声类别和场景标签,生成针对当前音频数据的目标降噪参数,可以包括:
128.(1)获取前一时刻的音频数据对应的第二人声类别。
129.具体的,可以从用于保存分类结果的数据库中查询得到与前一时刻的音频数据对应的第二人声类别。其中,第二人声类别的识别方式与上述第一人声类别的识别方式相同。
130.(2)若第一人声类别与第二人声类别不匹配,则基于第一人声类别和场景标签,生成针对当前音频数据的目标降噪参数。
131.具体的,当第一人声类别与第二人声类别匹配,则表示当前音频数据对应的场景和活动类别或人声类别和前一音频数据对应的场景和活动类别或人声类别相同,则目标降噪参数为上一时刻的音频数据对应的降噪参数;
132.当第一人声类别与第二人声类别不匹配,则表示当前音频数据对应的人声类别和前一音频数据对应的人声类别不相同,则目标降噪参数为基于第一人声类别和场景标签实时生成的新的降噪参数。
133.本技术实施例基于变化的音频流信号,根据第一人声类别和场景标签实时生成针
对当前音频数据的目标降噪参数,可以有效提高音频流的降噪效果。
134.本技术实施例中提供了另一种可能的实现方式,上述步骤s203中基于第一人声类别和场景标签,生成针对当前音频数据的目标降噪参数,可以包括:
135.对第一人声类别对应的人声降噪参数、场景标签对应的场景降噪参数进行加权处理,得到目标降噪参数;其中,当第一人声类别为讲话声时所对应的人声降噪参数大于当第一人声类别为歌声时所对应的人声降噪参数。
136.具体的,在一些实施方式中,可以根据预先设置第一人声类别和人声降噪参数的对应关系,场景标签和场景降噪参数的对应关系,然后基于上述对应关系确定人声降噪参数和场景降噪参数。
137.具体的,以网络直播场景为例,预先设置不同场景标签和场景降噪参数取值区间的对照关系可以如图5所示,当场景标签为会议、户外或相亲时,该类场景标签对背景噪音处理要求较高,其对应的降噪权重设为高级;当场景为唱歌、音乐或跳舞时,该类场景对声音保真度和还原度要求较高、对背景噪音处理要求较低,其对应的降噪权重设为低级;当场景为授课或聊天时,这类场景既要考虑声音保真度和还原度的要求,又要考虑背景噪音处理的要求,其对应的降噪权重设为中级。上述降噪权重的不同级别分别对应不同的场景参数取值的区间。
138.预先设置不同分类结果和人声降噪参数取值区间的对照关系可以如图6所示,当第一人声类别为讲话声时,要对除讲话声之外的杂音进行降噪,其对应的降噪权重设为高级;当第一人声类别为歌声时,由于需要保留背景音乐,故对应的降噪权重设为低级。
139.在另一些实施方式中,还可以建立第一人声类别、人声降噪参数、场景标签和场景降噪参数之间的函数关系,基于该函数关系计算得到人声降噪参数和场景降噪参数。
140.当对第一人声类别对应的人声降噪参数、场景标签对应的场景降噪参数进行加权处理时,由于人声降噪参数的结果是基于实时语音识别生成的,故人声降噪参数的权重比场景降噪参数的权重大,这样可以避免当音频流对应的场景或活动变更,用户无法及时对场景标签进行设置变更时,造成的目标降噪参数与当前音频数据不匹配的问题,提升了降噪效果和效率。
141.本技术实施例中提供了另一种可能的实现方式,上述步骤s203中的基于第一人声类别和场景标签,生成针对当前音频数据的目标降噪参数,可以包括:
142.(1)确定音频数据的采集通路。
143.具体的,音频数据的采集可以是计算机或手机终端上的录音软件通过麦克风的录制过程,可以从终端的采集接口确定音频数据的采集通路,其中,采集通路可以为耳机mic(microphone,麦克风)、手机mic以及声卡,不同的采集通路也会影响音频数据的降噪需求。比如,手机mic采集到的音频数据的环境噪音较大,所需的降噪力度大,而耳机mic采集时音频数据的环境噪音较低,所需的降噪力度较小。
144.(2)基于第一人声类别、场景标签和采集通路,生成针对当前音频数据的目标降噪参数。
145.在一些实施方式中,可以设置第一人声类别、场景标签、采集通路和目标降噪参数之间的函数关系,进而基于音频数据的第一人声类别、场景标签和采集通路,计算得到针对该当前音频数据的目标降噪参数。
146.在另一些实施方式中,还可以分别预先设置不同的人声类别、不同的场景标签、不同的采集通路和不同的目标降噪参数之间的对应关系,进而基于上述对应关系确定针对该音频数据的目标降噪参数。
147.具体的,以网络直播场景为例,预先设置不同的音频采集通路和通路降噪参数的取值区间的对照关系如图7所示,当手机mic作为采集通路时,背景噪音较大,故其对应的降噪权重设为高级;当耳机mic作为采集通路时,背景噪音和回声问题较小,其对应的降噪权重设为低级;当声卡和蓝牙耳机作为采集通路时,背景噪音适中,故其对应的降噪权重为中级;降噪权重的不同级别分别对应不同的通路参数取值的区间。
148.本技术实施例综合考虑了音频数据的分类结果、场景标签和采集通路对所需的降噪强度的影响,使得生成的目标降噪参数与音频数据进一步匹配,不仅可以满足个性化的场景标签还能适配多种音频采集通路,并能实时匹配音频数据的分类结果,有效改善了降噪效果,达到了提升音质的目的。
149.本技术实施例中提供了又一种可能的实现方式,上述基于第一人声类别、场景标签和采集通路,生成针对当前音频数据的目标降噪参数,可以包括:
150.若采集通路不存在相匹配的降噪属性,则基于第一人声类别、场景标签和采集通路,生成针对当前音频数据的目标降噪参数。
151.具体的,用于进行音频降噪处理的服务器或终端先对当前的采集通路进行检测,当检测到采集通路自带相匹配的降噪属性时,比如采集通路为具有降噪功能的耳机mic,则基于第一人声类别和场景标签,生成针对当前音频数据的目标降噪参数。
152.当检测到采集通路不存在相匹配的降噪属性时,则基于第一人声类别、场景标签和采集通路,生成针对当前音频数据的目标降噪参数。
153.本发明实施例提供的音频降噪方法,相比现有技术,针对音频降噪参数设置没有任何额外的交互操作,降噪设置和降噪处理对用户是透明和无感知的,有效提升了用户体验。
154.本技术实施例中提供了又一种可能的实现方式,上述基于第一人声类别、场景标签和采集通路,生成针对当前音频数据的目标降噪参数,包括:
155.对第一人声类别对应的人声降噪参数、场景标签对应的场景降噪参数和采集通路对应的通路降噪参数进行加权处理,得到目标降噪参数。
156.具体的,可以分类确定人声降噪参数、场景降噪参数和通路降噪参数各自对应的权重,并基于上述权重对人声降噪参数、场景降噪参数和通路降噪参数进行加权求和,进而得到目标降噪参数。
157.本发明实施例在确定降噪参数时,综合考虑了用户设置的场景标签、语音识别出的第一人声类别和音频数据的采集通路三个因素,在参考用户的主观判断的情况下结合音频数据实时的人声分类结果和采集通路进一步提升了音频数据的音质,有效提升了用户体验。
158.本技术实施例中提供了又一种可能的实现方式,上述对第一人声类别对应的人声降噪参数、场景标签对应的场景降噪参数和采集通路对应的通路降噪参数进行加权处理,得到目标降噪参数,可以包括:
159.(1)确定人声降噪参数的第一权重,场景降噪参数的第二权重,通路降噪参数的第
三权重。
160.其中,可以从终端或服务器中获取预设的第一权重、第二权重和第三权重,也可以根据实际工程应用基于数据统计计算生成第一权重、第二权重和第三权重。
161.(2)基于第一权重、第二权重和第三权重,对人声降噪参数、场景降噪参数和通路降噪参数加权求和,得到目标降噪参数;其中第一权重大于第二权重和第三权重中的任一项。
162.具体的,可以将第一权重和人声降噪参数相乘,第二权重和场景降噪参数相乘,第三权重和通路降噪参数相乘,并将上述三个乘积相加,得到目标降噪参数。
163.其中,第一权重、第二权重和第三权重相加的和为1。由于人声降噪参数是基于实时语音识别确定的,故第一权重在三个权重中数值最大;当受到外部影响时,例如音频流对应的场景或活动变更,用户无法及时对场景标签进行设置变更,或当采集通路的降噪功能发生故障时,基于语音识别实时生成的人声降噪参数能够占最大权重,避免受到上述外部影响时造成的目标降噪参数与当前音频数据不匹配的问题,进一步提升了降噪效果。
164.本实施例以网络直播为例进行具体说明,网络直播场景中的音频降噪参数基于语音分析单元、标签配置分析单元和降噪单元三个部分确定:
165.语音分析单元根据识别出的第一人声类别和采集通路,分别确定人声降噪参数和通路降噪参数;
166.标签配置分析单元根据用户设置的场景标签,确定场景降噪参数;
167.降噪单元基于人声降噪参数、场景降噪参数和通路降噪参数生成目标降噪参数。
168.其中,不同的分类结果、场景标签或采集通路具有不同的降噪权重,基于不同的降噪权重可以确定人声降噪参数、场景降噪参数和通路降噪参数的取值区间,进而基于上述取值区间可以根据实际的工程应用情况来确定人声降噪参数、场景降噪参数和通路降噪参数的实际取值。
169.具体的,以网络直播的应用为例,在开播时主播会在配置页面设置一个场景标签,当直播的过程中存在场景更换比如主播从室内转移到室外直播,此时主播可能不会及时变更场景标签的设置,为了减少人为设置造成的误差,场景降噪参数的第二权重可以设为10%;其次,由于音频的采集通路取决于主播的使用习惯,一般不会有太大的改变,且现有的音频采集技术比较成熟,故对整体的降噪参数影响较小,可以将通路参数的第三权重设为20%;从而根据实时音频流语音识别确定的人声降噪参数的第一权重设为70%。由此,系统最终的目标降噪参数r可以由如下公式(1)计算得到:
170.r=s1×
10%+s2×
70%+s3×
20%
ꢀꢀꢀ
(1)
171.式中,r为目标降噪参数,s1为场景降噪参数,s2为人声降噪参数,s3为通路降噪参数。
172.本技术实施例提供的音频目标降噪参数根据多个参数计算确定,结合了当前音频数据的用户预设场景标签、语音识别结果和采集通路情况,能够改善固定参数配置不能适应多样化语音活动和场景的问题,不需要用户手动调整,在有效提高音质的同时提升了用户体验;同时,目标降噪参数的计算和生成对系统处理性能的要求不高,对系统内存的占用较小,进一步保证了音频降噪的效率。
173.为了更好的理解上述音频降噪方法,如图8所示,以下详细阐述一个本技术的音频
降噪方法的示例:
174.s801,从音频流中获取当前时刻的当前音频数据和预设的场景标签。
175.s802,对当前音频数据进行语音识别,确定当前音频数据的第一人声类别。
176.s803,获取前一时刻的音频数据对应的。
177.s804,若第一人声类别与第二人声类别不匹配,确定音频数据的采集通路。
178.s805,若采集通路不存在相匹配的降噪属性,则确定人声降噪参数的第一权重,场景降噪参数的第二权重,通路降噪参数的第三权重。
179.s806,基于第一权重、第二权重和第三权重,对人声降噪参数、场景降噪参数和通路降噪参数加权求和,得到目标降噪参数;其中第一权重大于第二权重和第三权重中的任一项。
180.s807,基于目标降噪参数对音频流进行降噪处理。
181.为了更好的理解上述音频降噪方法,以下详细阐述一个本技术的一个示例,以网络直播的应用为例,如图9所述,应用上述音频降噪方法的网络直播过程可以包括如下步骤:
182.(1)音频采集模块901通过手机mic,耳机mic,或者话筒mic采集音频数据;其中,不同的采集设备需配置不同的参数,常见的参数有:声道个数(单双声道),采样率(44100/48000),比特数(8/16)等;
183.(2)场景识别模块902从相应的采集通路获取上述音频数据;其中,场景识别模块902包括标签配置分析单元9021、语音分析单元9022;
184.(3)标签配置分析单元9021根据用户设置的场景标签,确定场景降噪参数,语音分析单元9022对音频数据进行语音识别,并根据识别出的第一人声类别和采集通路,进而分别确定人声降噪参数和通路降噪参数;
185.(4)场景识别模块902还包括降噪单元9023,降噪单元9023基于场景降噪参数、人声降噪参数和通路降噪参数生成目标降噪参数;
186.(5)音频前处理模块903接收到上述目标降噪参数,对音频数据进行降噪、回声消除、自动增益处理和采样率转换等预处理操作;
187.(6)音频编码模块904将预处理后的音频数据通过编码器压缩,以便节省存储空间和传输带宽,常见的编码标准如:aac(advanced audio coding,高级音频编码),mp3(moving picture experts group audio layer

3,动态影像专家压缩标准音频层面),opus等;其中,opus是一个有损声音编码的格式,可以处理各种音频应用,它可以从低比特率窄带语音扩展到非常高清音质的立体声音乐;
188.(7)摄像头采集模块905通过手机摄像头进行图像采集,得到视频数据;其中,不同的摄像头设备根据不同的能力提供不同尺寸和帧率的数据流;
189.(8)通过视频前处理模块906对上述视频数据进行编码前的预处理,包括尺寸的裁剪,边界的对齐以及旋转/色彩空间的转换等;
190.(9)采用视频编码模块907对预处理后的视频数据进行压缩,节省存储空间提高传输效率;常见的编码标准有:mpeg2(moving picture experts group,活动图像专家组)、h.264、h.265等;其中,h.264是国际标准化组织和国际电信联盟共同提出的高度压缩数字视频编解码器标准,h.265是围绕着现有的视频编码标准h.264改进后的视频编码标准;
191.(10)在接收到压缩后的音频数据和视频数据之后,音视频封装模块908将压缩后的音频数据和视频数据根据pts(presentation time stamp,显示时间戳)校准对齐排列,根据不同的封装器规范格式,得到音视频交织数据,将交织数据存放并发送到流服务器模块909;
192.(11)流服务器模块909将上述交织频数据通过内部网络分发至观众的终端910即cdn(content delivery network,内容分发网络);以便观众从cdn服务器中获取直播数据流,并通过播放器进行解码播放。
193.本技术通过对当前音频数据进行语音识别,并结合预设的场景标签来确定针对该当前音频数据的目标降噪参数,进而实现了对音频流进行有效的降噪处理,相对于现有技术中采用服务器端配置固定的降噪参数进行降噪,本技术的降噪方案可以基于当前音频数据实时配置目标降噪参数,当音频流的人声类别发生改变时,就算场景标签没有及时变更,目标降噪参数也能实时匹配当前音频数据的语音识别结果,从而可以有效提高音频流的降噪效果,提升了降噪效率。
194.本技术实施例提供了一种音频降噪装置,如图10所示,该音频装置110可以包括:获取模块1101、识别模块1102、生成模块1103以及降噪模块1104,其中,获取模块1101,用于从音频流中获取当前时刻的当前音频数据和预设的场景标签;
195.识别模块1102,用于对当前音频数据进行语音识别,确定当前音频数据的第一人声类别;
196.生成模块1103,用于基于第一人声类别和场景标签,生成针对当前音频数据的目标降噪参数;
197.降噪模块1104,用于基于目标降噪参数对音频流进行降噪处理。
198.本技术实施例中提供了一种可能的实现方式,上述生成模块1103,具体用于:
199.获取前一时刻的音频数据对应的第二人声类别;
200.若第一人声类别与第二人声类别不匹配,则基于第一人声类别和场景标签,生成针对当前音频数据的目标降噪参数。
201.本技术实施例中提供了一种可能的实现方式,上述识别模块1102,具体用于:
202.对当前音频数据进行语音检测,提取至少一个人声片段;
203.获取每一人声片段的音频特征;
204.基于音频特征确定当前音频数据的第一人声类别,其中,第一人声类别包括讲话声和歌声。
205.本技术实施例中提供了一种可能的实现方式,上述生成模块1103,具体用于:
206.对第一人声类别对应的人声降噪参数、场景标签对应的场景降噪参数进行加权处理,得到目标降噪参数;其中,当第一人声类别为讲话声时所对应的人声降噪参数大于当第一人声类别为歌声时所对应的人声降噪参数。
207.本技术实施例中提供了一种可能的实现方式,上述生成模块1103,具体包括:
208.确定单元,用于确定音频数据的采集通路;
209.生成单元,用于基于第一人声类别、场景标签和采集通路,生成针对当前音频数据的目标降噪参数。
210.本技术实施例中提供了又一种可能的实现方式,上述生成单元,具体用于:
211.若采集通路不存在相匹配的降噪属性,则基于第一人声类别、场景标签和采集通路,生成针对当前音频数据的目标降噪参数。
212.本技术实施例中提供了又一种可能的实现方式,上述生成单元,还用于:
213.对第一人声类别对应的人声降噪参数、场景标签对应的场景降噪参数和采集通路对应的通路降噪参数进行加权处理,得到目标降噪参数。
214.本技术实施例中提供了一种可能的实现方式,上述生成单元,还用于:
215.确定人声降噪参数的第一权重,场景降噪参数的第二权重,通路降噪参数的第三权重;
216.基于第一权重、第二权重和第三权重,对人声降噪参数、场景降噪参数和通路降噪参数加权求和,得到目标降噪参数;其中第一权重大于第二权重和第三权重中的任一项。
217.本技术通过对当前音频数据进行语音识别,并结合预设的场景标签来确定针对该当前音频数据的目标降噪参数,进而实现了对音频流进行有效的降噪处理,相对于现有技术中采用服务器端配置固定的降噪参数进行降噪,本技术的降噪方案可以基于当前音频数据实时配置目标降噪参数,当音频流的人声类别发生改变时,就算场景标签没有及时变更,目标降噪参数也能实时匹配当前音频数据的语音识别结果,从而可以有效提高音频流的降噪效果,提升了降噪效率。
218.本技术实施例中提供了一种电子设备,该电子设备包括:存储器和处理器;至少一个程序,存储于存储器中,用于被处理器执行上述程序时实现如前述方法实施例中相应的内容,与现有技术相比可实现:本技术通过对当前音频数据进行语音识别,并结合预设的场景标签来确定针对该当前音频数据的目标降噪参数,进而实现了对音频流进行有效的降噪处理,相对于现有技术中采用服务器端配置固定的降噪参数进行降噪,本技术的降噪方案可以基于当前音频数据实时配置目标降噪参数,当音频流的人声类别发生改变时,就算场景标签没有及时变更,目标降噪参数也能实时匹配当前音频数据的语音识别结果,从而可以有效提高音频流的降噪效果,提升了降噪效率。
219.在一个可选实施例中提供了一种电子设备,如图11所示,图11所示的电子设备4000包括:处理器4001和存储器4003。其中,处理器4001和存储器4003相连,如通过总线4002相连。可选地,电子设备4000还可以包括收发器4004,收发器4004可以用于该电子设备与其他电子设备之间的数据交互,如数据的发送和/或数据的接收等。需要说明的是,实际应用中收发器4004不限于一个,该电子设备4000的结构并不构成对本技术实施例的限定。
220.处理器4001可以是cpu(central processing unit,中央处理器),通用处理器,dsp(digital signal processor,数据信号处理器),asic(application specific integrated circuit,专用集成电路),fpga(field programmable gate array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本技术公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器4001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,dsp和微处理器的组合等。
221.总线4002可包括一通路,在上述组件之间传送信息。总线4002可以是pci(peripheral component interconnect,外设部件互连标准)总线或eisa(extended industry standard architecture,扩展工业标准结构)总线等。总线4002可以分为地址总
线、数据总线、控制总线等。为便于表示,图11中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
222.存储器4003可以是rom(read only memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,ram(random access memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是eeprom(electrically erasable programmable read only memory,电可擦可编程只读存储器)、cd

rom(compact disc readonly memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
223.存储器4003用于存储执行本技术方案的应用程序代码,并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的应用程序代码,以实现前述方法实施例所示的内容。
224.其中,电子设备包括但不限于:移动电话、笔记本电脑、数字广播接收器、pda(个人数字助理)、pad(平板电脑)、pmp(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字tv、台式计算机等等的固定终端。图11示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
225.本技术实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,当其在计算机上运行时,使得计算机可以执行前述方法实施例中相应内容。
226.本技术实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行时实现如下情况:
227.从音频流中获取当前时刻的当前音频数据和预设的场景标签;对当前音频数据进行语音识别,确定当前音频数据的第一人声类别;基于第一人声类别和场景标签,生成针对当前音频数据的目标降噪参数;基于目标降噪参数对音频流进行降噪处理。
228.应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
229.以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。