1.本公开的实施方案总体上涉及音频系统,并且更具体地涉及一种开放有源噪声消除系统。
背景技术:2.许多公司办公室采用开放办公环境,其中多名员工在公共空间中工作,而不是通过物理屏障(诸如全墙(其提供单独房间)或隔间墙(其在公共房间内提供单独区域))将员工隔开。因为员工共享公共空间,开放办公环境鼓励员工之间的面对面交流和协作。
3.然而,开放办公环境的缺点之一在于,公共空间迫使员工在几乎没有隐私的嘈杂环境中工作。例如,在与他人通话时,员工被迫在嘈杂的开放办公环境内讲话和收听,办公环境中来自环境的噪声妨碍用户听到扬声器的能力。嘈杂环境也妨碍用户盖过其他噪声源清楚地讲话的能力。替代地,员工被迫移动到没有噪声元素的更安静环境。然而,此类空间可能是有限的。
4.如上所述,用于开放办公环境内的语音通信的改进系统将是有用的。
技术实现要素:5.本公开的实施方案阐述了一种减小音频信号中的噪声的方法。所述方法包括:基于从第一组传感器获取的传感器数据确定用户在环境中的第一位置。所述方法还包括:通过所述第一组传感器获取与所述环境中的声音相关联的一个或多个音频信号并且标识所述一个或多个音频信号中的一个或多个噪声元素。所述方法还包括:基于所述一个或多个噪声元素生成第一定向音频信号。当所述第一定向音频信号由第一扬声器输出时,所述第一扬声器产生衰减所述第一位置处的所述一个或多个噪声元素的第一声场。
6.除其他事项外,其他实施方案提供一种用于实现上文所阐述的方法的各方面的系统和计算机可读存储介质。
7.所公开技术的至少一个技术优点在于可将音频信号传输到用户,同时还消除开放环境内的某些噪声。所述开放有源噪声消除系统标识并且然后衰减或消除某些噪声元素,这使得用户能够在开放环境内讲话和/或收听言语,而无需额外的设备(诸如屏障或耳机)来在交流时抑制噪声。
附图说明
8.为了能够详细地理解各种实施方案的上述特征的方式,可以通过参考各种实施方案来对以上简要概述的创造性概念进行更具体的描述,附图中示出其中一些实施方案。然而应注意,附图仅示出这些创造性概念的典型实施方案,因此不应视为以任何方式限制其范围,并且存在其他等效实施方案。
9.图1示出包括被配置来实现本公开的一个或多个方面的开放有源噪声消除系统的计算机网络的框图。
10.图2示出根据本公开的各种实施方案的图1的被配置来处理语音信号和噪声信号的开放有源噪声消除系统的框图。
11.图3示出根据本公开的各种实施方案的用于使用图1的开放有源噪声消除系统处理音频信号以衰减与所捕获言语信号相关联的噪声元素的技术。
12.图4示出根据本公开的各种实施方案的用于使用图1的开放有源噪声消除系统处理音频信号以衰减噪声元素以便发射定向音频输出信号的技术。
13.图5是根据本公开的各种实施方案的用于通过图1的开放有源噪声消除系统生成所处理音频信号的方法步骤的流程图。
14.图6是根据本公开的各种实施方案的用于通过图1的开放有源噪声消除系统生成定向音频输出信号的方法步骤的流程图。
具体实施方式
15.在以下描述中,阐述了许多特定细节以提供对各种实施方案的更透彻理解。然而,对本领域技术人员将明显的是,也可在没有这些具体细节中的一个或多个的情况下实践这些创造性概念。
16.图1示出包括被配置来实现本公开的一个或多个方面的开放有源噪声消除系统110的计算机网络100的框图。如图所示,计算机网络100包括但不限于开放有源噪声消除系统110、网络120、用户装置132、通信服务器134和/或开放有源噪声消除系统136。在替代实施方案中,计算机网络100可包括任何数量的用户装置132、开放有源噪声消除系统110、136和/或通信服务器134。
17.开放有源噪声消除系统110包括一个或多个传感器112、音频输入装置114、音频输出装置116和/或言语处理器118。在各种实施方案中,开放有源噪声消除系统110可包括台式计算机、膝上型计算机、移动计算机或适合于实践本公开的一个或多个实施方案并且被配置来接收数据作为输入、处理数据并发出声音的任何其他类型计算系统。在各种实施方案中,开放有源噪声消除系统136可包括包含在开放有源噪声消除系统110中的一个或多个部件。如下文将更详细论述,开放有源噪声消除系统110被配置来使得用户能够通过网络120通过言语与一个或多个装置通信。在各种实施方案中,开放有源噪声消除系统110可执行一个或多个应用程序以捕获用户的言语并且通过网络120将所述言语传输到其他装置。另外或替代地,开放有源噪声消除系统110可执行一个或多个应用程序以处理通过网络120接收的音频信号并且通过一个或多个音频输出装置发射音频信号。
18.在各种实施方案中,在操作中,开放有源噪声消除系统110通过音频输入装置114和/或传感器112捕获音频信号。所捕获音频信号可包括用户的言语和一个或多个噪声元素。包括在开放有源噪声消除系统110中的言语处理器118对所捕获音频进行滤波以衰减和/或抑制所捕获音频信号中的噪声元素以产生所处理音频信号。开放有源噪声消除系统110通过网络120将所处理音频信号传输到一个或多个接收者。在各种实施方案中,一个或多个接收者包括用户装置132、通信服务器134和/或具有与开放有源噪声消除系统136相同或类似功能性的装置中的一者或多者。
19.在各种实施方案中,开放有源噪声消除系统110可通过网络120接收音频输入信号。在此类情况下,包括在开放有源噪声消除系统110中的言语处理器118可处理音频输入
信号。一个或多个传感器112可生成与用户在环境内的位置相关联的位置数据。一个或多个传感器112和/或音频输入装置114还可从环境内的一个或多个噪声源捕获噪声信号。言语处理器118可接收位置数据和/或噪声信号并且可产生对应的所处理定向音频信号。在各种实施方案中,言语处理器118可将所处理定向音频信号传输到音频输出装置116。音频输出装置116可生成包括用户在环境内的位置的声场。音频输出装置116在所生成声场内再现所处理音频信号,这使得用户能够听到音频信号,而环境内的各种噪声元素在声场内衰减。
20.网络120包括被配置来促进开放有源噪声消除系统110、136、用户装置132和/或通信服务器134之间的数据通信的多个网络通信系统,诸如路由器和交换机。本领域技术人员将认识到,存在用于构建网络120的许多技术上可行的技术,包括在部署互联网通信网络中实践的技术。例如,网络120可包括广域网(wan)、局域网(lan)和/或无线(wi
‑
fi)网络等。
21.用户装置132可以是台式计算机、膝上型计算机、移动计算机或被配置来接收输入、处理数据、发出声音并且适合于实践本公开的一个或多个实施方案的任何其他类型计算系统。用户装置132被配置来使得用户能够通过网络120通过言语与一个或多个装置通信。在各种实施方案中,用户装置132可执行一个或多个应用程序以捕获用户的言语并且通过网络120将所述言语传输到其他装置。另外或替代地,用户装置132可执行一个或多个应用程序以处理通过网络120接收的音频信号并且通过一个或多个音频输出装置发射音频信号。
22.通信服务器134包括被配置来从一个或多个用户装置132和/或开放有源噪声消除系统110、136接收数据和/或音频信号的计算机系统。在各种实施方案中,通信服务器134执行应用程序以便同步和/或协调参与实时通信的装置之间的数据传输。
23.图2示出根据本公开的各种实施方案的图1的被配置来处理语音信号和噪声信号的开放有源噪声消除系统110的框图。开放有源噪声消除系统200包括一个或多个传感器112、音频输入装置114、音频输出装置116和计算装置210。计算装置210包括处理单元212和存储器214。存储器214存储数据库216和言语处理应用程序218。
24.在操作中,处理单元212从一个或多个传感器112、音频输入装置114和/或网络120接收数据。在各种实施方案中,所接收数据包括音频信号(例如,言语信号、噪声信号等)和/或传感器数据。处理单元212执行言语处理应用程序218以分析传感器数据和音频信号。在分析音频信号和传感器数据时,言语处理应用程序218生成所处理音频信号。所述所处理音频信号衰减和/或抑制与音频信号相关联的噪声元素。在各种实施方案中,言语处理应用程序218可致使音频输出装置116发射声场。
25.在各种实施方案中,言语处理应用程序218可使用各种言语识别和/或噪声识别技术来标识所捕获音频的部分。言语处理应用程序218标识包括在所捕获音频的部分中的一个或多个噪声元素并且对所捕获音频进行滤波以衰减和/或去除所标识噪声元素。在一些实施方案中,言语处理应用程序218可在处理由用户提供的言语时在生成要通过网络120发送给接收者的所处理音频信号之前衰减噪声元素。另外或替代地,言语处理应用程序218可标识环境中的噪声元素并且在为用户生成声场时生成抑制噪声的所处理定向音频信号。
26.一个或多个传感器112包括收集与环境中的对象相关联的数据的一个或多个装置。在各种实施方案中,一个或多个传感器112可包括获取不同传感器数据的传感器群组。例如,一个或多个传感器112可包括可获取声音数据和/或运动数据(例如,加速度、速度等)
的参考传感器,诸如传声器和/或加速度计。在另一实例中,一个或多个传感器112可包括可获取对应于用户的位置的数据的一个或多个位置跟踪器,诸如一个或多个相机、热成像仪、线性位置传感器等。
27.在各种实施方案中,通过执行测量和/或收集其他数据来产生传感器数据。例如,一个或多个传感器112可产生与用户在环境内的位置相关联的传感器数据。一个或多个传感器112可执行测量(诸如距离测量),并且产生反映距离测量的传感器数据(例如,位置数据)。计算装置210可分析从一个或多个传感器112接收的传感器数据以便跟踪用户的位置。在各种实施方案中,言语处理应用程序218然后可确定环境内的目标位置,在所述目标位置处将由音频输出装置116生成声场。
28.在各种实施方案中,一个或多个传感器112可包括位置传感器,诸如加速度计或惯性测量单元(imu)。imu可以是类似三轴加速度计、陀螺仪传感器和/或磁力计的装置。在一些实施方案中,一个或多个传感器112可包括光学传感器,诸如rgb相机、飞行时间传感器、红外(ir)相机、深度相机和/或快速响应(qr)代码跟踪系统。此外,在一些实施方案中,一个或多个传感器112可包括无线传感器,包括射频(rf)传感器(例如,声纳和雷达)、基于超声的传感器、电容传感器、基于激光的传感器和/或无线通信协议,包括蓝牙、低功耗蓝牙(ble)、无线局域网(wifi)蜂窝协议和/或近场通信(nfc)。
29.如上所指出,计算装置210可包括处理单元212和存储器214。计算装置210可以是包括一个或多个处理单元212的装置(诸如片上系统(soc)),或移动计算装置,诸如平板计算机、移动电话、媒体播放器等。通常,计算装置210可被配置来协调开放有源噪声消除系统200的总体操作。在一些实施方案中,计算装置210可耦接到一个或多个传感器112、音频输入装置114和/或音频输出装置116,但可与它们分离。在此类情况下,计算装置210可包括在单独装置中。本文所公开的实施方案预期被配置来通过计算装置210实现开放有源噪声消除系统200的功能性的任何技术上可行的系统。
30.处理单元212可包括中央处理单元(cpu)、数字信号处理单元(dsp)、微处理器、专用集成电路(asic)、神所处理单元(npu)、图形处理单元(gpu)、现场可编程门阵列(fpga)等。在一些实施方案中,处理单元212可被配置来执行言语处理应用程序218以便分析所捕获音频信号、所接收音频信号和/或传感器数据并且标识包括在环境中的噪声元素。在一些实施方案中,处理单元212可被配置来执行言语处理应用程序218以标识一个或多个噪声元素并且生成所处理音频信号,其中噪声元素被衰减和/或去除。
31.存储器214可包括存储器模块或存储器模块的集合。存储器214内的言语处理应用程序218可由处理单元212执行以实现计算装置210的总体功能性,并且因此整体协调开放有源噪声消除系统200的操作。
32.数据库216可存储由处理单元212检索以协调开放有源噪声消除系统200的操作的值和其他数据。在各种实施方案中,在操作中,处理单元212可被配置来将值存储在数据库216中和/或检索存储在数据库216中的值。例如,数据库216可存储传感器数据、音频内容和参考音频(例如,一个或多个参考噪声信号)数字信号处理算法、换能器参数数据等。
33.音频输入装置114可以是能够接收一个或多个音频输入的装置。音频输入装置114可作为传声器。音频输出装置116可以是能够提供一个或多个音频输出的装置。音频输出装置116可以是扬声器系统(例如,一个或多个音箱、扩音器等)或生成声场的其他装置。例如,
音频输出装置116可以是包括在指定位置周围生成声场的多个参数扬声器的扬声器阵列。在各种实施方案中,音频输入装置114和/或音频输出装置116中的一者或多者可并入计算装置210中,或者可位于计算装置210外部。
34.图3示出根据本公开的各种实施方案的用于使用图1的开放有源噪声消除系统处理音频信号以衰减与所捕获言语信号相关联的噪声元素的技术。如图所示,开放有源噪声消除系统300包括输入堆栈330和处理器118。输入堆栈330包括一个或多个传感器112和音频输入装置114。处理器118包括言语处理应用程序218,所述言语处理应用程序218包括语音识别应用程序344、噪声识别应用程序346、神经网络342和滤波器348。在各种实施方案中,言语处理应用程序218—包括语音识别应用程序344、噪声识别应用程序346、神经网络342和滤波器348中的一者或多者—可存储在存储器214中并由处理器118执行。
35.在操作中,包括在输入堆栈330中的一个或多个部件从周围环境中的源获取信号。例如,输入堆栈330可获取用户320发出的言语和一个或多个噪声源310发出的噪声。处理器118接收从输入堆栈330获取的信号作为所捕获音频信号332。处理器118执行言语处理应用程序218以分析所捕获音频信号332并且产生基于分析的所处理音频信号352。所处理音频信号352是用于由一个或多个装置(例如,音频输出装置116)进行音频呈现的电子或数字信号。处理器118然后可将所处理音频信号352传输到再现所处理音频信号的一个或多个接收者。
36.在各种实施方案中,一个或多个传感器112和/或音频输入装置114可包括捕获一个或多个物理音频信号的传声器。输入堆栈330产生电子或数字信号作为所捕获音频信号332。例如,输入堆栈330可从周围环境中的一个或多个噪声源310获取一个或多个噪声信号312。另外或替代地,输入堆栈330可从周围环境内的一个或多个用户320获取一个或多个言语信号322。在一些实施方案中,输入堆栈330可在同一时间段内接收噪声信号312和言语信号322。在此类情况下,所捕获音频信号332的部分包括噪声信号312和言语信号332两者。
37.处理器118分析从输入堆栈330接收的所捕获音频信号332并且产生所处理音频信号352。在各种实施方案中,处理器118执行言语处理应用程序218以分析所捕获音频信号332。在一些实施方案中,包括在言语处理应用程序218中的神经网络342使用一个或多个应用程序分析所捕获音频信号332以标识包括在所捕获音频信号332中的某些元素。例如,神经网络342可使用语音识别应用程序344来从所捕获音频信号332的一个或多个部分标识言语元素和/或单独扬声器。另外或替代地,神经网络342还可使用噪声识别应用程序346来分析所捕获音频信号332以标识包括在所捕获音频信号332的一个或多个部分中的噪声元素。
38.在分析所捕获音频信号332时,言语处理应用程序218应用一个或多个滤波器348以基于所捕获音频信号332生成信号,其中所生成信号使某些部分强调或衰减。在各种实施方案中,处理器118通过将一个或多个滤波器348应用于所捕获音频信号332来生成所处理音频信号352。在各种实施方案中,言语处理应用程序218可基于标识包括在所捕获音频信号332中的噪声元素和/或言语元素来修改一个或多个滤波器348。言语处理应用程序218然后可将所修改滤波器348应用于所捕获音频信号332以便产生所处理音频信号。在此类情况下,所捕获音频332的部分可在所处理音频信号352的对应部分中衰减。在一些实施方案中,在生成所处理音频信号352时,处理器118可通过网络120将所处理音频信号352传输到一个或多个接收者。
39.神经网络342是人工智能(ai)计算系统,其采用一种或多种机器学习(ml)技术来分析输入信号。例如,神经网络342可采用语音识别应用程序344,所述语音识别应用程序344使用一种或多种ml技术来学习单独扬声器的言语元素和/或特性。当神经网络342存储所学习言语元素和扬声器特性时,神经网络342可基于这些所存储元素和特性标识随后接收到的所捕获音频信号332中的言语元素。例如,使用先前知识,神经网络342可采用语音识别应用程序344来分析所捕获音频信号332。在此类情况下,神经网络可标识言语信号322、单独扬声器、扬声器特性和/或包括在所捕获音频信号332的部分中的具体言语元素。在各种实施方案中,神经网络342可通过从数据库216检索数据(例如,参考言语元素和/或参考言语信号)并且将所检索数据与所捕获言语信号332的部分进行比较来标识具体言语特性和言语元素。由神经网络342在采用语音识别应用程序344时采用的合适的ml技术或计算系统可包括例如最近邻分类器过程、马尔可夫链、深度学习方法和/或任何其他技术上可行的方法。
40.另外或替代地,神经网络342可采用噪声识别应用程序346,所述噪声识别应用程序346使用一种或多种ml技术来学习周围环境内的单独噪声源和/或已知噪声特性(例如,模式、具体噪声源等)。神经网络342可类似地采用噪声识别应用程序346来学习噪声特性并且随后通过将所捕获音频信号332的部分与存储在数据库216中的参考数据进行比较来标识具体噪声元素和/或单独言语信号312。
41.滤波器348可包括在由音频输出装置回放之前修改音频信号的一个或多个滤波器。在各种实施方案中,滤波器348可包括两个或更多个滤波器的滤波器组,它们单独地调整所接收音频信号的多个频率分量(例如,频率范围)中的每一个。例如,处理器118可调整滤波器348以衰减由神经网络342标识的噪声元素和/或一些语音元素。在此类情况下,滤波器348可接收所捕获音频信号332并且可修改所捕获音频信号332的不同频率范围以便生成所处理音频信号352。在一些实施方案中,滤波器348可将所捕获音频信号332分解成一组所滤波信号,其中每个所滤波信号对应于所捕获音频信号332的频率子带。在此类情况下,滤波器348可衰减频率子带中的一个或多个以便衰减所捕获音频信号352的所标识噪声元素和/或言语元素。
42.图4示出根据本公开的各种实施方案的用于使用图1的开放有源噪声消除系统处理音频信号以衰减噪声元素以便发射定向音频输出信号的技术。如图所示,开放噪声消除系统400包括处理器118、一个或多个传感器112、音频输出装置116、噪声源410、用户420和/或噪声数据库(db)430。处理器118包括言语处理应用程序218,所述言语处理应用程序218包括神经网络342、噪声识别应用程序346和滤波器348。在各种实施方案中,言语处理应用程序218—包括神经网络342、噪声识别应用程序346和滤波器348中的一者或多者—可存储在存储器214中并由处理器118执行。
43.在操作中,处理器118(通过网络120)从各种源接收数据,其中所述源包括一个或多个传感器112和一个或多个发送器。所接收数据包括音频数据(例如,输入音频信号402和噪声信号422)和对应于用户420在周围环境内的位置的位置数据424。处理器118执行言语处理应用程序218以分析所接收数据并且生成基于分析的所处理定向音频信号432。所处理定向音频信号432具有对应于输入音频信号402的分量、衰减噪声信号422的分量以及对应于朝向用户420的位置发射声波的定向分量。处理器118然后将所处理定向音频信号432传
输到音频输出装置116。音频输出装置116通过发射产生声场442的声波来输出所处理定向音频信号432。声场442的特性使得位于周围环境内的确定位置的用户420能够听到所处理定向音频信号432的对应于输入音频信号402的部分,同时衰减周围环境内的噪声信号422。
44.输入音频信号402是用于由音频输出装置116输出的模拟或数字信号。在各种实施方案中,输入音频信号402可对应于由另一装置通过网络120提供的所处理音频信号352。噪声信号422是响应于一个或多个传感器112从一个或多个噪声源410接收声波而由一个或多个传感器112生成的模拟或数字信号。在各种实施方案中,处理器118可与输入音频信号402分开地接收噪声信号422。
45.言语处理应用程序218分析噪声信号422以便标识一个或多个噪声元素。在各种实施方案中,包括在言语处理应用程序218中的神经网络342可采用噪声识别应用程序346以便标识包括在噪声信号422中的一个或多个噪声元素。在一些实施方案中,神经网络342可采用噪声识别应用程序来从噪声数据库430检索对应于具体噪声元素(例如,咳嗽、一个或多个音箱、一个或多个讲话的个体、hvac系统、计算机交互等)的一个或多个参考信号。例如,噪声识别应用程序可将噪声信号422的一部分与存储在噪声数据库430中的参考信号进行比较,以便标识噪声源410。在此类情况下,言语处理应用程序218可修改滤波器348以生成所处理定向音频432,使得声场442衰减声场内的所标识噪声元素。
46.在各种实施方案中,言语处理应用程序218通过基于所标识噪声元素和/或噪声信号422生成噪声消除信号来提供有源噪声控制(anc)。在此类情况下,言语处理应用程序218通过对噪声信号422应用一个或多个滤波器348来生成噪声消除信号。另外或替代地,言语处理应用程序218可将噪声消除信号并入所处理定向音频信号432的特性中。在此类情况下,音频输出装置116可发射声波,其中声波包括抗噪声部分,所述抗噪声部分提供对所标识噪声元素的相消干扰。例如,言语处理应用程序218可从一个或多个传感器112接收噪声信号422。言语处理应用程序218然后可生成噪声消除信号,所述噪声消除信号致使音频输出装置116发射包括与噪声信号422具有相同幅度并且反相的抗噪声分量的声波。在一些实施方案中,言语处理应用程序218可将所生成抗噪声信号与对应的所标识噪声元素相关联,并且可将抗噪声信号存储在数据库216中。
47.在各种实施方案中,为了生成所处理定向音频信号432,言语处理应用程序218确定用户与音频输出装置116的相对位置并且包括一个或多个定向参数,所述一个或多个定向参数致使音频输出装置116产生囊括对应位置处的用户420的声场442。处理器将所处理定向音频信号432传输到音频输出装置116,所述音频输出装置116发射对应于声场442的声波。
48.处理器118接收由一个或多个传感器112生成的位置数据424。在各种实施方案中,位置数据424是与一个或多个用户420在周围环境内的一个或多个位置和/或一个或多个取向相关的传感器数据。在一些实施方案中,位置数据424还包括包含在音频输出装置116中的一个或多个扬声器的一个或多个位置和/或一个或多个取向。在此类情况下,处理器118可执行言语处理应用程序218以基于用户420与音频输出装置116的相对位置生成位置参数,诸如方向和距离。在各种实施方案中,位置数据424可包括与用户420在指定时间段期间在周围环境内的位置和/或取向有关的数据。例如,在t0‑
t1的第一指定时间段期间,用户420具有初始位置。在此实例中,一个或多个传感器112可针对第一指定时段获取对应于第一位
置的位置数据424。当用户420在t1‑
t2的第二指定时间段期间移动到第二位置时,一个或多个传感器112可针对第二指定时间段获取对应于第二位置的位置数据。
49.在各种实施方案中,言语处理应用程序218将所处理定向音频信号432生成为包括与发射声波以产生声场442的音频输出装置116相关联的一个或多个参数。在此类情况下,参数指定音频输出装置116如何发射声波,使得对应声场442囊括用户420的位置。言语处理应用程序218基于从一个或多个传感器112接收的位置数据424产生一个或多个参数并且将所述参数包括在所处理定向音频信号432中。在各种实施方案中,所处理定向音频信号432可包括但不限于目标相对于音频输出装置116(例如,相对于包括在音频输出装置116中的音箱的中心轴线)定位的方向、要由音频输出装置116输出以便在目标位置(例如,相对于音箱离轴的目标位置)处生成期望声级的声级、音频输出装置116与目标位置之间的距离、音频输出装置116与目标位置之间的距离和/或角度等。
50.音频输出装置116接收由言语处理应用程序218提供的所处理定向音频信号432。在各种实施方案中,音频输出装置116通过发射声波以便生成声场442来输出所处理定向音频信号432。声场442与包括在所处理定向音频信号432中的数据相关联。由音频输出装置116发射的声波再现输入音频信号402。声场442的声波具有衰减(例如,通过相消干扰抵消)也包括在环境中的其他噪声信号422的特性。因此,当用户420在声场442内时,用户可听到输入音频信号402而不受一个或多个噪声信号422的干扰。
51.图5是根据本公开的各种实施方案的用于通过图1的开放有源噪声消除系统生成所处理音频信号的方法步骤的流程图。虽然关于图1至图4的系统描述了方法步骤,但本领域技术人员将理解,被配置来以任何次序执行方法步骤的任何系统在各种实施方案的范围内。在一些实施方案中,开放有源噪声消除系统200可实时地对所捕获音频连续地执行方法500。
52.如图所示,方法500开始于步骤501,在所述步骤501中,开放有源噪声消除系统110捕获包括言语和噪声信号的音频。在各种实施方案中,包括在输入堆栈330中的一个或多个部件(例如,一个或多个传感器112、音频输入装置114)从周围环境中的源获取信号。例如,输入堆栈330可获取由用户320生成的言语信号322和由一个或多个噪声源310生成的噪声信号312。处理器118接收从输入堆栈330获取的信号作为所捕获音频信号332。
53.在步骤503处,开放有源噪声消除系统110标识包括在所捕获音频信号中的一个或多个噪声元素。在接收到所捕获音频信号332时,处理器118执行言语处理应用程序218以便标识可包括在所捕获音频信号332中的一个或多个噪声元素。在各种实施方案中,神经网络342可采用各种应用程序(例如,语音识别应用程序344、噪声识别应用程序346或其他ml技术)来标识包括在所捕获音频信号332的部分中的噪声元素和/或外来言语元素。
54.在步骤505处,开放有源噪声消除系统110对所捕获音频进行滤波以从所捕获音频信号去除所标识噪声元素。言语处理应用程序218通过应用滤波器348来衰减和/或去除来自所捕获音频信号332的由神经网络342标识的噪声元素来生成所处理音频信号352。在一些实施方案中,滤波器348可将所捕获音频信号332分解成一组所滤波信号,其中每个所滤波信号对应于所捕获音频信号332的一个或多个频率子带。在此类情况下,滤波器348可衰减频率子带中的一个或多个以便衰减所捕获音频信号352的所标识噪声元素和/或言语元素。
55.在步骤507处,开放有源噪声消除系统110提供所处理音频信号。在生成所处理音频信号352时,处理器118将所处理音频信号352传输到一个或多个接收者。在一些实施方案中,处理器118通过网络120将所处理音频传输到一个或多个用户装置132、通信服务器134和/或采用开放有源噪声消除系统136的其他装置。
56.图6是根据本公开的各种实施方案的用于通过图1的开放有源噪声消除系统生成定向音频输出信号的方法步骤的流程图。虽然关于图1至图4的系统描述了方法步骤,但本领域技术人员将理解,被配置来以任何次序执行方法步骤的任何系统在各种实施方案的范围内。在一些实施方案中,开放有源噪声消除系统200可实时地对所捕获音频和所接收音频输入信号连续地执行方法600。
57.如图所示,方法600开始于步骤601,在所述步骤601中,开放有源噪声消除系统110使用一个或多个传感器捕获周围环境中的音频。例如,一个或多个传感器112可获取对应于从一个或多个噪声源410接收的声波的传感器数据。一个或多个传感器112然后可生成对应于所接收声波的噪声信号322。在各种实施方案中,一个或多个传感器112将噪声信号422发送到处理器118。
58.在步骤603处,开放有源噪声消除系统110标识一个或多个噪声元素。在一些实施方案中,包括在言语处理应用程序218中的神经网络342可采用噪声识别应用程序346以便标识包括在噪声信号422中的一个或多个噪声元素。例如,神经网络342可采用噪声识别应用程序来从噪声数据库430检索对应于具体噪声元素(例如,咳嗽、一个或多个音箱、一个或多个讲话的个体、hvac系统、计算机键盘/鼠标交互等)的一个或多个参考信号。在检索参考信号时,神经网络342可将噪声信号422的部分与参考信号进行比较并且标识噪声信号422的匹配至少一个参考信号的部分。
59.在步骤605处,开放有源噪声消除系统110接收输入音频信号。言语处理应用程序218通过网络120从发送者接收输入音频信号402。输入音频信号402包括来自发送者装置的言语信号。在一些实施方案中,言语处理应用程序218可单独获取和/或分析输入音频信号402和噪声信号422。
60.在步骤607处,开放有源噪声消除系统110对噪声信号应用滤波器以衰减一个或多个所标识噪声元素。在各种实施方案中,言语处理应用程序218可采用滤波器348来衰减噪声信号422的一个或多个部分。在一些实施方案中,言语处理应用程序218可采用滤波器348来生成并入所处理定向信号432中的新的噪声消除信号。在此类情况下,当音频输出装置116发射声波时,声波包括抗噪声部分,所述抗噪声部分提供对噪声信号422的相消干扰。另外或替代地,言语处理应用程序218可采用滤波器348来补偿噪声信号422的仅由神经网络342标识的部分。在此类情况下,言语处理应用程序仅补偿噪声信号422的被标识为已知噪声元素的部分。在此类情况下,用户420能够听到噪声信号422的未被识别为噪声元素的部分。
61.在步骤609处,开放有源噪声消除系统110获取对应于收听者的位置数据。一个或多个传感器112获取与一个或多个用户420在周围环境内的一个或多个位置和/或一个或多个取向相关的传感器数据。一个或多个传感器112基于所获取传感器数据生成位置数据424并且将位置数据424传输到言语处理应用程序218。
62.在步骤611处,开放有源噪声消除系统110基于所衰减噪声元素和所获取位置数据
生成所处理定向音频信号。言语处理应用程序218分析指定用户420的位置的位置数据424并且基于位置数据424生成位置参数。在各种实施方案中,位置参数指定并入所处理定向音频信号432中的特性,包括方向和距离。在此类情况下,所处理定向音频信号432具有对应于输入音频信号402的特性、补偿噪声信号422的特性和/或指定要发射的声波的方向和量值的特性。
63.在生成所处理定向音频信号432时,言语处理应用程序218将所处理定向音频信号432传输到音频输出装置116,所述音频输出装置116通过发射产生声场442的声波来输出所处理定向音频信号432。声场442的特性使得用户420能够听到所处理定向音频信号432的对应于输入音频信号402的部分,同时衰减周围环境内的噪声信号422(例如,通过经由相消干扰抵消噪声信号)。
64.总之,开放有源噪声消除系统包括言语处理器、传感器和i/o装置。当用户正在讲话时,包括至少一个传感器和一个i/o装置的输入堆栈捕获音频,所述音频包括用户的言语信号和来自环境中噪声源的一个或多个噪声信号。言语处理器包括处理所捕获音频并实现言语识别和/或噪声识别模块以标识所捕获音频的部分的神经网络。神经网络标识包括在所捕获音频的部分中的一个或多个噪声信号并且致使滤波器去除和/或衰减所标识噪声信号。语音处理器然后将所处理音频信号提供到再现所处理音频信号的一个或多个装置。
65.当用户正在收听输入音频信号时,包括在开放有源噪声消除系统中的传感器生成与用户的位置相关的位置数据和从环境中的噪声源捕获的一个或多个噪声信号。言语处理器接收输入音频信号、噪声信号和位置数据并且处理信号。神经网络使用噪声识别模块通过将所接收噪声信号与一个或多个所存储参考噪声信号进行比较来标识一个或多个噪声信号。语音处理器然后生成所处理定向音频信号。所处理定向音频信号致使输出装置发射囊括用户的声场。所处理定向音频信号还诸如通过对噪声信号进行相消干扰来衰减环境内的噪声信号。所处理定向音频信号被传输到输出装置,所述输出装置生成声场。用户在声场内听到所处理定向音频信号,同时包括环境的噪声信号在声场内被衰减和/或抑制。
66.所公开技术的至少一个优点在于可将音频信号传输到用户,同时还消除开放环境内的某些噪声。开放有源噪声消除系统标识并且然后衰减或消除环境中的某些噪声元素,这使得用户能够在开放环境中说话和/或收听言语,而无需额外的机械设备(诸如屏障)来衰减噪声元素。
67.1.在一个或多个实施方案中,一种用于减小音频信号中的噪声的方法包括:基于从第一组传感器获取的传感器数据确定用户在环境中的第一位置;通过所述第一组传感器获取与所述环境中的声音相关联的一个或多个音频信号;标识所述一个或多个音频信号中的一个或多个噪声元素;以及基于所述一个或多个噪声元素生成第一定向音频信号,其中,当所述第一定向音频信号由第一扬声器输出时,所述第一扬声器产生衰减所述第一位置处的所述一个或多个噪声元素的第一声场。
68.2.如条款1所述的方法,其中标识所述一个或多个噪声元素包括:将所述一个或多个音频信号与至少一个参考信号进行比较,并且当所述一个或多个音频信号匹配所述至少一个参考信号时,基于所述至少一个参考信号对所述一个或多个音频信号进行分类。
69.3.如条款1或2所述的方法,其中标识所述一个或多个噪声元素包括:通过神经网络将包括在所述一个或多个音频信号中的第一音频信号与同第一噪声元素相关联的第一
参考信号进行比较,并且基于确定所述第一音频信号匹配所述第一参考信号,将所述第一音频信号归类为包括所述第一噪声元素。
70.4.如条款1
‑
3中任一项所述的方法,其还包括:将包括在所述一个或多个音频信号中的第一音频信号与第一组参考信号进行比较,并且确定所述第一音频信号不匹配包括在所述第一组参考信号中的至少一个参考信号,以及将与所述第一音频信号相关联的数据存储为包括在所述第一组参考信号中的另外的参考信号。
71.5.如条款1
‑
4中任一项所述的方法,其中标识所述一个或多个噪声元素包括:将所述一个或多个音频信号与包括在第一组参考信号中的每个参考信号进行比较,并且当所述一个或多个音频信号匹配包括在所述第一组参考信号中的至少一个参考信号时,将所述一个或多个音频信号分类为所述一个或多个噪声元素,以及当所述一个或多个音频信号不匹配包括在所述第一组参考信号中的至少一个参考信号时,确定所述一个或多个音频信号将不被分类为所述一个或多个噪声元素。
72.6.如条款1
‑
5中任一项所述的方法,其还包括:基于从所述第一组传感器获取的传感器数据确定用户在环境中的第二位置,以及基于所述一个或多个噪声元素生成第二定向音频信号,其中,当所述第二定向音频信号由所述第一扬声器输出时,所述第一扬声器产生衰减所述第二位置处的一个或多个噪声元素的第二声场。
73.7.如条款1
‑
6中任一项所述的方法,其还包括:确定所述第一扬声器的第二位置,其中所述第一定向音频信号是基于所述第一位置和所述第二位置。
74.8.如条款1
‑
7中任一项所述的方法,其还包括:通过第一网络从第二装置接收输入音频信号,其中所述第一定向音频信号包括所述输入音频信号的至少一部分。
75.9.如条款1
‑
8中任一项所述的方法,其还包括:基于所述一个或多个噪声元素生成第一组定向音频信号,其中,当所述第一组定向音频信号由第一多个扬声器输出时,所述第一多个扬声器产生所述第一声场。
76.10.在一个或多个实施方案中,一种音频系统包括:第一组传感器,所述第一组传感器产生与用户在环境中的第一位置相关联的传感器数据,并且产生与从所述环境获取的声音相关联的一个或多个音频信号;第一扬声器;以及处理器,所述处理器耦接到所述第一组传感器和所述第一扬声器,所述处理器基于所述传感器数据确定所述用户的所述第一位置,从所述第一组传感器接收所述一个或多个音频信号,标识所述一个或多个一个或多个音频信号中的一个或多个噪声元素,并且基于所述一个或多个噪声元素生成第一定向音频信号,其中所述第一扬声器输出所述第一定向音频信号以产生衰减所述第一位置处的所述一个或多个噪声元素的第一声场。
77.11.如条款10所述的音频系统,其还包括第一数据库,所述第一数据库存储与所述一个或多个噪声元素相关联的第一组参考信号。
78.12.如条款10或11所述的音频系统,其中所述处理器进一步将所述一个或多个音频信号与第一组参考信号进行比较,当所述一个或多个音频信号匹配包括在所述第一组参考信号中的至少一个参考信号时,将所述一个或多个音频信号分类为所述一个或多个噪声元素,并且当所述一个或多个音频信号不匹配包括在所述第一组参考信号中的至少一个参考信号时,确定所述一个或多个音频信号将不被归类为所述一个或多个噪声元素。
79.13.如条款10
‑
12中任一项所述的音频系统,其中所述第一组传感器包括获取与所
述第一位置相关联的位置数据的至少一个相机以及获取所述一个或多个音频信号的至少一个传声器。
80.14.如条款10
‑
12中任一项所述的音频系统,其中所述第一扬声器包括参数扬声器。
81.15.如条款10
‑
14中任一项所述的音频系统,其中所述第一扬声器包括在所述音频系统的多个参数扬声器中,所述处理器进一步基于所述一个或多个噪声元素生成第一组定向音频信号,并且包括在所述多个参数扬声器中的每个参数扬声器输出所述第一组定向音频信号中的至少一个定向音频信号以产生所述第一声场。
82.16.如条款10
‑
15中任一项所述的音频系统,其中所述第一组传感器进一步产生与所述用户的第二位置相关联的传感器数据,所述处理器进一步基于所述传感器数据确定所述用户的所述第二位置,并且基于所述一个或多个噪声元素生成第二定向音频信号,并且所述第一扬声器输出所述第二定向音频信号以产生衰减所述第二位置处的所述一个或多个噪声元素的第二声场。
83.17.在一个或多个实施方案中,一种或多种非暂时性计算机可读介质包括在由一个或多个处理器执行时致使所述一个或多个处理器执行以下步骤的指令:确定用户在环境中的第一位置;通过第一组传感器获取与所述环境中的声音相关联的一个或多个音频信号;通过将所述一个或多个音频信号与包括在第一组参考信号中的每个参考信号进行比较来标识所述一个或多个音频信号中的一个或多个噪声元素,并且当所述一个或多个音频信号匹配包括在所述第一组参考信号中的至少一个参考信号时,将所述一个或多个音频信号分类为所述一个或多个噪声元素,以及基于所述一个或多个噪声元素生成第一定向音频信号,其中,当所述第一定向音频信号由第一扬声器输出时,所述第一扬声器产生衰减所述第一位置处的所述一个或多个噪声元素的第一声场。
84.18.如条款17所述的一种或多种非暂时性计算机可读介质,其中生成第一定向音频信号包括:接收输入音频信号;生成抗噪声信号,所述抗噪声信号匹配所述至少一个参考信号的量值并且与所述至少一个参考信号反相;以及将所述输入音频信号与所述抗噪声信号组合以生成所述第一定向音频信号。
85.19.如条款17或18所述的一种或多种非暂时性计算机可读介质,其还包括在由所述一个或多个处理器执行时致使所述一个或多个处理器执行以下步骤的指令:存储所述抗噪声信号;以及将所述抗噪声信号与所述至少一个参考信号相关联。
86.20.如条款17
‑
19中任一项所述的一种或多种非暂时性计算机可读介质,其还包括在由所述一个或多个处理器执行时致使所述一个或多个处理器执行以下操作的指令:在确定所述一个或多个音频信号将不被分类为所述一个或多个噪声元素时,将与所述一个或多个音频信号相关联的数据存储为包括在所述第一组参考信号中的另外的参考信号。
87.任何权利要求中引用的任何权利要求元素和/或本技术中所述的任何元素的以任何方式进行的任何和所有组合落入本公开和保护的预期范围内。
88.各种实施方案的描述已经呈现以用于说明目的,而并非意在穷举或限于所公开的实施方案。在不脱离所描述的实施方案的范围和精神的情况下,许多修改和变化对于本领域普通技术人员来说将是明显的。
89.本实施方案的各方面可体现为系统、方法或计算机程序产品。因此,本公开的各方
面可以采用完全硬件实施方案、完全软件实施方案(包括固件、常驻软件、微代码等)或结合软件和硬件方面的实施方案的形式,它们在本文中可以统称为“模块”或“系统”。此外,本公开中所述的任何硬件和/或软件技术、过程、功能、部件、引擎、模块或系统可被实现为电路或电路的集合。此外,本公开的各方面可采用计算机程序产品的形式,所述计算机程序产品在其上实施有计算机可读程序代码的一种或多种计算机可读介质中实施。
90.可利用一个或多个计算机可读介质的任何组合。计算机可读介质可为计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是例如但不限于电子、磁性、光学、电磁、红外或半导体系统、设备或装置或前述介质的任何合适组合。计算机可读存储介质的更具体实例(非详尽列表)将包括以下介质:具有一个或多个导线的电气连接、便携式计算机软盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便携式光盘只读存储器(cd
‑
rom)、光学存储装置、磁存储装置或前述介质的任何合适组合。在本文档的语境中,计算机可读存储介质可以是可含有或存储供指令执行系统、设备或装置使用或与其联用的程序的任何有形介质。
91.上文参考根据本公开的实施方案的方法、设备(系统)和计算机程序产品的流程图图解和/或框图来描述本公开的各方面。应理解,流程图图解和/或框图中的每个框以及流程图图解和/或框图中的框的组合能够通过计算机程序指令来实现。可以将这些计算机程序指令提供给通用计算机、专用计算机或其他可编程数据处理设备的处理器以产生机器。所述指令在通过计算机或其他可编程数据处理设备的处理器执行时,使得能够实现流程图和/或框图的一个或多个框中所指定的功能/动作。此类处理器可为但不限于通用处理器、特殊用途处理器、专用处理器或现场可编程门阵列。
92.附图中的流程图和框图示出根据本公开的各种实施方案的系统、方法和计算机程序产品的可能实现方式的架构、功能性和操作。在这个方面,流程图或框图中的每个框可以表示代码的模块、区段或部分,所述代码包括用于实现一个或多个所指定逻辑功能的一个或多个可执行指令。还应注意,在一些替代实现方式中,框中所提出的功能可以不按附图中提出的次序发生。例如,实际上依据所涉及的功能性,可基本上同时执行连续示出的两个框,或者有时可以相反的次序执行所述框。还应当指出的是,框图和/或流程图图解的每个框以及框图和/或流程图图解中的框的组合可以由执行规定的功能或动作的基于专用硬件的系统或者专用硬件和计算机指令的组合来实现。
93.虽然前述内容针对本公开的实施方案,但是可以在不脱离本公开的基本范围的情况下设计出本公开的其他和更多实施方案,且所述范围由所附权利要求确定。