1.本技术涉及用于预测性译码(coding)中的错误恢复的方法和设备,所述预测性译码用于立体声或多通道音频编码(encoding)和解码(decoding)。
背景技术:2.尽管电信网络中的容量在持续增加,但是限制每个通信通道的所需带宽仍然是感兴趣的。在移动网络中,每次呼叫的较小传输带宽产生移动装置和基站两者中的较低功耗。这转化为移动运营商的能量和成本节省,同时最终用户将体验到延长的电池寿命和增加的通话时间。此外,在每个用户有较少的所消耗带宽的情况下,移动网络可以并行服务更大数量的用户。
3.通过现代音乐回放系统和电影院,大多数听众都习惯高质量沉浸式音频。在移动电信服务中,对无线电资源和处理延迟的约束已将质量保持在较低水平,并且大多数语音服务仍然只递送非立体声的声音。最近,在需要超越单声道的沉浸式声音再现的虚拟/混合/增强现实的背景下,用于通信服务的立体声和多通道声音已获得势头。为了渲染高质量,在电信网络的带宽约束内的空间声音仍然提出挑战。另外,声音再现还需要应对变化的通道状况,在这些状况下,可能因为例如网络拥塞或不良小区覆盖而丢失偶发的数据分组。
4.在典型的立体声录音中,通道对可显示出高度相似性或相关性。立体声译码方案的一些实施例可通过采用参数译码来利用这种相关性,其中单个通道以高质量来编码,并以允许重构完整立体声图像的参数描述来补充,诸如在c.faller在2006年1月的ieee transactions on audio, speech, and language processing,第14卷,第1期,第299
‑
310页中的“parametric multichannel audio coding: synthesis of coherence cues”中所讨论的方案。将通道对减少为单个通道的过程通常称为向下混合,并且所得到的通道通常称为向下混合通道。向下混合过程通常试图在对通道进行混合之前通过对齐通道间时间差(itd)和通道间相位差(ipd)来维持能量。为了维持输入信号的能量平衡,也可测量通道间电平差(ild)。然后,itd、ipd和ild可被编码,并且当在解码器处重构立体声通道对时可以在反向向上混合过程中使用。itd、ipd和ild参数描述了通道对的相关分量,而立体声通道对还可包含不能从向下混合来重构的非相关分量。该非相关分量可以用通道间相干参数(icc)表示。可在立体声解码器处通过使所解码的向下混合通道运行通过去相关器滤波器来合成非相关分量,所述去相关器滤波器输出与所解码的向下混合具有低相关性的信号。去相关分量的强度可以用icc参数来控制。
5.类似的原理适用于诸如5.1和7.1.4的多通道音频以及诸如高保真度立体声响复制(ambisonics)或空间音频对象译码(spatial audio object coding)的空间音频表示。可通过利用通道之间的相关性并将缩减的通道集合与元数据或参数进行捆绑来缩减通道数量,以便在解码器处进行通道重构或空间音频渲染。
6.为了克服传输错误和丢失分组的问题,电信服务利用分组丢失隐藏(plc)技术。在数据分组由于不良连接、网络拥塞等而丢失或损坏的情况下,可通过解码器用合成信号来
替代接收器侧中的丢失或损坏数据分组的缺失信息,以便隐藏丢失或损坏数据分组。plc技术的一些实施例通常与解码器紧密相连,其中可使用内部状态来产生信号延续或外推以覆盖分组丢失。对于对不同信号类型具有若干操作模式的多模式编解码器,通常有可被实现以处理丢失或损坏数据分组的隐藏的若干plc技术。
7.可通过处理连接的传输层来标识缺失或损坏分组,并通过坏帧指示符(bfi)将缺失或损坏分组作为“坏帧”发信号通知给解码器,坏帧指示符可以采用标志的形式。解码器可将该标志保存在其内部状态中,并且还跟踪坏帧的历史,例如“前一坏帧指示符”(prev bfi)。注意,一个传输分组可包含一个或多个话音或音频帧。这意味着,一个丢失或损坏分组将把其中包含的所有帧标记为“坏”。
8.对于稳定的音频场景,参数可在相邻帧之间显出高度的相似性。为了利用这种相似性,可应用预测性译码方案。在此类方案中,基于过去解码的参数来推导当前帧参数的预测,并对与真实参数的差进行编码。一种简单但高效的预测是使用最后解码的参数作为预测,在这种情况下,预测性译码方案可称为差分编码方案。
9.预测性译码方案的一个问题是,方案可能对错误敏感。例如,如果所预测的序列的一个或多个元素丢失,则解码器将具有可能在错误已发生之后持续长时间的预测错误。这个问题称为错误传播,并且可能存在于所有预测性译码方案中。图1中提供了错误传播的图示。在图1中,在连续的预测性译码帧的序列(即,预测性译码条纹(predictive coding streak))之前丢失了绝对译码帧。原本会用来自丢失帧的参数进行更新的存储器将存储有先前的参数,并且因此被损坏。由于存储器因帧丢失而被损坏,所以错误将在整个预测性译码条纹期间持续,并且只有当接收到新的绝对译码帧时才终止。此类丢失的一个结果是对合成信号的影响,这在对源的感知位置中可能是不想要的,并且可能甚至剧烈变化。这在源具有静态且极端的定位(例如声源位于立体声场景中的极右边或极左边)时尤其值得注意。
10.一种补救方法是在定期时间间隔强制进行非预测性译码,这将终止错误传播。另一种解决方案是使用部分冗余方案,其中参数的低分辨率编码连同相邻音频帧一起被传送。在解码器在预测性译码条纹中检测到帧丢失的情况下,可使用低分辨率参数来减少错误传播。
技术实现要素:11.上文描述的预测性译码补救方法的一个缺点是,它们消耗带宽,所述带宽在传输通道无错误时是浪费的带宽。
12.根据一些实施例,提供一种用于替换接收的多通道信号中的经解码的参数的方法。所述方法包括对所述接收的多通道信号的帧的多通道参数进行解码。所述方法进一步包括确定是否指示坏帧。所述方法包括响应于指示所述坏帧,确定参数存储器损坏。所述方法包括响应于没有指示所述坏帧,并且响应于所述参数存储器没有损坏,基于经解码的多通道参数来推导重构的声源的位置度量。所述方法包括响应于所述参数存储器损坏,基于所述位置度量来确定所述重构的声源是否稳定并且主要集中在所述接收的多通道信号的多通道的通道子集中。所述方法包括响应于所述重构的声源集中在所述多通道的所述通道子集中并且稳定,激活参数恢复以用存储的多通道参数替换经解码的多通道参数。
13.使用来自存储器的参数取代经解码的参数的潜在优势是,操作可减少预测性译码
的问题,而不用传送在无错误通道操作中浪费的冗余参数信息。此外,只在稳定的音频场景中使用估计的参数使音频场景免于在不稳定的音频场景期间以不自然的方式变成“冻结”。
14.使用来自存储器的参数来代替经解码的参数的另一个潜在优势是,在已指示坏帧时,与经解码的参数相比,使用来自存储器的参数的所再现的声音的感知位置可能更接近于声音的实际位置。特别地,当源稳定且集中于一个通道或通道子集时,使用来自存储器的参数可减少声音的位置的不期望或不自然偏移。
15.根据发明概念的一些实施例,提供一种用于通信网络的解码器。所述解码器具有处理器以及与所述处理器耦合的存储器,其中所述存储器包含指令,所述指令在由所述处理器执行时使所述处理器执行操作,所述操作包括对接收的多通道信号的帧的多通道参数进行解码。所述操作进一步包括确定是否指示坏帧。所述操作进一步包括响应于指示所述坏帧,确定参数存储器损坏。所述操作进一步包括响应于没有指示所述坏帧,并且响应于所述参数存储器没有损坏,基于经解码的多通道参数来推导重构的声源的位置度量。所述操作进一步包括响应于所述参数存储器损坏,基于所述位置度量来确定所述重构的声源是否稳定并且主要集中在所述接收的多通道信号的多通道的通道子集中。所述操作包括响应于所述重构的声源集中在所述多通道的所述通道子集中并且稳定,激活参数恢复以用存储的多通道参数替换经解码的多通道参数。
16.根据发明概念的一些实施例,提供一种配置成在通信网络中操作的解码器。所述解码器适于执行操作。所述操作包括对接收的多通道信号的帧的多通道参数进行解码。所述操作包括确定是否指示坏帧。所述操作包括响应于指示所述坏帧,确定参数存储器损坏。所述操作包括响应于没有指示所述坏帧,并且响应于所述参数存储器没有损坏,基于经解码的多通道参数来推导重构的声源的位置度量。所述操作包括响应于所述参数存储器损坏,基于所述位置度量来确定所述重构的声源是否稳定并且主要集中在所述接收的多通道信号的多通道的通道子集中。所述操作包括响应于所述重构的声源集中在所述多通道的所述通道子集中并且稳定,激活参数恢复以用存储的多通道参数替换经解码的多通道参数。
17.根据发明概念的一些实施例,提供一种包含计算机可执行指令的计算机程序,所述计算机可执行指令在被包含在装置中的处理器上执行时使所述装置执行操作。所述操作包括对接收的多通道信号的帧的多通道参数进行解码。所述操作进一步包括确定是否指示坏帧。所述操作进一步包括响应于指示所述坏帧,确定参数存储器损坏。所述操作包括响应于没有指示所述坏帧,并且响应于所述参数存储器没有损坏,基于经解码的多通道参数来推导重构的声源的位置度量。所述操作包括响应于所述参数存储器损坏,基于所述位置度量来确定所述重构的声源是否稳定并且主要集中在所述接收的多通道信号的多通道的通道子集中。所述操作包括响应于所述重构的声源集中在所述多通道的所述通道子集中并且稳定,激活参数恢复以用存储的多通道参数替换经解码的多通道参数。
18.根据发明概念的一些实施例,提供一种包括非暂时性计算机可读存储介质的计算机程序,所述非暂时性计算机可读存储介质具有计算机可执行指令,所述计算机可执行指令在被包含在装置中的处理器上执行时使所述装置执行操作。所述操作包括对接收的多通道信号的帧的多通道参数进行解码。所述操作进一步包括确定是否指示坏帧。所述操作进一步包括响应于指示所述坏帧,确定参数存储器损坏。所述操作包括响应于没有指示所述坏帧,并且响应于所述参数存储器没有损坏,基于经解码的多通道参数来推导重构的声源
的位置度量。所述操作包括响应于所述参数存储器损坏,基于所述位置度量来确定所述重构的声源是否稳定并且主要集中在所述接收的多通道信号的多通道的通道子集中。所述操作包括响应于所述重构的声源集中在所述多通道的所述通道子集中并且稳定,激活参数恢复以用存储的多通道参数替换经解码的多通道参数。
19.根据发明概念的一些实施例,提供一种配置成用接收的多通道信号中的估计的参数替代经解码的参数的设备。所述设备包括至少一个处理器以及在通信上耦合到所述处理器的存储器,所述存储器包含由所述处理器可执行的指令,所述指令使所述处理器执行操作。所述操作包括对接收的多通道信号的帧的多通道参数进行解码。所述操作进一步包括确定是否指示坏帧。所述操作进一步包括响应于指示所述坏帧,确定参数存储器损坏。所述操作包括响应于没有指示所述坏帧,并且响应于参数存储器没有损坏,所述方法包括基于经解码的多通道参数来推导重构的声源的位置度量。所述操作包括响应于参数存储器损坏,基于所述位置度量来确定所述重构的声源是否稳定并且主要集中在所述接收的多通道信号的多通道的通道子集中。所述操作包括响应于所述重构的声源集中在所述多通道的所述通道子集中并且稳定,激活参数恢复以用存储的多通道参数替换经解码的多通道参数。
20.根据发明概念的其它实施例,提供一种用于替换接收的多通道信号中的经解码的参数的方法。所述方法包括确定译码模式是绝对译码模式还是预测性译码模式。所述方法包括响应于所述译码模式是预测性译码模式,确定是否设置了存储器损坏标志。所述方法包括响应于设置了所述存储器损坏标志,确定重构的声源是否是稳定源并且所述重构的声源的位置度量是否主要集中在通道子集中。所述方法包括响应于所述重构的声源是稳定源并且所述重构的声源的所述位置度量主要集中在所述多通道的所述通道子集中,用存储的多通道参数替代经解码的多通道参数。所述方法包括响应于没有设置所述存储器损坏标志,分析所述源的定位的位置度量以更新所述位置度量;以及用所述经解码的多通道参数来更新所述存储的多通道参数。
21.根据发明概念的一些其它实施例,提供一种用于通信网络的解码器。所述解码器包括处理器以及与所述处理器耦合的存储器,其中所述存储器包含指令,所述指令在由所述处理器执行时使所述处理器执行操作。所述操作包括确定译码模式是绝对译码模式还是预测性译码模式。所述操作包括响应于所述译码模式是预测性译码模式,确定是否设置了存储器损坏标志。所述操作包括响应于设置了所述存储器损坏标志,确定重构的声源是否是稳定源并且所述重构的声源的位置度量是否主要集中在通道子集中。所述操作包括响应于所述重构的声源是稳定源并且所述重构的声源的所述位置度量主要集中在所述多通道的所述通道子集中,用存储的多通道参数替代经解码的多通道参数。所述操作包括响应于没有设置所述存储器损坏标志,分析所述源的定位的位置度量以更新所述位置度量;以及用所述经解码的多通道参数来更新所述存储的多通道参数。
22.根据发明概念的一些其它实施例,提供一种配置成在通信网络中操作的解码器。所述解码器适于执行操作。所述操作包括确定译码模式是绝对译码模式还是预测性译码模式。所述操作包括响应于所述译码模式是预测性译码模式,确定是否设置了存储器损坏标志。所述操作包括响应于设置了所述存储器损坏标志,确定重构的声源是否是稳定源并且所述重构的声源的位置度量是否主要集中在通道子集中。所述操作包括响应于所述重构的声源是稳定源并且所述重构的声源的所述位置度量主要集中在所述多通道的所述通道子
集中,用存储的多通道参数替代经解码的多通道参数。所述操作包括响应于没有设置所述存储器损坏标志,分析所述源的定位的位置度量以更新所述位置度量;以及用所述经解码的多通道参数来更新所述存储的多通道参数。
23.根据发明概念的一些其它实施例,提供一种包含计算机可执行指令的计算机程序,所述计算机可执行指令在被包含在装置中的处理器上执行时使所述装置执行操作。所述操作包括确定译码模式是绝对译码模式还是预测性译码模式。所述操作包括响应于所述译码模式是预测性译码模式,确定是否设置了存储器损坏标志。所述操作包括响应于设置了所述存储器损坏标志,确定重构的声源是否是稳定源并且所述重构的声源的位置度量是否主要集中在通道子集中。所述操作包括响应于所述重构的声源是稳定源并且所述重构的声源的所述位置度量主要集中在所述多通道的所述通道子集中,用存储的多通道参数替代经解码的多通道参数。所述操作包括响应于没有设置所述存储器损坏标志,分析所述源的定位的位置度量以更新所述位置度量;以及用所述经解码的多通道参数来更新所述存储的多通道参数。
24.根据发明概念的一些其它实施例,提供一种包括非暂时性计算机可读存储介质的计算机程序产品,所述非暂时性计算机可读存储介质具有计算机可执行指令,所述计算机可执行指令在被包含在装置中的处理器上执行时使所述装置执行操作。所述操作包括确定译码模式是绝对译码模式还是预测性译码模式。所述操作包括响应于所述译码模式是预测性译码模式,确定是否设置了存储器损坏标志。所述操作包括响应于设置了所述存储器损坏标志,确定重构的声源是否是稳定源并且所述重构的声源的位置度量是否主要集中在通道子集中。所述操作包括响应于所述重构的声源是稳定源并且所述重构的声源的所述位置度量主要集中在所述多通道的所述通道子集中,用存储的多通道参数替代经解码的多通道参数。所述操作包括响应于没有设置所述存储器损坏标志,分析所述源的定位的位置度量以更新所述位置度量;以及用所述经解码的多通道参数来更新所述存储的多通道参数。
25.根据发明概念的一些其它实施例,提供一种配置成用接收的多通道信号中的估计的参数替代经解码的参数的设备。所述设备包括至少一个处理器以及在通信上耦合到所述处理器的存储器,所述存储器包含由所述处理器可执行的指令,所述指令使所述处理器执行操作。所述操作包括确定译码模式是绝对译码模式还是预测性译码模式。所述操作包括响应于所述译码模式是预测性译码模式,确定是否设置了存储器损坏标志。所述操作包括响应于设置了所述存储器损坏标志,确定重构的声源是否是稳定源并且所述重构的声源的位置度量是否主要集中在通道子集中。所述操作包括响应于所述重构的声源是稳定源并且所述重构的声源的所述位置度量主要集中在所述多通道的所述通道子集中,用存储的多通道参数替代经解码的多通道参数。所述操作包括响应于没有设置所述存储器损坏标志,分析所述源的定位的位置度量以更新所述位置度量;以及用所述经解码的多通道参数来更新所述存储的多通道参数。
附图说明
26.附图示出发明概念的某些非限制性实施例,所述附图被包含以提供对本公开的进一步理解并且被并入本技术中且构成本技术的一部分。在附图中:图1是错误传播的图示;
图2是示出根据一些实施例的解码器系统的环境的示例的框图,可在所述解码器系统中执行预测性译码中的错误恢复;图3是示出根据一些实施例的立体声编码器和解码器的组件的框图;图4是示出根据发明概念的一些实施例的解码器的操作的流程图;图5是示出根据发明概念的一些实施例的、根据提供错误恢复的解码器的操作的框图;图6是示出根据发明概念的一些实施例的状态机的框图;图7是示出根据发明概念的一些实施例的、用于生成替代参数的操作的框图;图8是示出根据发明概念的一些实施例的解码器的框图;以及图9
‑
图10是示出根据发明概念的一些实施例的解码器的操作的流程图。
具体实施方式
27.现在,在下文将参考附图更全面地描述发明概念,在附图中示出了发明概念的实施例的示例。然而,发明概念可以采用许多不同的形式来体现,并且不应被解释为局限于本文中所阐述的实施例。相反,提供这些实施例使得本公开将透彻且完整,并将向本领域技术人员全面传达本发明概念的范围。还应注意,这些实施例不是相互排斥的。来自一个实施例的组件可默认假定存在于/用于另一个实施例。
28.以下描述呈现了所公开的主题的各种实施例。这些实施例被呈现为教导示例,并且不应解释为限制所公开的主题的范围。例如,在没有偏离所描述的主题的范围时,可以修改、省略或扩充所描述的实施例的某些细节。
29.所描述的发明概念维持与源位置对应的最后接收的参数的存储器。如果解码器在预测性译码条纹中检测到错误并且位置分析确认声源稳定且具有极端定位(即,声源的位置度量主要集中在正被解码的多通道信号的多通道的通道子集中),则可使用来自存储器的参数而不是所解码的参数,直到通过绝对译码帧终止预测性译码条纹为止。
30.在音频场景不稳定并且显出在立体声参数方面的较大变化的情况下,用冻结的估计参数来替代所解码的参数可能对听众来说是厌烦的。
31.为了实现这些目标,一个实施例中的方法包括位置分析器,其用于确定源的位置;参数存储器,其用于存储最后观测到的活动源的参数;存储器损坏检测器,其用于确定参数存储器是否损坏;以及决策机构,其用于至少基于坏帧指示符的历史以及在进一步的实施例中基于位置分析器的输出来激活参数恢复(用存储在存储器中的参数替换解码的参数)。这里,活动源是指打算重构的源,诸如话音对话中的语音。当源不活动(静默)时,所捕获的声音通常由背景噪声主导,背景噪声被认为对于声音重构较不相关。背景噪声可由许多不同的源组成,这可能将不稳定的音频场景渲染有参数描述方面的大变化。在估计活动源位置时,应当忽略此大变化。因此,可能有益的是,只在源活动时才估计位置。
32.发明概念可提供的一个优点包括减少预测性译码期间的通道错误的问题,而不用传送在无错误通道操作中浪费的冗余参数信息。可提供的另一个优点是,对于不稳定的音频场景,不启用预测性解码操作中的参数估计,这可引起避免不自然冻结的音频场景。可提供的另外的优点是,它在源位置稳定且集中于多通道信号的通道子集时可减少源位置中的不自然或不想要的不稳定性。
33.图2示出了如本文中所描述的可用于解码多通道位流的解码器200的操作环境的示例。解码器200可以是以下项的一部分:媒体播放器、移动装置、机顶盒装置、桌上型计算机等。在其它实施例中,解码器200可在独立服务器、云实现的服务器、分布式服务器的硬件和/或软件中体现,或作为服务器场中的处理资源来体现。例如,解码器可以是云实现的电话会议应用的一部分。解码器200接收经由网络的传输层所传送的经编码位流。位流可以从编码器、从存储装置204、经由网络202从云上的装置等发送。在操作期间,解码器200接收并处理位流的帧,如本文中所描述的。解码器200输出多通道音频信号,并且可将多通道音频信号传送到具有用于回放多通道音频信号的至少一个扩音器的多通道音频播放器206。存储装置204可以是多通道音频信号的存储仓库的一部分,诸如商店或流播音乐服务的存储库、单独的存储组件、移动装置的组件等。多通道音频播放器可以是蓝牙扬声器、具有至少一个扩音器的装置、移动装置、流播音乐服务等。
34.尽管参数立体声再现在低位率下给予良好的质量,但是由于参数模型的限制,对于增加的位率,质量趋于饱和。为了克服这个问题,可以对非相关分量进行编码。通过在编码器中模拟立体声重构并从输入通道中减去重构的信号从而产生残留信号来实现这种译码。如果向下混合变换可逆,则对于立体声通道情况,可只通过单个通道来表示残留信号。通常,残留信号编码针对在心理声学上更相关的较低频率,而较高频率可以用去相关器方法来合成。图3是描绘包含残留译码器的参数立体声编解码器的设置的实施例的框图。在图3中,编码器310可接收输入信号,在立体声处理和向下混合块312中执行上文描述的处理,经由向下混合编码器314对输出进行编码,经由残留编码器316对残留信号进行编码,并经由参数编码器318对itd、ipd、ild和icc参数进行编码。解码器320可接收经编码的输出、经编码的残留信号、和经编码的参数。解码器320可经由残留解码器326对残留信号进行解码,并经由向下混合解码器324对向下混合信号进行解码。参数解码器328可对经编码的参数进行解码。立体声合成器322可接收经解码的输出信号和经解码的残留信号,并基于解码参数来输出立体声通道ch1和ch2。
35.图8是示出根据发明概念的一些实施例的配置成解码多通道音频帧并在预测性译码模式中为丢失或损坏帧提供错误恢复的解码器200的元件的框图。如图所示,解码器200可包括配置成提供与其它装置/实体/功能/等的通信的网络接口电路805(又称为网络接口)。解码器200还可包括耦合到网络接口电路805的处理器电路801(又称为处理器)以及耦合到处理器电路的存储器电路803(又称为存储器)。存储器电路803可包含计算机可读程序代码,所述计算机可读程序代码在由处理器电路801执行时使处理器电路执行根据本文中公开的实施例的操作。
36.根据其它实施例,处理器电路801可定义成包括存储器,使得不需要单独的存储器电路。如本文中所讨论的,解码器200的操作可由处理电路801(又称为处理器)和/或网络接口电路805(又称为网络接口)执行。例如,处理电路801可控制网络接口805向多通道音频播放器206传送通信和/或通过网络接口805从一个或多个其它网络节点/实体/服务器(诸如编码器节点、仓库服务器等)接收通信。此外,可在存储器电路803中存储模块,并且这些模块可提供指令,使得当由处理电路801执行模块的指令时,处理电路801执行相应的操作。
37.在接下来的描述中,可使用如在图3中所概述的立体声编码器和解码器系统的立体声解码器。将使用两个通道来描述实施例。这些实施例可与多于两个通道一起使用。多通
道编码器310可以按片段(称为帧)处理输入的左通道和右通道。立体声分析和向下混合块312可进行参数分析并产生向下混合。针对给定的帧m,两个输入通道可被写成其中l表示左通道,r表示右通道,表示帧m中的样本编号,并且n是帧的长度。在实施例中,可在编码器中通过重叠来提取帧,使得解码器可使用重叠相加策略来重构多通道音频信号。输入通道可以通过合适的加窗函数进行加窗,并变换到离散傅立叶变换(dft)域离散傅立叶变换(dft)域注意,这里可使用其它频域表示,诸如正交镜像滤波器(qmf)滤波器组、混合qmf滤波器组或由mdct(修正离散余弦变换)和mdst(修正离散正弦变换)变换分量组成的奇数dft(odft)表示。
38.对于参数分析,可将频谱分区为频带b,其中每个频带b对应于频率系数范围其中,表示频带的总数量。频带限制通常设置成反映人类听觉感知的分辨率,其对于低频率建议窄频带,并且对于高频率建议较宽频带。注意,可对于不同参数使用不同频带分辨率。
39.然后,可对信号进行分析,以提取itd、ipd和ild参数。注意,ild可能对声音的感知位置具有显著影响。因此,在一些实施例中,以高精度重构ild参数以维持声音的稳定且正确的位置可能是至关重要的。
40.另外,可分析通道相干性,并且可推导icc参数。帧m的多通道音频参数集合可包含在参数表示中所使用的itd、ipd、ild和icc参数的完整集合。可通过参数编码器318对参数进行译码,并将参数添加到要被存储和/或传送到解码器的位流。
41.在产生向下混合通道之前,在一个实施例中,可能有益的是对itd和ipd进行补偿,以减少抵消并使向下混合的能量最大化。itd补偿可在频率变换之前在时域中实现或在频域中实现,但是它本质上对一个或两个通道执行时移以消除itd。相位对齐可以采用不同的方式来实现,但目的是对齐相位,使得抵消最小化。这确保向下混合中的最大能量。itd和ipd调整可在频带中进行,或者可在整个频谱上进行,并且可使用量化的itd和ipd参数进行调整,以确保可在解码器阶段中反转修改。
42.以下描述的实施例独立于ipd和itd参数分析和补偿的实现。换句话说,实施例不取决于如何分析或补偿ipd和itd。在此类实施例中,可以用撇号(
´
)表示经itd和ipd调整的
herre, j., faller, c., r
ö
d
é
n, j., myburg, f., disch, s., ... & oomen, w. (2005).
ꢀ“
mpeg spatial audio coding/mpeg surround: overview and current status
”ꢀ
2005 in preprint 119th conv. aud. eng. soc. (no. lcav
‑
conf
‑
2005
‑
029)的预测模式中描述了进一步的细节。进而使用帧间预测性译码方案对预测参数进行编码,其中考虑帧m之间的差。对于每个频带b,可计算与前一帧的重构参数的差:。
48.编码器可选择对或进行编码,这取决于它们中的哪一个得到最低位消耗。在实施例中,可使用标量量化器对和进行量化,紧接着关于量化器索引而使用熵译码器。算术译码、huffman译码和golomb
‑
rice译码是可用作熵译码器的译码的示例。熵译码器将把较小的码字指派给小的变化,即,的小值。这意味着,使用的预测性译码有可能用于稳定的音频场景。对于导致大的的快速场景改变,通过使用非预测性或绝对编码方案,用于对进行编码的位消耗可更低。因此,编码方案可具有两种模式:1)绝对:对进行编码,以及2)预测性:对进行编码。
49.编码模式将需要针对每个帧m来编码,使得解码器知道所编码的值是:1)绝对:,还是2)预测性:。
50.该编码方案的进一步变化是可能的。例如,如果预测参数显出与另一个参数(诸如残留译码能量或对应表示)的高相关性,则可能有益的是联合对那些参数进行编码。重要的部分是,当编码方案具有预测性译码模式和绝对(非预测性)译码模式时,对该决策进行编码并发信号通知给解码器。连续预测性译码模式的序列可称为“预测性译码条纹”或“预测性条纹”,并且将针对场景稳定的音频片段而被观察到。如果在预测性条纹的开始中丢失音频帧,则参数可能在整个条纹期间遭受错误传播(见图1)。为了减少错误传播的影响,可在定期间隔强制进行绝对译码,这有效地在时间上将预测性条纹限制为最大长度。
51.在编码之后,在编码器中推导参数的局部重构,并将它存储在存储器中,以便在对下一个帧进行编码时使用。
52.解码步骤可类似于编码器步骤。在解码器中:。
53.尽管针对所重构的值描述了预测性译码,但是应注意,也可能对量化器索引进行预测性译码步骤。然而,存储器相依性的原理保持相同。
54.在无错误操作期间,编码器中的局部重构等同于解码器中的所重构的参数。还注意,存储器将等同于帧m
‑
1的所重构的参数值。对于正好第一个帧,可将参数存储器设置成某个预定义的值,例如全都为零或参数的平均期望值。
55.现在应当讨论关于残留译码的细节。给定所预测的侧边信号,可创建预测残留。
56.可将预测残留输入到残留编码器316中。编码可直接在dft域中进行,或者它可在时域中进行。类似地,关于向下混合编码器,时域编码器将需要dft合成,这可能需要在解码器中将信号对齐。残留信号代表与向下混合信号不相关的扩散分量。如果没有传送残留信号,则一个实施例中的解决方案可以是用来自经解码的向下混合信号的去相关版本的信号来替代解码器中的立体声合成状态中的残留信号的信号。该替代通常用于低位率,其中位预算太低而无法用任何有用的分辨率来表示残留信号。对于中间位率,可能常见的是对残留的部分进行编码。在这种情况下,通常对较低的频率进行编码,因为它们可能在感知上更相关。对于频谱的剩余部分,可使用去相关器信号作为解码器中的残留信号的替代。这种方法通常称为混合译码模式。在以下解码器描述中提供了进一步的细节。
57.可将经编码的向下混合、经编码的多通道音频参数、和经编码的残留信号的表示复用到位流(未示出)中,可将所述位流传送到解码器320或存储在介质中以用于将来解码。
58.在解码器内,向下混合解码器328可提供重构的向下混合信号,其被分段成dft分析帧m,并且表示帧m内的样本编号。通常通过重叠(其在dft合成阶段中准许重叠相加策略)来提取分析帧。可通过dft变换来获得对应的dft频谱其中表示合适的加窗函数。加窗函数的形状可使用频率特性与由于重叠区域的长度引起的算法延迟之间的权衡来设计。类似地,残留解码器326针对帧m和时间实例而产生重构的残留信号。注意,由于可能以不同的采样速率产生残留信号,所以帧长度可能不同于n。由于残留译码可能只针对较低的频率范围,所以可能有益的是用较低的采样速率来表示它以节省存储器和计算复杂度。获得残留信号的dft表示。注意,如果在dft域中对残留信号上采样到与重构的向下混合相同的采样速率,则将需要用对dft系数进行缩放,并且将对进行零填充以匹配长度n。为了简化符号,并且由于实施例不受不同采样速率的使用所影响,所以为了更好地理解,在以下描述中,采样速率应当相等,并且。因此,将不示出缩放或零填充。
59.应注意,在dft域中对向下混合和/或残留信号进行编码的情况下,无需借助于dft进行频率变换。在这种情况下,对向下混合和/或残留信号进行解码提供了进一步处理所必需的dft频谱。
60.在无错误帧(通常称为好帧)中,多通道音频解码器可使用经解码的向下混合信号连同经解码的多通道音频参数结合经解码的残留信号来产生多通道合成。对于预测参数的情况,解码器可使用模式参数来选择合适的解码模式,并产生重构的预测参数,。
61.用重构的预测参数来更新参数存储器。
62.将经解码的向下混合、立体声参数和残留信号馈送到参数立体声合成块322,以产生重构的立体声信号。在已应用dft域中的立体声合成之后,将左通道和右通道变换到时域,并从立体声解码器输出。
63.在解码器检测到丢失或损坏帧的情况下,解码器可使用一个或若干个plc模块来隐藏缺失的数据。可以有若干种专用plc技术来替代缺失的信息,例如作为向下混合解码器、残留解码器或参数解码器的一部分。plc的目标是生成类似于缺失音频片段的外推音频片段,并确保在丢失或损坏帧之前和之后正确解码的音频之间的平滑转变。
64.立体声参数的plc方法可改变。示例是简单地重复先前解码的帧的参数。另一种方法是使用针对大音频数据库观测到的平均立体声参数,或者对于连续帧丢失(突发丢失)缓慢收敛到平均立体声参数。plc方法可以用隐藏参数来更新参数存储器,或者它可使参数存储器保持未触及,使得最后解码的参数保持不变。在任何情况下,存储器都将相对于编码器不同步。
65.转到图4,提供了预测性参数译码恢复的实施例中的解码器操作的流程图。如果在操作400通过坏帧指示符(bfi)指示坏帧,则解码器可在操作402采用分组丢失隐藏方法,并且在一些实施例中,可在操作404中设置用于指示经解码的参数的存储器中的损坏的标志(例如,)。如果bfi非活动,则在操作406中使用正常解码。在正常解码之后,运行参数恢复操作408。
66.更详细地,可如由图5所概述那样描述无错误解码操作。图5可以与图3的立体声解码器块320进行比较。图5提供了向下混合解码器510并可选地提供了残留解码器520。解码器包含具有参数恢复530的参数解码器,这在下面更详细地描述。
67.参数解码器532可使用绝对译码模式或预测性译码模式来执行对立体声参数的解码。在以下描述中,应当针对错误恢复方法使用重构的侧边信号预测参数。在位置分析器块538中,推导表示源的定位的位置度量。位置度量的示例是使用重构的预测参数
在每个帧的所有子频带上的均值。
68.当定位极端且静态(或稳定)时,将激活恢复解决方案。极端定位可被表现为信号功率集中到某个通道或方向上,其中集中的能量的方向上的偏移对感知的定位具有大影响。例如,在立体声信号中,极端定位表示集中在左通道或右通道中的源。换句话说,源(例如,重构的源信号)的位置度量主要集中在多通道的通道子集中。对于立体声信号,源的位置度量将主要集中在两个通道中的一个通道中。激活机制可基于经低通滤波的定位,例如:。
69.这里,低于阈值的任何定位值都将把重置为零。
70.滤波器参数的合适值可以是或在范围内。可通过将经低通滤波的定位与固定阈值进行比较来形成极端位置决策,其中取决于参数的范围。这里,(因此还有)的范围是,并且的合适值是0.4。换句话说,等于1指示声源是稳定源,其被平移到(panned to)左通道或右通道,并且因此处于极端定位。因此,在值为0.4的情况下,高于0.4或低于
‑
0.4的的任何值(即,)将指示声源处于极端定位(例如,位置度量主要集中在左通道或右通道中)。可将的值设置为其它值。
71.上文描述的位置度量提供了在计算上简单实现的解决方案。然而,从感知的角度来看,包含参数差的加权可能是有意义的,其考虑向下混合的频带能量。此外,可将加权系数归一化到[0.0,1.0]范围,使得保持在[
‑
0.1,0.1]范围内。因此,位置的备选表达式可以是:
其中是加权位置度量,其包括重构的预测参数在所有子频带上针对每个帧m的加权均值,是帧m中的子频带的数量,和是加权系数,是多个和的终点,是所述多个和的起点,并且是经变换的向下混合信号。
[0072]
以上表达式强调了平移度量中的高能量频带。在对应用加权的情况下,可能需要重新优化滤波器参数。可能进一步期望的是,只在被归类为来自活动源的帧期间更新位置度量,或者用当前峰值能量或噪声本底电平的估计来对加权进行归一化。
[0073]
恢复决策逻辑取决于来自存储器损坏检测器536和位置分析器538的输出。在检测存储器损坏时,存储器损坏检测器536可至少使用参数的译码模式(预测性/绝对)和坏帧指示符(bfi)。可通过如图6中所概述的状态机来进一步描述恢复决策逻辑。
[0074]
转到图6,起始状态610表示正常解码模式。在解码器处于预测性模式并且前一帧是坏帧(这在技术上意味着,参数的存储器损坏())并且音频具有极端且稳定的定位()的情况下,进入恢复状态620。如果在处于恢复状态620中时,解码器进入到绝对解码模式中,则进入正常解码状态610。
[0075]
在恢复状态620中,用存储在存储器中的参数替代经解码的参数:由于参数现在来自存储器,所以不更新参数存储器和定位度量可以是优选的。实际上,这意味着。
[0076]
返回到图5,将具有参数恢复块530的参数解码器的输出连同向下混合解码器块510和潜在的残留解码器块520的输出一起输入到立体声合成器块540,以便使立体声合成器块540合成音频信号以在通道ch1和/或ch2上输出。
[0077]
也可通过图7的流程图来描述参数恢复的操作。现在转到图7,在操作710中,可检查参数,以确定译码模式是绝对还是预测性。
[0078]
响应于译码模式是绝对译码模式,在操作720中,可复位用于指示存储器损坏的标志,例如。
[0079]
响应于译码模式是预测性译码模式,在操作730中,可检查存储器状态。如果参数存储器没有损坏(例如,),则可在操作740中分析声源的位置。即,可更新。
[0080]
在操作750中,可更新经解码的参数的存储器。响应于参数存储器损坏(例如,),在操作760中,进行关于声源是否是具有极端定位
的稳定源的确定(例如,指示位置度量主要集中在多通道系统的通道子集中)。
[0081]
在操作770中,响应于声源是具有极端定位的稳定源,用经解码的参数的存储器替代经解码的参数。
[0082]
也可通过图9中的流程图来描述具有参数恢复的解码器的操作。在操作900中,解码器200的处理电路801可对所接收的多通道信号的帧的多通道参数进行解码。该操作可类似于图4的操作406。在操作902中,解码器200可确定是否指示坏帧。该操作可类似于图4的操作400。在一个实施例中,这可以是从数据分组消息中的标志推导的标志。
[0083]
响应于指示坏帧,在操作904中,处理电路801可执行分组丢失隐藏操作。该操作可类似于图4的操作402。例如,可在操作904中执行上文关于图3所描述的分组丢失隐藏操作。
[0084]
在操作906中,处理电路801可至少基于译码模式和前一坏帧指示符来确定参数存储器是否损坏。该操作可类似于图7的操作730。在一个实施例中,译码模式可以是绝对译码模式或预测性译码模式之一。在该实施例中,确定基于译码模式是预测性译码模式。因此,至少基于译码模式和前一坏帧指示符来确定参数存储器是否损坏是基于译码模式是预测性译码模式和前一坏帧指示符所确定的。
[0085]
在操作908中,处理电路801可基于经解码的多通道参数来推导源的定位的位置度量。该操作可类似于图7的操作740。在一个实施例中,可基于下式来推导位置度量:其中是位置度量,其包含重构的预测参数在所有子频带上针对每个帧m的均值,并且是帧m内的子频带数。
[0086]
在其它实施例中,可基于下式来推导位置度量:其中是位置度量,其包括重构的预测参数在所有子频带上针对每个帧m的加权均值,并且是帧m中的子频带数,和是加权系数,是多个和的终点,是所述多个和的起点,并且是经变换的向下混合信号。
[0087]
在操作910中,处理电路801可确定重构的声源是否稳定并且位置度量是否主要集中在所接收的多通道信号的多通道的通道子集中。该操作可类似于图7的操作760。在一个实施例中,确定重构的声源是否稳定并且位置度量是否主要集中在多通道的通道子集中包括:确定经低通滤波的定位是否高于阈值;以及响应于经低通滤波的定位高于阈值,确定位置度量主要集中在多通道的通道子集中。可基于下式来确定经低通滤波的定位:其中是滤波器参数,是重构的预测参数针对帧m的均值,并且是经低通滤波的定位。
[0088]
当多通道是两个通道时(例如,具有左通道和右通道的立体声系统),确定位置度量是否主要集中在所接收的多通道信号的多通道的通道子集中包括确定位置度量是否主要集中在两个通道之一中。
[0089]
在操作912中,响应于重构的声源的位置度量集中在多通道的通道子集中并且重构的声源稳定且参数存储器损坏,处理电路801可激活参数恢复以用存储的多通道参数来替换经解码的多通道参数。该操作可类似于图7的操作770。
[0090]
也可通过图10中的流程图来进一步描述具有参数恢复的解码器的操作。
[0091]
当指示坏帧时,使用一种或多种plc方法来确定参数。坏帧可由bfi标志指示,bfi标志发信号通知已接收到坏帧。在操作1000中,响应于指示坏帧,处理电路801可将存储器损坏标志设置为指示参数的存储器损坏。
[0092]
当没有指示坏帧时,使用具有参数恢复的参数解码器操作。在操作1002中,解码器200的处理电路801可确定译码模式是绝对解码模式还是预测性译码模式。解码器200可从编码器接收译码模式。该操作可类似于图7的操作710。
[0093]
响应于译码模式处于绝对译码模式中,在操作1004中,处理电路801复位存储器损坏标志。存储器损坏标志可用于指示参数的存储器损坏。这在当前正解码的帧的前一帧是坏帧(这意味着,参数的存储器损坏)时可能发生。图4中还示出了设置存储器损坏标志的示例。
[0094]
响应于译码模式处于预测性译码模式中,在操作1006中,处理电路801可确定是否设置了存储器损坏标志。该操作可类似于图7的操作730。
[0095]
响应于设置了存储器损坏标志,在操作1008中,处理电路801可确定重构的声源是否是稳定声源并且重构的声源的位置度量是否主要集中在正被解码的多通道信号的通道子集中。该操作可类似于图7的操作760。在一个实施例中,该确定重构的声源的位置度量是否主要集中在通道子集中包括:确定经低通滤波的定位的绝对值是否高于阈值;以及响应于经低通滤波的定位的绝对值高于阈值,确定重构的声源的位置度量主要集中在通道子集中。可基于下式来确定经低通滤波的定位:其中是滤波器参数,是重构的预测参数针对帧m的均值,并且是
经低通滤波的定位。
[0096]
当多通道是两个通道时(例如,具有左通道和右通道的立体声系统),确定重构的声源的位置度量是否主要集中在通道子集中包括确定重构的声源的位置度量是否主要集中在两个通道之一中。
[0097]
在操作1010中,响应于重构的声源是稳定源并且重构的声源的位置度量主要集中在多通道的通道子集中,处理电路801可以用存储的多通道参数替代经解码的多通道参数。该操作可类似于图7的操作770。
[0098]
响应于没有设置存储器损坏标志,在操作1012中,处理电路801可分析源的定位的位置度量以更新位置度量。该操作可类似于图7的操作740。在一个实施例中,更新位置度量可以是基于下式来更新位置度量其中是位置度量,其包含重构的预测参数在所有子频带上针对每个帧m的均值,并且是帧m中的子频带数。
[0099]
在其它实施例中,更新位置度量可以是基于下式来更新位置度量:其中是位置度量,其包括重构的预测参数在所有子频带上针对每个帧m的加权均值,并且是帧m中的子频带数,和是加权系数,是多个和的终点,是所述多个和的起点,并且是经变换的向下混合信号。
[0100]
响应于没有设置存储器损坏标志,在操作1014中,处理电路801可以用经解码的多通道参数来更新所存储的多通道参数。该操作可类似于图7的操作750。
[0101]
以上描述描述了使用解码器200的参数恢复。使用来自存储器的参数来代替经解码的参数的一个潜在优势是,操作可减少预测性译码的问题,而不用传送在无错误通道操作中浪费的冗余参数信息。此外,只在稳定的音频场景中使用估计的参数使音频场景免于在不稳定的音频场景期间以不自然的方式变成“冻结”。
[0102]
使用来自存储器的参数来代替经解码的参数的另一个潜在优势是,在已指示坏帧时,与经解码的参数相比,使用来自存储器的参数的所再现的声音的感知位置可能更接近
于声音的实际位置。
[0103]
实施例列表:1. 一种替换接收的多通道信号中的经解码的参数的方法,所述方法包括:对所述接收的多通道信号的帧的多通道参数进行解码(900);确定(902)是否指示坏帧;响应于指示所述坏帧,执行(904)分组丢失隐藏操作;响应于没有指示所述坏帧:至少基于译码模式和前一坏帧指示符,确定(906)参数存储器是否损坏;基于经解码的多通道参数来推导(908)重构的声源的位置度量;基于所述位置度量来确定(910)所述重构的声源是否稳定并且主要集中在所述接收的多通道信号的多通道的通道子集中;响应于所述重构的声源的所述位置度量集中在所述多通道的所述通道子集中并且稳定并且所述参数存储器损坏,激活(912)参数恢复以用存储的多通道参数替换经解码的多通道参数。
[0104]
2. 如实施例1所述的方法,其中所述多通道包括两个通道,并且基于所述位置度量来确定(910)所述重构的声源的所述位置度量是否主要集中在所述多通道的所述通道子集中包括基于所述位置度量来确定(910)所述重构的声源的所述位置度量是否主要集中在所述两个通道之一中。
[0105]
3. 如实施例1
‑
2中任一项所述的方法,其中所述译码模式包括绝对译码模式和预测性译码模式之一,并且其中至少基于所述译码模式和所述前一坏帧指示符来确定所述参数存储器是否损坏包括:基于所述译码模式是所述预测性译码模式和所述前一坏帧指示符,确定所述参数存储器是否损坏。
[0106]
4. 如实施例1
‑
3中任一项所述的方法,其中推导所述位置度量包括基于下式来推导所述位置度量其中,是所述位置度量,所述位置度量包含重构的预测参数在所有子频带上针对每个帧m的均值,并且是帧m中的子频带数。
[0107]
5. 如实施例4所述的方法,其中确定所述重构的声源的所述位置度量是否主要集中在所述多通道的通道子集中包括:基于下式来确定经低通滤波的定位其中是滤波器参数,是重构的预测参数针对帧m的均值,并且是所述经低通滤波的定位;确定所述经低通滤波的定位的绝对值是否高于阈值;
响应于所述经低通滤波的定位的所述绝对值高于所述阈值,确定所述声源的所述位置度量主要集中在所述多通道的通道子集中。
[0108]
6. 如实施例1所述的方法,其中推导所述位置度量包括基于下式来推导所述位置度量其中是所述位置度量,所述位置度量包含重构的预测参数在所有子频带上针对每个帧m的加权均值,并且是帧m中的子频带数,和是加权系数,是多个和的终点,是所述多个和的起点,并且是经变换的向下混合信号。
[0109]
7. 一种用存储的多通道参数替换经解码的多通道参数的方法,所述方法包括:确定(1002)译码模式是绝对译码模式还是预测性译码模式;响应于所述译码模式是预测性译码模式:确定(1006)是否设置了存储器损坏标志;响应于设置了所述存储器损坏标志:确定(1008)重构的声源是否是稳定声源并且所述重构的声源的位置度量是否主要集中在正被解码的多通道信号的多通道的通道子集中;响应于所述重构的声源是稳定声源并且所述重构的声源的所述位置度量主要集中在所述多通道的所述通道子集中,用存储的多通道参数替代(1010)经解码的多通道参数;响应于没有设置所述存储器损坏标志:分析(1012)所述重构的声源的所述位置度量以更新所述位置度量;以及用所述经解码的多通道参数来更新(1014)所述存储的多通道参数。
[0110]
8. 如实施例7所述的方法,其中所述多通道包括两个通道,并且确定所述重构的声源的所述位置度量是否主要集中在通道子集中包括确定(910)所述重构的声源的所述位置度量是否主要集中在所述两个通道之一中。
[0111]
9. 如实施例7
‑
8中任一项所述的方法,进一步包括:响应于所述译码模式是绝对译码模式,复位(1004)所述存储器损坏标志。
[0112]
10. 如实施例7
‑
9中任一项所述的方法,进一步包括:响应于指示坏帧,设置(1000)所述存储器损坏标志。
[0113]
11. 如实施例7
‑
10中任一项所述的方法,其中更新所述位置度量包括基于下式来更新所述位置度量其中,是所述位置度量,所述位置度量包含重构的预测参数在所有子频带上针对每个帧m的均值,并且是帧m中的子频带数。
[0114]
12. 如实施例11所述的方法,其中确定所述重构的声源的所述位置度量是否主要集中在通道子集中包括:基于下式来确定经低通滤波的定位其中是滤波器参数,是重构的预测参数针对帧m的均值,并且是所述经低通滤波的定位;确定所述经低通滤波的定位的绝对值是否高于阈值;响应于所述经低通滤波的定位的所述绝对值高于所述阈值,确定所述重构的声源的所述位置度量主要集中在通道子集中。
[0115]
13. 如实施例7所述的方法,其中推导所述位置度量包括基于下式来推导所述位置度量其中是所述位置度量,所述位置度量包含重构的预测参数在所有子频带上针对每个帧m的加权均值,并且是帧m中的子频带数,和是加权系数,是多个和的终点,是所述多个和的起点,并且是经变换的向下混合信号。
[0116]
14. 一种用于通信网络的解码器(200),所述解码器(100)包括:处理器(801);以及与所述处理器耦合的存储器(803),其中所述存储器包含指令,所述指令在由所述
处理器执行时使所述处理器执行根据实施例1
‑
13中任一项所述的操作。
[0117]
15. 一种配置成在通信网络中操作的解码器(200),其中所述解码器适于根据实施例1
‑
13中任一项来执行。
[0118]
16. 一种包含计算机可执行指令的计算机程序,所述计算机可执行指令配置成当在被包含在装置中的处理器(801)上执行所述计算机可执行指令时,使所述装置执行根据实施例1
‑
13中任一项所述的方法。
[0119]
17. 一种包含非暂时性计算机可读存储介质(803)的计算机程序产品,所述非暂时性计算机可读存储介质具有计算机可执行指令,所述计算机可执行指令配置成当在被包含在装置中的处理器(801)上执行所述计算机可执行指令时,使所述装置执行根据实施例1
‑
13中任一项所述的方法。
[0120]
18. 一种配置成用接收的多通道信号中的估计的参数替代经解码的参数的设备,所述设备包括:至少一个处理器(801);在通信上耦合到所述处理器的存储器(803),所述存储器包含由所述处理器可执行的指令,所述指令使所述处理器执行包括以下操作的操作:使用绝对译码模式或预测性译码模式之一来对所述接收的多通道信号的帧的多通道参数进行解码(900);确定(902)是否指示坏帧;响应于指示所述坏帧,执行分组丢失隐藏操作;响应于没有指示所述坏帧:至少基于译码模式和前一坏帧指示符,确定(906)参数存储器是否损坏;基于经解码的多通道参数来推导(908)重构的声源的位置度量;基于所述位置度量来确定(910)所述重构的声源是否稳定并且所述位置度量是否主要集中在所述接收的多通道信号的多通道的通道子集中;响应于所述重构的声源稳定并且所述位置度量主要集中在所述多通道的通道子集中并且所述参数存储器损坏,激活(912)参数恢复以用存储的多通道参数替换经解码的多通道参数。
[0121]
19. 如实施例18所述的设备,其中所述译码模式包括绝对译码模式和预测性译码模式之一,并且其中至少基于所述译码模式和所述前一坏帧指示符来确定所述参数存储器是否损坏包括基于所述译码模式是所述预测性译码模式以及所述前一坏帧指示符,确定所述参数存储器是否损坏。
[0122]
20. 如实施例18
‑
19中任一项所述的设备,其中所述多通道包括两个通道,并且基于所述位置度量来确定(910)所述重构的声源的所述位置度量是否主要集中在所述多通道的所述通道子集中包括基于所述位置度量来确定(910)所述重构的声源的所述位置度量是否主要集中在所述两个通道之一中。
[0123]
21. 如实施例18
‑
20中任一项所述的设备,其中推导所述位置度量包括基于下式来推导所述位置度量
其中,是所述位置度量,所述位置度量包含重构的预测参数在所有子频带上针对每个帧m的均值,并且是帧m中的子频带数。
[0124]
22. 如实施例21所述的设备,其中确定所述重构的声源是否主要集中在所述多通道的所述通道子集中包括:根据下式来确定经低通滤波的定位其中是滤波器参数,是重构的预测参数针对帧m的均值,并且是所述经低通滤波的定位;确定所述经低通滤波的定位的绝对值是否高于阈值;响应于所述经低通滤波的定位的所述绝对值高于所述阈值,确定所述重构的声源主要集中在所述多通道的通道子集中。
[0125]
23. 如实施例18所述的设备,其中推导所述位置度量包括基于下式来推导所述位置度量其中是所述位置度量,所述位置度量包含重构的预测参数在所有子频带上针对每个帧m的加权均值,并且是帧m中的子频带数,和是加权系数,是多个和的终点,是所述多个和的起点,并且是经变换的向下混合信号。
[0126]
24. 一种配置成用接收的多通道信号中的估计的参数替代经解码的参数的设备,所述设备包括:至少一个处理器(801);在通信上耦合到所述处理器的存储器(803),所述存储器包含由所述处理器可执行的指令,所述指令在执行时使所述处理器执行包括以下操作的操作:
确定(1002)译码模式是绝对译码模式还是预测性译码模式;响应于所述译码模式是预测性译码模式:确定(1006)是否设置了存储器损坏标志;响应于设置了所述存储器损坏标志:确定(1008)重构的声源是否是稳定声源并且所述重构的声源的位置度量是否主要集中在所述接收的多通道信号的多通道的通道子集中;响应于所述重构的声源是稳定声源并且所述重构的声源的所述位置度量主要集中在所述通道子集中,用存储的多通道参数替代(1010)经解码的多通道参数;响应于没有设置所述存储器损坏标志:分析(1012)所述重构的声源的所述位置度量以更新所述位置度量;以及用所述经解码的多通道参数来更新(1014)所述存储的多通道参数。
[0127]
25. 如实施例24所述的设备,其中所述存储器包含由所述处理器可执行的进一步指令,所述进一步指令在执行时使所述处理器执行包括以下操作的操作:响应于所述译码模式是绝对译码模式,复位(1004)所述存储器损坏标志。
[0128]
26. 如实施例24所述的设备,其中所述存储器包含由所述处理器可执行的进一步指令,所述进一步指令在执行时使所述处理器执行包括以下操作的操作:响应于指示坏帧,设置(1000)所述存储器损坏标志。
[0129]
27. 如实施例24
‑
26中任一项所述的设备,其中所述多通道包括两个通道,并且确定所述重构的声源的所述位置度量是否主要集中在通道子集中:确定(910)所述重构的声源的所述位置度量是否主要集中在所述两个通道之一中。
[0130]
28. 如实施例24
‑
27中任一项所述的设备,其中更新所述位置度量包括基于下式来更新所述位置度量其中,是所述位置度量,所述位置度量包含重构的预测参数在所有子频带上针对每个帧m的均值,并且是帧m中的子频带数。
[0131]
29. 如实施例28所述的设备,其中确定所述重构的声源的所述位置度量是否主要集中在所述通道子集中包括:基于下式来确定经低通滤波的定位其中是滤波器参数,是重构的预测参数针对帧m的均值,并且是所述经低通滤波的定位;确定所述经低通滤波的定位的绝对值是否高于阈值;响应于所述经低通滤波的定位的所述绝对值高于所述阈值,确定所述重构的声源的所述位置度量主要集中在通道子集中。
coherence cues," in ieee transactions on audio, speech, and language processing, vol. 14, no. 1, pp. 299
‑
310, jan. 2006。
[0136]
[2]. breebaart, j., herre, j., faller, c., r
ö
d
é
n, j., myburg, f., disch, s., ... & oomen, w. (2005). "mpeg spatial audio coding/mpeg surround: overview and current status," 2005 in preprint 119th conv. aud. eng. soc. (no. lcav
‑
conf
‑
2005
‑
029)。
[0137]
下面讨论进一步的定义和实施例。
[0138]
在对本发明概念的各种实施例的以上描述中,将了解,本文中所使用的术语仅用于描述特定实施例的目的,并且不旨在限制本发明概念。除非另有定义,否则本文中所使用的所有术语(包括技术和科学术语)具有与由本发明概念所属领域的技术人员普遍理解的含义相同的含义。将进一步了解,术语(诸如在常用字典中定义的那些术语)应当解释为具有与它们在本说明书和相关领域的上下文中的含义一致的含义,并且将不以理想化或过度正式的含义来解释它们,除非本文中明确那样定义。
[0139]
当将元件称为被“连接到”、“耦合到”、“响应于”(或其变型)另一个元件时,它可被直接连接到、耦合到、或响应于所述另一个元件,或者可存在中间元件。相反,当将元件称为被“直接连接到”、“直接耦合到”、“直接响应于”(或其变型)另一个元件时,不存在中间元件。贯穿全文,类似数字指类似要素。此外,如本文中所使用的“耦合”、“连接”、“响应”(或其变型)可包括无线耦合、连接、或响应。如本文中所使用的,除非上下文另有清楚指示,否则单数形式“一(a、an)”和“该”旨在也包括复数形式。为了简洁和/或清晰,可能没有详细描述众所周知的功能或构造。术语“和/或”包括相关联的所列出项中的一个或多个的任何和所有组合。
[0140]
将了解,尽管本文中可使用术语第一、第二、第三等来描述各种元件/操作,但是这些元件/操作不应受这些术语所限制。这些术语仅用于区分一个元件/操作与另一个元件/操作。因此,在不偏离本发明概念的教导的情况下,一些实施例中的第一元件/操作可在其它实施例中称为第二元件/操作。贯穿说明书,相同的参考标号或相同的参考标志符表示相同或类似的要素。
[0141]
如本文中所使用的,术语“包括(comprise、compring、comprises)”、“包含(include、including、includes)”、“具有(have、has、having)”或其变型是开放式的,并且包括一个或多个所叙述的特征、整数、元件、步骤、组件或功能,但是不排除存在或增加一个或多个其它特征、整数、元件、步骤、组件、功能、或其群组。此外,如本文中所使用的,源于拉丁短语“exempli gratia”的常用缩写“例如(e.g.)”可用于介绍或指定先前提到的项的一个或多个一般示例,并且不旨在限制此类项。源于拉丁短语“id est”的常见缩写“即(i.e.)”可用于从更一般的记载中指定特定项。
[0142]
在本文中参考计算机实现的方法、设备(系统和/或装置)和/或计算机程序产品的框图和/或流程图图示描述了示例实施例。将了解,框图和/或流程图图示的框以及框图和/或流程图图示中的框的组合可通过由一个或多个计算机电路执行的计算机程序指令来实现。可将这些计算机程序指令提供给通用计算机电路、专用计算机电路、和/或其它可编程数据处理电路的处理器电路以生产机器,使得经由计算机和/或其它可编程数据处理设备的处理器执行的指令变换和控制晶体管、存储在存储器位置中的值、和此类电路内的其它
硬件组件以实现在(一个或多个)框图和/或流程图框中所指定的功能/动作,并且从而创建用于实现在(一个或多个)框图和/或流程图框中所指定的功能/动作的部件(功能性)和/或结构。
[0143]
这些计算机程序指令也可被存储在有形的计算机可读介质中,所述有形的计算机可读介质可引导计算机或其它可编程数据处理设备以特定的方式运作,使得存储在计算机可读介质中的指令生产包括实现在(一个或多个)框图和/或流程图框中所指定的功能/动作的指令的制品。因此,本发明概念的实施例可以采用硬件和/或采用在诸如数字信号处理器之类的处理器上运行的软件(包括固件、常驻软件、微代码等)来体现,它们可统称为“电路”、“模块”或其变型。
[0144]
还应注意,在一些备选实现中,在框中注释的功能/动作可不按照在流程图中注释的顺序进行。例如,取决于涉及的功能性/动作,连续示出的两个框实际上可大体上同时执行,或者框有时可按相反的顺序执行。此外,流程图和/或框图的给定框的功能性可被分离成多个框,和/或流程图和/或框图的两个或更多个框的功能性可以至少部分地集成。最后,在不偏离发明概念的范围的情况下,可在示出的框之间增加/插入其它框,和/或可省略框/操作。此外,尽管一些图在通信路径上包含箭头以示出通信的主要方向,但是将了解,通信可沿与所描绘的箭头相反的方向进行。
[0145]
在不实质偏离本发明概念的原理的情况下,可对实施例进行许多改变和修改。旨在所有此类改变和修改都在本文中被包含在本发明概念的范围内。因此,上文公开的主题将被视为是说明性而不是限制性的,并且实施例的示例旨在涵盖落在本发明概念的精神和范围内的所有此类修改、增强和其它实施例。因此,在由法律所允许的最大程度内,本发明概念的范围应由包括实施例的示例及其等效物的本公开的最广泛可准许解释来确定,并且不应受在前详细描述所局限或限制。
[0146]
一般来说,本文中所使用的所有术语都将根据它们在相关技术领域中的普通含义进行解释,除非在使用它的上下文中明确给出和/或暗示不同的含义。除非另有明确地阐述,否则对一(a/an)/该元件、设备、组件、部件、步骤等的所有引用都将开放地解释为指该元件、设备、组件、部件、步骤等的至少一个实例。除非将步骤明确地描述为在另一个步骤之后或之前,和/或在暗示步骤必须在另一个步骤之后或之前的情况下,否则本文中公开的任何方法的步骤不一定按照所公开的准确顺序执行。在合适的情况下,本文中公开的任何实施例的任何特征可被应用于任何其它实施例。同样地,任何实施例的任何优点可应用于任何其它实施例,并且反之亦然。
[0147]
本文中公开的任何合适的步骤、方法、特征、功能、或益处可通过一个或多个虚拟设备的一个或多个功能单元或模块来执行。每个虚拟设备可包括多个这些功能单元。这些功能单元可经由处理电路以及其它数字硬件来实现,所述处理电路可包括一个或多个微处理器或微控制器,所述其它数字硬件可包括数字信号处理器(dsp)、专用数字逻辑等。处理电路可配置成执行存储在存储器中的程序代码,存储器可包括一种或若干种类型的存储器,诸如只读存储器(rom)、随机存取存储器(ram)、高速缓存存储器、闪速存储器装置、光存储装置等。存储在存储器中的程序代码包括用于执行一个或多个电信和/或数据通信协议的程序指令以及用于执行本文中描述的一个或多个技术的指令。在一些实现中,处理电路可用于使相应的功能单元执行根据本公开的一个或多个实施例的对应功能。