针对hoa数据帧表示的压缩确定表示非差分增益值所需的最小整数比特数的方法
1.本技术是基于申请号为201580035127.x、申请日为2015年6月22日、发明名称为“针对hoa数据帧表示的压缩确定表示非差分增益值所需的最小整数比特数的方法”的专利申请的分案申请。
技术领域
2.本发明涉及用于针对hoa数据帧表示的压缩而确定表示与所述hoa数据帧中的特定数据帧的通道信号相关联的非差分增益值所需的最小整数比特数的方法。
背景技术:3.表示为hoa的高阶高保真度立体声响复制提供了表示三维声音的一种可能性。其他技术是波场合成(wfs)或如22.2的基于通道的方法。与基于通道的方法相比,hoa表示提供了与特定扬声器设置无关的优点。然而,这种灵活性是以在特定扬声器设置上回放hoa表示所需要的解码过程为代价的。与所需扬声器的数量通常很大的wfs方法相比,hoa也可以被呈现为仅包括几个扬声器的设置。hoa的另一个优点是还可以采用相同的表示而不必对耳机的双耳渲染进行任何修改。
4.hoa基于通过截断的球面谐波函数(sh)展开来表示复合谐波平面波幅度的空间密度。每个展开系数是角频率的函数,角频率可以由时域函数等效地表示。因此,在不失一般性的情况下,完整的hoa声场表示实际上可以被假设成由o个时域函数组成,其中,o表示展开系数的数量。这些时域函数在下文中将被等效地称为hoa系数序列或hoa通道。
5.hoa表示的空间解析度随着展开的最大阶数n的增长而提高。遗憾的是,展开系数o的数量随着阶数n呈二次方增长,特别地,o=(n+1)2。例如,使用阶数n=4的典型hoa表示需要o=25个hoa(展开)系数。假设期望的单声道采样率为f
s
并且每个采样的比特数为n
b
,则用于传输hoa表示的总比特率由o
·
f
s
·
n
b
确定。以采用每采样n
b
=16比特的f
s
=48khz采样率传输阶数为n=4的hoa表示,导致19.2mbits/s的比特率,该比特率对于许多实际应用(例如流式传输)来说是非常高的。因此,对hoa表示进行压缩是非常可取的。
6.先前,在ep 2665208 a1、ep 2743922 a1、ep 2800401 al中提出了hoa声场表示的压缩,参见2014年1月的mpeg
‑
h 3d音频的iso/iec jtc1/sc29/wg11、n14264、wd1
‑
hoa文本。这些方法的共同点在于:它们都执行声场分析并且将给定的hoa表示分解成方向分量和残余环境分量。一方面,最终压缩的表示被假设成由若干量化信号组成,这些量化信号由方向信号和基于向量的信号的感知编码以及环境hoa分量的相关系数序列产生。另一方面,最终压缩的表示包括与量化信号相关的附加边信息,根据其压缩版本重构hoa表示需要所述边信息。
7.在被传递至感知编码器之前,要求这些中间时域信号具有在[
‑
1,1]的值范围内的最大幅度,这是为实现当前可用的感知编码器而产生的要求。为了当对hoa表示进行压缩时满足该要求,在感知编码器之前使用平滑地衰减或放大输入信号的增益控制处理单元(参
见ep 2824661 a1和上面提到的iso/iec jtc1/sc29/wg11 n14264文献)。所产生的信号修改被假设成是可逆的并且被逐帧地应用,其中特别地,连续帧之间的信号幅度的变化被假设成“2”的幂。为了便于该信号修改在hoa解压缩器中的倒置,相应的归一化边信息包括在总边信息中。该归一化边信息可以由底数为“2”的指数构成,这些指数描述了两个连续帧之间的相对幅度变化。由于连续帧之间的较小幅度变化比较大幅度变化更有可能发生,因此根据上面提到的iso/iec jtcl/sc29/wg11 n14264文献利用游程运行长度编码(run length code)对这些指数进行编码。
技术实现要素:[0008]
例如,在从开始至结束没有任何时间跳跃地对单个文件解压缩的情况下,在hoa解压缩中使用差分编码的幅度变化来重构原始信号幅度是可行的。然而,为了便于随机访问,独立的访问单元必须存在于编码表示(其通常是比特流)中以使得能够与来自在先帧的信息无关地从期望的位置(或至少在其附近)开始解压缩。这种独立的访问单元必须包含由增益控制处理单元引起的从第一帧一直到当前帧的总绝对幅度变化(即,非差分增益值)。假设两个连续帧之间的幅度变化是“2”的幂,则通过底数为“2”的指数来描述总绝对幅度变化就足够了。为了对该指数进行高效编码,在应用增益控制处理单元之前了解信号的可能的最大增益是必要的。然而,该知识高度依赖于对要压缩的hoa表示的值范围的约束规范。遗憾的是,mpeg
‑
h 3d音频文献iso/iec jtc1/sc29/wg11 n14264仅提供用于输入hoa表示的格式的描述,而没有对值范围设定任何约束。
[0009]
本发明要解决的问题是提供表示非差分增益值所需的最小整数比特数。该问题通过权利要求1中公开的方法来解决。在相应的从属权利要求中公开了本发明的有利的附加实施方式。
[0010]
本发明确立了输入hoa表示的值范围与信号在hoa压缩器中应用增益控制处理单元之前的可能的最大增益之间的相互关系。
[0011]
基于该相互关系,针对输入hoa表示的值范围的给定规范、针对底数为“2”的指数的有效编码来确定所需比特的量,以在访问单元内描述由增益控制处理单元引起的从第一帧一直到当前帧的修改信号的总绝对幅度变化(即,非差分增益值)。
[0012]
此外,一旦计算用于对指数编码的所需比特量的规则被确定,本发明就使用用于验证给定hoa表示是否满足所需值范围约束的处理,使得给定hoa表示能够被正确压缩。
[0013]
原则上,本发明的方法适合于针对hoa数据帧表示的压缩而确定用于表示所述hoa数据帧中的特定hoa数据帧的通道信号的非差分增益值所需的最小整数比特数β
e
,其中,每个帧中的每个通道信号包括一组采样值,并且其中,给所述hoa数据帧中的每个hoa数据帧的每个通道信号分配差分增益值,并且这样的差分增益值引起当前hoa数据帧中的通道信号的采样值的幅度相对于前一hoa数据帧中的通道信号的采样值变化,并且其中,这样的增益调整的通道信号在编码器中被编码,
[0014]
并且其中,所述hoa数据帧表示在空间域中被渲染为o个虚拟扬声器信号w
j
(t),其中,所述o个虚拟扬声器的位置位于单位球体上并且与针对β
e
的计算而假设的位置不匹配,所述渲染通过矩阵乘法w(t)=(ψ)
‑1·
c(t)来表示,其中,w(t)是包含所有虚拟扬声器信号的向量,ψ是针对虚拟扬声器位置而计算的模矩阵,并且c(t)是所述hoa数据帧表示的相应
hoa系数序列的向量,
[0015]
并且其中,计算最大允许幅度值并且所述hoa数据帧表示被归一化,使得
[0016]
所述方法包括以下步骤:
[0017]
‑
通过以下子步骤a)、b)、c)中的一个或更多个从所述归一化hoa数据帧表示中形成所述通道信号:
[0018]
a)为了表示所述通道信号中的主要声音信号,将所述hoa系数序列c(t)的向量乘以混合矩阵a,混合矩阵a的欧几里德范数不大于“1”,其中,混合矩阵a表示所述归一化hoa数据帧表示的系数序列的线性组合;
[0019]
b)为了表示所述通道信号中的环境分量c
amb
(t)、从所述归一化hoa数据帧表示中减去所述主要声音信号以及选择所述环境分量c
amb
(t)的系数序列的至少一部分,其中,||c
amb
(t)||
22
≤||c(t)||
22
,以及通过计算对所得到的最小环境分量c
amb,min
(t)进行变换,其中,并且ψ
min
是所述最小环境分量c
amb,min
(t)的模矩阵;
[0020]
c)选择所述hoa系数序列c(t)的一部分,其中,所选择的系数序列与对其实施空间变换的环境hoa分量的系数序列相关,并且描述所选择的系数序列的数量的最小阶数n
min
为n
min
≤9;
[0021]
‑
将用于表示所述通道信号的所述非差分增益值所需的所述最小整数比特数β
e
设置为
[0022]
其中,n是阶数,o=(n+1)2是hoa系数序列的数量,k是所述模矩阵的欧几里德范数的平方与o之间的比值,并且其中,n
maxdes
是感兴趣的阶数,并且是针对每个阶数的虚拟扬声器的方向,其中该方向是为了实现对所述hoa数据帧表示的所述压缩而被假定的,使得通过来选择β
e
,从而对所述非差分增益值的底数为“2”的指数进行编码,
[0023]
并且其中,对于计算||ψ||2是所述模矩阵ψ的欧几里德范数,n是阶数,n
max
是感兴趣的最大阶数,是所述虚拟扬声器的方向,o=(n+1)2是hoa系数序列的数量,并且k是所述模矩阵的欧几里德范数的平方||ψ||
22
与o之间的比值。
附图说明
[0024]
参考附图描述了本发明的示例性实施方式,在附图中示出了:
[0025]
图1 hoa压缩器;
[0026]
图2 hoa解压缩器;
[0027]
图3虚拟方向ω
j(n)
(1≤j≤o)关于hoa阶数(n=1,...,29)的缩放值k;
[0028]
图4对于hoa阶数(n
min
=1,...,9),逆模矩阵ψ
‑1关于虚拟方向ω
min,d
(d=1,...,o
min
)的欧几里德范数;
[0029]
图5虚拟扬声器在位置ω
j(n)
(1≤j≤o,其中o=(n+1)2)处的信号的最大允许幅度γ
db
的确定;
[0030]
图6球坐标系。
具体实施方式
[0031]
即使没有明确描述,也可以在任何组合或子组合中使用以下实施方式。
[0032]
在下文中,介绍hoa压缩和解压缩的原理以提供存在上述问题的更详细背景。该介绍的基础是在mpeg
‑
h 3d音频文档iso/iec jtcl/sc29/wg11 n14264(也参见ep 2665208 a1、ep 2800401 a1和ep 2743922 a1)中描述的处理。在n14264中,“方向分量”被扩展至“主要声音分量”。作为方向分量,主要声音分量被假设成部分地由方向信号连同用于根据方向信号预测原始hoa表示的多个部分的一些预测参数一起来表示,方向信号是指具有被假设为从其冲击听者的相应方向的单声道信号。另外,主要声音分量被倔设为由“基于向量的信号”表示,基于向量的信号是指具有限定基于向量的信号的方向分布的相应向量的单声道信号。
[0033]
hoa压缩
[0034]
图1示出了在ep 2800401 a1中描述的hoa压缩器的总体架构。该hoa压缩器的总体架构具有图1a所示的空间hoa编码部以及图1b所示的感知编码部及源编码部。空间hoa编码器提供由i信号连同描述如何创建其hoa表示的边信息一起构成的第一压缩hoa表示。在对两个编码的表示进行多路复用之前,在感知编码器和边信息源编码器中对i信号进行感知编码,并且对边信息进行源编码。
[0035]
空间hoa编码
[0036]
在第一步骤中,将原始hoa表示的当前第k帧c(k)输入至方向和向量估计处理步骤或阶段11,该当前第k帧c(k)被假设成提供元组集和元组集由其第一元素表示方向信号的索引并且第二元素表示相应的量化方向的元组构成。元组集由其第一元素表示基于向量的信号的索引并且第二元素表示限定信号的方向分布的向量(即,如何计算基于向量的信号的hoa表示)的元组构成。
[0037]
使用两个元组集和在hoa分解步骤或阶段12中将初始hoa帧c(k)分解成所有主要声音(即,方向的和基于向量的)信号的帧x
ps
(k
‑
1)和环境hoa分量的帧c
amb
(k
‑
1)。注意由交叠相加处理引起的一个帧的延迟,以避免堵塞的假象。此外,hoa分解步骤/阶段12被假设成输出描述如何根据方向信号来预测原始hoa表示的多个部分的一些预测参数ζ(k
‑
1),以丰富主要声音hoa分量。另外,假设提供了包含关于将在hoa分解处理步骤或阶段12中确定的主要声音信号分配给i个可用通道的信息的目标分配向量v
a,t
(k
‑
1)。可以假设要占用受影响的通道,这意味着受影响的通道不能用于在相应的时间帧中传输环境hoa分量的任何系数序列。
[0038]
在环境分量修改处理步骤或阶段13中,根据由目标分配向量v
a,t
(k
‑
1)提供的信息
来修改环境hoa分量的帧c
amb
(k
‑
1)。特别地,(在其他方面中)根据关于哪些通道可用并且还没有被主要声音信号占据的(包含在目标分配向量v
a,t
(k
‑
1)中的)信息来确定要在给定的i个通道中传输环境hoa分量的哪些系数序列。
[0039]
另外,如果所选择的系数序列的索引在连续帧之间变化,则执行系数序列的淡入淡出。
[0040]
此外,假设环境hoa分量c
amb
(k
‑
2)的第一o
min
系数序列总是被选择成被感知地编码和传输,其中o
min
=(n
min
+1)2(n
min
≤n)的阶数通常比原始hoa表示的阶数更小。为了对这些hoa系数序列进行去相关,可以在步骤/阶段13中将它们变换为从一些预定义方向ω
min,d
(d=1,...,o
min
)冲击的方向信号(即,一般平面波函数)。
[0041]
暂时预测的已修改环境hoa分量c
p,m,a
(k
‑
1)连同修改的环境hoa分量c
m,a
(k
‑
1)一起在步骤/阶段13中被计算,并且被用于增益控制处理步骤/阶段15,...,151以实现合理的预见,其中关于环境hoa分量的修改的信息与在通道分配步骤或阶段14中将所有可能类型的信号分配给可用通道直接相关。关于该分配的最终信息被假设成包含在最终分配向量v
a
(k
‑
2)中。为了在步骤/阶段13中计算该向量,利用包含在目标分配向量v
a,t
(k
‑
1)中的信息。
[0042]
步骤/阶段14中的通道分配利用由分配向量v
a
(k
‑
2)提供的信息将包含在帧x
ps
(k
‑
2)中和包含在帧c
m,a
(k
‑
2)中的适当的信号分配给i个可用通道,从而得到信号帧y
i
(k
‑
2),i=1,...,i。另外,还将包含在帧x
ps
(k
‑
1)和帧c
p,amb
(k
‑
1)中的适当的信号分配给i个可用通道,从而得到预测的信号帧y
p,i
(k
‑
1),i=1,...,i。
[0043]
信号帧y
i
(k
‑
2),i=1,...,i中的每一个最终通过增益控制处理步骤/阶段15,...,151来处理,以得到指数e
i
(k
‑
2)和异常标记β
i
(k
‑
2),i=1,...,i以及信号z
i
(k
‑
2),i=1,...,i,其中信号增益被平滑地修改以实现适合于感知编码器步骤或阶段16的值范围。步骤/阶段16输出相应的编码信号帧预测的信号帧y
p,i
(k
‑
1),i=1,...,i实现了合理的预见以避免连续块之间的较大增益变化。在边信息源编码器步骤或阶段17中,对边信息数据步骤或阶段17中,对边信息数据e
i
(k
‑
2)、β
i
(k
‑
2)、ζ(k
‑
1)和v
a
(k
‑
2)进行源编码,以得到经编码的边信息帧在多路复用器18中,对帧(k
‑
2)的编码信号与该帧的已编码边信息数据进行组合,以得到输出帧
[0044]
在空间hoa解码器中,增益控制处理步骤/阶段15,...,151中的增益修该被假设成通过使用由指数e
i
(k
‑
2)和异常标记β
i
(k
‑
2),i=1,...,i构成的增益控制边信息来恢复。
[0045]
hoa解压缩
[0046]
图2示出了在ep 2800401 a1中描述的hoa解压缩器的总体架构。该总体架构由hoa压缩器部件的配对部件构成,所述配对部件以相反的顺序布置并且包括图2a所示的感知解码部和源解码部以及图2b所示的空间hoa解码部。
[0047]
在感知解码部和源解码部(代表感知解码器和边信息源解码器)中,解复用步骤或阶段21从比特流接收输入帧并且提供i个信号的感知编码的表示以及描述如何创建其hoa表示的已编码边信息数据在感知解码器步骤或阶段22中对信号进行感知解码,以得到解码信号在边信
息源解码器步骤或阶段23中对已编码边信息数据进行解码,以得到数据集进行解码,以得到数据集指数e
i
(k)、异常标记β
i
(k)、预测参数ζ(k+1)和分配向量v
amb,assign
(k)。关于v
a
与v
amb,assign
之间的差别,参见上面提到的mpeg文献n14264。
[0048]
空间hoa解码
[0049]
在空间hoa解码部中,感知解码的信号中的每一个连同其关联的增益校正指数e
i
(k)以及增益校正异常标记β
i
(k)一起被输入至逆增益控制处理步骤或阶段24、241。第i个逆增益控制处理步骤/阶段提供了经增益校正的信号帧
[0050]
全部i个经增益校正的信号帧连同分配向量v
amb,assign
(k)以及元组集和一起被馈送至通道重分配步骤或阶段25,参见元组集和的上述定义。分配向量v
amb,assign
(k)由i个分量构成,所述i个分量针对每个传输通道而指示其是否包含环境hoa分量的系数序列以及它包含哪个系数序列。在通道重分配步骤/阶段25中,经增益校正的信号帧被重新分配以重构所有主要声音信号(即,所有方向信号和基于向量的信号)的帧以及环境hoa分量的中间表示的帧c
i,amb
(k)。另外,提供了在第k个帧中活跃的环境hoa分量的系数序列的索引的集合以及在第(k
‑
1)个帧中必须被启用、禁用及保持活跃的环境hoa分量的系数索引的数据集和
[0051]
在主要声音合成步骤或阶段26中,利用元组集预测参数的集合ζ(k+1)、元组集以及数据集和根据所有主要声音信号的帧来计算主要声音分量的hoa表示。
[0052]
在环境合成步骤或阶段27中,利用在第k个帧中活跃的环境hoa分量的系数序列的索引的集合根据环境hoa分量的中间表示的帧c
i,amb
(k)来创建环境hoa分量帧由于与主要声音hoa分量的同步而引入一个帧的延迟。
[0053]
最后,在hoa组成步骤或阶段28中,将环境hoa分量帧与主要声音hoa分量的帧进行叠加,以提供已解码的hoa帧
[0054]
此后,空间hoa解码器根据i个信号和边信息来创建重构的hoa表示。
[0055]
在位于编码侧的情况下,环境hoa分量被变换为方向信号,在步骤/阶段27中在解码器侧进行该变换的逆变换。
[0056]
在hoa压缩器内的增益控制处理步骤/阶段15,...,151之前,信号的可能最大增益十分依赖于输入hoa表示的值范围。因此,首先限定输入hoa表示的有意义的值范围,随后在进入增益控制处理步骤/阶段之前对信号的可能最大增益做出结论。
[0057]
输入hoa表示的归一化
[0058]
为了使用本发明的处理,要先执行对(总)输入hoa表示信号的归一化。对于hoa压缩,执行逐帧处理,其中关于在高阶高保真度立体声响复制的章节basics中的公式(54)中指定的时间连续hoa系数序列的向量c(t),将原始输入hoa表示的第k个帧c(k)限定为
[0059][0060]
其中,k表示帧索引,l为(在采样中的)帧长度,o=(n+1)2为hoa系数序列的数量,以及t
s
表示采样周期。
[0061]
如ep 2824661 a1中所提及的,从实际角度来看,hoa表示的有意义的归一化不是通过对个别hoa系数序列的值范围施加约束来实现的,这是因为这些时域函数不是在渲染之后由扬声器实际播放的信号。相反,更方便的是考虑通过将hoa表示渲染为o个虚拟扬声器信号w
j
(t),1≤j≤o而获得的“等效空间域表示”。假设相应的虚拟扬声器位置借助于球坐标系来表示,其中假设每个位置位于单位球体上并且半径为“1”。因此,可以通过阶数相关方向ω
j(n)
=(θ
j(n)
,φ
j(n
)),1≤j≤o等效地表达位置,其中θ
j(n)
和φ
j(n)
分别表示倾斜度和方位角(也参见图6及其关于球坐标系定义的描述)。例如参见j.fliege、u.maier于1999年在多特蒙德大学的专业课范围数学技术报告
″
a two
‑
stage approach for computing cubature formulae for the sphere
″
,这些方向应当尽可能均匀地分布在单位球体上。在以下网址中可以找到用于特定方向的计算的节点数量:http://www.mathematik.uni
‑
dortmund.de/lsx/research/projects/fliege/nodes/nodes.html。这些位置通常取决于“球上的均匀分布”的定义种类,因此是不明确的。
[0062]
通过限定hoa系数序列的值范围来限定虚拟扬声器信号的值范围的优点在于:如常规扬声器信号假定pcm表示的情况那样,虚拟扬声器信号的值范围可以被直观地设置为等于区间[
‑
1,1]。这导致空间上均匀分布的量化误差,使得在与实际聆听相关的域中有利地应用量化。该背景中的一个重要方面是每采样比特数可以被选择成与通常用于常规扬声器信号的比特数(即,16)一样低,与通常需要更高的每采样比特数(例如,24或甚至32)的hoa系数序列的直接量化相比,这提高了效率。
[0063]
为了详细描述空间域中的归一化处理,所有虚拟扬声器信号以向量被概括为w(t):=[w1(t) ... w
o
(t)]
t
,(2)
[0064]
其中,(
·
)
t
表示转置。用ψ表示关于虚拟方向ω
j(n)
,1≤j≤o的模矩阵,ψ被定义为
[0065]
其中,
[0066][0067]
,渲染处理可以用公式表示为矩阵乘积
[0068]
w(t)=(ψ)
‑1·
c(t)。
ꢀꢀꢀꢀꢀꢀ
(5)
[0069]
使用这些定义,对虚拟扬声器信号的合理要求是:
[0070][0071]
这意味着每个虚拟扬声器信号的幅度需要落入范围[
‑
1,1]内。时间t的时刻由所述hoa数据帧的采样值的采样索引l和采样周期t
s
来表示。
[0072]
扬声器信号的总的幂因此满足条件
[0073]
[0074]
hoa数据帧表示的渲染和归一化在图1a的输入c(k)的上游执行。
[0075]
增益控制之前的信号值范围结果
[0076]
假设输入hoa表示的归一化是根据输入hoa表示的归一化小节中的描述执行的,下面考虑被输入至hoa压缩器中的增益控制处理单元的信号y
i
,i=1,...,i的值范围。这些信号是通过向hoa系数序列或主要声音信号x
ps,d
,d=1,...,d和/或环境hoa分量c
amb,n
,n=1,...,o的特定系数序列中的一个或更多个分配可用i个通道来创建的,对这些信号中的一部分实施空间变换。因此,在公式(6)中的归一化假设下,有必要分析所提及的这些不同信号类型的可能值范围。由于所有种类的信号是根据原始hoa系数序列而在中间计算出的,因此检查它们可能的值范围。
[0077]
图1a和图2b中未描绘i个通道中包含仅一个或更多个hoa系数序列的情况,即,在这种情况下,不需要hoa分解、环境分量修改块和相应的合成块。
[0078]
hoa表示的.值范围结果
[0079]
时间连续的hoa表示是通过c(t)=ψw(t),
ꢀꢀꢀꢀ
(8)
[0080]
从虚拟扬声器信号中获得的,公式(8)是公式(5)的逆运算。
[0081]
因此,使用公式(8)和公式(7)来如下限制所有hoa系数序列的总的幂:
[0082][0083]
在球面谐波函数的n3d归一化的假设下,模矩阵的欧几里德范数的平方可以写成:||ψ||
22
=k
·
o,
ꢀꢀꢀꢀꢀꢀꢀ
(10a)
[0084]
其中,
[0085]
表示模矩阵的欧几里德范数的平方与hoa系数序列的数量o之间的比值。该比值取决于特定hoa阶数n和特定虚拟扬声器方向其可以通过向该比值附加相应参数列表来如下表示:
[0086][0087]
图3示出了根据上面提到的fliege等人的文章的虚拟方向关于hoa阶数(n=1,...,29)的k的值。
[0088]
结合所有先前的论证和考虑,提供如下hoa系数序列的幅度的上限:
[0089][0090]
其中,第一个不等式直接从范数定义得出。
[0091]
重要的是注意:公式(6)中的条件意味着公式(11)中的条件,但是相反的情况不成立,即,公式(11)不意味着公式(6)。
[0092]
另一个重要方面是:在虚拟扬声器位置近似均匀分布的假设下,模矩阵ψ的表示关于虚拟扬声器位置的模向量的列向量几乎彼此正交并且每个都具有欧几里德范数n+1。该特性意味着:除了乘法常数之外,空间变换几乎保持欧几里德范数,即,
[0093]
||c(lt
s
)||2≈(n+1)||w(lt
s
)||2。
ꢀꢀꢀꢀ
(12)
[0094]
真实的范数||c(lt
s
)||2与公式(12)中的近似值相差越多,就越违反对模向量的正
交性假设。
[0095]
主要声音信号的值范围结果
[0096]
两种类型的(方向的和基于向量的)主要声音信号的共同点在于:它们对hoa表示的贡献由具有欧几里德范数n+1的单个向量来描述,即,||v1||2=n+1。
ꢀꢀꢀ
(13)
[0097]
在方向信号的情况下,该向量与关于某个信号源方向ω
s,1
的模向量相对应,即,
[0098]
v1=s(ω
s,1
)
ꢀꢀꢀꢀꢀꢀ
(14)
[0099][0100]
该向量借助于hoa表示将方向束描述为信号源方向ω
s,1
。在基于向量的信号的情况下,向量v1不限于关于任何方向的模向量,因此可以描述基于向量的单声道信号的更一般的方向分布。
[0101]
下面考虑d个主要声音信号x
d
(t),d=1,...,d的一般情况,d个主要声音信号可以根据下式被集中在向量x(t)中
[0102]
x(t)=[x1(t) x2(t) ... x
d
(t)]
t
ꢀꢀꢀꢀ
(16)
[0103]
这些信号必须基于以下矩阵来确定:
[0104]
v:=[v
1 v
2 ..v
d
]
ꢀꢀꢀꢀ
(17)
[0105]
该矩阵由表示单声道主要声音信号x
d
(t),d=1,...,d的方向分布的所有向量v
d
,d=1,...,d构成。
[0106]
为了主要声音信号x(t)的有意义的提取,规定以下约束:
[0107]
a)每个主要声音信号是作为原始hoa表示的系数序列的线性组合而获得的,即
[0108]
x(t)=a
·
c(t),
ꢀꢀꢀꢀꢀꢀꢀꢀ
(18)
[0109]
其中,表示混合矩阵。
[0110]
b)混合矩阵a应当被选择成使得其欧几里德范数不超过值“1”,即,
[0111][0112]
并且使得原始hoa表示与主要声音信号的hoa表示之间的残差的欧几里德范数的平方(或幂)不大于原始hoa表示的欧几里德范数的平方(或幂),即
[0113][0114]
通过将公式(18)代入公式(20)中,可以看出公式(20)与以下约束相当:
[0115][0116]
其中,i表示单位矩阵。
[0117]
使用公式(18)、公式(19)和公式(11)根据公式(18)和公式(19)中的约束以及根据欧几里德矩阵与向量范数的兼容性,通过下式来限定主要声音信号的幅度上限:
[0118]
||x(lt
s
)||
∞
≤||x(lt
s
)||2ꢀꢀꢀꢀꢀꢀꢀꢀ
(22)
[0119]
≤||a||2||c(lt
s
)||2(23)
[0120][0121]
因此,确保主要声音信号保持在与原始hoa系数序列相同的范围内(与公式(11)比
较),即,
[0122]
选择混合矩阵的示例
[0123]
如何确定满足约束(20)的混合矩阵的示例是通过计算主要声音信号使得提取之后的残差的欧几里德范数最小来获得的,即,
[0124]
x(t)=argmin
x(t)
||v
·
x(t)
‑
c(t)||2。
ꢀꢀꢀꢀ
(26)
[0125]
公式(26)中的最小化问题的解决方案由下式给出:
[0126]
x(t)=v
+
c(t),
ꢀꢀꢀꢀ
(27)
[0127]
其中,(
·
)
+
表示摩尔
‑
彭罗斯(moore
‑
penrose)广义逆。通过将公式(27)与公式(18)进行比较,由此得出,在这种情况下,混合矩阵等于矩阵v的摩尔
‑
彭罗斯广义逆,即a=v
+
。
[0128]
然而,仍然必须选择矩阵v以满足约束(19),即,
[0129]
在仅方向信号的情况下,其中,矩阵v是关于一些源信号方向ω
s,d
,d=1,...,d的模矩阵,即
[0130]
v=[s(ω
s,1
) s(ω
s,2
) ... s(ω
s,d
)],
ꢀꢀꢀꢀꢀ
(29)
[0131]
可以通过选择源信号方向ω
s,d
,d=1,...,d使得任何两个相邻方向的距离不是太小来满足约束(28)。
[0132]
环境hoa分量的系数序列的值范围结果
[0133]
环境hoa分量是通过从原始hoa表示中减去主要声音信号的hoa表示来计算的,即,c
amb
(t)=c(t)
‑
v
·
x(t)。
ꢀꢀꢀꢀ
(30)
[0134]
如果主要声音信号x(t)的向量是根据标准(20)确定的,则可以得出结论:
[0135]
||c
amb
(lt
s
)||
∞
≤||c
amb
(lt
s
)||2ꢀꢀꢀꢀ
(31)
[0136][0137][0138][0139]
环境hoa分量的空间变换系数序列的值范围
[0140]
ep 2743922 a1和上面提到的mpeg文献n14264中提出的hoa压缩处理的另一方面是:环境hoa分量的第一o
min
系数序列总是被选成被分配给传输通道,其中,o
min
=(n
min
+1)2,n
min
≤n通常是比原始hoa表示的阶数更小的阶数。为了对这些hoa系数序列去相关,可以将它们变换为从一些预定义方向ω
min,d
,d=1,...,o
min
(类似于输入hoa表示的归一化小节中描述的概念)冲击的虚拟扬声器信号。
[0141]
用c
amb,min
(t)来定义阶数索引为n≤n
min
的环境hoa分量的所有系数序列的向量并且用ψ
min
来定义关于虚拟方向ω
min,d
,d=1,...,o
min
的模矩阵,所有虚拟扬声器信号的向量(被定义为)w
min
(t)通过下式获得:
[0142][0143]
因此,使用欧几里德矩阵与向量范数的兼容性,
[0144]
||w
min
(lt
s
)||
∞
≤||w
min
(lt
s
)||2ꢀꢀꢀꢀꢀꢀꢀ
(36)
[0145][0146][0147]
在上面提到的mpeg文献n14264中,根据上面提到的fliege等人的文章来选择虚拟方向ω
min,d
,d=1,...,o
min
。图4示出了模矩阵ψ
min
的逆矩阵针对阶数(n
min
=1,...,9)的相应欧几里德范数。可以看出:对于
[0148][0149]
然而,这通常不适用于的值通常远大于“1”的n
min
>9的情况。然而,至少对于1≤n
min
≤9,虚拟扬声器信号的幅度由下式限制:
[0150][0151]
通过限制输入hoa表示以满足条件(6),其中条件(6)要求根据该hoa表示创建的虚拟扬声器信号的幅度不超过值“1”,可以保证在以下条件下,信号在增益控制之前的幅度将不超过值(参见公式(25)、公式(34)和公式(40)):
[0152]
a)所有主要声音信号x(t)的向量是根据公式/限制(18)、(19)和(20)来计算的;
[0153]
b)如果使用如上述fliege等人的文章中限定的虚拟扬声器位置,则确定对其实施空间变换的环境hoa分量的第一系数序列的数量o
min
的最小阶数n
min
必须小于“9”。
[0154]
可以进一步得出结论:对于高达感兴趣的最大阶数n
max
的任何阶数n,即1≤n≤n
max
,信号在增益控制之前的幅度将不超过值其中,
[0155][0156]
特别地,从图3可以得出结论:如果假设用于初始空间变换的虚拟扬声器方向是根据fliege等人的文章中的分布来选择的,并且如果另外假设感兴趣的最大阶数为n
max
=29(例如参见mpeg文献n14264),则信号增益控制之前的幅度将不超过值1.5o,这是因为在这种特殊情况下即,可以选择
[0157]
k
max
取决于感兴趣的最大阶数n
max
和虚拟扬声器方向其可以由下式来表示:
[0158][0159]
因此,为确保感知编码之前的信号位于区间[
‑
1,1]内而通过增益控制施加的最小增益由给出,其中,
[0160][0161]
在信号在增益控制之前的幅度太小的情况下,在mpeg文献n14264中提出可以用高达的因子来平滑地放大它们,其中,e
max
≥0作为编码hoa表示中的边信息被传输。
[0162]
因此,在访问单元内描述由增益控制处理单元引起的从第一帧一直到当前帧的已
修改信号的总绝对幅度变化的底数为“2”的每个指数,可以假设在区间[e
min
,e
max
]内的任何整数值。因此,编码所需的(最小整数)比特数β
e
由下式给出:
[0163][0164]
在信号在增益控制之前的幅度不太小的情况下,公式(42)可以简化为:
[0165][0166]
可以在增益控制处理步骤/阶段15,...,151的输入处计算该比特数β
e
。
[0167]
针对指数使用该比特数β
e
确保可以捕获由hoa压缩器增益控制处理单元引起的所有可能的绝对幅度变化,从而允许在压缩表示中的一些预定义入口点处开始解压缩。
[0168]
当在hoa解压缩器中开始对压缩hoa表示进行解压缩时,被分配给一些数据帧的边信息并且除了所接收的数据流之外从解复用器21接收到的、表示总绝对幅度变化的非差分增益值被用在逆增益控制步骤或阶段24,...,241中,从而以与在增益控制处理步骤/阶段15,...,151中执行的处理相反的方式实施正确的增益控制。
[0169]
另外的实施方式
[0170]
当实现如在章节hoa压缩、空间hoa编码、hoa解压缩和空间hoa解码中描述的特定hoa压缩/解压缩系统时,用于对指数编码的比特数β
e
必须依赖于缩放因子k
max,des
根据公式(42)来设定,缩放因子k
max,des
自身取决于要压缩的hoa表示的期望的最大阶数n
max,des
和特定的虚拟扬声器方向
[0171]
例如,当假设n
max,des
=29并且根据fliege等人的文章来选择虚拟扬声器方向时,合理的选择是在该情况下,保证对阶数为n(1≤n≤n
max
)的hoa表示进行正确的压缩,该hoa表示是利用相同的虚拟扬声器方向根据章节输入hoa表示的归一化而被归一化的。然而,在以下hoa表示的情况下不能给出这种保证:该hoa表示还(出于效率原因)由pcm格式的虚拟扬声器信号等效地表示,但是其中虚拟扬声器的方向被选择成与在系统设计阶段假定的虚拟扬声器方向不同。
[0172]
由于虚拟扬声器位置的这种不同选择,即使这些虚拟扬声器信号的幅度在区间[
‑
1,1]内,也不能再保证信号在增益控制之前的幅度将不超过值因此,不能保证该hoa表示根据mpeg文献n14264中描述的处理而具有针对压缩的适当的归一化。
[0173]
在这种情况下,具有以下系统是有利的:该系统基于虚拟扬声器位置的知识而提供虚拟扬声器信号的最大允许幅度以确保相应的hoa表示适合于根据在mpeg文献n14264中描述的处理的压缩。在图5中示出了这样的系统。它采用虚拟扬声器位置作为输入,其中,并且提供虚拟扬声器信号的最大允许幅度γ
db
(其以分贝测量)作为输出。在步骤或阶段51中,根据公式(3)来计算关于虚拟扬声器位置的模矩阵ψ。在随后的步骤或阶段52中,计算模矩阵的欧几里德范数||ψ||2。在第三步骤或阶段53中,将幅度γ计算为“1”与下述值中的最小值:该值为虚拟扬声器位置数量的平方根和k
max,des
的平方根的乘积与模矩阵的欧几里德范数的商,
[0174]
即
[0175]
以分贝为单位的值通过下式获得:γ
db
=20l0g
10
(γ)。
ꢀꢀꢀꢀ
(44)
[0176]
为了说明:从上面的推导可以看出,如果hoa系数序列的幅度不超过值即,如果
[0177][0178]
则在增益控制处理单元之前的所有信号将相应地不超过该值,这是对适当的hoa压缩的要求。
[0179]
从公式(9)发现hoa系数序列的幅度由下式限制
[0180]
||c(lt
s
)||
∞
≤||c(lt
s
)||2≤||ψ||2·
||w(lt
s
)||2。
ꢀꢀꢀꢀ
(46)
[0181]
因此,如果γ是根据公式(43)设置的并且pcm格式的虚拟扬声器信号满足
[0182]
||w(lt
s
)||
∞
≤γ,
ꢀꢀꢀꢀ
(47)
[0183]
则从公式(7)得出
[0184]
并且满足要求(45)。
[0185]
即,公式(6)中的最大幅度值“1”由公式(47)中的最大幅度值γ代替。
[0186]
高阶高保真度立体声响复制的基础
[0187]
高阶高保真度立体声响复制(hoa)基于对感兴趣的密集区域内的声场的描述,其被假设为没有声源。在该情况下,在感兴趣的区域内的时间t和位置x处的声压p(t,x)的时空行为在物理上完全由齐次波动方程确定。在下文中,假设如图6所示的球坐标系。在所使用的坐标系中,x轴指向前面,y轴指向左侧,z轴指向顶部。空间中的位置x=(r,θ,φ)
t
由半径r>0(即,到坐标原点的距离)、从极轴z测量的倾斜角θ∈[0,π]以及在x
‑
y平面内从x轴逆时针方向测量的方位角φ∈[0,2π[来表示。此外,(
·
)
t
表示转置。
[0188]
然后,从“傅里叶声学”教科书中可以看出,声压关于时间的傅立叶变换由表示,即,
[0189][0190]
其中,ω表示角频率,i表示虚数单位,根据下式可以将上述声压关于时间的傅里叶变换展开成球面谐波函数的级数
[0191][0192]
其中,c
s
表示声速,k表示角波数,其通过而与角频率ω相关。此外,j
n
(
·
)表示第一类球贝塞尔函数,且表示阶数为n且度数为m的实值球面谐波函数,在章节实值球面谐波函数的定义中对它们做出了定义。展开系数仅取决于角波数k。注意,已经隐含地假设声压在空间上是频带受限的。因此,在称为hoa表示的阶数的上限n处关于阶数索引n截断该级数。
[0193]
如果声场是通过从由角度元组(θ,φ)指定的所有可能方向到达的无限个具有不同角频率ω的谐波平面波进行叠加来表示的,则可以看出(参见b.rafaely,“plane
‑
wave decomposition of the sound field on a sphere by spherical convolution”,j.acoust.soc.am,卷4(116),第2149至2157页,2004年10月),相应的平面波复幅度函数c(ω,θ,φ)可以由以下球面谐波函数展开式来表示
[0194][0195]
其中,展开系数通过下式与展开系数相关:
[0196][0197]
假设各个系数是角频率ω的函数,则逆傅里叶变换(由(
·
)表示)的应用针对每个阶数n和度数m提供以下时域函数
[0198][0199]
这些时域函数在这里称为连续时间hoa系数序列,其可以通过下式被集中在单个向量c(t)中
[0200][0201]
向量c(t)内的hoa系数序列的位置索引由n(n+1)+1+m给出。向量c(t)中的总元素数由o=(n+1)2给出。
[0202]
最终的高保真度立体声响复制格式利用采样频率f
s
提供c(t)的如下采样版本
[0203][0204]
其中,t
s
=1/f
s
表示采样周期。元素c(lt
s
)称为离散时间hoa系数序列,其可以总是实值。该特性也适用于连续时间版本
[0205]
实值球面谐波函数的定义
[0206]
实值球面谐波函数(假设根据以下文献的sn3d归一化:j.daniel,“repr
é
sentation de champs acoustiques,application
ꢀàꢀ
la transmission et
ꢀàꢀ
la reproduction de sc
è
nes sonores complexes dans un contexte multim
é
dia”,博士论文,巴黎大学,2001年6月,3.1章)由下式给出
[0207][0208]
其中,
[0209][0210]
相关联的勒让德函数p
n,m
(x)被定义为
[0211][0212]
其具有勒让德多项式p
n
(x),并且与academic press1999年出版的applied mathematical sciences第93卷e.g.williams的“fourier acoustics”中的不同,其没有condon
‑
shortley相位项(
‑
1)
m
。
[0213]
本发明的处理可以由单个处理器或电子电路,或者由并行工作和/或在本发明的处理的不同部分中工作的若干处理器或电子电路执行。
[0214]
用于操作一个或多个处理器的指令可以被存储在一个或更多个存储器中。