数字延时网络混响算法研究（FDN）

原创

已于 2022-03-12 15:50:48 修改 · 3.2k 阅读

标签

#音视频

于 2022-03-12 15:48:46 首次发布

本文介绍了一种通用方法，通过多反馈延迟网络设计人工混响器，实现频率相关的混响时间控制。文章探讨了并联梳状滤波器的极点控制、衰减特性和时间密度提升，以及如何通过一阶滤波器和吸收滤波器实现混响效果的自然度。关键概念包括混响时间控制、频率密度与时间密度的区别，以及参考滤波器和吸收滤波器的选择策略。

混响在音乐制作，环境声学仿真等场景可以带来更真实的声音体验，其实现方式主要有物理模拟、采样混响、人工混响三种实现方式。物理模拟由于其计算量较大，实际落地场景不算太多，采样混响的实现简单，但不够灵活，种类受限，人工混响作为发展最早的一种，由于其计算量小，实现简单，在实际应用中非常广泛，缺点就是效果上不够逼真，但可以足以支撑普通的调音、混音需求。

人工混响中比较流行的有两种，一种是基于Schrocder和Moorer算法的实现，另一种就是FDN，本文是FDN早期的论文翻译，希望能对读者带来一定的帮助。

原文链接：Digital Delay Network For Designing Artificial Reverberators.(Jean-Mara JOT)

摘要

在人工混响器的设计时，一个关键点是如何避免短时瞬态响应产生的共振，一般来说通过确保每一个窄频带中的所有谐振具有相同的衰减时间来解决该问题。这种情况似乎等同于为每个延迟提供频率相关的衰减，类似于空气中的吸收，而与混响器结构无关。此外，还描述了与系统串联的音调校正器的设计，允许单独控制衰减特性和频率响应，因此产生了用于设计模拟后期单声道混响的多反馈“混响滤波器”的通用方法，结论中简要提到了早期响应和双耳方面的一次性改进。

0. 简介

人工混响器用于录音棚和电影制作时添加混响效果，或用户修正听音室的效果。早期的模拟设备——使用弹簧或板——在过去十年中已被数字单元所取代，这些单元实时计算以处理输入信号（转换为数字形式）。自 60 年代初 Schroeder 的开创性工作以来，文献中已经提出了多种基于递归数字延迟网络的算法[1]-[5]，即使有大量的延迟模块或随时间变化的延迟长度（如 [3] 中所建议的），通常也很难消除不自然的共振，这会导致通常被称为“金属”的特征声音。在 Schroeder 的并行梳状滤波器混响器 ([1], [2]) 的框架内，提出了一种控制衰减特性的技术，重点是系统响应的模态分解。然后，研究了多反馈系统的一般特性，允许将该技术扩展到任何递归延迟网络，这为增加混响器响应中回声密度的问题提供了低成本的解决方案。

1. 混响滤波器

实时人工混响器

从声源到听者之间存在多条声学路径，导致形成了混响过程的密集回声模式。准确的模拟意味着要考虑许多物理因素：墙壁和障碍物的几何和声学特性、源和接收器的位置和方向性模式……计算要求仍然超出了当今硬件实时实现的范围。假设所有物理现象都是线性的，混响过程完全由双耳脉冲响应来描述。为了模拟普通房间，输入信号与测量或计算的脉冲响应的实时卷积也需要非常大的处理能力。然而，尽管对于某些应用（回声消除）来说非常精确的模拟是必要的，但为了达到令人信服的人工混响效果，这种精度并不是必需的。在这里，我们的目的是实现在感知上与真实混响没有区别的实时人工混响。

混响滤波器的感知要求

已经进行了许多心理声学研究，以提出描述听音室声学质量的标准，首先是 Sabine 混响时间的定义。自 Barron [6] 的工作以来，在混响过程中区分两个声相已成为普遍用法：第一次反射（大约是脉冲响应的前 80 毫秒）和后期混响（衰减的剩余部分）。早期响应由离散回波组成，其时间和幅度分布在很大程度上取决于房间的形状以及源和接收器的位置。这些回声在主观空间印象中起着关键作用。相比之下，后期混响本身更适合于统计描述，并且可以被视为外壳本身的特征，与源和接收器的位置无关。这些观察证明了设计程序的合理性，首先，设计一个“混响过滤器”应该模拟晚期单声道混响。然后，考虑了双耳方面，并研究了提高早期响应真实性的解决方案，这在早期的工作中 ([2], [3])，涉及房间中声音传播的物理建模。最近的工作提出了数量可控的房间声学质量的独立心理声学标准 [7]、[8]。单就后期单声道混响而言，表示6个独立的命令参数应该足以控制混响滤波器：混响电平和混响时间必须与频率相关并分别控制，在三个频段中。

梳状滤波器和全通滤波器的感知比较

梳状滤波器和全通滤波器 ([1], [2]) 是单延迟 IIR 滤波器，仅在全通滤波器的情况下增加了直接路径（图 1）。 Schrocder [1] 注意到，这种简单的修改足以使全通滤波器具有平坦的频率响应（对于时间响应中初始脉冲的特定幅度）。在固定输入的情况下信号，全通滤波器消除了梳状滤波器引起的强烈着色。然而，全通滤波器对短暂瞬态的响应仍然揭示了两个主要缺点： a) 时间响应中的“回声密度”不够高（导致“颤动”的声音）。 b) 梳状滤波器的音色仍然存在。通过聆听脉冲响应本身进行比较，可以清楚地观察到这一点。效果很大程度上取决于反馈增益 g 的大小。需要注意的是，当g的幅度接近1（稳定极限）时，全通滤波器的脉冲响应降低到初始脉冲（幅度-g，而第二个脉冲幅度为1-g2，（图） . lb) ) 在这种情况下，aU 通滤波器对输入信号根本没有影响！对于较小的 g 幅度，在全通滤波器的脉冲响应结束时可以听到梳状滤波器的音色，而对于 [g [= 1/(_-, 很难听到这两者之间的差异通过只听他们的脉冲响应来过滤。这个结果并不奇怪，因为除了第一个脉冲之外，两个时间响应是相同的，如图 1 所示。这些观察说明了输入信号对听力测试的影响，并表明聆听脉冲响应本身为评估混响器的质量提供了有用的信息。可比较的测试包括沿脉冲响应运行短时傅立叶变换（声波图），如 [5] 中所建议的。

Schroeder并联梳状滤波器结构

为了在避免着色的同时提高“回波密度”（脉冲响应中每秒的回波数），Schrocder 提出了上述单元滤波器的两种基本组合：全通滤波器的串联组合和梳状滤波器的并联组合。

串联全通滤波器（图 2）产生一个新的全通滤波器（具有平坦的频率响应）。它还沿脉冲响应产生回声密度的累积，其方式类似于真实房间中发生的情况。不幸的是，正如 Moorer [2] 所报告的那样，在对短暂瞬变的响应中仍然存在不自然的着色。使用并行梳状滤波器（图 3），无法实现平坦的频率响应。然而，如果频率响应表现出足够多的每赫兹峰值，由于所有梳状滤波器的共振增加，它变得更接近真实房间的频率响应。更有趣的是，如果所有单元梳状滤波器的混响时间相等，即使响应脉冲声音，单个梳状滤波器的音色也会消失。这将在下面通过分解系统响应在其各个本征模式上进行研究。

2. 并联梳状滤波器：衰减特性的控制

并联梳状滤波器的极点研究

图1a所示梳状滤波器的传递函数可以写成：

$C\left ( z \right ) = \frac{g}{z^{m} - g} = \frac{1}{m}\cdot \sum_{k=0}^{m-1}\frac{z^{k}}{z-z^{k}}$ (1)

极点 $z^{k}(0\leqslant k\leqslant m-1)$ 由 $z^{k} = \gamma \cdot e^{j\omega _{k}}$ 定义。其中 $\gamma = g^{\frac{1}{m}}$ , $\omega _{k}=2k\pi /m$ 。通过逆 z 变换，这会产生脉冲响应：

$C(nT) = \frac{1}{m}\cdot \sum_{k=0}^{m-1}z_{k^{n}}$ 当 $n\geqslant 0$ （2）

通过将共轭极点对分组，该响应可以表示为指数衰减正弦Yd（sifg < 1）的总和，形成一个谐波模式fresonan ftrequencie 如图4a所示，本征模式的衰减时间 - 由相关极点的大小决定 - 都是相等的（或者它们的激发是相等的）。当 P 个这样的梳状滤波器并联时，系统传递函数变为：

$C(z) = \sum_{p=0}^{P-1}\frac{g_{p}}{z^{m_{p}}-g_{p}}=\sum_{p=0}^{P-1}\sum_{k_{p}=0}^{m_{p}-1}\left [ \frac{1}{m_{p}}\cdot \frac{z_{k^{p}}}{z-z_{k^{p}}} \right ]$ (3)

响应来自所有梳状滤波器的本征模式之和。如果延迟不相称，则所有谐振频率都是不同的（除了 $\omega =0$ 或 $\omega =\pi$ ，并且谐振总数等于以样本表示的延迟长度总和的一半。

避免不自然的共振：两极的大小相等

如果某些共振的衰减比其他共振慢，它们将在脉冲响应结束时突出，在本例中显示特定梳状滤波器的音色。为了避免任何此类干扰，我们必须确保所有模式具有相同的衰减时间，即所有系统极点的幅度相同。对于并行梳状滤波器，这会产生以下条件：

$\gamma =g_{p}^{^{\frac{1}{m_{p}}}}$ p为任意值（4）

这是所有梳状滤波器的反馈增益之间的关系，取决于延迟长度的选择。如果满足这个条件，就会得到一个类似于图 5 所示的脑电图。响应的典型模态分解如图 4b 所示。

频率密度

条件（4）保证脉冲响应的音色沿衰减保持不变。然而，由于等式（3）中的归一化系数 $\frac{1}{m_{p}}$ ，具有较长延迟的梳状滤波器会产生具有较弱权重的特征模。因此，对于相同的“模态密度”（每赫兹的平均共振数），如果延迟长度保持在一个接近的范围内，则感知度会更低（这可以解释为什么 Schroeder 提出大约 1:1.5 [1]）。这建议引入（理论）“模态密度”和（感知的）“频率密度”之间的区别（后者总是低于模态密度）。至少有两种检测频率密度不足的方法： -对脉冲输入信号的响应将产生特定模式的“振铃”或成对模式的跳动。

对准静态输入的响应会为某些特定频率产生过高的电平（如长笛或人声的某些音符）。尽管如此，等式（3）表明，如果梳状滤波器的输出在求和之前被加权（与它们各自的延迟长度成正比），频率密度将保持等于模态密度（即延迟之和长度以秒表示），因为所有模式将始终具有相同的激励（图 6）。

时间密度

在类似于图 5 的时间响应的情况下，术语“回波密度”具有明显的含义，因为回波的幅度完全遵循指数递减的包络线。然而，在真实房间中情况并非如此，连续的回声可能具有非常不同的幅度，并且很快彼此重叠得如此紧密，以至于无法从响应中提取出明显的回声。这建议使用术语“时间密度”来指代感知的感觉，如上文在频域中一样。在图 5 的情况下，“时间密度”将被认为等于回波密度（即延迟长度的倒数之和）。

对于具有 P 延迟的并行梳状滤波器，其长度 Xpare 分布在平均 _ 秒左右的近距离范围内，我们可以近似写为：

频率密度： $D_{f}=\sum_{p=0}^{P-1}\tau _{p}\approx P.\tau$ (5)