数学和信号处理中的的卷积
卷积(Convolution),又名旋积或褶积,是一种作用于两个函数(或信号)并生成第三个函数的数学运算。根据应用领域的不同,卷积的定义和计算方式主要分为连续和离散两种形式,且在人工智能领域有其特殊的工程约定。
1. 数学与信号处理中的严格定义
在数学和信号处理中,卷积的本质是一种特殊的积分变换,描述了一个函数的“形状”如何被另一个函数修改。
- 连续卷积(卷积积分): 对于两个连续函数 $f(x)$ 和 $g(x)$,它们的卷积定义为积分: $(f * g)(t) = \int_{-\infty}^{\infty} f(\tau)g(t - \tau) d\tau$ 其计算过程包含三个核心步骤:首先将其中一个函数翻转(即 $g(\tau)$ 变为 $g(-\tau)$),然后将其平移 $t$ 个单位,最后计算两函数重叠部分乘积的积分。
- 离散卷积(卷积和): 对于离散序列 $f[n]$ 和 $g[n]$,卷积定义为求和: $(f * g)[n] = \sum_{m=-\infty}^{\infty} f[m]g[n - m]$ 同样,离散卷积也要求对其中一个序列进行翻转、平移、相乘并求和。
2. 深度学习与人工智能中的约定定义
在神经网络和深度学习(如卷积神经网络 CNN)中,卷积严格意义上指的是互相关(cross-correlation),而不是数学上的卷积。
- 省略翻转步骤:在深度学习中的卷积操作,卷积核(过滤器)不需要进行翻转,而是直接在输入数据上滑动。
- 滑动加权求和:其本质是“在输入上滑动加权求和”或“滑动点积”。即用一个小的模板(卷积核)在大的输入(如图像)上滑动,在每个位置计算模板和输入对应点相乘再求和,从而提取局部特征。
- 无需翻转的原因:因为卷积核的权重是在训练阶段自动学习得到的。如果数学上正确的函数是翻转后的形式,那么网络经过训练后,学习到的权重自然就会呈现出翻转后的样子,因此在训练前没有必要人为地进行翻转操作。
3. 物理意义与直观理解
- 物理意义:在激励条件下,线性电路在某一时刻的零状态响应,等于从激励开始作用到当前时刻区间内,无穷多个强度不同的冲激响应的总和。
- 直观理解:可以将卷积想象成制作一杯混合饮料(如奶昔)的过程。草莓、香蕉和牛奶等成分是输入函数,搅拌机的搅拌过程就是“卷积”操作,最终混合产生的新饮料就是卷积生成的新函数。
概率论中的卷积
在概率论中,卷积公式是用于计算两个相互独立的连续型随机变量之和的概率密度函数的核心工具。
1. 核心定义与公式
如果 $X$ 和 $Y$ 是两个相互独立的连续型随机变量,其概率密度函数分别为 $f_X(x)$ 和 $f_Y(y)$,那么它们的和 $Z = X + Y$ 的概率密度函数 $f_Z(z)$ 可以通过卷积公式求得: $$f_Z(z) = \int_{-\infty}^{\infty} f_X(x)f_Y(z-x)dx$$ 这个公式在数学形式上,正是概率密度函数 $f_X(x)$ 与 $f_Y(y)$ 的卷积。
2. 直观理解与物理意义
- 事件分解与积分求和:为了得到 $Z=z$,需要考虑所有可能的 $X$ 和 $Y$ 的取值组合(即满足 $x+y=z$)。对于每一个特定的 $x$,$Y$ 必须取值为 $z-x$。由于两者独立,该组合发生的概率为 $f_X(x)f_Y(z-x)$。因为 $X$ 是连续变量,将所有这些无穷多个小事件的概率相加,就转化为了积分操作。
- 物理意义:在概率论中,卷积的物理意义就是将两个随机变量的概率密度函数进行“混合”,从而得到它们叠加(相加)后的新过程的概率密度函数。
3. 使用卷积公式的关键注意事项
在实际应用卷积公式时,最容易出错的地方在于积分限的确定:
- 定义域与积分限:积分的上下限并非总是 $(-\infty, +\infty)$,必须根据函数(或概率密度)的非零区间来确定。在实际计算中,需要找到 $f_X(x)$ 和 $f_Y(z-x)$ 同时不为零的重叠区间,据此调整积分上下限,否则会导致计算错误。
- 独立性前提:上述推导和公式成立的核心前提是两个随机变量 $X$ 和 $Y$ 必须是相互独立的。如果它们不独立,则不能直接使用上述公式,而需要考虑它们的联合概率分布。
4. 经典应用示例
假设 $X$ 和 $Y$ 都是均匀分布在区间 $[0,1]$ 上的随机变量,求它们和 $Z=X+Y$ 的概率密度函数。
- 根据题意,$f_X(x) = 1$ 且 $f_Y(y) = 1$ (当 $0 \le x,y \le 1$ 时)。
- 代入卷积公式,考虑到非零区间,积分限变为从 $0$ 到 $z$: $$f_Z(z) = \int_{0}^{z} 1 \cdot 1 dx = z \quad (0 \le z \le 2)$$
- 因此,$Z=X+Y$ 的概率密度函数为 $f_Z(z) = z$ (在 $0 \le z \le 2$ 区间内),在其他区间为 $0$。
两个独立正态变量之和仍服从正态分布,这个结论在概率论中非常常用。

9082

被折叠的 条评论
为什么被折叠?



