Multi-Task Learning as Multi-Objective Optimization 阅读笔记

原创已于 2023-10-16 12:27:12 修改 · 1.3w 阅读

35 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#笔记 #机器学习 #人工智能

于 2019-01-10 20:57:31 首次发布

探讨了多任务学习在面对多个竞争性目标时的挑战，将其视为多目标优化问题，寻找帕累托最优解。介绍了针对Encoder-Decoder结构的优化算法，并讨论了Frank-Wolfe算法在解决此类问题中的应用。

Multi-Task Learning as Multi-Objective Optimization 阅读笔记

Multi-Task Learning（MTL）
Multi-Objective Optimization（MOO）
Multiple Gradient Descent Algorithm
优化算法
针对Encoder-Decoder情况的进一步优化
思考
一些论文中遇到的名词

通常multi-task learning的优化目标是多个任务的线性组合，但这只在这多个任务是不竞争的情况下是有效的。为了解决这个问题，文章将multi-task learning当做multi-objective optimization来处理，以寻找帕累托最优解（Pareto optimal solution）。作者使用gradient-based multi-objective optimization来优化multi-objective optimization问题。另外考虑到在参数量大和任务个数多的情况下直接优化复杂度很高，于是作者提出优化一个上界，并证明在现实情况中，优化这个上界可以得到帕累托最优解。

Multi-Task Learning（MTL）

假设有一组任务 ${\mathcal Y^t }_{t\in[T]}$ ，以及独立同分布的数据 $\{x_i,y_i^1,\ldots,y_i^T\}_{i\in[N]}$ ，其中 $y_i^t$ 是第 $i$ 个数据点的第 $t$ 个任务的标签。考虑预测函数 $f^t(x;\theta^{sh},\theta^t):\mathcal X \to \mathcal Y^t$ ，其中 $\theta^{sh}$ 是不同任务共享的参数， $\theta^{t}$ 是任务 $t$ 独立的参数。定义任务 $t$ 的损失函数 $\mathcal L^t(\cdot, \cdot):\mathcal Y^t \times \mathcal Y^t\to \mathbb R^+$ 。
大多数MTL任务优化下面的经验损失，也就是多个任务的线性组合：
$\min_{\theta^{sh}, \theta^i,i=1,\ldots,T} \sum_{t=1}^T c^t \hat{\mathcal L^t}(\theta^{sh}, \theta^{t})\tag{1}$ $c^t$ 是任务的系数， $\hat{\mathcal L^t(\theta^{sh}, \theta^{t})}$ 是经验损失，定义为对样本求平均 $\frac{1}{N}\sum_i\mathcal L(f^t(x_i;\theta^{sh},\theta^t),y_i^t)$ 。

Multi-Objective Optimization（MOO）

MTL可以表示成MOO，也就是优化一组相互竞争的目标。MOO的目标函数是
$\min_{\theta^{sh}, \theta^i,i=1,\ldots,T}L(\theta^{sh},\theta^1,\ldots,\theta^T)=\min_{\theta^{sh}, \theta^i,i=1,\ldots,T} (\hat{\mathcal L^t}(\theta^{sh}, \theta^{1}),\ldots,\hat{\mathcal L^t}(\theta^{sh}, \theta^{T}))^\top$ 注意MOO和上面公式(1)不同，MOO的目标不是scalar，而是vector。MOO的目标是求帕累托最优解。MTL的帕累托最优定义如下：
在这里插入图片描述

Multiple Gradient Descent Algorithm

对于上面的问题，帕累托最优解存在的必要条件是：
在这里插入图片描述
满足上面条件的点称为Pareto stationary point。
考虑下面的问题

可以证明上面问题的解如果使得函数值为零，则 $\sum_{t=1}^T\alpha^t \nabla_{\theta^{sh}}\hat{\mathcal L^t}(\theta^{sh}, \theta^{t})$ 是Pareto stationary point，否则 $\sum_{t=1}^T\alpha^t \nabla_{\theta^{sh}}\hat{\mathcal L^t}(\theta^{sh}, \theta^{t})$ 就是提升所有任务的下降方向。
类似单目标优化（Single-Objective Optimization）的梯度下降法，MOO可以用Multiple Gradient Descent Algorithm(MGDA)求解。

优化算法

针对MTL任务的MOO形式的优化算法如下图algorithm2所示。先在任务独立的参数 $\theta^{t}$ 上做梯度下降，再用问题(3)的解在共享的参数 $\theta^{sh}$ 上做梯度下降，对应1-5行。
在这里插入图片描述

现在的问题主要在公式(3)的求解上。公式(3)是带约束的优化问题，等同于在输入点构成的凸包（convex hull）上找一个最小范数的点。这个问题被广泛的研究过，他们假设输入点很多，点的维度很低。但在MTL的问题中，输入点是任务数，往往很少，点的维度是共享的参数数，数量很大。因此，作者提出了新的优化方法，利用Frank-Wolfe algorithm。

Frank-Wolfe algorithm是针对带约束的凸优化问题的一种一阶优化算法。类似梯度下降算法是一个迭代优化的算法。简单来说，在每次迭代中，先求寻找优化的方向，再寻找优化的步长。Wiki上Frank-Wolfe algorithm的算法流程如下：

在这里插入图片描述
公式(3)的优化目标可以写作 $\mathbf \alpha^\top \mathbf M \mathbf \alpha$ ， $\mathbf M$ 是对称矩阵。
根据向量的求导公式 https://en.wikipedia.org/wiki/Matrix_calculus
$\frac{\partial \mathbf \alpha^\top \mathbf M \mathbf \alpha}{\partial \mathbf \alpha} = 2\mathbf \alpha^\top \mathbf M$
可以看到Algorithm2的第10行在寻找梯度最大的坐标轴方向。第11行在寻找优化的步长。

其中在每次迭代中寻找优化的步长的优化算法如下图algorithm1所示。
在这里插入图片描述
Figure1是对Algorithm1的可视化解释。寻找 $\theta$ 和 $\overline \theta$ 组成的凸包中模最小的点。

针对Encoder-Decoder情况的进一步优化

注意到algorithm2需要对每个任务计算 $\nabla_{\theta^{sh}} \hat{\mathcal L}(\theta^{sh},\theta^t)$ ，也就需要对共享参数做T次反向传播。这导致一个前向传播后需要T次反向传播。作者提出算法优化上界，使得一次前向传播只需要一次反向传播。
这需要对模型的结构做一定的假设。假设模型有下面的结构：
在这里插入图片描述
也就是先经过共享参数的函数 $g$ ，再通过各个任务相关的函数 $f^t$ 。定义 $Z=(z_1,\ldots,z_N)$ ，其中 $z_i=g(x_i;\theta^{sh})$ 。使用链式法则可以得到

使用上界替换，并去掉常数项 $\|\frac{\partial \mathbf Z}{\partial \mathbf \theta^{sh}}\|$ ，公式(3)变为MGDA-UB (Multiple Gradient Descent Algorithm – Upper Bound)
在这里插入图片描述
MGDA-UB的基本形式和公式(3)是一样的，所以依然可以用algorithm2求解，只需要将对共享参数的导数，改为对中间表示 $\mathbf z$ 的导数。MGDA需要对每个任务计算 $\nabla_{\theta^{sh}} \hat{\mathcal L}(\theta^{sh},\theta^t)$ ，而MGDA-UB只需要计算 $\nabla_{\mathbf z} \hat{\mathcal L}(\theta^{sh},\theta^t)$ ，这部分虽然也要计算T次，但是本来在优化 $\theta^{t}$ 的过程中就要对每个任务分别计算，MGDA-UB使得对每个任务分别计算梯度到中间层就结束了。虽然algorithm2的第5行依然需要对共享参数的求导，但这可以通过先把各个任务的损失加权求和，再进行一次反传求导。

虽然MGDA-UB是原问题的近似，但作者证明，在温和的假设下，可以得到帕累托最优解：
在这里插入图片描述

思考

虽然作者将multi-task learning当做multi-objective optimization来处理，没有显示定义各个任务的权重 $c^t$ ，但在求解multi-objective optimization的过程中，实际上还是对每个任务有一个权重 $\alpha^t$ ，并在训练迭代的过程中动态调整了每个任务的权重。