Progressive Neural Networks

Progressive Neural Networks

学习解决复杂的任务序列——同时利用转移和避免灾难性遗忘——仍然是实现人类智能的关键障碍。渐进式网络方法在这个方向上向前迈进了一步:它们不容易遗忘，且可以通过与之前学习过的特征之间的横向连接利用先验知识。我们在各种强化学习任务(雅达利和3D 迷宫)上对该架构进行了广泛的评估，并证明它优于基于预处理和微调的通用基准。利用一种新的灵敏度测量方法，我们证明了迁移发生在学习策略的低水平感觉层和高水平控制层。

方法

Progressive Neural Networks

渐进网络以单列开始：一个 $L$ 层的深度神经网络且带有隐藏激活层 $h_{i}^{(1)} \in \mathbb{R}^{n_{i}}$ （ $i \leq L$ ），并且参数 $\Theta(1)$ 已经收敛。当切换到第二个任务时，参数 $\Theta(1)$ 被“冻结”，并且参数 $\Theta(2)$ 的新列被实例化（随机初始化），其中隐层 $h_{i}^{(2)}$ 通过横向连接从 $h_{i-1}^{(2)}$ 和 $h_{i-1}^{(1)}$ 接收输入，推广到第K个任务：

h_{i}^{(k)}=f\left(W_{i}^{(k)} h_{i-1}^{(k)}+\sum_{j<k} U_{i}^{(k : j)} h_{i-1}^{(j)}\right)

下图是K=3时的网络结构

这些建模方法是由我们的目的决定的: ( 1 )在训练结束时解决独立的任务；( 2 )尽可能通过迁移加速学习；( 3 )避免灾难性遗忘。

Adapters

在实践中，我们使用非线性横向连接（我们称之为Adapter）来增强前面的渐进网络层，它们既可以改善初始条件，也可以降低维度。

h_{i}^{(k)}=\sigma\left(W_{i}^{(k)} h_{i-1}^{(k)}+U_{i}^{(k : j)} \sigma\left(V_{i}^{(k : j)} \alpha_{i-1}^{(<k)} h_{i-1}^{(<k)}\right)\right)

其中 $h_{i-1}^{(<k)}=\left[h_{i-1}^{(1)} \cdots h_{i-1}^{(j)} \cdots h_{i-1}^{(k-1)}\right]$ ， $\alpha_{i-1}^{(<k)}$ 是可学习的权重系数， $V_{i}^{(k : j)} \in \mathbb{R}^{n_{i-1} \times n_{i-1}^{(<k)}}$ 是投影函数，在卷积神经网络中，用 $1*1$ 的卷积实现降维。

分析方法

Average Perturbation Sensitivity (APS)

为了评估每个列对目标任务的贡献程度，我们可以在架构中的孤立点注入高斯噪声(例如单个列的单层)，并测量这种扰动对性能的影响。性能的显著下降表明最终预测严重依赖于该层。我们发现这种方法产生的结果与下面提出的基于Fisher的快速方法相似。

Average Fisher Sensitivity (AFS)

我们可以利用Fisher信息矩阵得到扰动敏感度的局部近似值。虽然Fisher矩阵通常是相对于模型参数计算的，我们对策略网络 $\pi$ 的每一层的标准化激活值 $\hat{h}_{i}^{(k)}$ 计算修改的对角Fisher $\hat{F}$ ， $\hat{F}$ 可以解释为策略对表示中微小变化的敏感性。我们定义第i层（m个特征）的对角矩阵 $\hat{F}$ 如下