Progressive Neural Networks
Last updated
Last updated
学习解决复杂的任务序列——同时利用转移和避免灾难性遗忘——仍然是实现人类智能的关键障碍。渐进式网络方法在这个方向上向前迈进了一步:它们不容易遗忘,且可以通过与之前学习过的特征之间的横向连接利用先验知识。我们在各种强化学习任务(雅达利和3D 迷宫)上对该架构进行了广泛的评估,并证明它优于基于预处理和微调的通用基准。利用一种新的灵敏度测量方法,我们证明了迁移发生在学习策略的低水平感觉层和高水平控制层。
渐进网络以单列开始:一个 层的深度神经网络且带有隐藏激活层 ( ),并且参数 已经收敛。当切换到第二个任务时,参数被“冻结”,并且参数的新列被实例化(随机初始化),其中隐层 通过横向连接从 和接收输入,推广到第K个任务:
下图是K=3时的网络结构
这些建模方法是由我们的目的决定的: ( 1 )在训练结束时解决独立的任务;( 2 )尽可能通过迁移加速学习;( 3 )避免灾难性遗忘。
在实践中,我们使用非线性横向连接(我们称之为Adapter)来增强前面的渐进网络层,它们既可以改善初始条件,也可以降低维度。
为了评估每个列对目标任务的贡献程度,我们可以在架构中的孤立点注入高斯噪声(例如单个列的单层),并测量这种扰动对性能的影响。性能的显著下降表明最终预测严重依赖于该层。我们发现这种方法产生的结果与下面提出的基于Fisher的快速方法相似。
这里使用了雅达利游戏中的乒乓游戏的变体进行测试,包括:噪声(固定高斯噪声被加到输入端);黑色(黑色背景);白色(白色背景);缩放(输入缩放75 %);V型翻转、H型翻转和VH型翻转(输入水平和/或垂直翻转)
Baseline2 (单列,只微调输出层 )在大多数实验中无法学习目标任务,因此具有负迁移。这种方法在有监督的学习环境中非常标准,在这种环境中,ImageNet训练的网络的功能通常会重新用于新的领域。
正如预期的那样,我们观察到Baseline3 (单列,完全微调)的好的正迁移,这是一个公认的迁移范例。然而,Progress Networks在中值和平均得分方面都优于这一Baseline,后面的差异更为明显。
下图是扰动分析的结果
其中 , 是可学习的权重系数, 是投影函数,在卷积神经网络中,用 的卷积实现降维。
我们可以利用Fisher信息矩阵得到扰动敏感度的局部近似值。虽然Fisher矩阵通常是相对于模型参数计算的,我们对策略网络 的每一层的标准化激活值 计算修改的对角Fisher , 可以解释为策略对表示中微小变化的敏感性。我们定义第i层(m个特征)的对角矩阵 如下