Pixel Recurrent Neural Networks

Pixel Recurrent Neural Networks

对自然图像的分布进行建模是无监督学习中的一个里程碑问题。这项任务需要一个具有表现力,易处理性和可扩展性的图像模型。存在一个深度神经网络,它沿着两个空间维度依次预测图像中的像素。 我们的方法模拟原始像素值的离散概率,并对图像中的完整依赖关系进行编码。 架构新颖性包括快速二维循环层和深度循环网络中残余连接的有效使用。 我们在自然图像上实现了对数似然得分,这比以前的技术水平要好得多。 我们的主要结果还提供了各种ImageNet dataset的基准测试。 从模型生成的样本清晰,多样且全局一致

方法

Model

我们的目标是估计自然图像的分布,这可以用来合理地计算图像的可能性并生成新的图像。 网络一次扫描一行图像,每行一次扫描一个像素。 对于每个像素,它预测给定扫描上下文的可能像素值的条件分布。图2说明了该过程。 对图像像素的联合分布被分解为条件分布的乘积。 预测中使用的参数与图像中的所有像素共享。

为了捕捉生成过程,Theis&Bethge(2015)建议使用二维LSTM网络,该网络从左上角像素开始,向右下方像素。 LSTM网络的优势在于它有效地处理了对象和场景理解的核心的远程依赖性。 二维结构确保信号在从左到右和从上到下的方向上很好地传播。

Generating an Image Pixel by Pixel

因此,每种颜色都取决于其他通道以及所有先前生成的像素。注意,在训练和评估期间,分布器并行地计算像素值,而图像的生成是顺序的。

Pixels as Discrete Variables

Pixel Recurrent Neural Networks

在本节中,我们将描述组成PixelRNN的架构组件

Row LSTM

LSTM的计算方法如下:

Diagonal BiLSTM

Diagonal BiLSTM旨在实现计算的并行化并捕获整个可用的上下文图像大小。层的两个方向中的每一个以对角线方式对图像进行扫描,从顶部的角度开始并到达底部的对角。 计算中的每个步骤一次计算沿图像中对角线的LSTM状态。 图4(右)说明了计算和得到的感受野。

Residual Connections

为了处理深层网络,我们还考虑加入残差连接

Masked Convolution

我们使用两种类型的掩码:掩码A和掩码B,如图2(右)所示。掩码A仅应用于像素中的第一卷积层,并限制与那些相邻像素和当前像素中已经预测的那些颜色的连接。另一方面,掩码B应用于所有后续的输入到状态卷积转换,并通过允许从一种颜色到其自身的连接来放松掩码A的限制。

PixelCNN

行和对角线LSTM层在其感知域内具有可能未受限制的依赖性范围。这带来了计算成本,因为每个状态需要按顺序计算。 一个简单的解决方法是使感受野变大,但不是无界限。 我们可以使用标准卷积层来捕获有界接收场并计算所有像素位置的特征一次。PixelCNN使用多个卷积层来保持空间分辨率; 不使用池化层。 卷积中采用掩模以避免看到未来的环境。请注意,与PixelRNN相比,PixelCNN的并行化优势仅在训练期间或测试图像评估期间可用。对于这两种网络,图像生成过程是连续的,因为每个采样像素都需要作为输入到网络中。

Multi-Scale PixelRNN

实验

网络设置

我们所有的模型都是根据来自离散分布的对数似然损失函数进行训练和评估的。

评价指标为归一化的负的对数似然损失。

Last updated