当前位置: 去除器 >> 去除器发展 >> CVPR2018无需额外硬件,全卷积网络
极低照明度下,传统增加亮度的方法会放大噪点和色彩失真。而最近UIUC和英特尔的研究者通过全卷积网络处理这一类黑黑的照明度图像,并在抑噪和保真的条件下将它们恢复到正常亮度。这种端到端的方法将为机器赋予强大的夜视能力,且还不需要额外的硬件。
噪声或噪点在成像系统中普遍存在,它会使弱光环境下的成像十分困难。提高ISO值可以增加亮度,但同时也会放大噪点。我们虽然可以用缩放或直方图拉伸等后期处理方式来降低前述影响,但这并不能解决光子数低导致的低信噪比(SNR)问题。有一些物理手段可以提高弱光环境的信噪比,比如增大光圈、延长曝光时间和使用闪光灯等,但是每一种方法都有其缺点。例如,增加曝光时间在不采用三脚架的条件下会导致(成像)模糊。
弱光环境快速成像在计算摄影界是众所周知的难,但相关研究仍在进行。研究人员已经提出了图像去噪、去模糊和增强低照度图像的技术[34,16,42]。这些技术通常假定图像是在略微昏暗的环境中捕捉,并且噪声不大。相比之下,我们对光照严重受限(如月光)和短时间曝光(甚至是视频速率)等极低照度环境成像更感兴趣。在这些场景中,传统的相机处理流程完全没用,图像必须通过原始传感器数据进行重建。
图1说明了我们的环境配置。环境非常暗:相机处照度低于0.1勒克斯。曝光时间设定为1/30秒。光圈为f/5.6。在ISO为(一般情况下被认为是一个较高的值)时,尽管使用具有高感光度的全画幅索尼传感器,相机仍会产生基本上为黑色的图像。ISO为时(大部分相机达不到这个水平),场景内容可辨,但图像暗淡、噪声多且色彩失真。即使是最先进的去噪技术[32]也不能消除这种噪声或解决色偏问题。一种解决办法是使用一组连拍图像[24,14]合成,但在极低照度的情况下,连拍对齐算法也很容易会失败,并且连拍流程不能用于视频捕捉。
图1:使用卷积网络得到的低照度图像(昏暗的室内环境,相机的照度(illuminance)0.1勒克斯,索尼α7SII传感器曝光1/30秒)。(a)ISO为的相机得到的图像。(b)ISO为的相机得到的图像。图像受到了噪音和颜色偏差的影响。(c)基于(a)中原始传感器数据,并经过我们提供的卷积网络处理得到的图像。
我们提出了一种新的图像处理流程,即通过数据驱动的方式解决极低照度环境摄像问题。具体来说,我们通过训练深度神经网络得到一个处理低光度原始数据的图像处理流程,包括颜色转换、去除马赛克、降噪和图像增强。端到端的训练流程可以避免噪声放大和误差累积,这也是传统相机处理流程的特点。
大多数现有处理低照度图像的方法都是在合成数据或无效的低照度图像上进行评估的。就我们所知,还没有合适的、能用于训练或测试处理快速低照度图像技术的数据集。因此,我们收集了一些在低照度条件下快速曝光拍摄的原始图像作为新数据集。每个低照度图像都具有对应的长曝光高质量参考图像。我们在新数据集上取得了良好的成果:低照度图像被放大了倍的同时,其噪声也得到了有效的抑制且颜色转换正确。
表1:SID数据集包含个原始短时曝光图像,每个图像都有一个长时间曝光图像作为对应参考。图像由两台相机收集(顶部和底部)。从左到右分别是:输入图像和参考图像的曝光时间比、滤波器阵列、输入图像的曝光时间以及每种情况的图像数量。
图2:SID数据集中的示例图像。前两排是户外图像,下面是室内图像。长时间曝光的参考图像(有效)在前面显示,短时曝光的输入图像(基本黑色)在有效图像后面显示。室外相机处照度一般在0.2到5勒克斯之间,室内为0.03到0.3勒克斯之间。
方法
从成像传感器获取原始数据后,传统的图像处理流程会用一系列模块(如白平衡、去马赛克、去噪、锐化、色彩空间转换、伽马校正等)对其进行处理。这些模块通常会根据相机的不同进行微调。Jiang等人[18]提出使用大量经过学习的局部线性(L3)滤波器来模仿常见成像系统里的复杂非线性流程,然而传统流程和L3流程都无法很好地处理快速低照度成像,因为它们无法处理极低的信噪比。Hasinoff等人[14]提出了适用于手机相机的连拍成像流程。该方法通过对齐混合多个图像得到良好的结果,但同时会增加其复杂度(例如对应密度估计),且可能难以将其应用于视频捕获。
图3:不同图像处理流程的结构。(a)从上到下分别是:传统的图像处理流程、L3流程[18]和连拍成像流程[14]。(b)我们的流程。
建议使用端到端学习来实现快速低照度图像的直接单图像处理。具体来说,训练一个全卷积网络(FCN)[22,25]来执行整个图像处理流程。近期的成果表明,纯FCN可以有效地承载很多图像处理算法[40,5],因此我们尝试将这种方法应用到极低照度成像中。我们不使用传统相机处理流程生成的sRGB图像,而是使用RAW格式的原始传感器数据。
图3(b)给出了我们流程的结构。对于贝叶斯阵列(Bayerarrays),我们将输入数据馈送到四个通道中,并相应地将每个维度上的空间分辨率降低两倍。对于X-Trans阵列(未在图中显示),原始数据被放在6×6的矩阵中,并通过交换相邻元素将它合并为9个通道而非36个通道。我们减去黑阶亮度并按照所需比例(例如倍或倍)缩放数据,数据在合并放大之后输入全卷积网络。输出是一个空间分辨率为之前一半的12通道图像,它通过一个子像素层的处理恢复原始分辨率[37]。
初步研究之后,重点
转载请注明:http://www.aideyishus.com/lktp/2831.html