图像&视频画质增强可帮助提升用户体验,在短视频爆发的今天是业界的刚需应用。多个因素可导致图片&视频质量低下,如:低分辨率、含有噪点、压缩失真、抖动、色彩灰暗等,每一个因素都对应一个学界问题,本篇对图像去噪和超分问题进行介绍,同时也会对low-level vision视觉常用评测指标进行介绍。
评测指标图像质量评估常用指标为PSNR和SSIM,通过比较干净图像和带噪声得到,具体如下。
PSNR(Peak Signal to noise ratio),为峰值信噪比,本质的是比较两张图像像素值差异,计算方式如下式:
SSIM(Structural Similarity),即结构相似性,综合考虑了亮度、对比度和结构相似性。
以上两种指标简单易算,但存在以下问题:
Netflix提出的VMAF(Video Multi-Method Assessment Fusion,视频多方法评估融合体系)缓解了以上问题。下图是VMAF计算架构[1],综合考虑了单帧特征(VIF&DLM)和时域特征(TI),通过帧内空间域池化融合两者特征,然后使用标注有绝对分数的主观数据训练SVM完成预测,下图是VMAF计算基本架构。
图像去噪DnCNN[2]该工作是图像去噪领域的奠基性工作之一,使用CNN+残差学习进行图像去噪,同时该方法也可用于其他浅层视觉任务,如SISR和JPEG压缩去块等。
网络结构如下图,作者通过实验验证了残差学习+BN可提升PSNR,这里的残差学习指的是网络的输出是噪声,而不是去噪后的图像。残差学习降低了模型学习难度,使得该方法可以在较低的计算复杂度下实现去噪任务,具体来说,通过残差学习在网络隐层去除了clean image,这样使得后续层的输入只包含噪声,解耦了噪声和图像。
FFDNet[3]有三个特点:
模型提速通过减小输入分辨率&调整网络结构实现,具体来说,将输入噪声图片通过reshape操作分辨率减半,这样极大降低了计算复杂度,带来的另一个利好是不需要使用dilated卷积,因为作者通过实验发现使用dilated卷积可能导致visual artifact。
model-based图像去噪方法可通过调整超参 以调节去噪程度&保真度,类似的,作者在网络输入添加noise-level-map和输入图像concat作为输入,相当于将当前图片噪声信息告诉模型,以更好的去噪。和DnCNN不同,网络的输出为去噪后图像,而不是噪声图,作者指出在噪声简单或者模型很小时,使用残差学习可降低学习难度,但使用较大模型时使用残差学习不必要。
CBDNet[4]:这篇工作去除真实图片中的噪声,和FFDNet的不同在于模型自带噪声估计模块,基于估计噪声&噪声图片得到去噪后图片。
图像噪声可分为信号相关噪声&信号不相关噪声,信号相关噪声幅度和信号强度相关,信号相关噪声可通过泊松模型建模,信号不相关噪声使用高斯模型建模,所以这篇工作使用高斯-泊松模型建模噪声,考虑两种噪声,同时在噪声图片合成中引入ISP,使得合成的噪声图片更符合真实分布,以实现盲去噪。
对传统和CNN非盲去噪模型来说,当估计的噪声水平和噪声真实水平match时,降噪效果最好,当估计的噪声水平小于噪声真实水平,此时图片中仍然含有未去除噪声,但当估计的噪声水平高于噪声真实水平时,仍可较好完成降噪,由此作者采用非对称噪声估计损失,当估计的噪声小于真实噪声时,给于更大惩罚。
为更好的实现真实图片去噪,模型训练中同时采用合成数据&真实pair数据,两者交替更新模型,考虑到真实数据噪声图未知,在真实图片更新step不更新噪声估计模块。
可以看到,真实图片去噪的核心在于噪声的估计!
上面提到的工作属于监督学(龙吸水是什么意思?中国跳高名将张国伟退役后经常在社交媒体上表演花式喝可乐,这个“绝活”被称为龙吸水。网友调侃张国伟是国家一级龙吸水运动员,也有网友称赞张国伟是龙吸水第一人。)习图片去噪,也有工作使用无监督学习方式实现降噪,下面进行介绍。
DIP[5]:这篇文章指出深度网络结构本身具有去噪功能,这个和卷积的天然属性相关。
下面这张图是文章的一个核心实验,可以看到从随机输入重建图像快于添加噪声的图像,远远快于重建噪声本身,也即是说在重建过程中,模型会先学习图像内容,然后再是噪声,那么在训练中的某一个step停下来,即可得到干净&无噪声图像。
图像超分SRGAN[6]:超分模型训练一般使用MSE损失函数,此时带来的问题是虽然PSNR客观指标高,但超分后图像缺乏高频细节信息,保真度不够,如下图所示:
由此这篇工作通过GAN生成photo-realistic图片,核心是损失函数的设计:包含内容损失和对抗损失。内容损失包含MSE和感知损失(通过计算VGG训练好模型特征图欧氏距离得到,非像素空间损失),对对抗损失为GAN Loss,训练中两者轮流优化。
不管降噪还是超分,像素level的损失函数一般使用L2,考虑到降噪&超分问题并无唯一解,采用L2损失得到的结果其实是所有可能结果的均值,所以就像前面提到的,结果缺乏高频细节信息,另一种常用的损失是L1,采用L1损失得到的结果是所有可能结果的中值,生成结果包含一定高频细节信息,从这个维度来看,L1在降噪和超分问题上优于L2损失。
ESRGAN[7]:这篇文章从网络结构&损失函数两方面改进SRGAN,网络结构采用类densenet特征融合方式,信息流更通畅;同时作者指出当训练数据&测试数据统计结果相差较大时,使用BN层会降低模型泛化能力&引入artifact,所以在网络中去除了BN层。另外判别器损失采用Relativistic Discriminator,而SRGAN使用经典判别器损失。
图像超分的目的是在提升分辨率的同时保边锐化,不管降噪还是超分,应用于真实场景的难点在于是否能准确建模模糊核或者下采样核,所以业界研究的重点之一在于如何生成符合真实场景的图像pair对,目前学界也在关注这一方向,在后续文章单独介绍。
参考文献[1]. VMAF:未毕之旅
[2]. Beyond a Gaussian Denoiser: Residual Learning of Deep CNN for Image Denoising, TIP2017
[3]. FFDNet: Toward a Fast and Flexible Solution for CNN based Image Denoising, TIP2018
[4]. Toward Convolutional Blind Denoising of Real Photographs, CVPR2019
[5]. Deep Image Prior
[6]. Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network
[7]. ESRGAN: Enhanced Super-Resolution Generative Adversarial Networks
姓名:
年龄:
电话: