图像画质增强 - 飞外

2023/7/6 17:28:13 ('互联网')

图像&视频画质增强可帮助提升用户体验，在短视频爆发的今天是业界的刚需应用。多个因素可导致图片&视频质量低下，如：低分辨率、含有噪点、压缩失真、抖动、色彩灰暗等，每一个因素都对应一个学界问题，本篇对图像去噪和超分问题进行介绍，同时也会对low-level vision视觉常用评测指标进行介绍。

评测指标

图像质量评估常用指标为PSNR和SSIM，通过比较干净图像和带噪声得到，具体如下。

PSNR（Peak Signal to noise ratio），为峰值信噪比，本质的是比较两张图像像素值差异，计算方式如下式：

SSIM（Structural Similarity），即结构相似性，综合考虑了亮度、对比度和结构相似性。

以上两种指标简单易算，但存在以下问题：

不能完全反应人眼主观感受
未考虑视频帧间信息
最终评测结果为相对值，不能计算绝对质量

Netflix提出的VMAF（Video Multi-Method Assessment Fusion，视频多方法评估融合体系）缓解了以上问题。下图是VMAF计算架构[1]，综合考虑了单帧特征（VIF&DLM）和时域特征（TI），通过帧内空间域池化融合两者特征，然后使用标注有绝对分数的主观数据训练SVM完成预测，下图是VMAF计算基本架构。

图像去噪

DnCNN[2]该工作是图像去噪领域的奠基性工作之一，使用CNN+残差学习进行图像去噪，同时该方法也可用于其他浅层视觉任务，如SISR和JPEG压缩去块等。

网络结构如下图，作者通过实验验证了残差学习+BN可提升PSNR，这里的残差学习指的是网络的输出是噪声，而不是去噪后的图像。残差学习降低了模型学习难度，使得该方法可以在较低的计算复杂度下实现去噪任务，具体来说，通过残差学习在网络隐层去除了clean image，这样使得后续层的输入只包含噪声，解耦了噪声和图像。

FFDNet[3]有三个特点：

速度快；
可处理不同level的噪声&空间可变噪声；
更好的trade-off：去噪程度&细节保持。

模型提速通过减小输入分辨率&调整网络结构实现，具体来说，将输入噪声图片通过reshape操作分辨率减半，这样极大降低了计算复杂度，带来的另一个利好是不需要使用dilated卷积，因为作者通过实验发现使用dilated卷积可能导致visual artifact。

model-based图像去噪方法可通过调整超参以调节去噪程度&保真度，类似的，作者在网络输入添加noise-level-map和输入图像concat作为输入，相当于将当前图片噪声信息告诉模型，以更好的去噪。和DnCNN不同，网络的输出为去噪后图像，而不是噪声图，作者指出在噪声简单或者模型很小时，使用残差学习可降低学习难度，但使用较大模型时使用残差学习不必要。

CBDNet[4]：这篇工作去除真实图片中的噪声，和FFDNet的不同在于模型自带噪声估计模块，基于估计噪声&噪声图片得到去噪后图片。

图像噪声可分为信号相关噪声&信号不相关噪声，信号相关噪声幅度和信号强度相关，信号相关噪声可通过泊松模型建模，信号不相关噪声使用高斯模型建模，所以这篇工作使用高斯-泊松模型建模噪声，考虑两种噪声，同时在噪声图片合成中引入ISP，使得合成的噪声图片更符合真实分布，以实现盲去噪。

对传统和CNN非盲去噪模型来说，当估计的噪声水平和噪声真实水平match时，降噪效果最好，当估计的噪声水平小于噪声真实水平，此时图片中仍然含有未去除噪声，但当估计的噪声水平高于噪声真实水平时，仍可较好完成降噪，由此作者采用非对称噪声估计损失，当估计的噪声小于真实噪声时，给于更大惩罚。

为更好的实现真实图片去噪，模型训练中同时采用合成数据&真实pair数据，两者交替更新模型，考虑到真实数据噪声图未知，在真实图片更新step不更新噪声估计模块。

可以看到，真实图片去噪的核心在于噪声的估计！

上面提到的工作属于监督学(龙吸水是什么意思？中国跳高名将张国伟退役后经常在社交媒体上表演花式喝可乐，这个“绝活”被称为龙吸水。网友调侃张国伟是国家一级龙吸水运动员，也有网友称赞张国伟是龙吸水第一人。)习图片去噪，也有工作使用无监督学习方式实现降噪，下面进行介绍。

DIP[5]：这篇文章指出深度网络结构本身具有去噪功能，这个和卷积的天然属性相关。

下面这张图是文章的一个核心实验，可以看到从随机输入重建图像快于添加噪声的图像，远远快于重建噪声本身，也即是说在重建过程中，模型会先学习图像内容，然后再是噪声，那么在训练中的某一个step停下来，即可得到干净&无噪声图像。

图像超分

SRGAN[6]：超分模型训练一般使用MSE损失函数，此时带来的问题是虽然PSNR客观指标高，但超分后图像缺乏高频细节信息，保真度不够，如下图所示：

由此这篇工作通过GAN生成photo-realistic图片，核心是损失函数的设计：包含内容损失和对抗损失。内容损失包含MSE和感知损失（通过计算VGG训练好模型特征图欧氏距离得到，非像素空间损失），对对抗损失为GAN Loss，训练中两者轮流优化。

不管降噪还是超分，像素level的损失函数一般使用L2，考虑到降噪&超分问题并无唯一解，采用L2损失得到的结果其实是所有可能结果的均值，所以就像前面提到的，结果缺乏高频细节信息，另一种常用的损失是L1，采用L1损失得到的结果是所有可能结果的中值，生成结果包含一定高频细节信息，从这个维度来看，L1在降噪和超分问题上优于L2损失。

ESRGAN[7]：这篇文章从网络结构&损失函数两方面改进SRGAN，网络结构采用类densenet特征融合方式，信息流更通畅；同时作者指出当训练数据&测试数据统计结果相差较大时，使用BN层会降低模型泛化能力&引入artifact，所以在网络中去除了BN层。另外判别器损失采用Relativistic Discriminator，而SRGAN使用经典判别器损失。

图像超分的目的是在提升分辨率的同时保边锐化，不管降噪还是超分，应用于真实场景的难点在于是否能准确建模模糊核或者下采样核，所以业界研究的重点之一在于如何生成符合真实场景的图像pair对，目前学界也在关注这一方向，在后续文章单独介绍。

参考文献

[1]. VMAF:未毕之旅

[2]. Beyond a Gaussian Denoiser: Residual Learning of Deep CNN for Image Denoising, TIP2017

[3]. FFDNet: Toward a Fast and Flexible Solution for CNN based Image Denoising, TIP2018

[4]. Toward Convolutional Blind Denoising of Real Photographs, CVPR2019

[5]. Deep Image Prior

[6]. Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network

[7]. ESRGAN: Enhanced Super-Resolution Generative Adversarial Networks

扫码加微信详细咨询太和智慧养老产品和平台服务！

---------------------------------------------------------------

所有信息来源于互联网,本文的版权归原作者所有，不代表本网观点和立场。

本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 81480447@qq.com 举报，一经查实，本站将立刻删除。

扫码加微信详细咨询太和智慧养老产品和平台服务！

养老资讯

助老机构介绍

已有 0 条评论

看不清楚?请点击刷新验证码

图像画质增强 - 飞外

评论

推荐养老院

全国城市养老院