登陆 | 注册 设为首页 | 加入收藏 | 联系我们
太和养老网
热词老年艺术  助老机构  养老系统  

中心区域北京 天津 河北 山西 内蒙古 辽宁 吉林 黑龙江 上海 江苏 浙江 安徽 福建 江西 山东 河南 湖北 湖南 广东 广西 海南 重庆 四川 贵州 云南 西藏 陕西 甘肃 青海 宁夏 新疆 香港 澳门 台湾 全国城市养老院目录 全国县市养老院汇总目录 太和AI作品展 太和养老艺术网AI作品展示

图像画质增强 - 飞外

 

2023/7/6 17:28:13 ('互联网')

图像&视频画质增强可帮助提升用户体验,在短视频爆发的今天是业界的刚需应用。多个因素可导致图片&视频质量低下,如:低分辨率、含有噪点、压缩失真、抖动、色彩灰暗等,每一个因素都对应一个学界问题,本篇对图像去噪和超分问题进行介绍,同时也会对low-level vision视觉常用评测指标进行介绍。

评测指标

图像质量评估常用指标为PSNR和SSIM,通过比较干净图像和带噪声得到,具体如下。

PSNR(Peak Signal to noise ratio),为峰值信噪比,本质的是比较两张图像像素值差异,计算方式如下式:

SSIM(Structural Similarity),即结构相似性,综合考虑了亮度、对比度和结构相似性。

以上两种指标简单易算,但存在以下问题:

  1. 不能完全反应人眼主观感受
  2. 未考虑视频帧间信息
  3. 最终评测结果为相对值,不能计算绝对质量

Netflix提出的VMAF(Video Multi-Method Assessment Fusion,视频多方法评估融合体系)缓解了以上问题。下图是VMAF计算架构[1],综合考虑了单帧特征(VIF&DLM)和时域特征(TI),通过帧内空间域池化融合两者特征,然后使用标注有绝对分数的主观数据训练SVM完成预测,下图是VMAF计算基本架构。

图像去噪

DnCNN[2]该工作是图像去噪领域的奠基性工作之一,使用CNN+残差学习进行图像去噪,同时该方法也可用于其他浅层视觉任务,如SISR和JPEG压缩去块等。

网络结构如下图,作者通过实验验证了残差学习+BN可提升PSNR,这里的残差学习指的是网络的输出是噪声,而不是去噪后的图像。残差学习降低了模型学习难度,使得该方法可以在较低的计算复杂度下实现去噪任务,具体来说,通过残差学习在网络隐层去除了clean image,这样使得后续层的输入只包含噪声,解耦了噪声和图像。

FFDNet[3]有三个特点:

  1. 速度快;
  2. 可处理不同level的噪声&空间可变噪声;
  3. 更好的trade-off:去噪程度&细节保持。

模型提速通过减小输入分辨率&调整网络结构实现,具体来说,将输入噪声图片通过reshape操作分辨率减半,这样极大降低了计算复杂度,带来的另一个利好是不需要使用dilated卷积,因为作者通过实验发现使用dilated卷积可能导致visual artifact。

model-based图像去噪方法可通过调整超参 以调节去噪程度&保真度,类似的,作者在网络输入添加noise-level-map和输入图像concat作为输入,相当于将当前图片噪声信息告诉模型,以更好的去噪。和DnCNN不同,网络的输出为去噪后图像,而不是噪声图,作者指出在噪声简单或者模型很小时,使用残差学习可降低学习难度,但使用较大模型时使用残差学习不必要。

CBDNet[4]:这篇工作去除真实图片中的噪声,和FFDNet的不同在于模型自带噪声估计模块,基于估计噪声&噪声图片得到去噪后图片。

图像噪声可分为信号相关噪声&信号不相关噪声,信号相关噪声幅度和信号强度相关,信号相关噪声可通过泊松模型建模,信号不相关噪声使用高斯模型建模,所以这篇工作使用高斯-泊松模型建模噪声,考虑两种噪声,同时在噪声图片合成中引入ISP,使得合成的噪声图片更符合真实分布,以实现盲去噪。

对传统和CNN非盲去噪模型来说,当估计的噪声水平和噪声真实水平match时,降噪效果最好,当估计的噪声水平小于噪声真实水平,此时图片中仍然含有未去除噪声,但当估计的噪声水平高于噪声真实水平时,仍可较好完成降噪,由此作者采用非对称噪声估计损失,当估计的噪声小于真实噪声时,给于更大惩罚。

为更好的实现真实图片去噪,模型训练中同时采用合成数据&真实pair数据,两者交替更新模型,考虑到真实数据噪声图未知,在真实图片更新step不更新噪声估计模块。

可以看到,真实图片去噪的核心在于噪声的估计!

上面提到的工作属于监督学(龙吸水是什么意思?中国跳高名将张国伟退役后经常在社交媒体上表演花式喝可乐,这个“绝活”被称为龙吸水。网友调侃张国伟是国家一级龙吸水运动员,也有网友称赞张国伟是龙吸水第一人。)习图片去噪,也有工作使用无监督学习方式实现降噪,下面进行介绍。

DIP[5]:这篇文章指出深度网络结构本身具有去噪功能,这个和卷积的天然属性相关。

下面这张图是文章的一个核心实验,可以看到从随机输入重建图像快于添加噪声的图像,远远快于重建噪声本身,也即是说在重建过程中,模型会先学习图像内容,然后再是噪声,那么在训练中的某一个step停下来,即可得到干净&无噪声图像。

图像超分

SRGAN[6]:超分模型训练一般使用MSE损失函数,此时带来的问题是虽然PSNR客观指标高,但超分后图像缺乏高频细节信息,保真度不够,如下图所示:

由此这篇工作通过GAN生成photo-realistic图片,核心是损失函数的设计:包含内容损失和对抗损失。内容损失包含MSE和感知损失(通过计算VGG训练好模型特征图欧氏距离得到,非像素空间损失),对对抗损失为GAN Loss,训练中两者轮流优化。

不管降噪还是超分,像素level的损失函数一般使用L2,考虑到降噪&超分问题并无唯一解,采用L2损失得到的结果其实是所有可能结果的均值,所以就像前面提到的,结果缺乏高频细节信息,另一种常用的损失是L1,采用L1损失得到的结果是所有可能结果的中值,生成结果包含一定高频细节信息,从这个维度来看,L1在降噪和超分问题上优于L2损失。

ESRGAN[7]:这篇文章从网络结构&损失函数两方面改进SRGAN,网络结构采用类densenet特征融合方式,信息流更通畅;同时作者指出当训练数据&测试数据统计结果相差较大时,使用BN层会降低模型泛化能力&引入artifact,所以在网络中去除了BN层。另外判别器损失采用Relativistic Discriminator,而SRGAN使用经典判别器损失。

图像超分的目的是在提升分辨率的同时保边锐化,不管降噪还是超分,应用于真实场景的难点在于是否能准确建模模糊核或者下采样核,所以业界研究的重点之一在于如何生成符合真实场景的图像pair对,目前学界也在关注这一方向,在后续文章单独介绍。

参考文献

[1]. VMAF:未毕之旅

[2]. Beyond a Gaussian Denoiser: Residual Learning of Deep CNN for Image Denoising, TIP2017

[3]. FFDNet: Toward a Fast and Flexible Solution for CNN based Image Denoising, TIP2018

[4]. Toward Convolutional Blind Denoising of Real Photographs, CVPR2019

[5]. Deep Image Prior

[6]. Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network

[7]. ESRGAN: Enhanced Super-Resolution Generative Adversarial Networks



扫码加微信详细咨询太和智慧养老产品和平台服务!



扫码加微信详细咨询太和智慧养老产品和平台服务!

 

 





版权声明:

---------------------------------------------------------------


所有信息来源于互联网,本文的版权归原作者所有,不代表本网观点和立场。

本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请发送邮件至 81480447@qq.com 举报,一经查实,本站将立刻删除。



扫码加微信详细咨询太和智慧养老产品和平台服务!

 

养老资讯
助老机构介绍
评论
已有 0 条评论

最新评论

推荐养老院

您希望养老院位于
  • 不限
  • 东城
  • 西城
  • 崇文
  • 宣武
  • 朝阳
  • 丰台
  • 石景山
  • 海淀
  • 门头沟
  • 房山
  • 通州
  • 顺义
  • 昌平
  • 大兴
  • 怀柔
  • 平谷
  • 延庆
  • 密云
您希望的价格范围
  • 不限
  • 500以下
  • 500-1000
  • 1000-2000
  • 2000-3000
  • 3000-5000
  • 5000以上
老人的情况是
  • 不限
  • 自理
  • 半自理
  • 全护理
  • 特护

姓名

年龄

电话

全国城市养老院



关于我们 | 联系方式 | 网站地图 | 友情链接

Copyright 2010-2022 京ICP备18035644号-3 北京太和 版权所有