点击上方“计算机视觉工坊”,选择“星标”
干货第一时间送达来源丨https://zhuanlan.zhihu.com/p/384504389
编辑丨AI算法与图像处理
这篇专栏主要介绍我们团队(百度视觉技术部视频理解与编辑组)发表于CVPR 2021上的工作:”Drafting and Revision: Laplacian Pyramid Network for Fast High-Quality Artistic Style Transfer“。这篇论文主要针对当前的前馈风格化网络对于复杂的风格纹理迁移不理想的问题,提出了一种基于拉普拉斯金字塔的风格化网络,在风格化速度和质量上均有很大的提升,是我们在风格化方向的第一篇工作。相关的代码已经开源在PaddleGAN 欢迎大家试用和star。
https://github.com/PaddlePaddle/PaddleGAN/blob/develop/docs/en_US/tutorials/lap_style.md
Motivation
艺术风格迁移是指将一张风格图中的颜色和纹理风格迁移到一张内容图上,同时保存内容图的结构。相关算法在艺术图像生成、滤镜等领域有广泛的应用。基于深度学习的风格化方法较传统方法有很大的提升,大致可以分类为基于优化的方法(无需训练,对于每张图需要通过优化的方法来生成结果)和基于前馈网络的方法(需要训练,预测时通过网络前馈生成结果)。目前基于前馈网络的风格化算法存在纹理迁移不干净、大尺度复杂纹理无法迁移等缺点;而目前基于优化的风格化方法虽然质量较高,但速度很慢。
因此本文提出了一种能够生成高质量风格化图的快速前馈风格化网络——拉普拉斯金字塔风格化网络(LapStyle),其核心思想是在低分辨率下迁移复杂纹理,再在高分辨率下对纹理的细节进行修正。如头图所示,我们的方法能渐进地生成复杂的纹理迁移效果,同时能够在512分辨率下达到100fps的速度。为了追求更好的风格化效果,我们也牺牲了一部分灵活性,LapStyle 是一个单风格网络,目前不支持任意风格化。
LapStyle Network
算法框架
LapStyle 网络最初的想法来自于实验中的一个观察:在低分辨率图像上更容易对结构复杂的大尺度纹理进行迁移,而在高分辨率图像上则更容易对局部小尺度纹理进行迁移。因此我们将算法分为Drafting Network 和Revision Network。其中Drafting网络首先在低分辨率下做初步的迁移,Revision 网络再在高分辨率网络下修正细节,提升分辨率。
Drafting Network
Drafting网络的核心目标是在低分辨率下迁移复杂纹理的雏形,我们这里采用了一个比较简单的Unet + 多尺度AdaIN的结构。
Revision Network
Revision网络则是一个更加简单的encoder-decoder 结构,为了进一步提升网络对复杂纹理的迁移能力,这里我们在训练中添加了一个pixel-discriminator判别器来实现对抗性学习。这里审稿人提出了一个疑问,对于此处的判别器,其real 图是一个固定的图,是否会发生判别器过拟合而失效的问题?实际上在训练中并没有出现这个情况,主要有三个原因。
训练时我们对风格图进行了一定程度的增强,主要是随机裁剪;
我们采用了SinGAN [1] 中的判别器结构,其主要特点是网络很小很浅,感受野有限,这也能够避免判别器能够“记住”风格图;
Revision 网络是在Drafting网络后训练的,所以fake 图在Revision Network最开始训练时就已经有相对比较接近real图的色彩和纹理了。
Training Objective
训练中,除了风格化领域中常用的内容和风格损失外,我们还采用了STROTSS[2] 中提出的relaxed Earth Mover Distance (rEMD) loss 以及self-similarity loss。这两个损失函数能够有效地提升风格纹理在内容图上的分布情况。损失函数具体的构造可以见论文。
实验
与前馈方法的对比
与现有的前馈方法(其中Johnson et al. 是单风格网络)相比,LapStyle能够有效地将风格纹理融合到内容图上,同时保持较好的清晰度,避免风格化算法常见的结果模糊问题。
与优化方法的对比
STROTSS[2] 应该是当前效果最好的基于优化的风格化方法,我们的方法在很多case 中能达到与其接近甚至更好的效果。STROTSS相较于LapStyle 主要的优点是一些情况下风格纹理和内容融合地更好(如右下),这主要是由其优化过程带来的。
算法速度
由于LapStyle 中,最主要的风格迁移过程在低分辨率网络中完成,而高分辨率的Revision Network比较小,因此LapStyle的速度很快,在512分辨率下能够达到接近100FPS(P40显卡),比现有的前馈方法都要显著的快。
讨论
本文的主要贡献在于将复杂风格的迁移拆分为低分辨率下的初步迁移和高分辨率下的修正过程,这样的拆解有效地提升了风格化的质量以及速度。采用拉普拉斯金字塔也是在这个motivation下比较自然的想法。有趣的是,cvpr 21上还有另外一篇拉普拉斯金字塔来做image translation 的方法LPTN [3]。其主要出发点是在低分辨率下做image translation,同时保持高分辨率的原有高频信息。
前面自吹自擂了很多,但其实LapStyle 也还存在不少的问题有待解决。第一个就是目前LapStyle 不支持任意风格化,对于每个风格都需要重新进行训练(一个风格单卡十几个小时),这样显然不够灵活,如何在任意风格化下实现复杂纹理的迁移是一个很困难也很值得挑战的问题。第二个是如何对内容图和风格图做更好的融合,LapStyle的结果存在一些case,网络对于风格的迁移能力很好,但风格和内容图却结合的不够好,就容易失去美感了。
最后,还是欢迎大家在PaddleGAN上试用我们的代码,也欢迎大家在“一刻相册”APP上试用我们已经上线的多种多样的风格化滤镜。如果你读到这里,对风格化,生成模型等编辑方向感兴趣,并且有学术论文写作和投稿经验,欢迎投递简历到 lintianwei01@baidu.com ~
参考文献
[1] Tamar Rott Shaham, Tali Dekel, and Tomer Michaeli. Singan: Learning a generative model from a single natural image. In Proceedings of the IEEE International Conference on Computer Vision, pages 4570–4580, 2019.
[2] Nicholas Kolkin, Jason Salavon, and Gregory Shakhnarovich. Style transfer by relaxed optimal transport and self-similarity. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 10051–10060, 2019.
[3] Liang J, Zeng H, Zhang L. High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 9392-9400.
本文仅做学术分享,如有侵权,请联系删文。
下载1
在「计算机视觉工坊」公众号后台回复:深度学习,即可下载深度学习算法、3D深度学习、深度学习框架、目标检测、GAN等相关内容近30本pdf书籍。
下载2
在「计算机视觉工坊」公众号后台回复:计算机视觉,即可下载计算机视觉相关17本pdf书籍,包含计算机视觉算法、Python视觉实战、Opencv3.0学习等。
下载3
在「计算机视觉工坊」公众号后台回复:SLAM,即可下载独家SLAM相关视频课程,包含视觉SLAM、激光SLAM精品课程。
重磅!计算机视觉工坊-学习交流群已成立
扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。
同时也可申请加入我们的细分方向交流群,目前主要有ORB-SLAM系列源码学习、3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、深度估计、学术交流、求职交流等微信群,请扫描下面微信号加群,备注:”研究方向+学校/公司+昵称“,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。
▲长按加微信群或投稿
▲长按关注公众号
3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、orb-slam3等视频课程)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近2000星球成员为创造更好的AI世界共同进步,知识星球入口:
学习3D视觉核心技术,扫描查看介绍,3天内无条件退款
圈里有高质量教程资料、可答疑解惑、助你高效解决问题
觉得有用,麻烦给个赞和在看~