作者︰Nathan Horrocks
翻译︰Gabriel Ng
校对:张睿毅本文约3300字,建议阅读5分钟
本文为大家介绍了如何利用AI进行高精度图像编辑。
处理猫咪、汽车、甚至是古董画的照片,对于这项工作的需求,在以前从未能像现在一样容易被满足,这归功于一个生成对抗网络 (GAN) 模型,叫做EditGAN。这项工作出自NVIDIA、多伦多大学和麻省理工学院的研究员们,部署自 DatasetGAN (一个人工智能视觉模型,训练只须用少如 16张人工注释的图像,性能虽然和其他方法一样高效,但其他方法需要100倍更多的图像。EditGAN 有先前模型提供的强大功能,并赋能用户去处理或操控想要的图像,例如绘图,所用的命令很简单,且原始图像质量不降低。
什么是EditGAN?
根据这篇论文
(https://arxiv.org/pdf/2111.03186.pdf):EditGAN 是第一个 GAN 驱动,图像编辑的框架,这个框架同时提供如下功能:
非常高精度的编辑;
仅需要非常低注释的训练数据(并且不需要外界的分类器);
可以实时运行并互动;
允许直接组合多次编辑;
可处理实时嵌入图像、GAN生成图像、甚至超出设定范围的图像。
本模型学习一个定量的编辑向量,这个向量可以在一个图片上多次带反馈地施加。本质上,它形成了一个针对图像集和它们的内容的直观理解,这个直观理解可以被用户权衡使用,在各种特定的修改和编辑中。本模型的学习来源是相似的图像集,它能够识别不同组成部分以及图像内物体的特定部分。一个用户能利用这点,去定向修改不同分块,或者在特定区域内进行编辑。本模型的精确度使得图像不会被用户所设参数之外的因素导致失真。
Fig 1 EditGAN在工作中,模型中训练的人工智能允许用户对原始图像进行改变,有时很戏剧性
“该框架允许我们学习编辑向量时,向量的数量能随意设定,这使得之后这个编辑向量能在其他图像上用互相反馈的方式直接适配。”研究人员在他们的研究中解释道。“我们用实例展示了EditGAN 可能会以之前达不到的程度操控图像的细节和自由度,同时还能保持图像质量完整。我们还可以轻松地合并多个编辑,并做出在 EditGAN 的训练数据中没有的合理编辑操作。我们在多变的图像类型上展示了 EditGAN的优势,并量化分析了它在标准编辑里面的参考线任务中,比之前的几种编辑方法的超水平发挥程度。”
从添加各种微笑、改变某人注视的方向、创造一种新发型,到给汽车一套更好的轮子,研究员展示了究竟一个模型用最少的数据标注量可以逼出多少内在要素。用户可以绘制一个简图,或把想要编辑的部分做一一映射,引导 AI 模型理解修改任务,例如猫耳朵增大或汽车前照灯更酷。这个AI之后渲染图像,同时维持高准确性并保持原始图像的质量。之后,同样的编辑可以应用到其他实时图像上。
Fig 2 一个例子,像素分配到图像的不同部分。AI发现该不同部分并根据人工输入作出编辑
这个GAN的运作原理是?
EditGAN 给图像的每个像素赋值一个类别,例如轮胎、挡风玻璃或车架。这些像素要控制在 AI 当前的空间内,并且这些像素要基于用户输入调整,让用户有轻松,灵活地编辑这些类别的空间。EditGAN 处理仅和所需更改相关的像素。AI了解每个像素的表意是通过模型训练中的其他图像,因此你试不出来这种情况:把猫耳朵加到汽车的图像上,之后AI准确识别出结果。但是当模型正确的情况下,EditGAN 表现非常棒,提供出色的图像编辑结果。
Fig 3 EditGAN能够训练一系列类别的图像集,从动物系列到环境系列的广泛范围,可以使得它形成对内容的细节性理解
EditGAN的潜力
人工智能驱动的编辑照片和图像有可能使得摄影师和内容创作者的工作流更加清晰,将创新和数字艺术赋能到新高度。EditGAN 也赋能入门的摄影师和编辑师,产出高质量内容,或少见的疯传模因(爆款)。
“本人工智能可能会改变我们编辑的方式,不仅关于图片,可能最终也关乎视频。它允许一个人获取图像,并使用简单的文本命令对其更改。如果你有包含一辆汽车的一张照片,并且你想让车轮更大,只需输入“让车轮更大”,噗!—— 一张图片,完全像照片,里面还是那辆车,轮子更大。”– 财富杂志
EditGAN 可能也会未来被用于其他重要的应用上。比如,EditGAN 的编辑能力可以用作:生成大型数据集,包含一些既定特征。此类定制数据集能起到很大作用,比如训练低层次机器学习模型处理不同的计算机视觉任务。
此外,EditGAN 框架可能会影响未来几代 GAN 的发展。虽然当前版本的 EditGAN 专注于图像编辑,但类似的方法也可潜在地被用于编辑 3D 形状和物体,该能力将会高可用地创建虚拟 3D 内容,在游戏、电影或元宇宙领域。
想深入了解有关这种神奇方法的更多信息,请查看论文https://arxiv.org/pdf/2111.03186.pdf。
英伟达始终站在技术的最前沿,请查看英伟达研究院(https://www.nvidia.com/en-us/research/),了解更多创新研究。
原文链接:
https://developer.nvidia.com/blog/high-precision-image-editing-with-ai-editgan/
原文标题︰
High-precision Image Editing with AI: EditGAN
编辑:王菁
校对:龚力
译者简介
Gabriel Ng,清华大学概率统计方向本科生在读,一个热爱于数据分析和语言学习(和音乐)的THUer,平日活动离不开学习、健身和音乐。喜欢从数据探勘各类问题的本质,从语言认识不同文化的故事。希望通过学习和经验的累积,能以不同的角度,理性地分析问题,感性地认识问题。
翻译组招募信息
工作内容:需要一颗细致的心,将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生,或在海外从事相关工作,或对自己外语水平有信心的朋友欢迎加入翻译小组。
你能得到:定期的翻译培训提高志愿者的翻译水平,提高对于数据科学前沿的认知,海外的朋友可以和国内技术应用发展保持联系,THU数据派产学研的背景为志愿者带来好的发展机遇。
其他福利:来自于名企的数据科学工作者,北大清华以及海外等名校学生他们都将成为你在翻译小组的伙伴。
点击文末“阅读原文”加入数据派团队~
转载须知
如需转载,请在开篇显著位置注明作者和出处(转自:数据派ID:DatapiTHU),并在文章结尾放置数据派醒目二维码。有原创标识文章,请发送【文章名称-待授权公众号名称及ID】至联系邮箱,申请白名单授权并按要求编辑。
发布后请将链接反馈至联系邮箱(见下方)。未经许可的转载以及改编者,我们将依法追究其法律责任。
点击“阅读原文”拥抱组织