img2img-turbo学习以及部署记录

devtools/2024/10/23 15:59:10/

img2img-turbo简介

img2img-turbo 的框架结构设计紧凑、灵活,主要围绕着扩散模型和生成对抗网络(GAN)的优化实现。其架构设计有助于在图像到图像转换任务中实现高效的推理和良好的生成效果,尤其是在不同场景之间保持输入图像结构的完整性。以下是该框架的主要组成部分:

1. 核心模型结构

  • 扩散模型与轻量化调优:img2img-turbo 通过改进预训练的扩散模型(如 Stable Diffusion),并引入 LoRA(Low-Rank Adaptation)适配器,使模型更加高效。LoRA 的使用帮助减少模型的参数量,同时通过保持某些层冻结,减少了对计算资源的需求。
  • 跳跃连接与 Zero-Convs:为了更好地在图像生成过程中保持图像结构,模型使用了跳跃连接零卷积层(Zero-Convs),这确保了输入图像和输出图像之间的重要信息传递。

2. 主要模型模块

  • pix2pix-turbo:这是项目中的成对图像翻译模块,专门用于将输入图像转换为与其配对的输出图像。例如,它可以将草图转换为真实图片,或将边缘图像转换为完整的场景。
  • CycleGAN-Turbo:这是一个非成对图像翻译模型,能够在没有成对训练数据的情况下进行图像转换任务,如白天转换为夜晚,或者天气从晴天变为雨天。它在无监督学习场景中表现尤其突出。

3. 训练与推理过程

  • 快速推理:img2img-turbo 通过单步推理来加速图像生成过程,相比传统的逐步迭代扩散模型,这种优化显著减少了推理时间。例如,512x512 尺寸图像在 A100 GPU 上的推理时间仅为 0.11 秒。
  • 多种任务支持:该框架支持多种图像转换任务,如 Edge2Image(边缘到图像)Sketch2Image(草图到图像)Day2Night(日夜转换),这些任务可以通过简单的调整模型架构或输入数据来实现。

4. 环境设置与灵活扩展

  • 环境与依赖:该项目提供了 condavirtual environment 两种环境配置方式,方便用户快速搭建和运行模型。其训练和推理代码可以直接在本地或远程服务器上运行。
  • Gradio 集成:为了便于用户体验,img2img-turbo 提供了集成的 Gradio 界面,用户可以通过图形界面直接进行图像转换操作,而不需要深入编写代码。

5. 性能优化

  • 跳跃连接与 LoRA 模块的集成 让模型在执行任务时既能保持高效推理,又能在转换过程中保留输入图像的关键特征。与其他模型相比,这种优化使其在图像到图像转换任务中能实现更高的保真度和更快的响应时间。

通过这些设计,img2img-turbo 实现了在多任务处理、快速推理、环境适配性和资源效率之间的良好平衡,适合在创意设计、科研、环境监测等多个领域中使用。


部署img2img-turbo

相关链接

https://github.com/GaParmar/img2img-turbo

https://zhuanlan.zhihu.com/p/688973522

https://blog.csdn.net/gitblog_00320/article/details/141050129

img2img-turbo: 革命性的单步图像转换技术 - 懂AI

在线sketch2image测试平台(国内无法访问):

Img2img Turbo Sketch - a Hugging Face Space by gparmar

部署环境

conda env:

conda env create -f environment.yaml

conda activate img2img-turbo

注意每个包的版本问题

遇到的问题

conda env create

部署环境时由于网速的问题,创建不了conda env环境。解决方法就是多试几次,总会有一次成功的。(网络问题)

huggingface_hub

版本:0.26

ImportError: cannot import name ‘cached_download’ from ‘huggingface_hub’ (/home/hxr/anaconda3/envs/img2img-turbo/lib/python3.10/site-packages/huggingface_hub/init.py)

升级,但是又出现以下diffusers的问题

diffusers

版本:0.30.3

AttributeError: ‘AutoencoderKL’ object has no attribute ‘add_adapter’

解决方法:huggingface_hub 安装为0.25以下,diffusers版本为0.25.1,可以跑代码。

模型加载失败

RuntimeError: PytorchStreamReader failed reading zip archive: failed finding central directory

解决方法:删除checkpoint中已下载的模型,由于某种原因模型下载不完整或者损坏,所以重新下载模型。模型下载地址:https://www.cs.cmu.edu/~img2img-turbo/models/

测试命令

paired

python src/inference_paired.py --model_name “edge_to_image” --input_image “assets/examples/bird.png” --prompt “a blue bird” --output_dir “outputs”

python src/inference_paired.py --model_name “sketch_to_image_stochastic” --input_image “assets/examples/sketch_input.png” --gamma 0.4 --prompt “ethereal fantasy concept art of an asteroid. magnificent, celestial, ethereal, painterly, epic, majestic, magical, fantasy art, cover art, dreamy” --output_dir “outputs”

unpaired

python src/inference_unpaired.py --model_name “day_to_night” --input_image “assets/examples/day2night_input.png” --output_dir “outputs”

python src/inference_unpaired.py --model_name “night_to_day” --input_image “assets/examples/night2day_input.png” --output_dir “outputs”

python src/inference_unpaired.py --model_name “clear_to_rainy” --input_image “assets/examples/clear2rainy_input.png” --output_dir “outputs”

python src/inference_unpaired.py --model_name “rainy_to_clear” --input_image “assets/examples/rainy2clear_input.png” --output_dir “outputs”

gradio可视化界面

gradio gradio_sketch2image.py

gradio gradio_canny2image.py

端口从服务器映射到自己的物理主机:

ssh -L 7860:127.0.0.1:7860 username@ip

训练自己的模型img2mig-turbo


http://www.ppmy.cn/devtools/128188.html

相关文章

小米商城全栈项目

简介 在本篇博客中,我们将一步步地创建一个基于NestJS的电商后端服务。我们将从项目初始化开始,逐步完成基本的后端服务搭建,包括数据库导入、接口开发,以及进阶的登录鉴权和动态数据渲染。这将是一个全面的实战教程,…

Spring aop讲解+动态代理思想+事务注解原理

Spring aop讲解动态代理思想事务注解原理 aop是什么? aop有什么用? aop具体怎么做? aop原理是什么?(按这个思路思考问题) aop是什么? AOP(Aspect-Oriented Programming:面向切面编程)能够将那…

Flink触发器Trigger

前言 在 Flink 窗口计算模型中,数据先经过 WindowAssigner 分配窗口,然后再经过触发器 Trigger,Trigger 决定了一个窗口何时被 ProcessFunction 处理。每个 WindowAssigner 都有一个默认的 Trigger,如果默认的不满足需求&#xf…

解决php连接本地mysql连接错误的问题

我的服务器启用的nginx&#xff0c;配置了php的连接mysql的配置文件connect.php&#xff1a; <?php$server"localhost";//主机$db_username"root";//你的数据库用户名$db_password"root";//你的数据库密码$dbname "users";$conn…

海南华志亿星电子商务有限公司正规吗可靠吗?

在数字经济的浪潮中&#xff0c;抖音电商以其独特的短视频直播模式&#xff0c;成为了众多企业转型升级的新蓝海。而在这片充满机遇与挑战的海域里&#xff0c;海南华志亿星电子商务有限公司如同一颗冉冉升起的新星&#xff0c;以其专业的电商服务和敏锐的市场洞察力&#xff0…

无线网卡知识的学习-- mac80211主要代码流程

一 简介概要: mac80211驱动程序作为Linux内核中管理和控制无线网络接口的核心模块,其主要流程涵盖了从数据帧接收到发送的完整过程。 主要覆盖了7个方面: 1. 数据帧接收流程,2. 数据帧发送流程 3. 频道管理和切换 4. 接口管理 5. 安全和认证 6. 管理和调试 7. 注册和初…

Java.6--多态-设计模式-抽象父类-抽象方法

一、多态 1.定义--什么是多态&#xff1f; a.同一个父类的不同子类对象&#xff0c;在做同一行为的时候&#xff0c;有不同的表现形式&#xff0c;这就是多态。&#xff08;总结为&#xff1a;一个父类下的不同子类&#xff0c;同一行为&#xff0c;不同表现形式。&#xff0…

Python迭代器和生成器:迭代器协议①

文章目录 1. 什么是迭代器2. 迭代器协议2.1 __iter__() 方法2.2 __next__() 方法2.3 示例代码2.4 迭代器的优点 3. 创建自定义迭代器示例代码 4. 迭代器的高级用法4.1 无限序列4.2 示例代码4.3 文件迭代器4.4 示例代码 5. 综合详细例子5.1 示例代码student.pystudent_iterator.…