新个性化时尚解决方案!Prompt2Fashion:自动生成多风格、类型时尚图像数据集。

embedded/2024/10/10 23:12:50/

今天给大家介绍一种自动化生成时尚图像数据的方法Prompt2Fashion。 首先创建了一组描述,比如“适合婚礼的休闲风格服装”,然后用这些描述来指导计算机生成图像。具体来说,他们使用了大型语言模型来写出这些服装的描述,接着将这些描述输入到另一个模型中,生成出实际的服装图像。为了确保这些图像看起来好看且合适,研究人员还请了一些人来检查这些图像,确保它们符合时尚的标准。因此,该方法可以快速有效地创造出符合不同场合和风格需求的时尚图像。

相关链接

论文地址:http://arxiv.org/abs/2409.06442v1

项目地址:https://github.com/georgiarg/Prompt2Fashion

论文阅读

Prompt2Fashion:自动生成的时尚数据集

摘要

人工智能 (AI) 与时尚的结合正在通过增强创造力、个性化和效率来彻底改变行业。从设计服装到预测趋势,人工智能正成为时装设计师、零售商和营销人员不可或缺的工具。然而,将人工智能融入时尚面临着重大挑战,特别是在评估人工智能生成的内容方面,这通常需要领域专业知识来确保相关性、风格和吸引力。

在这项工作中,我们展示了一个自动生成的时尚图像数据集,专注于个性化。该数据集涵盖了各种要求,包括性别、体型、场合和风格,以及它们的组合。通过利用大型语言模型 (LLM) 的功能以及扩散模型,我们提供了一种可扩展的时尚图像生成解决方案。我们的方法消除了设计最终服装时需要人工干预甚至扩散模型的条件提示的需要。

LLM 和扩散模型促进了生产的可扩展性,确保可以高效生成各种时尚图像。语言生成中的 LLM 以及图像生成中的扩散模型提供的质量保证由人类评估员验证。此验证过程反映了潜在消费者如何看待这些 AI 生成的服装,确保内容不仅在技术上精湛,而且还与当前的时尚趋势和消费者偏好产生共鸣。

鉴于人工智能正在创意领域取得重大进展,人类监督对生成内容的监管至关重要。毕竟,时尚图像合成框架最终是为该领域的专家(例如时装设计师)设计的。这些人工智能生成的图像很可能是创意过程的初步步骤,而不是最终产品。因此,人工智能生成的时尚内容必须由具有领域专业知识的个人进行评估。为此,在这项工作中,我们不仅为创意人员和工程师提供了一个开放的、自动生成的数据集,而且还强调了让专家参与评估过程的重要性,这不仅基于上述概念,还基于实验结果。

方法

本研究采用了大型语言模型(LLMs)和扩散模型(Diffusion Model)相结合的方法,生成时尚图像。首先,通过构建包含“风格、场合、性别”或“风格、场合、类型”的变量三元组,形成定制的提示模板。然后,这些提示被输入到LLMs中,如Mistral-7B和Falcon-7B,生成对应的服装描述。这些描述随后被用作扩散模型的输入,以生成最终的时尚图像。在实验中,研究者们创建了2000个样本,每个样本包含LLM输出的描述、原始三元组以及扩散模型生成的图像。为了确保生成的图像质量,研究者们还通过人类评估者进行评审,确保生成的时尚内容不仅在技术上可行,同时符合当前时尚趋势。

实验

由Stable Diffusion生成的图像,用5种不同的方法生成描述

由 Stable Diffusion 生成的描述和图像,其中的描述由 2 个不同的 LLM 生成,用于零样本学习、小样本学习和思维链(左栏为 Falcon-7B 模型,右栏为 Mistral-7B 模型)。

由 Stable Diffusion 生成的描述和图像,以及由 2 个不同的 LLM 为 RAG 生成的带有 PDF 的描述 并以 BLOG 作为来源(左栏为 Falcon-7B 模型,右栏为 Mistral-7B 模型)。

图像评价

描述评价

结论

本研究提出了一种生成由 2,000 张图像和描述组成的综合时尚数据集的新方法。通过利用 LLM 和扩散模型,我们创建了适合各种场合、风格和体型的多样化时尚内容集合。我们的评估表明,生成的图像和描述既相关又美观。虽然非专家的反馈证实了它们的吸引力,但专家评估对于确保高标准的时尚质量和适销性至关重要。因此,未来的工作将侧重于结合专家评级,以进一步完善数据集并增强其实用性。总体而言,该数据集代表了人工智能驱动的时装设计的重大进步,为行业进一步研究和应用提供了宝贵的资源。

未来工作

  • 目前正在创建 Hugging Face 数据集,以便研究人员和开发人员更轻松地访问和使用 Prompt2Fashion 数据集。Hugging Face 上的数据集将包括图像、其相应的描述和元数据,从而实现与机器学习框架和工具的无缝集成。

  • 为了进一步帮助用户浏览和使用 Prompt2Fashion 数据集,我们还将提供 Excel 指南。该指南将结合描述和图像,提供一种便捷的方式来探索数据集。Excel 文件中的每个条目将包括:

    1. 生成的图像。

    2. 相关描述。

    3. 元数据,例如使用的模型(Mistral 或 Falcon)、风格类别和评估分数(如适用)。


http://www.ppmy.cn/embedded/125593.html

相关文章

音频进阶学习三——离散时间信号与系统

文章目录 前言一、离散时间信号1.基本信号2.离散时间信号的分类3.离散时间信号的简单运算4.单位脉冲在运算中的作用 二、离散时间系统1.什么是离散时间系统2.离散系统的分类 总结 前言 前面博主介绍了信号中的连续时间信号和离散时间信号,数字信号也是离散时间信号…

python 实现Tarjan 用于在有向图中查找强连通分量的算法

Tarjan 用于在有向图中查找强连通分量的算法介绍 Tarjan算法是一种用于在有向图中查找强连通分量的高效算法,由Robert Tarjan在1972年提出。强连通分量是指在有向图中,如果从顶点u到顶点v以及从顶点v到顶点u都存在一条路径,那么顶点u和顶点v…

mysql迁移到达梦数据库报错:参数不兼容

1: 这个错误可能是某个字段‘定义超长’,尝试: 2: 如果还报错,指定和mysql同版本驱动

python 生成exe之后,想更换图标的方法

在 Python 中,使用 PyInstaller 来将你的脚本打包成 .exe 文件,并且想要更换生成的可执行文件的图标,可以使用 icon 参数来指定一个 .ico 文件。 以下是一般的步骤: 1、准备图标文件: 你需要一个 .ico 格式的图标文件…

Leetcode 135-分发糖果

1)所有人分1个candy 2)从左往右查看,若满足左规则,令 candy[i] candy[i - 1] 1 3)从右往左查看,若满足右规则,令 candy[j] Math.max(candy[j 1] 1,candy[j]),取最大值是为了在满足…

门窗对象检测系统源码分享[一条龙教学YOLOV8标注好的数据集一键训练_70+全套改进创新点发刊_Web前端展示]

门窗对象检测系统源码分享 [一条龙教学YOLOV8标注好的数据集一键训练_70全套改进创新点发刊_Web前端展示] 1.研究背景与意义 项目参考AAAI Association for the Advancement of Artificial Intelligence 项目来源AACV Association for the Advancement of Computer Vision …

YOLOv10改进策略【注意力机制篇】| MCAttention 多尺度交叉轴注意力

一、本文介绍 本文记录的是基于MCA注意力模块的YOLOv10目标检测改进方法研究。普通的轴向注意力难以实现长距离交互,不利于捕获分割任务中所需的空间结构或形状,而MCA注意力模块通过构建了两个并行轴向注意力之间的交互,更有效地利用多尺度特…

Registry私有仓库可视化

Docker Registry 是一个用于存储和分发 Docker 镜像的服务,它支持构建私有仓库来管理组织内部的应用程序和镜像。然而,默认的 Docker Registry 并没有提供图形界面,这使得管理镜像变得不太直观。为了方便管理和查看私有仓库中的镜像&#xff…