ImageRewrad

news/2024/11/16 18:54:31/

ImageReward: Learning and Evaluating Human Preferences for Text-to-Image Generation

https://arxiv.org/pdf/2304.05977.pdf
https://github.com/THUDM/ImageReward

ImageRewrad:使生成模型与人类价值观和偏好保持一致。基于137k专家注释数据集训练,包括评级和排序。

在这里插入图片描述

数据集准备

prompt和img来源于DiffusionDB。

为了确保所选prompt主题分布多样性,基于kNN构建prompt的相似度图,迭代选择最高度prompt,并在每轮迭代之后降低与所选prompt相邻的顶点的权重度。该模型产生10k个候选prompt。

对于每个prompt,都有4到9个样本图像,用于后续的人类偏好排序,产生177304对候选文本-图像。

数据集注释

(1)基于李克特7点量表,从3个维度文本图像对齐、保真度、整体质量进行评分
衡量标准:一致性、保真度和无害性
• 图像对齐:要求生成的图像准确显示prompt内容,并且prompt中描述的对象和事件之间的关系是正确的。
• 保真度:关注图像的质量,尤其是生成图像中的对象是否逼真、美观、图像本身是否无误。
• 无害性:即图片不能含违法、有偏见的内容,不能引起心理不适。
在这里插入图片描述
(2)从整体角度对图像进行比较排序
在这里插入图片描述
最终收集8878条有效prompt,共计136892对。
主题分布:抽象、动物、人工制品、艺术、食品、插画、室内场景、室外场景、人物、植物、车辆和世界知识。
在这里插入图片描述

偏好学习和推理

基于注释的数据集训练模型:BLIP+MLP

结论:对于抽象类别的图片生成质量最低。

最严重的问题是身体问题,最常出现在”人物“、”艺术“类别中。身体问题表明缺乏对精确身体和肢体结构的了解。

重复生成,在对数量要求严格的场景中容易重复生成。

模型无法在生成图片的过程中过滤暴力内容(例如“怪物从洞穴中窥视,黑暗的灯光,恐怖,逼真”)。

增加”功能“短语比例,如”8k“、”非常详细“,可以提高生成图像的质量。


http://www.ppmy.cn/news/572590.html

相关文章

python Image

Python-Image 基本的图像处理操作,有需要的朋友可以参考下。 Python 里面最常用的图像操作库是 Image library(PIL),功能上,虽然还不能跟Matlab比较,但是还是比较强大的,废话补多少&#xff0c…

【雕爷学编程】Arduino动手做(125)---WT588D语音模块

37款传感器与执行器的提法,在网络上广泛流传,其实Arduino能够兼容的传感器模块肯定是不止这37种的。鉴于本人手头积累了一些传感器和执行器模块,依照实践出真知(一定要动手做)的理念,以学习和交流为目的&am…

ImageList

例如: CImageList m_imageList; //创建CImageList对象 m_imageList.Create(16, 16, ILC_COLOR8, 0, 4); //加载图标 m_imageList.Add(AfxGetApp()->LoadIcon(IDI_ICON_ROOT)); 然后该CTreeCtrl了,这是一个树形列表控件,提供了分层级结构…

imageio.get_reader()

imageio.get_reader(uri, formatNone, mode?, **kwargs) 参数 uri:{str, pathlib.Path, file} 读取的源,例如文件名、pathlib.path、http地址或文件对象, format:str 用于读文件,默认系统基于文件名选择合适的. mode:{‘i’, ‘I’, ‘…

用Adobe ImageReady制作简单GIF动画

以前也玩过,但是好久不用,忘记了,这次记下来备忘 原理: 利用在Photoshop中先制作多图层的图片 然后再在ImageReady中通过加Frame,以及控制每个Frame的显示隐藏来制作动画 例:制作一个简单的两桢GIF动画 1.Photoshop中做一个两层图片(都要显示,图层前的眼睛) 2.到ImageRe…

一、枚举类型——多路分发

当你处理多个交互类型时,程序可能会变得相当混乱。举例来说,考虑一个解析并执行数学表达式的系统。里面可能包括 Number.plus(Number)、Number.multiply(Number) 等,此处的 Number 是数值对象家族的基类。但是当你要执行 a.plus(b)&#xff0…

基于51单片机设计的计算器

一、项目介绍 计算器是一种常见的电子产品,广泛应用于各个领域。而基于单片机的计算器设计则是学习单片机的一个重要环节。本项目基于STC89C52单片机设计了一款基本的四则运算计算器。 项目里采用了单片机的IO口、定时器和LCD1602显示屏等技术原理。其中,IO口用于控制矩阵键…

Jetpack Compose 入门难点解疑

作者:晴天小庭 近些年声明式布局开发方式逐渐从网页端延展到了手机端,说到底还是声明式太香了,其代码更加清晰、简洁,并且更接近于自然语言的表达方式。这使得代码易于理解和维护,降低了开发人员的心智负担。 谷歌和苹…