ImageRewrad

news/2025/1/1 0:20:40/

ImageReward: Learning and Evaluating Human Preferences for Text-to-Image Generation

https://arxiv.org/pdf/2304.05977.pdf
https://github.com/THUDM/ImageReward

ImageRewrad：使生成模型与人类价值观和偏好保持一致。基于137k专家注释数据集训练，包括评级和排序。

在这里插入图片描述

数据集准备

prompt和img来源于DiffusionDB。

为了确保所选prompt主题分布多样性，基于kNN构建prompt的相似度图，迭代选择最高度prompt，并在每轮迭代之后降低与所选prompt相邻的顶点的权重度。该模型产生10k个候选prompt。

对于每个prompt，都有4到9个样本图像，用于后续的人类偏好排序，产生177304对候选文本-图像。

数据集注释

（1）基于李克特7点量表，从3个维度文本图像对齐、保真度、整体质量进行评分
衡量标准：一致性、保真度和无害性
• 图像对齐：要求生成的图像准确显示prompt内容，并且prompt中描述的对象和事件之间的关系是正确的。
• 保真度：关注图像的质量，尤其是生成图像中的对象是否逼真、美观、图像本身是否无误。
• 无害性：即图片不能含违法、有偏见的内容，不能引起心理不适。
在这里插入图片描述
（2）从整体角度对图像进行比较排序

最终收集8878条有效prompt，共计136892对。
主题分布：抽象、动物、人工制品、艺术、食品、插画、室内场景、室外场景、人物、植物、车辆和世界知识。