论文笔记:(INTHE)WILDCHAT:570K CHATGPT INTERACTION LOGS IN THE WILD

ops/2024/9/22 23:02:16/

iclr 2024 spotlight reviewer 评分 5668

1 intro

  • 由大型语言模型驱动的对话代理(ChatGPT,Claude 2Bard,Bing Chat)
    • 他们的开发流程通常包括三个主要阶段
      • 预训练语言模型
      • 在被称为“指令调优”数据集上进行微调,以使模型的行为与人类偏好保持一致
      • 可选地应用基于人类反馈的强化学习(RLHF),以进一步优化模型的响应
    • 虽然基础模型训练数据丰富且容易获得,但关键的指令调优数据集往往是专有的,这导致希望推进该领域的研究人员在可访问性上存在差距
  • 现有的用户-聊天机器人互动数据集主要有两种类型
    • 自然使用案例
      • 包括实际用户互动,大多是专有的
    • 专家策划的集合
      • 研究人员通常不得不依赖专家策划的数据集
      • 这些数据集在分布上通常与现实世界的互动不同,而且通常限于单轮对话
  • 为了弥补这一差距,本文介绍了(INTHE)WILDCHAT数据集
    • 一个全面的多轮、多语种数据集
    • 包括通过ChatGPT和GPT-4 API支持的聊天机器人服务收集的570,000次完整对话,涵盖超过150万次互动轮次
  • WILDCHAT服务于多个研究目的
    • 提供了比现有聊天机器人数据集更接近现实世界的多轮、多语种用户-聊天机器人互动的近似,填补了研究社区可用资源的重要空白
    • 分析表明,WILDCHAT在语言和语义方面比现有数据集更具多样性
    • 在这个数据集中发现了令人惊讶的高水平的毒性——超过10%的互动
    • 展示了该数据集用于指令调优聊天机器人的有效性——仅在原始数据集上进行微调的语言模型就超过了最先进的开源聊天机器人

2 数据收集

2.1 收集方法

  • 为了收集WILDCHAT数据集,论文部署了两个聊天机器人服务,一个基于GPT-3.5-turbo API,另一个基于GPT-4 API
  • 这两个服务都托管在Hugging Face Spaces上,并向公众开放

2.2 用户同意机制

2.3 数据预处理

  • 上述数据收集步骤产生了1,543,271条对话日志,其中包括部分对话和完整对话。
  • 为了识别并移除部分对话,论文检查一个对话日志是否是任何其他对话日志的前缀;
    • 这一处理步骤产生了586,031条完整对话。
  • 然后论文尽最大努力移除对话中的个人身份信息(PII)。
  • 论文还过滤掉了13,638条对话,这些对话中要么是用户连续发言,要么是助手连续发言,以保持一致的用户-助手轮换格式。
  • ——>这些预处理步骤共留下了572,393条对话。

3 数据分析

4  毒性分析

5 使用WILDCHAT进行instruction tuning

在WILDCHAT上训练了一个Llama-2 7B模型,从而产生了一个称为WILDLLAMA的新模型

第6章 局限性

6.1 用户人口统计学

鉴于聊天机器人服务托管在Hugging Face Spaces上,与之交互的大多数用户可能是开发者或与IT社区密切相关的人士。这一人群可能并不反映一般人口,并且可能也解释了数据集中出现的特定类型的对话,如编程问题。

6.2 毒性选择偏见

用户使用论文提供的聊天机器人服务的一个潜在原因是它提供匿名性。论文怀疑,这些用户可能更倾向于产生他们在需要账户注册的平台上不会分享的内容。作为一个典型的例子,如Hacker News中的讨论所示,匿名平台有时可能吸引更多毒性质的内容。然而,我们服务的匿名性使得更详细地分析我们用户群的人口统计学变得具有挑战性。


http://www.ppmy.cn/ops/3138.html

相关文章

原牛角源码(修罗bbs)全站程序打包带数据库备份

原牛角源码(修罗bbs)全站程序打包带数据库备份,牛角源码全站数据全站文件、插件打包分享给大家,有兴趣的可以搭建玩玩! conf文件夹中自己配置conf.php里面的数据库链接文件,默认管理账号:admin,密码&#…

Java插值查找知识点(含面试大厂题和源码)

插值查找(Interpolation Search)是一种在有序数组中查找特定元素的搜索算法。它是基于二分查找(Binary Search)的改进版本,特别适合当数据分布均匀时使用。插值查找的关键思想是利用数据的分布特性,预测要查…

鸿蒙OpenHarmony【搭建Ubuntu环境】

搭建Ubuntu环境 在嵌入式开发中,很多开发者习惯于使用Windows进行代码的编辑,比如使用Windows的Visual Studio Code进行OpenHarmony代码的开发。但当前阶段,大部分的开发板源码还不支持在Windows环境下进行编译,如Hi3861、Hi3516…

英语日常用语柯桥职场英语学习去哪里?专业语言培训推荐泓畅学校

“摸鱼”的英语表达 职场,总有些看似努力工作的同事,很可能是深藏不漏的“摸鱼圣手”。 但“摸鱼”的英文表达绝对不是“touch fish”这么简单!上班摸鱼,就是不好好干活、浪费时间,所以“loaf”这个单词有必要了解一下…

鸿蒙原生应用元服务-访问控制(权限)开发场景与权限声明

一、场景介绍 应用的APL(Ability Privilege Level)等级分为normal、system_basic和system_core三个等级,默认情况下,应用的APL等级都为normal等级。权限类型分为system_grant和user_grant两种类型。 二、配置文件权限声明 应用需要…

功能强大的开源数据中台系统 DataCap 2024.03.3 发布

推荐一套基于 SpringBoot 开发的简单、易用的开源权限管理平台,建议下载使用: https://github.com/devlive-community/authx 推荐一套为 Java 开发人员提供方便易用的 SDK 来与目前提供服务的的 Open AI 进行交互组件:https://github.com/devlive-commun…

安卓接收后台数据转模型int默认为double

问题:后台登录接口返回userid(int整型10000),app前端(使用okgo)拿到userid(double类型10000.0);导致app前端进行接下来操作如App中a用户使用userid转字符串后“10000.0”…

Type-C保温杯/小家电sink取电方案,支持PD/QC/AFC多协议

Type-C接口如今已广泛应用于各种电子产品,从手机、电脑到音箱、耳机,几乎无处不在。这一接口的普及,极大地简化了充电和数据传输的过程,使我们的生活变得更加便捷。最近,市场上又出现了一款令人瞩目的新产品——Type-C…