Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena

news/2024/12/26 10:29:25/

在这里插入图片描述

指令微调后的模型不一定在传统Benchmark上取得更好的结果,类似MMLU和HELM。根据人类爱好对齐后的模型,需要新的评测方法。

文章提出了两个主要内容:MT-bench和Chatbot Arena

MT-bench是一系列开放式问题,用于评估聊天机器人的多回合对话和指令遵循能力——这是人类偏好的两个关键因素。MT-bench还精心构建,根据其核心能力(如推理和数学)区分聊天机器人。

此外,我们还开发了聊天机器人竞技场(Chatbot Arena),这是一个众包平台,可以让聊天机器人在真实场景中进行匿名战斗——用户可以同时与两个聊天机器人进行对话,并根据个人偏好对它们的反应进行评分。

并且发现了模型评测存在的些许问题:位置偏见,冗长偏见,自我增强偏见,和有限的推理能力

MT-Bench

现有的评估方式一般有三种

  1. 核心知识benchmark:有固定的回答,可以自动校验
  2. 指令跟随:是稍微开放性的问题
  3. 聊天benchmark:问题多样性,复杂、开放。

MT-bench:80条多轮对话,总共8个类别:写作、角色扮演、提取、推理、数学、编码、知识I (STEM)和知识II(人文/社会科学)。每一个类里有10条多轮对话。

Chatbot-arena

匿名对战平台,让不同的模型对一个输入进行回答,选择哪一个更好。

LLM-as-a-judge

三种评估模式:

  1. 成对比较:给大模型一个问题两个回答,选择哪一个更好,或者平局。
  2. 单回答评分:直接给出一个分数。
  3. 参考指导评分:给样例,按照样例模式给分。

advantage

可扩展,可解释

limitations

  1. position bias:大模型可能倾向于放在前面的样例,或者某些位置的样例。
  2. verbosity bias:大模型更倾向于冗长的回复
  3. self-enhancement bias:大模型更倾向于自己生成的回答
  4. Limited capability in grading math and reasoning questions:难以评价数学和推理问题

address limitations

  1. 交换位置,两次评分
  2. few-shot
  3. 思维链+先生成参考答案,指导思考
  4. 微调一个判断模型

多轮对话评估

  1. 分多次输入多轮对话的评估
  2. 一次输入全部对话评估

作者发现2更好

Agreement Evaluate

作者评估了在MT-bench和Chatbot Arena上,人类和LLM判官之间的一致性。

MT-bench

在6个大模型上问了这80个问题,然后使用两种评价:

  1. 58个专家评价
  2. LLM评价

人类和GPT-4模型的高度一致

GPT-4的两两比较和单一答案评分显示与人类专家的一致性非常高。GPT-4与人类在设置S2 (w/o tie)下的一致性达到85%,甚至高于人类之间的一致性(81%)。这意味着GPT-4的判断与大多数人类密切一致。不沦是comparison还是single score,都能给出不错的答案。

在这里插入图片描述


http://www.ppmy.cn/news/1558246.html

相关文章

Day7补代码随想录 454.四数相加II 383赎金信 15.三数之和 18.四数之和

链接 https://programmercarl.com/0454.%E5%9B%9B%E6%95%B0%E7%9B%B8%E5%8A%A0II.html 454.四数相加II 题目 给你四个整数数组 nums1、nums2、nums3 和 nums4 &#xff0c;数组长度都是 n &#xff0c;请你计算有多少个元组 (i, j, k, l) 能满足&#xff1a; 0 < i, j,…

Google AdMob广告变现常见违规行为排查

AdMob类似国内的穿山甲、优量汇等广告平台&#xff0c;可帮助APP开发者快速实现广告变现。对海外应用广告变现而言&#xff0c;AdMob是商业化的必接入平台。为了让防止AdMob账号被限流的问题&#xff0c;开发者要从根源入手解决。#AdMob# &#xff08;一&#xff09;广告点击率…

VSCode 插件开发实战(六):配置自定义状态栏

前言 VSCode 作为一款功能强大的代码编辑器&#xff0c;以其高度的可扩展性和丰富的插件生态系统而备受开发者青睐。在现代软件开发中&#xff0c;定制化和高效是提高生产力的关键。本文将详细介绍如何通过自定义插件在 VSCode 的状态栏中添加专属的功能项&#xff0c;帮助开发…

数据分析的分类和EDIT思维框架

为了服务于企业不同层次的决策&#xff0c;商业数据分析过程需要提供相应的数据科学产出物。 一般而言&#xff0c;数据分析需要经历从需求层、数据层、分析层到输出层四个阶段。 第一个阶段是需求层——确定目标&#xff0c;具体目标需要依据具体的层次进行分析&#xff1a…

地理数据库Telepg面试内容整理-分布式与高可用

在 Telepg 地理数据库 的应用场景中,尤其是在处理大规模地理数据时,分布式架构 和 高可用性(HA)设计 是确保系统可扩展性、容错性和高性能的关键。以下是分布式架构和高可用性设计的详细指南,涵盖了数据库分布式存储、数据分片、负载均衡、容错机制等方面的最佳实践。 分布…

Vue3 +Element-Plus el-select下拉菜单样式(局部生效)

下拉框代码 <el-selectclass"buttons-switch-group select-hub":teleported"false"style"width: 120px"v-model"queryParam.type"placeholder"请选择"size"mini"change"loadData"><el-option…

【每日学点鸿蒙知识】大图性能问题、WebView加载网页问题、H5页面数据更新问题、安全控件位置影响数据保存、企业内部应用发布

1、Image大图使用了.blur会有性能问题&#xff0c;有没有平替方案&#xff1f; 参考demo&#xff1a; async aboutToAppear(): Promise<void> {let OutData: http.HttpResponsehttp.createHttp().request("http:myURL.jpg",(error: BusinessError, data: htt…

echarts地图可视化展示

地图可视化展示 获取地图json数据下载json数据代码示例 获取地图json数据 全国各地市json文件下载地址&#xff1a; http://datav.aliyun.com/portal/school/atlas/area_selector#&lat33.521903996156105&lng104.29849999999999&zoom4 https://hxkj.vip/demo/ech…