论文略读:SWE-bench: Can Language Models Resolve Real-world Github Issues?

devtools/2024/9/25 4:23:39/

iclr 2024 oral reviewer评分 5668

  • 现有的语言模型(LMs)的基准测试已经饱和,无法捕捉到最先进的语言模型能做什么和不能做什么的前沿。
    • ——>要具有挑战性的基准测试
  • 论文引入了SWE-bench
    • 在现实软件工程环境中评估语言模型的基准测试
      • ​​​​​​​模型的任务是解决提交到热门GitHub仓库的问题(通常是bug报告或功能请求)
      • 每个任务都需要生成描述对现有代码库应用的更改的补丁。
      • 然后,使用仓库的测试框架评估修订后的代码库
    • 修复一个bug可能涉及导航一个大型仓库,理解不同文件中的功能之间的相互作用,或者在复杂的代码中发现一个小错误
    • 这个是现有的编码基准测试不具备的
      • HumanEval主要涉及自包含问题,这些问题可以在几行代码内解决

  •  SWE-bench相较于现有的LM编程基准测试具有多个优势
    • 利用用户提交的问题和解决方案的现实设置
    • 从12个仓库中提取的独特代码问题的多样输入
    • 基于执行的评估的强大框架
    • 能够持续用新实例更新基准测试,几乎不需要人工干预

  • 论文对多个最先进的语言模型在SWE-bench上进行了评估,发现它们除了最简单的问题外,都未能解决
    • 使用BM25检索器,Claude 2只能解决1.96%的问题

  • 除了SWE-bench外,论文的贡献还包括发布了一个训练数据集,SWE-bench-train,这对于在这一挑战领域推进开放模型的发展至关重要。
    • 这个数据集包括从37个仓库中派生的19,000个非测试任务实例
    • 利用SWE-bench-train,论文发布了两个微调模型,SWE-Llama 7b和13b,基于CodeLlam模型
      • 在某些设置中,SWE-Llama 13b与Claude 2竞争,并且能够处理超过100,000个标记的上下文


http://www.ppmy.cn/devtools/5668.html

相关文章

4.2OpenCV-运动分析类、OpenCV-对象分割类、 OpenCV-颜色过滤器类、OpenCV-简单图像处理类

4.2.6 OpenCV-运动分析类 本节内容介绍OpenCV中的运动分析类demo 4.2.6.1 goodfeature_track 角点检测 机器人端启动摄像头roslaunch robot_vision robot_camera.launch 机器人端启动角点检测roslaunch robot_vision goodfeature_track.launch PC端启动rqt_image_view工具/…

记【k8s】:访问 Prometheus UI界面:kubernetes-etcd (0/1 up) Error : out of bounds

记【k8s】:访问 Prometheus UI界面:kubernetes-etcd (0/1 up) Error : out of bounds 1、报错详情2、解决方法💖The Begin💖点点关注,收藏不迷路💖 出现 “out of bounds” 错误可能意味着Prometheus UI尝试访问的资源超出了范围。 1、报错详情 问题出在Prometheus…

Rust面试宝典第6题:快乐数

题目 编写一个算法,判断一个数n是不是快乐数。快乐数的定义如下: 对于一个正整数,每一次将该数替换为它每个位置上的数字的平方和。然后重复这个过程直到这个数变为 1,也可能是无限循环,但始终变不到1。如果这个过程的结果为1,那么这个数就是快乐数。如果n是快乐数 就返回…

【做一名健康的CSDNer】程序员脱单真的很难吗?

脱单的难易程度并不取决于一个人是否是程序员,而是受到多种因素的影响,包括个人的社交能力、生活方式、个性特点、外貌形象、兴趣爱好等。程序员这个职业群体并不例外。 对于程序员来说,可能面临的挑战包括: 工作时间:…

墨子web3实时周报

蚂蚁集团Web3研发进展与布局 国内Web3赛道的领军企业——蚂蚁集团,凭借其在前沿科技领域的深耕不辍,已在Web3技术研发疆域缔造了卓越战绩。特别是在引领行业革新的关键时刻,集团于今年四月末震撼推出了颠覆性的Web3全套解决方案,…

python——函数

概念 函数就是将一段具有独立功能的代码块整合到一个整体并命名,在需要的位置调用这个名称去完成对应的需求 定义函数 def 函数名(参数):代码1......return 值函数名 函数名由编程人员自定义的,满足标识符命名规则…

【刷题】 二分查找进阶

送给大家一句话&#xff1a; 你向神求助是因为相信神&#xff0c;神没有回应你是因为神相信你 ε≡٩(๑>₃<)۶ &#xfeff;ε≡٩(๑>₃<)۶ &#xfeff;ε≡٩(๑>₃<)۶ 一心向学 二分查找进阶 1 前言Leetcode 852. 山脉数组的峰顶索引题目描述算法思…

蓝桥杯刷题-数星星

1265. 数星星 - AcWing题库 /* 题目中的y是递增&#xff0c;不影响 */ /* 直接看作一维数组的更新维护 */ /* 将数据二进制化&#xff0c;拿最低位的1 */ /* 转化为线段树的解法才是核心 */ /* 思想是前缀和 */ #include <bits/stdc.h>using namespace std;const int N …