OpenAI 联合 SWE 发布 AI 软件工程能力测试集,Gru.ai 荣登榜首

embedded/2024/11/9 16:43:17/

在 9 月 3 日,Gru.ai 在 SWE-Bench-Verified 评估最新发布的数据中以 45.2% 的高分排名第一。SWE-Bench-Verified 是 OpenAI 联合 SWE 发布测试集,旨在更可靠的评估 AI 解决实际软件问题的能力。该测试集经由人工验证打标,被认为是评估 AI 软件工程能力的最权威标准。

在这里插入图片描述

本次参评登顶的 Coding Agent 是来自 Gru.ai 的 Bug Fix Gru。根据 Gru 团队的博客,他们提供给 Bug Fix Gru 完整的运行环境及丰富的开发工具,这是获取高分的基础,而工作流程,多模态支持,Rag 能力的添加都有效提高了得分。值得关注的是,Gru 团队着重提到了他们有一个评估流程来评估任何改动带来的影响。

Gru.ai 是一家提供软件工程 Agent(智能体)的公司,提供四种 Agent:
Assistant Gru:帮助用户解决独立的技术问题,该产品可直接在网站注册使用。
Test Gru:基于用户代码补全单测的 Agent,目前该产品仅面相企业开放。
Bug Fix Gru:基于 Github Issue,直接提交 Patch,目前该产品仅面向企业开放。
Babel Gru:基于技术文档生成软件,目前该产品仍处于实验室阶段。

Gru 在今年一月披露了一笔 550 万美金的融资,投资方为云九资本和峰瑞资本。在 2023 年到 2024 年两年间,国际上大量的资金涌入代码 Agent 领域,如 Devin、Cosine.sh、Factory、Codium.ai 等,但国内针对软件工程领域 AI 的投资仍然较少。Gru 团队拥有丰富的软件工程和 AI 实践经验,CEO 张海龙曾是开源中国及 Coding.net 创始人。
随着资金和大公司的视线逐步从大模型转向上层应用,AI 行业的主要进步方向已经开始转向处理复杂精密的任务,而非简单的生成文本内容。而 Gru.ai 的成功登顶,标志着国人团队在 Agent 领域的工程技术能力处于第一梯队。


http://www.ppmy.cn/embedded/111261.html

相关文章

TCP核心机制

TCP基本特点:有连接,面向字节流,全双工,可靠传输(TCP最核心的机制) 核心机制一(确认应答): 在网络中,可能我们传输的消息会因为诸多原因导致发送到对方手中的顺序不一样,举个例子: 在这张图中…

十分钟学会Kubernetes(K8S) 部署SpringBoot3.0

1、十分钟学会Kubernetes(K8S) 部署SpringBoot3.0 本课程以 Java 后端开发的视角,带着大家从零基础入门 k8s 实战,掌握企业级容器化管理平台的各种实战应用,以及 Prometheus 监控告警、ELK 日志收集、DevOps 等众多实战课程内容,大…

vue原理分析(十一)研究new Vue()中的initRender

在Vue.prototype._init 中有一些init函数,今天我们来研究这些init函数 Vue.prototype._init function (options) {......{initProxy(vm);}......initLifecycle(vm);initEvents(vm);initRender(vm);callHook$1(vm, beforeCreate, undefined, false /* setContext *…

Oracle RAC环境NBU异机恢复

一、故障原因 9月3日中午,主机运维人员误操作,对sydb数据库的ASM磁盘做了格式化,将三块共享磁盘做了分区,然后使用vgextend命令加入到本地文件系,造成sydb的两个实例异常,没有操作CRS磁盘,所以…

Vue3+TS项目给el-button统一封装一个点击后转圈效果的钩子函数按钮防抖

前言 每个按钮都要单独定义一个loading变量,并且在接口请求前修改为true,接口响应后再修改为false,封装后这段重复的逻辑就可以统一管理不用每次都写一遍了。 效果 新建一个公共的src\common.ts import { ref } from "vue"expor…

2024网络安全学习路线,最全保姆级教程,学完直接拿捏!

关键词: 网络安全入门、渗透测试学习、零基础学安全、网络安全学习路线 首先咱们聊聊,学习网络安全方向通常会有哪些问题 前排提示:文末有CSDN独家网络安全资料包! 1、打基础时间太长 学基础花费很长时间,光语言都有…

常用环境部署(十八)——CentOS7搭建DNS服务器

一、安装Bind服务器软件并启动 1、安装Bind服务 yum -y install bind bind* 2、 启动服务 systemctl start named 3、开机自启动 systemctl enable named 二、查看named进程是否正常启动 1、检查进程 ps -eaf|grep named 2、检查监听端口 ss -nult|grep :53 三、关闭…

2024年9月9日--9月15日(freex源码抄写+ue5肉鸽视频一节调节)

现在以工作为中心,其他可以不做硬性要求。周一到周四,晚上每天300行freex源码抄写,周六日每天1000行。每周3200行,每天完成该完成的即可,早上有时间时进行一小节独立游戏相关的视频教程作为调节即可,不影响…