Agentless:OpenAI 采用的非代理框架

news/2025/1/14 18:02:59/

不需要代理库来解决复杂的业务问题。Agentless 是OpenAI采用的非代理框架,用于在 o3 的 SWE Bench 上实现最高精度。SWE-bench 是
github的真实软件工程问题基准。Agentless 遵循简单的三阶段流程:本地化、修复和补丁验证:

1 ⃣生成存储库的树状结构以及问题/功能描述。
2 ⃣使用提示和基于嵌入的检索来识别最可疑的文件。
3 ⃣仅向 LLM 提供每个可疑文件的类和函数签名(“骨架”)。
4 ⃣在已识别的类/功能中,精确定位需要修改的确切行。
5 ⃣ LLM 为每个可能解决问题的位置生成多个搜索/替换差异(补丁)。
6 ⃣提示 LLM 创建测试来确认该错误是否仍然出现。
7 ⃣运行回归测试以避免破坏现有行为。
8 ⃣选择最佳补丁(通过多数投票和测试一致性)并更新文件

见解:
🥇 Claude 3.5 Sonnet 在 SWE-bench lite 上的求解率分别达到 40.7% 和 50.8%,并经过验证
🧠被 OpenAI 采用用于 GPT-4o、o1 和o3模型性能。
💰平均每期成本为 0.70 美元,明显低于基于代理的方法
🔍将嵌入和快速检索结合起来可提高准确性
🧪生成复制测试显著促进了补丁选择
📝使用“搜索/替换”差异代替完全的代码重写可以减少错误
💡简单的本地化+修复流程可以击败基于代理的框架

无代理是一个很好的例子,说明如何专注于解决问题可以避免传统基于代理的系统的复杂性和缺陷。

参考资料

https://x.com/_philschmid/status/1878395725404344390


http://www.ppmy.cn/news/1562841.html

相关文章

对Python的深度学习

程序员对 Python 的深度学习,是在掌握 Python 基础语法和常见库的基础上,进行的更为深入和全面的探索。这不仅能提升程序员的编程能力,还能为其在不同领域的项目开发中提供强大助力。 深入掌握 Python 高级特性 元类编程:元类是…

Leetcode2275:按位与结果大于零的最长组合

题目描述: 对数组 nums 执行 按位与 相当于对数组 nums 中的所有整数执行 按位与 。 例如,对 nums [1, 5, 3] 来说,按位与等于 1 & 5 & 3 1 。同样,对 nums [7] 而言,按位与等于 7 。 给你一个正整数数组…

Nginx | 解决 Spring Boot 与 Nginx 中的 “413 Request Entity Too Large“ 错误

关注:CodingTechWork 引言 在 Web 开发中,413 Request Entity Too Large 是一种常见的 HTTP 错误,它指示客户端请求的实体(例如文件或数据)超出了服务器允许的最大大小。对于使用 Spring Boot 和 Nginx 的应用程序来说…

WPF ——开源MVVM模式框架简介

文章目录 Avalonia核心功能1.1 跨平台支持1.2 XAML 支持MVVM支持丰富的控件库样式和主题高性能渲染插件和扩展框架核心组件平台抽象层应用程序生命周期优势安装步骤Xamarin常用控件3.2 Xamarin.Essentials 常用 API3.3 Xamarin.Forms 数据绑定3.4 Xamarin.Forms 导航3.5 Xamari…

【微服务】面试 2、负载均衡

Ribbon 负载均衡流程 Spring Cloud 中负载均衡组件是 Ribbon,在使用 Feign 等组件发起远程调用时,底层会调用 Ribbon 进行负载均衡。以订单服务(order service)调用用户服务(user service)为例,…

SQL多表联查、自定义函数(字符串分割split)、xml格式输出

记录一个报表的统计,大概内容如下: 多表联查涉及的报表有:房间表、买家表、合同表、交易表、费用表、修改记录表 注意:本项目数据库使用的是sqlserver(mssql),非mysql。 难点1:业主信息&#…

用户界面的UML建模13

􀂄 Concrete Presentation Model 包中所包含的是,在Environment 包中与表示层框架模式中的《apm》类相对应的那些类。 8 结论 本文使用了一个图书馆系统的案例,来论述了关于用户界面的建模。通过使用统一建模语言来对应用系统进行建模&…

Level DB --- filter_block

filter_block里面包含FilterBlockBuilder和FilterBlockReader,他们是Level DB中读、写Filter(Level DB --- BloomFilterPolicy-CSDN博客)重要的类,相当于是FIlter的一个Wrapper,将Filter有组织地写(序列化&…