全球最强AI程序员 “Genie” 横空出世

embedded/2024/10/18 16:56:28/

全球最强AI程序员 “Genie” 横空出世

    • Genie 是什么
    • Genie not just a copilot
    • 那么如何训练一名AI工程师呢
    • Genie启动

World’s best AI Software Engineer.

Genie is the best AI software engineer in the world by far - achieving a 30% eval score on the industry standard benchmark SWE-Bench.

Genie is able to solve bugs, build features, refactor code, and everything in between either fully autonomously or paired with the user, like working with a colleague, not just a copilot.

Genie 是什么

Genie是迄今为止世界上最好的 AI 程序员

  • 在权威榜单 SWE-Bench 上得分为 30%,遥遥领先第二名19.27%!(SWE-Bench:评估大模型解决现实中软件问题的基准)
    • 比亚马逊的 Q 和 Factory 的 Code Droid 的 SOTA 得分高出 56%:两者在 SWE-Bench 上的得分均为 19%
    • 比 Cognition 的 Devin 高出 118%:在 SWE-bench 的 subset 上得分为 13.8%

由于 Devin 只跑了 SWE-Bench 上 2294 个任务中的 500 个,因此它们的可比得分为 3.44%。

Genie not just a copilot

Genie 能够完全自主地与用户匹配,处理bug、构建特征、重构代码以及在两者之间的一切,智能如你身旁的同事。

研发团队认为:若希望模型更像程序员,就需要教会它人类程序员的工作方式。这种方法不仅在基准测试中表现出色,而且还能够构建出真正像人类程序员一样行事的产品。

那么如何训练一名AI工程师呢

首先,让它观察程序员如何工作,并模仿这个过程。但在实践中,获取这些数据并加以利用均极为困难。因此研发团队尝试从数据集、上下文语言模型、多模态数据入手。

利用构建工具创建数据集

在过去的一年里,Genie 研发团队致力于通过构建工具来创建一个能够展示这个过程的数据集。他们的数据管道结合了人工制品、静态分析、自我博弈、逐步验证和经过大量标记数据训练的微调AI模型,从而实现最佳输出。

数据质量的把控

从语言、任务类型、任务长度等不同维度入手,在数据混合方面做了诸多尝试,并对多模态数据进行大量试验。

基础模型的选用

当第一次开始这个项目时,能训练的最好结果是 gpt-3.5-turbo-16k,但很快意识到这个模型智能受限,其最关键的还是上下文长度。

要想获得高质量的输出,模型需尽可能多的信息;研发团队与OpenAI 一起训练出更佳的上下文长度模型,极大地释放研究项目能力。

so much has been learned, but the number one learning, and it sounds obvious, is that the data is absolutely everything.


Genie采用特殊数据集和自我改进机制,使其在复杂编码中表现出色。

未来,Genie 将更熟练地掌握更广泛的编程语言,重点是熟练掌握每种语言最新和最广泛使用的框架,以满足开发人员各式各样的业务需求。

Genie启动

Genie
那么,可以给 Genie 分派开发任务了:cosine.sh

对付这点小事对我来说真是小菜一碟----麦克阿瑟

欢迎关注:有点建树,做更多交流。
在这里插入图片描述


http://www.ppmy.cn/embedded/98126.html

相关文章

浅谈JVM

JVM(Java Virtual Machine,Java虚拟机) JVM是Java程序能够跨平台运行的关键所在。 JVM是一个虚拟的计算机,它模拟了真实计算机的各种硬件功能。其主要作用是加载.class字节码文件,并执行其中的指令。 以下是JVM的一…

【stm32项目】多功能智能家居室内灯光控制系统设计与实现(完整工程资料源码)

多功能智能家居室内灯光控制系统设计与实现 目录: 目录: 前言: 一、项目背景与目标 二、国内外研究现状: 2.1 国内研究现状: 2.2 国外研究现状: 2.3 发展趋势 三、硬件电路设计 3.1 总体概述 3.2 硬件连接总…

Scrapy入门教程

Scrapy入门教程:打造高效爬虫的第一步 1. 引言 在当今的网络世界中,信息是无价的资源。而爬虫工具则是获取这些资源的有力武器。Scrapy 是 Python 生态系统中最强大的爬虫框架之一,它不仅功能强大,而且易于扩展,适用…

FastHTML:使用 Python 彻底改变 Web 开发

什么是 FastHTML?🌐 FastHTML 是一个现代 Python Web 应用程序框架,其真正目的是让 Python 开发人员轻松进行 Web 开发。它大大减少了对 JavaScript 和 CSS 构建交互式和可扩展 Web 应用程序的依赖。FastHTML 通过使用 Python 对象来表示 HTM…

Snipaste 的一款替代工具 PixPin,支持 gif 截图、长截图和 OCR 文字识别,功能不是一点点强!

Snipaste 的一款替代工具 PixPin,支持 gif 截图、长截图和 OCR 文字识别,功能不是一点点强! PixPin 的名字来源于“Pixel Pin”,简单来说是一个截图、贴图的工具,但是 PixPin 以截图和贴图两大功能为核心做了大量的优…

【Pyspark-驯化】一文搞懂Pyspark中表连接的使用技巧

【Pyspark-驯化】一文搞懂Pyspark中表连接的使用技巧 本次修炼方法请往下查看 🌈 欢迎莅临我的个人主页 👈这里是我工作、学习、实践 IT领域、真诚分享 踩坑集合,智慧小天地! 🎇 相关内容文档获取 微信公众号 &…

黄金市场展望:CPI数据引发关注,技术面看涨

亚市现货黄金行情 8月14日周三,亚市盘中现货黄金价格小幅下跌,目前交投在2462美元/盎司附近。投资者将重点关注即将公布的美国消费者物价指数(CPI)数据,预计这将对黄金市场产生重大影响。 美联储政策预期与CPI数据 市场…

【Linux】线程安全的单例模式 STL和智能指针的线程安全问题 其他常见的各种锁 读者写者模型(线程的周边话题)

👦个人主页:Weraphael ✍🏻作者简介:目前正在学习c和算法 ✈️专栏:Linux 🐋 希望大家多多支持,咱一起进步!😁 如果文章有啥瑕疵,希望大佬指点一二 如果文章对…