华人团队创造AI软件工程师Devin,可一键完成编程!人类程序员:真要失业了

news/2024/11/8 22:43:03/

演示站点:   https://ai.uaai.cn 创作模块
官方论坛:   www.jingyuai.com 京娱AI

近期,全球首位AI程序员Devin的出场,不禁让我想到了一个有趣的问题:AI程序员会不会抢程序员的饭碗呢?先别着急下结论!虽然AI技术在编程领域越来越广泛,但它真的能完全替代我们程序员吗?

摘要

Devin是一款由华人创始团队开发的人工智能软件工程师,其能力远超当前的SOTA模型,甚至可以通过一家业内领先的人工智能公司的面试,并在自由职业平台Upwork上成功接单。

  • Devin的能力:在SWE-Bench基础测试中,Devin可以解决13.86%的问题,远高于当前的SOTA模型(1.96%)。此外,Devin在解决真实世界软件问题的能力上也超过了GPT-4和Claude等模型。

  • Devin的应用:尽管Devin还未对外开放,但已经有开发人员和产品人员开始使用。有网友表示,使用人工智能辅助编码一直是失败的,直到使用了Devin,才成功地提取了一个简单的HTML页面的选择器。

然而,对于Devin的能力,也有一些网友持怀疑态度,认为这可能是夸大宣传。


思维导图

一、“AI软件工程师”Devin的诞生

位于美国旧金山的初创企业Cognition AI在当地时间3月12日上线了一款人工智能助手Devin。据该公司介绍,Devin是一位“AI软件工程师”,可以协助人类完成复杂的编程任务。

在不到2天的时间里,Devin的超强功能震撼了业界:只需要用户发出一个命令,Devin就可以实现生成视频、网页,设计小游戏等任务,而且还可以随时根据用户新的指令修改程序,这和真实世界里程序员对接需求方简直没有任何区别。很多程序员在Cognition AI社媒下方留言,哀叹自己的饭碗即将不保。

前段时间,英伟达 CEO 黄院士发出惊人言论:「都别学编程了,以后交给 AI 就行了,以后人人都是软件工程师。」当时还有很多人反对,说「AI 永远不会取代程序员。」没想到,首个人工智能软件工程师 Devin 一发布,程序员的饭碗可能真要被 AI 端走了。

Cognition AI团队成员十分年轻

值得注意的是,Cognition AI的创始团队以年轻的华人为主,很多在学生时代都有在国际编程比赛上拿奖的经历。如今这些曾经的程序员们创造了人工智能界的里程碑,发明出足以“抢走程序员饭碗”的强大工具,也让该公司未来的融资行为变得更具说服力。

二、程序员留言刷屏:真的要失业了

目前Devin尚未开放使用,只进行了极为有限的内测,参与者需要填写表格并向Cognition AI提交资料来申请参加内测的机会。不过仅从第三方的独立测试数据来看,Devin的功能之强大已经远远超越“前辈”们,创造了AI编程任务的新里程碑。

Cognition AI在SWE基准测试上运行了Devin程序,“跑分”结果堪称炸裂。SWE基准测试是一项国际公认的权威测试,考验AI编程能否“端到端解决真实世界里的程序问题”,这项测试在Github里搜集真实的编程需求,并考察各AI编程软件的解决成功率。结果显示,Devin的“端到端解决成功率”高达13.86%,相比之下GPT-4的这一指标只有1.74%,更早的GPT-3.5大模型成功率甚至低到0.52%。这一结果也让Cognition AI的开发人员信心满满地表示,Devin就像是一个“不知疲倦、业务水平精湛”的程序员,可以独当一面完成很多任务。

参与测试的科技媒体和计算机专业人士都给出了非常正面的评价。有媒体报道称,记者让Devin编写了一个经典的乒乓球游戏,程序很快就写好了游戏页面,然后记者要求改变游戏中乒乓球的尺寸、球桌表面的颜色等细节,Devin也能一一照做。还有测试者用Devin快速建立了一个类似于“大众点评”的网站,将当地所有意大利餐厅的信息综合起来,并从不同维度给出评分排名。斯坦福大学计算机科学家塞拉斯·阿尔贝蒂体验过后直呼,“Devin已经不像是一个软件应用,而是像一个真正的程序员一样思考问题和实现需求了”。

试用者们发现Devin不仅像程序员一样会自己“捉虫”修改bug,而且具备连贯的推理能力,可以在保持上下文一致的情况下连续实现成百上千个任务。

Devin 的评论区的画风,也是哀嚎一片:

 面对如此“破圈”的成绩,众多程序员们纷纷不淡定了。有人留言说,“老天还是毁了我吧,我连学历还没拿到手就已经被取代了”。还有一位留言者“卑微”地请求到,“(Devin)先生请你不要学习编程了,我还要挣钱吃饭,还有一大家人要靠我养活”。还有一位程序员留言“恭喜”Cognition AI取得了重大的成就,但配图却是一只对着屏幕大哭的猫咪,表达了自己“兔死狐悲”的心情。另外也有程序员呼吁道,“兄弟们,看来我们这个行业是要完了”。

三、Cognition AI团队成员

Cognition AI团队的成就让外界感到兴奋,而令人惊讶的是,这个创立刚2个月的团队仅有10人的规模,(包括获得过 10 枚国际比赛金牌的运动编码者)。团队并没有固定的经营场地,成员分散在洛杉矶、旧金山、纽约等地。虽然他们的产品Devin甚至还没有公开发行,但已经赢得了独具慧眼的投资人们认可,仅在A轮融资就筹集了2100万美元,投资者中包含推特前高管埃拉德以及知名投资大佬彼得·蒂尔(与马斯克联合创办过Paypal)。

不少网友感叹,这太疯狂了。

这支团队的成员在编程竞赛中获得的成就和对问题解决的独特方法。其中三位创始人信息如下:

 从左到右分别为 Steven Hao、Scott Wu、Walden Yan,图源:https://www.bloomberg.com/news/articles/2024-03-12/cognition-ai-is-a-peter-thiel-backed-coding-assistant

Scott Wu - 首席执行官 (CEO):Scott 是团队的领导者,和他的兄弟 Neal Wu 一起,自青少年时期就开始参加并经常获胜于国际编程比赛,曾连续三年揽获 IOI 金牌,这些比赛提升了他们的编程能力。Scott 的背景和对算法问题的深入理解为 Cognition AI 的开发提供了独特的视角。

Scott Wu 曾连续三年获得 IOI 金牌

Steven Hao - 首席技术官 (CTO):Steven之前是Scale AI的顶尖工程师,Scale AI是一家估值很高的初创公司,专注于帮助训练AI系统。

 Walden Yan - 首席产品官 (CPO):Walden 直到最近还在哈佛大学上学,他请求将他在学校的状态留作模糊,大概率是想「辍学创业」。

Walden Yan 在哈佛就读期间,曾在一年级时获得第 32 届 IOI 金牌

除了这三位核心成员,还有一位 Neal Wu,他是 Scott Wu 的兄弟,他也在 Cognition AI 工作。Wu 兄弟因其编程才华在全球范围内享有盛誉,他们自青少年时期起就在国际编码比赛中竞争并常获胜利,这些比赛经验帮助他们在编程和解决问题方面拥有独特的方法。

四、Devin的工作流和实际应用

要知道,虽然现在市面上的一系列大模型都有编程能力,但大多数都采用了单行代码补全或者单个函数生成的方式。想生成完整的程序,还需要设计 prompt 逐步「调教」。

而对 Devin 来说,你只需要向它提要求,坐等其成就可以了。

Devin 配备了包括 shell、代码编辑器和浏览器在内的常见开发工具,这些都在一个沙盒化的计算环境中 —— 这些都是人类软件工程师完成工作所需的一切。

根据自然语言提示自动写代码、生成完整的程序并上线只是 Devin 的基操,它可以自动规划并执行需要数千个决策的复杂任务。

例如请它在几个不同的 API 上对 Llama 的表现进行基础测试,它首先制定了一个逐步解决问题的计划:

在完成项目的过程中,它使用了浏览器为 API 留档,以便它可以阅读并学习如何插入这些 API:

遇到意外的错误时,Devin 决定先「print」出来,再根据日志中的错误决定如何修复 bug:

最后,它为你构建了一个完整的可视化网站:

Devin 能自动完成如此复杂的规划,得益于其背后的 Cognition AI 在长期推理和规划方面的进展,这使它能够在每一步回忆相关的上下文,随时间学习,并修复错误。

Devin 拥有积极的协作的能力,它能实时报告进度,接受反馈,并根据需要调整,还能适应成熟的代码库,修改前辈留下的 bug:

自主学习,从完全陌生的知识学习使用不熟悉的技术,也是 Devin 所擅长的。

你给它一篇新博客,讲的是如何运行 ControlNet on Modal,生成带文字的图像:

它不仅能迅速从中学会所需的代码,没过两秒,工作就自动帮你完成了:

在 Upwork 接的单里,Devin 被要求编写并调试运行计算机视觉模型的代码。它采样了结果数据,最后呈现了一份报告:

Devin 甚至能够训练和微调自己的 AI 模型,看来 AI 的生命快要在此刻完成闭环了。仅通过一个 GitHub 仓库的链接,Devin 就微调了一个大型语言模型:

总体来看,与其他具有编程能力的大模型,Devin 不仅辅助编程或提供代码片段,它能够独立支持一整个项目,而不仅仅是辅助或提供代码片段的建议。相比于「副驾驶」的角色,Devin 更接近于一个独立工作者。而 Cognition AI 声称 Devin 实现了在 AI 领域被称为「理解」的突破,这意味着它能够不仅是在预测下一个单词或代码行应该输出什么,而是更像在思考如何解决问题的总体方法。

而 Devin 的技术路径,CognitionAI 并还未公开,只是简要地提到,Cognition AI 的团队发现了将大型语言模型(LLM)如 OpenAI 的 GPT-4 与强化学习技术结合的独特方法。这种方法可能是他们技术突破的关键点。

Devin已经在一些实际场景中得到了应用,比如在Upwork平台上成功完成工作任务。这些任务包括编写并调试运行计算机视觉模型的代码,以及微调大型语言模型等。这些成功的案例表明,Devin不仅在理论上有强大的编程能力,而且在实际工作中也能够发挥重要作用。

五、AI工程师Devin的工作原理

Devin是一款由华人团队开发的AI软件工程师,它的出现引发了人们对AI是否会取代程序员的讨论。Devin的独特之处在于,它不仅具备编程能力,而且能够独立完成整个项目,而不仅仅是提供代码片段的建议。以下是Devin的一些核心能力:

  1. 自我学习和适应:Devin能够自主学习新的技术和知识,包括如何使用不熟悉的工具和技术。这使得它能够适应不断变化的技术环境,而不需要人类工程师不断地对其进行“调教”。

  2. 复杂任务规划和执行:Devin能够自动规划并执行需要数千个决策的复杂任务。例如,在面对多个API的测试任务时,它会制定一个逐步解决问题的计划,并且在遇到错误时,能够自行决定如何修复。

  3. 协作和反馈:Devin拥有积极的协作能力,能够实时报告进度,接受反馈,并根据需要调整。这使得它能够更好地与人类工程师协同工作,共同解决问题。

  4. 问题解决策略:Devin不仅能在预测下一个代码行应该是什么方面表现出色,它更像是在思考如何解决问题的总体方法。这种策略性的思考可能是Devin技术突破的关键。

六、对人类程序员的影响

尽管Devin的能力令人印象深刻,但它是否会导致人类程序员失业还存在争议。一方面,Devin确实能够完成许多软件工程师的工作,但另一方面,人类程序员仍然在某些方面具有优势,例如创新思维和对复杂问题的直觉判断。因此,人类程序员可能需要转变角色,更多地扮演监督和指导的角色,而将一些重复性和机械性的工作交给AI。

总结内容

Devin作为一款人工智能软件工程师,其能力强大且实用,已经在实际应用中得到了验证。然而,其是否真的能取代程序员,还需要进一步观察和验证。 

往期文章

2014对AI未来的预测和猜想

好莱坞泰勒佩里Sora制作电影,对好莱坞担忧,停止工作室扩张

 可让照片人物“开口说话”阿里图生视频模型EMO,高启强普法

Sora - 探索AI视频模型的无限可能

Sora对于普通人意味着什么?

Sora 在线应用

字节发布AnimateDiff-Lightning模型4步推理就能生成高质量视频 


http://www.ppmy.cn/news/1394626.html

相关文章

Spark RDD

Spark RDD RDD(Resilient Distributed Dataset),即弹性分布式数据集,是Spark的基础数据结构,RDD具有不可修改的特性,并且会在集群的不同节点运行计算。Spark RDD里面的数据集会被逻辑分成若干个分区&#…

前端学习之用css和html做一个仿淘宝的导航栏

代码 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>仿淘宝界面案例</title><style>/* 最外层盒子 */.container{width: 270px;height: 385px;border: 1px solid rgb(255, 208, 0);bord…

vue为什么要用data(函数)包裹属性?

Vue 使用 data 函数来包裹组件的数据&#xff08;属性&#xff09;主要是出于几个考虑&#xff1a; 1. 创建组件实例的独立作用域 每个 Vue 组件实例都应该有一个独立的数据对象。如果使用一个普通的对象作为 data&#xff0c;那么它将由所有创建的组件实例共享&#xff0c;因…

apifox创建接口含中文字符报错的两种解决方案

针对apifox的含中文报错解决方法&#xff1a; 方法一&#xff1a;创建相应接口后&#xff0c;在设置中URL自动编码为WHATING。 方法二&#xff1a;直接将浏览器的url复制到apifox中&#xff0c;浏览器会自动解析配置中文转换路径。

【Linux操作系统】:进程控制

目录 一、程序地址空间 1.C/C中的程序地址空间 2.进程地址空间 进程地址空间概念 什么是地址空间&#xff1f;什么是区域划分&#xff1f; 为啥要有地址空间&#xff1f; 地址空间的补充 二、进程创建 1.fork函数 2.写时拷贝 3.fork常规用法 4.fork调用失败的原因 …

收集一些PostgreSQL的题目

文章目录 1. 详述PostgreSQL的MVCC&#xff08;多版本并发控制&#xff09;机制是如何工作的&#xff0c;并解释它如何帮助处理并发事务&#xff1f;2. 在PostgreSQL中&#xff0c;一个查询是如何从用户输入转化为实际的数据返回的&#xff1f;请描述一下查询执行的生命周期。3…

无人机图像识别与分析

无人机图像识别与分析是无人机技术应用的一个重要方向&#xff0c;涉及到计算机视觉、机器学习和模式识别等多个技术领域。以下是无人机图像识别与分析的一般流程和关键技术&#xff1a; 1. 图像获取 使用无人机搭载的高清摄像头、热成像相机或其他特殊传感器&#xff0c;在不…

学习或复习电路的game推荐:nandgame(NAND与非门游戏)、Turing_Complete(图灵完备)

https://www.nandgame.com/ 免费 https://store.steampowered.com/app/1444480/Turing_Complete/ 收费&#xff0c;70元。据说可以导出 Verilog &#xff01;