演示站点: https://ai.uaai.cn 创作模块
官方论坛: www.jingyuai.com 京娱AI
近期,全球首位AI程序员Devin的出场,不禁让我想到了一个有趣的问题:AI程序员会不会抢程序员的饭碗呢?先别着急下结论!虽然AI技术在编程领域越来越广泛,但它真的能完全替代我们程序员吗?
摘要
Devin是一款由华人创始团队开发的人工智能软件工程师,其能力远超当前的SOTA模型,甚至可以通过一家业内领先的人工智能公司的面试,并在自由职业平台Upwork上成功接单。
-
Devin的能力:在SWE-Bench基础测试中,Devin可以解决13.86%的问题,远高于当前的SOTA模型(1.96%)。此外,Devin在解决真实世界软件问题的能力上也超过了GPT-4和Claude等模型。
-
Devin的应用:尽管Devin还未对外开放,但已经有开发人员和产品人员开始使用。有网友表示,使用人工智能辅助编码一直是失败的,直到使用了Devin,才成功地提取了一个简单的HTML页面的选择器。
然而,对于Devin的能力,也有一些网友持怀疑态度,认为这可能是夸大宣传。
思维导图
一、“AI软件工程师”Devin的诞生
位于美国旧金山的初创企业Cognition AI在当地时间3月12日上线了一款人工智能助手Devin。据该公司介绍,Devin是一位“AI软件工程师”,可以协助人类完成复杂的编程任务。
在不到2天的时间里,Devin的超强功能震撼了业界:只需要用户发出一个命令,Devin就可以实现生成视频、网页,设计小游戏等任务,而且还可以随时根据用户新的指令修改程序,这和真实世界里程序员对接需求方简直没有任何区别。很多程序员在Cognition AI社媒下方留言,哀叹自己的饭碗即将不保。
前段时间,英伟达 CEO 黄院士发出惊人言论:「都别学编程了,以后交给 AI 就行了,以后人人都是软件工程师。」当时还有很多人反对,说「AI 永远不会取代程序员。」没想到,首个人工智能软件工程师 Devin 一发布,程序员的饭碗可能真要被 AI 端走了。
值得注意的是,Cognition AI的创始团队以年轻的华人为主,很多在学生时代都有在国际编程比赛上拿奖的经历。如今这些曾经的程序员们创造了人工智能界的里程碑,发明出足以“抢走程序员饭碗”的强大工具,也让该公司未来的融资行为变得更具说服力。
二、程序员留言刷屏:真的要失业了
目前Devin尚未开放使用,只进行了极为有限的内测,参与者需要填写表格并向Cognition AI提交资料来申请参加内测的机会。不过仅从第三方的独立测试数据来看,Devin的功能之强大已经远远超越“前辈”们,创造了AI编程任务的新里程碑。
Cognition AI在SWE基准测试上运行了Devin程序,“跑分”结果堪称炸裂。SWE基准测试是一项国际公认的权威测试,考验AI编程能否“端到端解决真实世界里的程序问题”,这项测试在Github里搜集真实的编程需求,并考察各AI编程软件的解决成功率。结果显示,Devin的“端到端解决成功率”高达13.86%,相比之下GPT-4的这一指标只有1.74%,更早的GPT-3.5大模型成功率甚至低到0.52%。这一结果也让Cognition AI的开发人员信心满满地表示,Devin就像是一个“不知疲倦、业务水平精湛”的程序员,可以独当一面完成很多任务。
参与测试的科技媒体和计算机专业人士都给出了非常正面的评价。有媒体报道称,记者让Devin编写了一个经典的乒乓球游戏,程序很快就写好了游戏页面,然后记者要求改变游戏中乒乓球的尺寸、球桌表面的颜色等细节,Devin也能一一照做。还有测试者用Devin快速建立了一个类似于“大众点评”的网站,将当地所有意大利餐厅的信息综合起来,并从不同维度给出评分排名。斯坦福大学计算机科学家塞拉斯·阿尔贝蒂体验过后直呼,“Devin已经不像是一个软件应用,而是像一个真正的程序员一样思考问题和实现需求了”。
试用者们发现Devin不仅像程序员一样会自己“捉虫”修改bug,而且具备连贯的推理能力,可以在保持上下文一致的情况下连续实现成百上千个任务。
Devin 的评论区的画风,也是哀嚎一片:
面对如此“破圈”的成绩,众多程序员们纷纷不淡定了。有人留言说,“老天还是毁了我吧,我连学历还没拿到手就已经被取代了”。还有一位留言者“卑微”地请求到,“(Devin)先生请你不要学习编程了,我还要挣钱吃饭,还有一大家人要靠我养活”。还有一位程序员留言“恭喜”Cognition AI取得了重大的成就,但配图却是一只对着屏幕大哭的猫咪,表达了自己“兔死狐悲”的心情。另外也有程序员呼吁道,“兄弟们,看来我们这个行业是要完了”。
三、Cognition AI团队成员
Cognition AI团队的成就让外界感到兴奋,而令人惊讶的是,这个创立刚2个月的团队仅有10人的规模,(包括获得过 10 枚国际比赛金牌的运动编码者)。团队并没有固定的经营场地,成员分散在洛杉矶、旧金山、纽约等地。虽然他们的产品Devin甚至还没有公开发行,但已经赢得了独具慧眼的投资人们认可,仅在A轮融资就筹集了2100万美元,投资者中包含推特前高管埃拉德以及知名投资大佬彼得·蒂尔(与马斯克联合创办过Paypal)。
不少网友感叹,这太疯狂了。
这支团队的成员在编程竞赛中获得的成就和对问题解决的独特方法。其中三位创始人信息如下:
从左到右分别为 Steven Hao、Scott Wu、Walden Yan,图源:https://www.bloomberg.com/news/articles/2024-03-12/cognition-ai-is-a-peter-thiel-backed-coding-assistant
Scott Wu - 首席执行官 (CEO):Scott 是团队的领导者,和他的兄弟 Neal Wu 一起,自青少年时期就开始参加并经常获胜于国际编程比赛,曾连续三年揽获 IOI 金牌,这些比赛提升了他们的编程能力。Scott 的背景和对算法问题的深入理解为 Cognition AI 的开发提供了独特的视角。
Scott Wu 曾连续三年获得 IOI 金牌
Steven Hao - 首席技术官 (CTO):Steven之前是Scale AI的顶尖工程师,Scale AI是一家估值很高的初创公司,专注于帮助训练AI系统。
Walden Yan - 首席产品官 (CPO):Walden 直到最近还在哈佛大学上学,他请求将他在学校的状态留作模糊,大概率是想「辍学创业」。
Walden Yan 在哈佛就读期间,曾在一年级时获得第 32 届 IOI 金牌
除了这三位核心成员,还有一位 Neal Wu,他是 Scott Wu 的兄弟,他也在 Cognition AI 工作。Wu 兄弟因其编程才华在全球范围内享有盛誉,他们自青少年时期起就在国际编码比赛中竞争并常获胜利,这些比赛经验帮助他们在编程和解决问题方面拥有独特的方法。
四、Devin的工作流和实际应用
要知道,虽然现在市面上的一系列大模型都有编程能力,但大多数都采用了单行代码补全或者单个函数生成的方式。想生成完整的程序,还需要设计 prompt 逐步「调教」。
而对 Devin 来说,你只需要向它提要求,坐等其成就可以了。
Devin 配备了包括 shell、代码编辑器和浏览器在内的常见开发工具,这些都在一个沙盒化的计算环境中 —— 这些都是人类软件工程师完成工作所需的一切。
根据自然语言提示自动写代码、生成完整的程序并上线只是 Devin 的基操,它可以自动规划并执行需要数千个决策的复杂任务。
例如请它在几个不同的 API 上对 Llama 的表现进行基础测试,它首先制定了一个逐步解决问题的计划:
在完成项目的过程中,它使用了浏览器为 API 留档,以便它可以阅读并学习如何插入这些 API:
遇到意外的错误时,Devin 决定先「print」出来,再根据日志中的错误决定如何修复 bug:
最后,它为你构建了一个完整的可视化网站:
Devin 能自动完成如此复杂的规划,得益于其背后的 Cognition AI 在长期推理和规划方面的进展,这使它能够在每一步回忆相关的上下文,随时间学习,并修复错误。
Devin 拥有积极的协作的能力,它能实时报告进度,接受反馈,并根据需要调整,还能适应成熟的代码库,修改前辈留下的 bug:
自主学习,从完全陌生的知识学习使用不熟悉的技术,也是 Devin 所擅长的。
你给它一篇新博客,讲的是如何运行 ControlNet on Modal,生成带文字的图像:
它不仅能迅速从中学会所需的代码,没过两秒,工作就自动帮你完成了:
在 Upwork 接的单里,Devin 被要求编写并调试运行计算机视觉模型的代码。它采样了结果数据,最后呈现了一份报告:
Devin 甚至能够训练和微调自己的 AI 模型,看来 AI 的生命快要在此刻完成闭环了。仅通过一个 GitHub 仓库的链接,Devin 就微调了一个大型语言模型:
总体来看,与其他具有编程能力的大模型,Devin 不仅辅助编程或提供代码片段,它能够独立支持一整个项目,而不仅仅是辅助或提供代码片段的建议。相比于「副驾驶」的角色,Devin 更接近于一个独立工作者。而 Cognition AI 声称 Devin 实现了在 AI 领域被称为「理解」的突破,这意味着它能够不仅是在预测下一个单词或代码行应该输出什么,而是更像在思考如何解决问题的总体方法。
而 Devin 的技术路径,CognitionAI 并还未公开,只是简要地提到,Cognition AI 的团队发现了将大型语言模型(LLM)如 OpenAI 的 GPT-4 与强化学习技术结合的独特方法。这种方法可能是他们技术突破的关键点。
Devin已经在一些实际场景中得到了应用,比如在Upwork平台上成功完成工作任务。这些任务包括编写并调试运行计算机视觉模型的代码,以及微调大型语言模型等。这些成功的案例表明,Devin不仅在理论上有强大的编程能力,而且在实际工作中也能够发挥重要作用。
五、AI工程师Devin的工作原理
Devin是一款由华人团队开发的AI软件工程师,它的出现引发了人们对AI是否会取代程序员的讨论。Devin的独特之处在于,它不仅具备编程能力,而且能够独立完成整个项目,而不仅仅是提供代码片段的建议。以下是Devin的一些核心能力:
-
自我学习和适应:Devin能够自主学习新的技术和知识,包括如何使用不熟悉的工具和技术。这使得它能够适应不断变化的技术环境,而不需要人类工程师不断地对其进行“调教”。
-
复杂任务规划和执行:Devin能够自动规划并执行需要数千个决策的复杂任务。例如,在面对多个API的测试任务时,它会制定一个逐步解决问题的计划,并且在遇到错误时,能够自行决定如何修复。
-
协作和反馈:Devin拥有积极的协作能力,能够实时报告进度,接受反馈,并根据需要调整。这使得它能够更好地与人类工程师协同工作,共同解决问题。
-
问题解决策略:Devin不仅能在预测下一个代码行应该是什么方面表现出色,它更像是在思考如何解决问题的总体方法。这种策略性的思考可能是Devin技术突破的关键。
六、对人类程序员的影响
尽管Devin的能力令人印象深刻,但它是否会导致人类程序员失业还存在争议。一方面,Devin确实能够完成许多软件工程师的工作,但另一方面,人类程序员仍然在某些方面具有优势,例如创新思维和对复杂问题的直觉判断。因此,人类程序员可能需要转变角色,更多地扮演监督和指导的角色,而将一些重复性和机械性的工作交给AI。
总结内容
Devin作为一款人工智能软件工程师,其能力强大且实用,已经在实际应用中得到了验证。然而,其是否真的能取代程序员,还需要进一步观察和验证。
往期文章
2014对AI未来的预测和猜想
好莱坞泰勒佩里Sora制作电影,对好莱坞担忧,停止工作室扩张
可让照片人物“开口说话”阿里图生视频模型EMO,高启强普法
Sora - 探索AI视频模型的无限可能
Sora对于普通人意味着什么?
Sora 在线应用
字节发布AnimateDiff-Lightning模型4步推理就能生成高质量视频