世界首个 AI 程序员 Devin 视频竟造假?
智者2024年4月15日消息,一个月前的3月13日,Cognition AI在推特上介绍了自家推出的Devin,并称其为“世界上首个AI软件工程师”,只需一句指令,它可端到端地处理整个开发项目。
Devin背后公司Cognition AI手握10块IOI金牌的活招牌,还在推出Devin当月宣布成功融资2100万美金。
如今Devin再度震撼硅谷——但这次是被打假。
油管程序员博主Internet of Bugs(以下简称光头哥)对Devin的视频进行了逐帧分析,逐一举证说明了Devin并不如演示中那般神奇。
甚至有“自己现写bug然后当场修复”的骚操作。
其它“罪证”,包括但不限于:
号称能解决任何Upwork任务,但演示中解决的问题并不是prompt要解决的那一个,做无用功;
看起来在修复bug,实际上修复的bug人类程序员根本就不会犯;
没有意识到简单两步就能解决问题,花里胡哨一顿操作,其实是自己把任务搞复杂了;
修改代码的水平一言难尽。
此外,光头哥花了半个多小时,把Devin演示视频中的upwork任务完成了一遍——而Devin完成任务可能用时6个多小时。
此次出来声张正义的光头哥,从事软件行业已经35年。他首先声明自己的立场:我并不反对高科技,但我确实反对过度炒作。
他自己也经常使用GitHub Copilot、ChatGPT、LIama2、Stable Diffusion。
事实上,在Devin刚推出时候,他就反对过“世界上第一个AI软件工程师”这一说法。
主创介绍,Devin在长程推理和规划上面下了很大功夫,可以规划和执行需要数千个决策才能完成的复杂软件工程任务。
具体来说有6大功能:
端到端构建和部署程序,可以解决的不只是代码问题,还包括与之相关的整个工作流;
自主查找并修复bug;
训练和微调自己的AI模型;
修复开源库;
为成熟的生产库做贡献;
超强学习能力,实时补足知识和能力短板。
Devin完整技术报告中显示,在SWE-bench基准测试中,无需人类辅助,Devin可解决13.86%的问题——这个数据看起来不高,但其实已经超过了此前所有AI大模型的成绩。目前数一数二的GPT-4,在同个测试中的成绩只有1.74%,且必须配备一个人类,提示它要处理哪些文件。