首页科技 正文
目录

世界首个 AI 程序员 Devin 视频竟造假?

科技2024-04-15
智者2024年4月15日消息,一个月前的3月13日,Cognition AI在推特上介绍了自家推出的Devin,并称其为“世界上首个AI软件工程师”,只需一句指令,它可端到端地处理整个开发项目。Devin背后公司Cognition AI手握10块IOI金牌的活招牌,还在推出Devin当月宣布成功融资2100万美金。如今Devin再度震撼硅谷——但这次是被打假...

Devin_副本.jpg

智者2024年4月15日消息,一个月前的3月13日,Cognition AI在推特上介绍了自家推出的Devin,并称其为“世界上首个AI软件工程师”,只需一句指令,它可端到端地处理整个开发项目。

Devin背后公司Cognition AI手握10块IOI金牌的活招牌,还在推出Devin当月宣布成功融资2100万美金。

如今Devin再度震撼硅谷——但这次是被打假。

油管程序员博主Internet of Bugs(以下简称光头哥)对Devin的视频进行了逐帧分析,逐一举证说明了Devin并不如演示中那般神奇。

甚至有“自己现写bug然后当场修复”的骚操作。

其它“罪证”,包括但不限于:

号称能解决任何Upwork任务,但演示中解决的问题并不是prompt要解决的那一个,做无用功;

看起来在修复bug,实际上修复的bug人类程序员根本就不会犯;

没有意识到简单两步就能解决问题,花里胡哨一顿操作,其实是自己把任务搞复杂了;

修改代码的水平一言难尽。

此外,光头哥花了半个多小时,把Devin演示视频中的upwork任务完成了一遍——而Devin完成任务可能用时6个多小时。

此次出来声张正义的光头哥,从事软件行业已经35年。他首先声明自己的立场:我并不反对高科技,但我确实反对过度炒作。

他自己也经常使用GitHub Copilot、ChatGPT、LIama2、Stable Diffusion。

事实上,在Devin刚推出时候,他就反对过“世界上第一个AI软件工程师”这一说法。

主创介绍,Devin在长程推理和规划上面下了很大功夫,可以规划和执行需要数千个决策才能完成的复杂软件工程任务。

具体来说有6大功能:

端到端构建和部署程序,可以解决的不只是代码问题,还包括与之相关的整个工作流;

自主查找并修复bug;

训练和微调自己的AI模型;

修复开源库;

为成熟的生产库做贡献;

超强学习能力,实时补足知识和能力短板。

Devin完整技术报告中显示,在SWE-bench基准测试中,无需人类辅助,Devin可解决13.86%的问题——这个数据看起来不高,但其实已经超过了此前所有AI大模型的成绩。目前数一数二的GPT-4,在同个测试中的成绩只有1.74%,且必须配备一个人类,提示它要处理哪些文件。


标签AI

您暂未设置收款码

请在主题配置——文章设置里上传

扫描二维码手机访问

文章目录