OpenAI 的 Codex 是新一代 agentic 编程工具的一部分
创始人
2025-05-21 21:35:53
0

近期,OpenAI推出了一种名为 Codex的新型编程系统,旨在通过自然语言指令执行复杂的编程任务。Codex 将 OpenAI 带入了一类全新的 agentic 编程工具,目前这类工具正处于初步成型阶段。

GitHub早期的 Copilot到 Cursor 和 Windsurf 等当代工具,大多数 AI 编程助手都表现为一种异常智能的自动补全形式。这些工具通常嵌入在集成开发环境中,用户直接与 AI生成的代码交互。而仅仅分派一个任务,然后稍后回来取结果的设想仍然遥不可及。

但这些由 Devin、 SWE-Agent、 OpenHands 以及前述 OpenAI Codex 等产品引领的新型 agentic 编程工具,设计上不要求用户查看代码。目标是扮演工程团队经理的角色,通过 Asana 或 Slack等工作系统分派问题,并在解决方案达成后进行核查。

对于信奉高能力 AI 形态的人来说,这标志着自动化逐步接管越来越多软件工作量的下一个合理阶段。

普林斯顿大学研究员、 SWE-Agent 团队成员 Kilian Lieret 解释说:“起初,人们是通过每一个按键来编写代码的。GitHub Copilot 是第一个真正提供自动补全功能的产品,这是第二阶段。你仍然完全参与其中,但有时你可以走捷径。”

agentic 系统的目标则是完全跳出开发者环境,将问题直接交给编码代理,然后让它们自行解决。“我们把流程提升到管理层面,我只需要分派一个 bug 报告,而机器人就会尝试完全自主地修复它,”Lieret 说道。

这是一个雄心勃勃的目标,到目前为止,其推进过程仍充满困难。

在 Devin 于 2024 年底普及后,它遭到了 YouTube 评论员的严厉批评,同时 Answer.AI 的一位早期客户也提出了较为冷静的批评。总体印象与许多熟悉 vibe-coding 的资深人士所经历的情形类似:错误频出,监督模型所花费的精力几乎与手动完成任务无异。(尽管 Devin 的推出来得有些波折,但这并未阻止投资者看好其潜力 —— 据报道,Devin 的母公司 Cognition AI 在 3 月份以 40 亿美元估值成功募集了数亿美元。)

即便是技术支持者也警告,不要对 vibe-coding 采取无监督的方式,将这些新型编码代理视为需要人类监督的开发过程中的强大组成部分。

All Hands AI(负责维护 OpenHands)的 CEO Robert Brennan 表示:“目前,且在可预见的未来,代码审查时总需要人类介入,亲自检查生成的代码。我见过好几个人因为自动批准代理写出的每一行代码而陷入混乱,事情一旦失控就很快变糟。”

幻觉问题仍然存在。Brennan 回忆起一次事件,当被询问一个在 OpenHands 代理训练数据截止之后发布的 API 时,代理竟编造出一些符合描述的 API 细节。All Hands AI 表示,他们正在开发系统以在这些幻觉造成损害之前捕捉到它们,但目前并没有简单的解决办法。

可以说,衡量 agentic 编程进展的最佳标尺是 SWE-Bench 排行榜,在这个排行榜上,开发者可以测试其模型对 GitHub 开源仓库中尚未解决问题的处理能力。目前,OpenHands 在经过验证的排行榜上名列榜首,解决了 65.8% 的问题集。OpenAI 宣称支撑 Codex 的某一模型 codex-1 表现更优,并在公告中列出了 72.1% 的得分 —— 尽管这一分数附带了一些限制,且尚未经过独立验证。

许多科技业内人士担忧,高基准得分不一定意味着真正实现了完全无干预的 agentic 编程。如果 agentic 编码器每解决四个问题中只有三个成功,那么在面对具有多阶段复杂系统时,就必然需要人类开发者大量监督。

与大多数 AI 工具类似,人们希望基础模型的不断改进能推动 agentic 编程系统逐渐演变成可靠的开发工具。但要达到这一目标,找到管理幻觉及其他可靠性问题的方法将至关重要。

Brennan 指出:“我认为目前存在一种类似音障的效应。关键问题是,你能将多少信任转移给这些代理,从而在最终减轻你的工作负担呢?”

相关内容

哈啰普惠申请嵌入式设备升级...
国家知识产权局信息显示,上海哈啰普惠科技有限公司、上海造父智能科技...
2026-06-03 10:24:18
博世汽车部件申请针对嵌入式...
国家知识产权局信息显示,博世汽车部件(苏州)有限公司申请一项名为“...
2026-06-03 10:23:50
时代电气招标结果:DC-D...
证券之星消息,根据天眼查APP-财产线索数据整理,株洲中车时代电气...
2026-06-03 10:23:16
全志科技(300458.S...
格隆汇6月1日丨全志科技(300458.SZ)在互动平台表示,公司...
2026-06-03 10:23:03
中山福昆航空科技申请多源冗...
国家知识产权局信息显示,中山福昆航空科技有限公司申请一项名为“一种...
2026-06-03 10:22:41
通嘉科技取得应用于电源转换...
国家知识产权局信息显示,通嘉科技股份有限公司取得一项名为“应用于电...
2026-06-03 10:22:24
厦门鑫众通电子取得基于人工...
国家知识产权局信息显示,厦门鑫众通电子有限公司取得一项名为“基于人...
2026-06-03 10:22:00
锐锋焰申请基于多电位域动态...
国家知识产权局信息显示,深圳锐锋焰科技有限公司申请一项名为“一种基...
2026-06-03 10:21:45
上海隧道工程申请大功率变频...
国家知识产权局信息显示,上海隧道工程有限公司申请一项名为“大功率变...
2026-06-03 10:21:31

热门资讯

哈啰普惠申请嵌入式设备升级方法... 国家知识产权局信息显示,上海哈啰普惠科技有限公司、上海造父智能科技有限公司申请一项名为“嵌入式设备的...
时代电气招标结果:DC-DC电... 证券之星消息,根据天眼查APP-财产线索数据整理,株洲中车时代电气股份有限公司5月29日发布《DC-...
全志科技(300458.SZ)... 格隆汇6月1日丨全志科技(300458.SZ)在互动平台表示,公司目前不涉及AI电源的业务。
智慧创芯申请基于SoC芯片的高... 国家知识产权局信息显示,深圳市智慧创芯电子有限公司申请一项名为“基于SoC芯片的高效电源转换与管理系...
半导体ETF国联安:6月1日融... 证券之星消息,6月1日,半导体ETF国联安(512480)融资买入1.15亿元,融资偿还1.14亿元...
伊顿智能动力申请开关装置及用于... 国家知识产权局信息显示,伊顿智能动力有限公司申请一项名为“开关装置及用于操作开关装置的方法”的专利,...
OPPO取得射频收发电路专利可... 国家知识产权局信息显示,OPPO广东移动通信有限公司取得一项名为“射频收发电路、通信设备和无线通信方...
华润微集成电路申请驱动控制保护... 国家知识产权局信息显示,华润微集成电路(无锡)有限公司申请一项名为“驱动控制保护电路及电子产品”的专...
金卡智能:公司没有超级电容相关... 证券之星消息,金卡智能(300349)06月01日在投资者关系平台上答复投资者关心的问题。 投资者提...
烨映微电子申请高可靠性硅电容制... 国家知识产权局信息显示,上海烨映微电子科技股份有限公司申请一项名为“一种高可靠性硅电容的制作方法”的...