← 随机比特 / 所有内容

OpenAI 自己也不相信 Codex 会自律

2026-05-11 · 随机比特
OpenAI 自己也不相信 Codex 会自律

OpenAI 自己也不相信 Codex 会自律

投行的交易员从入职第一天起就不是被信任的。

他能在 Bloomberg 终端上敲什么 ticker、单笔限额多少、跨市场净敞口铺到哪一档——全部由 risk 部门在系统层硬切,再资深的 trader 也 override 不掉。这件事从来不是"我们信不过你这个人",而是"任何一个能在系统里下单的人,权限都不该由他自己决定"。

我读《Running Codex safely at OpenAI》最强的感受是——OpenAI 终于把 LLM agent 也搬到了这一层。

5 月 8 号那篇文档,业界第一反应是"哦,又一份 best practice 教程"。读到中段会发现不对劲。它讲的不是"建议你这样配 sandbox",而是"我们公司里 Codex 就这样跑,admin 强制,开发者拿不到 override 权"。原文里有句话特别重——「Requirements are admin-enforced controls that users cannot override.」翻译过来:规则不是劝告,是硬墙。

<!-- diagram:codex-four-layers -->

四类东西全部 admin 强制:

sandbox 分 read-only 和 workspace-write 两档,agent 想动哪一行文件、哪个目录,由配置说了算,不是由它自己说了算。

network policy 给一份 allowed_domains 白名单(login.microsoftonline.com*.openai.com)配 denied_domains 黑名单(pastebin.com 这种典型外泄通道),再加 allowed_web_search_modes = ["cached"]——意思是连让 agent 自由出口爬网都不许,只准查缓存。一句话掐死"agent 偷偷把 secrets POST 到外网"这条路。

identity & credentials 把 OAuth 凭证存进 OS keyring,登录方式锁成 forced_login_method = "chatgpt",再用 forced_chatgpt_workspace_id 把 agent 钉在指定的 enterprise workspace。开发者本地装一份 Codex,能用什么 model、登哪个组织、能不能切个人账号——一律由公司管。

rules 写成 prefix_rule(pattern = ["gh", "pr", ["view", "list"]], decision = "allow") 这种粒度的命令白名单。gh pr view 自动放行,其他默认 require approval。本质上是给 LLM agent 写了一份 sudoers——熟悉 Linux 的人对这个语义会很亲切,只是这次拿 sudo 的不是人,是模型。

如果停在这里,这篇还只是"配置例子写得详细"。OpenAI 在后面加了两件事,是这次真正的"新"。

一个 agent 监督另一个 agent

跑过 Codex 的人都遇到过的真问题不是"它会乱来",是"它每动一下都弹一个 approval 框,你烦了直接全 allow"。这种 yolo 模式才是大部分删库故事的真正起点——不是 agent 失控,是人放弃了把关。

OpenAI 给了一个叫 auto-review 的 subagent。每当 Codex 准备执行动作,先把"这个动作 + 当前上下文"丢给它;routine 低风险(read-only 查询、列文件之类)自动批准,high-risk 才停下来叫人。

这个设计的精确之处不在技术——在它承认了一件事:人盯 agent 是不可持续的。把 99% 的 routine approval 交给另一个 agent,剩下 1% 才留给人——人才有耐心认真看。这跟医院里实习医生开 routine 处方走自动化、超剂量必须主治医师 co-sign 是同一套逻辑。

SOC 第一次能问"你为什么"

第二件新事:Codex 通过 OpenTelemetry 把所有事件流——user prompts、tool approvals、tool execution、MCP server 使用、network proxy block——全部导到 SIEM。

传统 syslog 看的是"什么 process 启动了、什么文件被改了",记的是"做了什么"。OpenTelemetry agent-native logs 不一样,它把 agent 的 prompt、reasoning、approval decision 都记下来,记的是"为什么决定做"。

安全团队第一次有了一个可以回答的问题:这个 agent 当初为什么觉得这条命令该跑?

Cursor PocketOS 那个删库的故事,事后所有人都骂 Claude / Cursor / 写 prompt 的人。但没有一个人能拉出当时那一瞬间的 reasoning trace——因为没记。OpenAI 这套 telemetry 不是为了排错,是为了让 SOC 团队能审 LLM 的"动机"。这是 agent SOC 的开端。

这事到底在拐什么

admin-enforced 配置、agent 监督 agent、行为意图日志——三件事叠起来读,OpenAI 实际上是在产品文档里发了一份承认书

承认什么?承认 LLM agent 在 enterprise 环境里的工作模式,跟实习医生、刚入职的交易员、新来的运维一样——默认不可信。权限分级、动作 co-sign、决策可审计,三件套缺一不可。

业界一年来讨论 agent 安全,主流路线是"我们把 prompt 写得更细,让模型自己学会拒绝"。OpenAI 这周亲自承认这条路走不通——他们自己都不靠模型自律。靠的是 admin 强制、外部 enforcement、agent 互审、telemetry 全程记录。

下次再听到"我们的 AI agent 很安全,因为我们在 prompt 里写了不要 X"——这句话本身就是没装栏栅的证据。

OpenAI 自己都把 Codex 当不可信内部员工管,你公司的 Cursor 凭什么还在 yolo 模式跑。