`openai/codex`：代码生成运行时的沙箱物理隔离与动态验证内核¶

大模型在生成代码（如 Python、Go 脚本或 Shell 命令）时，如果不经过物理隔离直接在本地宿主机上运行，无异于直接向大模型交出物理系统的最高控制权。OpenAI 团队在其 Codex 运行时组件的设计中，确立了一套高性能且极其严密的代码执行沙箱（Execution Sandbox）与自动化验证机制。其底座内核基于 gVisor/Firecracker 容器级物理隔离、cgroups 资源硬限制与动态自动化测试验证（Auto-Verification）。

1. 物理沙箱隔离机制：容器化网络与文件级阻断¶

让智能体执行生成的代码，安全边界绝不建立在软件应用层，而必须下沉到操作系统内核级物理隔离。

 ┌────────────────────────────────────────────────────────┐
 │            宿主应用 / 智能体控制面 (Host Runtime)      │
 └────────────────────────┬───────────────────────────────┘
                          │ 
                          │ 异步提交待执行代码 (POST /exec_task)
                          v
+─────────────────────────┼──────────────────────────────────────────+
|  Exec Server 物理沙箱层 (gVisor 强隔离网络)                         |
|                                                                    |
|   ┌────────────────────────────────────────────────────────────┐   |
|   │ 1. Namespaces & cgroups 资源限制器                         │   |
|   │    - 限制 CPU 额度 (0.5 Cores)                             │   |
|   │    - 限制内存配额 (Max 512MB, 防止 fork bomb 炸弹)          │   |
|   │    - 磁盘空间硬限额 (QUOTA 限制最大 100MB 写入)            │   |
|   └────────────────────────┬───────────────────────────────────┘   |
|                            │                                       |
|                            v                                       |
|   ┌────────────────────────────────────────────────────────────┐   |
|   │ 2. Linux 内核系统调用过滤 (Seccomp Filters)                │   |
|   │    - 拦截 sys_socket / sys_bind (强力阻断网络建立)          │   |
|   │    - 拦截 sys_mount / sys_chroot                          │   |
|   │    - 仅允许对特定只读 /tmp 目录执行写操作                    │   |
|   └────────────────────────────────────────────────────────────┘   |
+────────────────────────────────────────────────────────────────────+

1.1 gVisor 沙箱虚拟化 (Virtualization)¶

Ollama 或原生 Python 运行的代码极易通过未过滤的系统调用突破 Namespace 隔离。Codex 运行时推荐采用 gVisor（基于进程级别虚拟化的新型容器沙箱）： * 哨兵拦截：gVisor 提供了一个名为 Sentry 的用户态内核，完全拦截了容器内进程发出的所有 Linux 系统调用，并在用户态重新实现它们，避免了代码直接操作真实的宿主机 Linux Kernel，实现了物理级的虚拟化隔离防线。

1.2 Resource Quota & Security cgroups¶

通过 Linux 的 cgroups（控制组），限制执行进程的最大内存配额为 512MB，一旦代码触发死循环引发内存膨胀，操作系统会立即发出 OOM Killer 物理终止该沙箱，保障宿主机其他服务的存活。

2. Exec Server 异步架构与自动化验证管线 (Verification Pipeline)¶

为防止耗时的代码测试任务拉长主线程的时延，Codex 的代码执行采用完全异步解耦的 Exec Server 架构：

异步提交任务：主 Agent 将生成的 Patch 代码或测试命令作为 Payload，发送给 Exec Server。
获取 Task ID：Server 立即返回 task_id，并将执行任务扔进内部的分布式消息队列（如 Redis/RabbitMQ 驱动的 Celery）。
拉起沙箱执行：后台 Worker 动态拉起一个隔离的 gVisor 沙箱，载入代码并运行。
自动化测试验证 (Auto-Verification)：代码在沙箱内运行后，系统会自动触发三级测试管线：
- AST 静态分析：检查是否有明显的语法错误与危险包导入（如 Python 中的 import os; os.system()）。
- 单元测试运行：沙箱内自动执行 pytest 或 go test。
- 差异比对 (Diff Match)：捕获 stdout 结果，检查输出的数据格式与预设的 Ground Truth 是否完全一致。
异步回调 (Webhook Callback)：执行与测试完成后，Server 通过 Webhook 或 EventSource 将详细的 Trace 报告、测试通过率反馈给主 Agent 状态机。

3. 防御性 ExecPolicy 策略与安全钩子¶

为降低沙箱被刺穿的概率，系统引入了声明式的 ExecPolicy（执行安全策略）：

黑白名单匹配：明文规定哪些三方库属于高危库（如 subprocess, requests），若代码中包含这些库导入且未显式申请网络豁免，沙箱前置拦截器会直接返回 Security Policy Violation。
运行时动态插槽（Hooks）：允许在代码执行前后注入自定义的安全切面。例如，在 Python 代码运行前，通过 Hook 自动在沙箱环境中注入特定的环境变量，或在执行后自动清理临时文件，确保每一个会话之间具备完全的环境幂等性。

4. 生产级故障演进与运维排查¶

故障现象	底层诱因	系统级表现	预防与排查手段
沙箱 OOM 进程自毁	代码产生无限递归或死循环，导致内存消耗瞬间触及 cgroups 的 512MB 阈值线。	接口返回 `Exit Code 137 (OOM)`，代码执行意外中断，没有产生输出。	1. 严格在 cgroups 中对 CPU 时间片做硬控制。 2. 沙箱内执行任务必须挂载 `Timeout` 超时拦截器（建议限制 \(\le 5\text{s}\)）。
磁盘配额爆满 (Disk Full)	大模型误生成了无限写入大文件的代码（如不断往 log 灌无用字符）。	沙箱报错 `No space left on device`，导致宿主机磁盘被撑爆。	1. 在 Docker/gVisor 的容器挂载卷上强绑定磁盘配额限制（QUOTA 限制最大 100MB 写入）。 2. 每次任务结束后强制执行 Hook 清洗卷。
网络隔离阻断报错	代码中包含需要向外获取 API 数据的操作，但被 Seccomp 直接拦截。	抛出网络超时或 `Permission Denied` 的 Socket 错误。	1. 对特定受信任 API 通道配置专门的网络白名单代理网关。 2. 推荐使用 MCP SDK 将外部能力作为资源组件引入，而非让代码直接发起 TCP 请求。

5. 资深系统架构师面试表达方案¶

面试提问：大模型生成的代码是高度不可信的，在设计自动执行大模型代码的系统时，你们是如何做安全防护与性能保障的？

回答模版： 在自动执行大模型代码的架构设计中，我们严格坚守“零信任”原则。大模型生成的任何一行代码，都被视为具备潜在恶意渗透可能的黑客脚本，必须通过操作系统内核级防御进行强制隔离。

我们的核心方案采用 gVisor 沙箱隔离 + 异步 Webhook 验证管线：第一，内核级虚拟化隔离（gVisor Protection）：我们严禁在宿主机上直接执行模型生成的代码。所有的代码提交至专门的 Exec Server，在后台通过 Linux cgroups 锁定 CPU 核心与 512MB 内存配额，使用 QUOTA 锁死磁盘空间以防 Fork 炸弹和垃圾大文件写爆磁盘。我们通过 gVisor 用户态内核全面劫持并实现所有的 System Call，过滤 sys_socket 杜绝越权外联网络，守住绝对的系统级安全红线。

第二，解耦的异步测试与回调（Async Verification Pipeline）：为了防止模型测试或死循环阻塞主业务线程，我们将执行流完全设计为异步队列任务。Exec Server 内部在独立 Worker 中拉起沙箱，先通过 AST 静态扫描危险导入，再在沙箱内并发执行单元测试，捕获 stdout 后通过 Webhook 异步回调机制将带 Trace 的运行状态归一化返回主 Agent。这套设计保证了系统在高并发、高对抗的线上复杂任务下，具备了坚如磐石的物理安全边界与可预测的资源开销上限。

openai/codex：代码生成运行时的沙箱物理隔离与动态验证内核¶