发布日期:2026-06-23 | 话题:AI 编程工具 | 适用人群:开发者、AI 工程师、独立开发者
Codex 桌面版和 CLI 支持通过 config.toml 接入任何兼容 OpenAI Responses API 的模型,官方内置推荐模型为 gpt-5.5(最强复杂任务)和 gpt-5.4-mini(轻量快速),同时支持 Claude、Gemini、Mistral、本地 Ollama 等第三方模型。选型核心结论:如果优先编程能力基准,当前 SWE-bench Verified 排行中 Gemini 3.1 Pro 以 80.6% 领先,Claude Sonnet 4 和 Opus 4 分别以 72.7% 和 72.5% 紧随;如果优先成本控制,官方 gpt-5.4-mini 或接入本地 Ollama 是最省钱方案;如果优先推理深度,gpt-5.5 和 Claude Opus 4.8 在复杂架构任务上有明显优势。本文从官方模型定位、第三方模型接入限制、SWE-bench 数据对比、成本结构四个维度,给出不同场景下的具体配置建议。

Codex 官方推荐模型:四档定位
Codex 官方文档(developers.openai.com/codex/models)列出的推荐模型按能力从高到低分四档:
| 模型 | 定位 | 适合场景 | 访问限制 |
|---|---|---|---|
| gpt-5.5 | 旗舰最强 | 复杂编程、Computer Use、研究工作流 | 全账号类型 |
| gpt-5.4 | 专业平衡 | 强推理 + 工具调用 + Agent 工作流 | 全账号类型 |
| gpt-5.4-mini | 快速轻量 | 轻量补全、子 Agent 任务、高频调用 | 全账号类型 |
| gpt-5.3-codex-spark | 研究预览 | 近实时编码迭代(接近即时响应) | 仅限 ChatGPT Pro |
日常使用建议:
- 复杂任务默认
gpt-5.5,成本贵但效果最强 - 高频重复任务(如自动修复 lint、写测试)用
gpt-5.4-mini,比 gpt-5.5 省约 7 倍 - 想体验实时编码的 Pro 用户可试
gpt-5.3-codex-spark
# 日常开发配置
model = "gpt-5.5"
model_reasoning_effort = "medium"
# 成本敏感 / CI 配置
model = "gpt-5.4-mini"
model_reasoning_effort = "low"
接入第三方模型的关键限制:Chat Completions 正在废弃
官方文档有一条重要警告,很多教程没有提到:
“Support for the Chat Completions API is deprecated and will be removed in future releases of Codex.”
这意味着:接入第三方模型必须使用 Responses API,不能只支持 Chat Completions。
目前明确支持 Responses API 的第三方服务:
- Azure OpenAI(
wire_api = "responses") - Amazon Bedrock(内置 provider,直接走 Bedrock 认证)
- CC Switch(
https://api.ccswitch.cc/v1,专为 Codex 适配)
Chat Completions 格式的 provider 目前仍可用,但未来某个版本会停止支持。如果你在用只提供 Chat Completions 接口的服务接 Codex,建议关注该 provider 的更新计划。
本地模型(Ollama / LM Studio) 通过保留 ID 直接支持,不受此限制:
# 本地 Ollama(不受 Responses API 限制)
model = "qwen2.5-coder:32b"
model_provider = "ollama"
SWE-bench 编程能力对比:2026 年最新数据
SWE-bench Verified 是目前最权威的 AI 编程能力基准,用真实 GitHub Issues 测试模型独立修复代码的能力。
| 模型 | SWE-bench Verified | 备注 |
|---|---|---|
| Gemini 3.1 Pro | 80.6% | Google DeepMind,单次尝试 |
| Claude Sonnet 4 | 72.7% | 无 Extended Thinking,高计算可达 80.2% |
| Claude Opus 4 | 72.5% | 无 Extended Thinking,高计算可达 79.4% |
| Claude 3.5 Sonnet | 49% | 2025 年初数据(Anthropic 官方) |
| Claude 3 Opus | 22% | 2025 年初数据(Anthropic 官方) |
怎么理解这个数据:
SWE-bench 分数是模型"裸能力"的参考,实际在 Codex 里的效果还受到 Agent 调度质量、工具调用策略、上下文管理的影响。同一个模型,通过 Codex 使用比直接调用 API 通常效果更好,因为 Codex 做了额外的 Agent 脚手架。
Gemini 3.1 Pro 的 80.6% 是当前公开数据里最高的单次得分,但它通过 Codex 接入需要 Google AI Studio API Key,且目前只能走 Chat Completions 格式(Responses API 支持有限),受前述废弃限制影响。
第三方模型接入对比:哪些实测好用
Claude Opus 4.8 / Sonnet 4.6(通过 CC Switch / Fenno 接入)
适合场景: 复杂重构、多文件架构分析、长上下文任务
Claude 系列的核心优势是长上下文理解和推理深度,Opus 4.8 在涉及全局代码库分析的任务上表现尤为突出(SWE-bench 高计算模式达 79.4%)。Claude Sonnet 4.6 是价格/性能平衡最优的选项之一。
model = "claude-sonnet-4-6"
model_provider = "ccswitch"
model_reasoning_effort = "medium"
[model_providers.ccswitch]
name = "CC Switch"
base_url = "https://api.ccswitch.cc/v1"
env_key = "CCSWITCH_API_KEY"
Qwen2.5-Coder(本地 Ollama)
适合场景: 离线开发、中文代码注释、成本为零的本地任务
Qwen2.5-Coder 系列是目前开源代码模型里效果最好的之一,32B 版本在补全任务上接近闭源中等模型,且完全本地运行无 API 费用。
model = "qwen2.5-coder:32b"
model_provider = "ollama"
approval_policy = "on-request"
Mistral Codestral(通过 Mistral API 接入)
适合场景: 欧洲数据合规要求、填充式代码补全(FIM)
Mistral 是官方文档中明确列出的示例 provider,支持 Chat Completions 格式,当前仍可用(未来受废弃影响)。
model = "codestral-latest"
model_provider = "mistral"
[model_providers.mistral]
name = "Mistral"
base_url = "https://api.mistral.ai/v1"
env_key = "MISTRAL_API_KEY"
Amazon Bedrock(企业/AWS 用户)
适合场景: 已有 AWS 基础设施、企业数据不出云要求
Bedrock 是唯一有内置 Provider 支持的第三方云服务,走 AWS 原生认证,无需 API Key 配置:
model = "us.anthropic.claude-sonnet-4-6"
model_provider = "amazon-bedrock"
[model_providers.amazon-bedrock.aws]
profile = "default"
region = "us-east-1"
按场景选模型:四种典型配置
场景一:追求最强编程效果
model = "gpt-5.5"
model_reasoning_effort = "high"
approval_policy = "on-request"
官方旗舰,复杂重构和多步 Agent 任务首选。成本最高,建议用 --profile 只在需要时加载。
场景二:日常开发,平衡效果与成本
model = "claude-sonnet-4-6"
model_provider = "ccswitch"
model_reasoning_effort = "medium"
[model_providers.ccswitch]
name = "CC Switch"
base_url = "https://api.ccswitch.cc/v1"
env_key = "CCSWITCH_API_KEY"
SWE-bench 72.7%,长上下文理解强,价格比 gpt-5.5 便宜约 3-5 倍(通过第三方平台接入)。
场景三:CI/批量任务,成本最低
model = "gpt-5.4-mini"
approval_policy = "never"
hide_agent_reasoning = true
[history]
persistence = "none"
官方轻量模型,适合自动修复 lint、批量写单测、格式化等重复性任务。
场景四:完全离线,零费用
model = "qwen2.5-coder:32b"
model_provider = "ollama"
approval_policy = "on-request"
[tui]
file_opener = "cursor"
本地 Ollama 运行,Apple Silicon M4 Pro 及以上可流畅使用 32B 量化版本,无 API 费用。
怎么在不同模型间切换(Profile 方案)
不同场景用不同 Profile,切换一条命令:
# 默认(日常开发)
codex
# 深度推理(用旗舰模型)
codex --profile deep
# CI 模式(轻量无交互)
codex --profile ci
对应的 Profile 文件:
# ~/.codex/deep.config.toml
model = "gpt-5.5"
model_reasoning_effort = "high"
approval_policy = "on-request"
# ~/.codex/ci.config.toml
model = "gpt-5.4-mini"
approval_policy = "never"
hide_agent_reasoning = true
常见问题 FAQ
Q1:接入 Claude 之后,效果真的比 gpt-5.5 好吗?
取决于任务类型。Claude Sonnet 4 在长上下文理解和涉及全局代码库分析的任务上与 gpt-5.5 接近;SWE-bench 数据显示 Claude 4 系列(72%+)落后于 Gemini 3.1 Pro(80.6%),但 SWE-bench 是单次任务基准,不完全代表 Agent 交互场景的实际体验。建议用自己的典型任务实测 2-3 轮再决定。
Q2:Gemini 3.1 Pro SWE-bench 得分最高,为什么不是首选?
三个原因:① 接入 Codex 目前需要自行配置 Google AI Studio API,支持文档较少;② Responses API 支持尚不完整,未来 Chat Completions 废弃后可能失效;③ 国内访问稳定性不如 CC Switch / Fenno 等专为 Codex 适配的平台。如果你的网络环境和 API 条件允许,值得尝试。
Q3:本地模型(Ollama)在 Codex 里能用吗?实测如何?
完全可用,且不受 Responses API 废弃限制。Qwen2.5-Coder:32B 在补全、单文件修改类任务上效果接近中等闭源模型,但多文件重构和需要全局推理的任务明显差于 gpt-5.5 或 Claude Sonnet 4。有 Apple Silicon M3 Max/M4 Pro 以上的用户可以流畅跑 32B 量化版本,具体速度取决于芯片和量化精度。
Q4:Chat Completions API 什么时候会被完全废弃?
官方文档说"将在未来版本移除"但未给具体时间线。目前仍可用,但建议新配置优先选择支持 Responses API 的 provider(CC Switch、Azure、Bedrock)。
Q5:一个 API Key 能同时给 Claude Code 和 Codex 用吗?
可以。CC Switch 和 Fenno 都支持两个工具共用一个 Key——Claude Code 的 ~/.claude/settings.json 和 Codex 的 ~/.codex/config.toml 分别填入相同的 base_url 和 Key 即可,互不干扰。
小结
Codex 接哪个模型效果最好,答案取决于三个变量:任务复杂度、成本预算、基础设施约束。追求基准最高分选 Gemini 3.1 Pro(SWE-bench 80.6%,接入门槛高);追求成本/效果平衡选 Claude Sonnet 4.6(SWE-bench 72.7%,第三方平台接入成熟);追求零费用选本地 Ollama + Qwen2.5-Coder;不想折腾直接用官方 gpt-5.5。无论接什么模型,记住一条:Chat Completions API 正在被 Codex 废弃,新配置优先选支持 Responses API 的 provider。本文数据来源:Codex 官方文档(developers.openai.com/codex)、Anthropic Claude 4 发布说明、Google DeepMind Gemini 3.1 Pro 技术页,2026-06。
参考来源:
- Codex 官方文档:Models(developers.openai.com/codex/models)
- Anthropic:Claude 4 发布说明(anthropic.com/news/claude-4)
- Google DeepMind:Gemini 3.1 Pro 基准(deepmind.google/models/gemini/pro)
- 七牛云:AI 编程工具配置大全
- Fenno 官网:AI 编程

2849

被折叠的 条评论
为什么被折叠?



