OpenAI GPT-5.5 發表｜Benchmark 提升、三種入口與 API 價格解析

OpenAI 在 2026-04-23 發表 GPT-5.5（內部代號 Spud），距前代 GPT-5.4 只有六週，是這一年來 AI 前線競賽節奏最密集的一次。這篇文章整理幾件開發者最想知道的事：GPT-5.5 到底進步在哪、官方透露了多少架構細節、ChatGPT／Codex／API 三種入口各自怎麼用到新模型、API 價格怎麼變動、以及這代漲價放在 Claude Opus 4.7 隱性 tokenizer 漲價事件旁邊看的對比。文章寫作的當下 API 尚未開放，所以速度與品質的實測只能等 API 開放後另外寫追蹤文，本文以官方資料與第三方評測交叉引用為主，合理推測的部分都會明確標示。

發表脈絡與時間軸

OpenAI 這一年的發表節奏加速非常明顯。回顧 GPT-5 家族從去年底到現在的時序：

GPT-5（2025 年中）：5 系列的首發版本
GPT-5.2（2026-01）：強化推理與工具使用
GPT-5.4（2026-03 初）：引入 Pro 變體與更長 context
GPT-5.5（2026-04-23）：本篇主角，代號 Spud

GPT-5 家族發表時間軸：GPT-5 在 2025 年中發表、GPT-5.2 在 2026-01、GPT-5.4 在 2026-03 初、GPT-5.5 在 2026-04-23，從 5.4 到 5.5 只隔 6 週 — 圖 1：GPT-5 家族從 2025 年中到 2026-04-23 的發表節奏。5.2 → 5.4 間隔 2 個月、5.4 → 5.5 只有 6 週，是這一輪跨代最快的一次。

6 週推一個大版本——不是小 patch 而是「smartest model yet」級別的改版——在前幾年是不敢想的速度。Fortune、TechCrunch 普遍將這波節奏解讀為 OpenAI 跟 Anthropic、Google 在企業市場的貼身肉搏：Anthropic 兩週前才推 Claude Opus 4.7（2026-04-16 發表），Google 則在 3 月底更新 Gemini 3.1 Pro。三家都在搶一個敘事——「agentic coding 時代誰家模型最強」。

這次的代號 Spud（馬鈴薯）延續 OpenAI 喜歡用生活化代號的習慣，VentureBeat 的標題也直接拿「這顆 Spud 不是馬鈴薯」開玩笑。不過代號的事情不重要，對開發者重要的是下面這些。

架構有什麼變化

先說結論：OpenAI 沒公開詳細架構。這是 OpenAI 自 GPT-4 之後一貫作風，模型本身的 parameter count、專家數、layer 設計都是商業機密。這次的官方 blog 與 System Card 也只寫「更大的後訓練、更多代理能力、對齊機制改善」這種高層敘述。可以確認的技術面向只有幾點：

NVIDIA 硬體合作

GPT-5.5 co-designed、trained、served 在 NVIDIA GB200 與 GB300 NVL72 系統上。這是 NVIDIA 這兩年主推的 AI 伺服器架構，單櫃 72 顆 GPU 並用 NVLink 共享記憶體，對跨節點通訊密集的大模型訓練特別有利。OpenAI 跟 NVIDIA 聯名發了一篇 blog，是這次發表週比較罕見的硬體面披露。

同 latency、更聰明的秘訣

OpenAI 這次特別強調一件事：GPT-5.5 維持跟 GPT-5.4 一樣的 per-token latency，但模型能力明顯提升。這通常不可能——更大的模型推理一定更慢。他們給的解釋是「把推論當成一個完整系統重新設計，不只是針對某幾個節點做微優化」，意思是從硬體、編譯器、kernel、服務編排到快取策略的端到端重做。這個敘述比較像行銷語言，具體細節沒有講。

「重新訓練基座」的傳聞

發表當天有第三方評測站（ofox.ai）說 GPT-5.5 是「自 GPT-4.5 以來第一個完全從頭訓練的基座模型」，但 OpenAI 官方沒有證實。從 benchmark 結果來看（下面會詳述），長上下文能力的跳躍幅度驚人，不像只是微調產生的效果，這個傳聞看起來不離譜，但仍屬於未驗證的推測。

Tokenizer 有沒有換

這點是開發者現階段最關心的，因為 Anthropic 的 Claude Opus 4.7 兩週前才被揭發新 tokenizer 會讓同樣內容吃掉更多 tokens，等於隱性漲價。Anthropic 官方文件寫的倍率是 1×–1.35×，但發表後幾位熟 LLM 的獨立測試者（Simon Willison、byteiota、CloudZero 等）重新量測，發現技術文件與程式碼最嚴重的案例可以衝到 1.47×，中日韓則是 1.005×–1.07×（差異很小）。目前官方沒有提到 GPT-5.5 換 tokenizer，社群也沒有類似的測試報告出來。從 API 定價直接大漲、而非以 tokenizer 動手腳的行為模式看，OpenAI 這次走「明帳漲價」路線——這在稍後的定價章節會有更細的對比。

價格提升

伴隨這次架構升級的是 API 價格大幅調漲：標準版 GPT-5.5 是 $5 input／$30 output per 1M tokens，剛好是 GPT-5.4 的 2 倍；另外新增最高階的 GPT-5.5 Pro，單價 $30 input／$180 output，是標準版的 6 倍。Codex 端的 credit 消耗也跟著 API 價格翻倍，但訂閱方案給的每 5 小時訊息數只縮 20–25%，OpenAI 把「5.5 完成任務所需 tokens 更少」的效率加成折回來。跟同期 Anthropic 保持 Opus 4.7 定價不變但偷換 tokenizer 的「隱性漲價」路線形成明顯對比。這段比較簡單先提一下，後面「API 價格與週邊影響」章節會用完整表格與圖表展開，包含跟 Claude Opus 4.7、Gemini 3.1 Pro 的對照。

提升幅度實測

以下數字來自 OpenAI 官方發表簡報、System Card，以及第三方評測站 llm-stats.com 與 BenchLM 的交叉彙整。10 個跨代共用 benchmark 中 GPT-5.5 在 9 題進步。

測試項目	GPT-5.4	GPT-5.5	提升	測什麼
Terminal-Bench 2.0	75.1%	82.7%	+7.6 pp	命令列 agentic coding
ARC-AGI-2	—	—	+11.7 pp	抽象推理，刻意設計抗飽和
MCP Atlas	—	—	+8.1 pp	MCP 工具使用綜合
MRCR v2（512K–1M ctx）	36.6%	74.0%	+37.4 pp	長上下文多段記憶
Graphwalks BFS（1M ctx）	9.4%	45.4%	+36.0 pp	長上下文結構化推理
CyberGym	79.0%	81.8%	+2.8 pp	資安攻防
內部 CTF	83.7%	88.1%	+4.4 pp	OpenAI 內部資安測試
BigLaw Bench	91.0%	91.7%	+0.7 pp	法律實務
GDPval	—	84.9%	—	經濟價值工作模擬
OSWorld-Verified	—	78.7%	—	桌面電腦自動操作
Tau2-bench Telecom	—	98.0%	—	電信領域任務

GPT-5.5 vs GPT-5.4 benchmark 提升對照：左半邊 slope chart 顯示 MRCR v2 從 36.6% 跳到 74.0%、Graphwalks 從 9.4% 跳到 45.4%；右半邊橫向 bar chart 顯示其他指標提升幅度，MRCR 與 Graphwalks 的 +30pp 以上跳躍遠大於其他指標 — 圖 2：左半邊把長上下文兩題 MRCR v2 與 Graphwalks 畫成 slope chart，看斜率就能感受到代差；右半邊是其他指標的提升幅度，MRCR 與 Graphwalks 紅色長條遠超其他項目。

真正值得停下來看的是中間那兩列粗體：MRCR v2 從 36.6% 跳到 74.0%、Graphwalks BFS 從 9.4% 跳到 45.4%。這兩個 benchmark 是在 512K 到 1M tokens 的超長上下文下測模型能否穩定記憶與推理，GPT-5.4 時代基本是「裝得下但用不好」，5.5 一下把它變成堪用的能力。這個幅度在 AI 發展史上算級別的跳躍，不是微調能達到的。從這點回推「重新訓練基座」的傳聞有一定可信度，但仍需官方證實。

Terminal-Bench 2.0 的 82.7% 是 OpenAI 這次主打的賣點之一，意義在於它贏了 Anthropic 同期的 Claude Mythos Preview（Opus 後續版本的 research preview），但只贏一點點（VentureBeat 標題用「narrowly beats」）。所以「agentic coding 之王」這個稱號目前是 GPT-5.5，但領先差距不大。

效率方面 OpenAI 宣稱「同樣任務下 GPT-5.5 產生的 tokens 數與重試次數都比 GPT-5.4 少」，這會影響實際成本（見下方價格章節）。這點沒有單一量化指標，但 Harvey、CodeRabbit 等第三方的早期 review 也都有類似印象。

ChatGPT、Codex、API 三種入口怎麼用

GPT-5.5 依入口不同有些微差異，這點官方 Help Center 的頁面寫得比較散，以下整理為一張對照表：

GPT-5.5 三種入口對照：ChatGPT、Codex、API 在適用方案、Context 上限、Thinking 模式、速度成本選項、GPT-5.5 Pro 五個面向的差異矩陣 — 圖 3：ChatGPT、Codex、API 三種入口的 GPT-5.5 使用差異。Codex 的 400K context 是這張圖最容易被忽略的細節——比 API 的 1M 少 60%。

入口	可用方案	Context 上限	Thinking 模式	GPT-5.5 Pro	其他
ChatGPT	Plus、Pro、Business、Enterprise	網頁介面（實際上限依方案）	Plus／Business：Standard + Extended Pro：加 Light + Heavy	Pro／Business／Enterprise 可用	從 model picker 選「GPT-5.5 Thinking」
Codex	Plus、Pro、Business、Enterprise、Edu、Go	400K（不是 1M）	—	暫無	Fast mode 1.5x 速度、2.5x 成本
API	已申請並通過的帳號	1M	—	有（$30／$180 per 1M）	Batch／Flex 半價、Priority 2.5x 價

ChatGPT 用戶

ChatGPT 付費用戶從發表日當天起就能直接用。打開 ChatGPT 介面左上角的模型選擇器，會看到 GPT-5.5 Thinking 出現在清單上。要注意的是 Thinking 模式有細分：

Standard（新預設）：平衡速度與智能
Extended（以前的 Plus 預設）：更深推理
Light（Pro 限定）：速度最快
Heavy（Pro 限定）：最深推理，適合困難研究題

想用 GPT-5.5 Pro（不是 Thinking 模式，是完全不同的更高階模型）要 Pro 方案以上。Pro 現在分兩層：Pro $100／月（Plus 的 5x 用量）與 Pro $200／月（Plus 的 20x 用量），兩個子層都可以用 GPT-5.5 Pro，差別只在每日可用的額度上限，模型權限完全一樣。這個版本針對極難題目優化，代價是 API 價格也翻倍到 $30 input／$180 output（見下方）。

Codex 用戶

Codex 是 OpenAI 的 coding 助手產品，現在所有付費方案（含 Edu 教育版、Go 輕量版）都能用 GPT-5.5，算是這次相容性最廣的入口。但要注意 Codex 的 context 上限是 400K，不是 API 的 1M——這個差距影響很大，長專案全文檢索可能塞不下。我猜測這是 OpenAI 為了保留 context 作為 API 層差異化而刻意設的限制。

Codex 這次新增了 Fast mode，產 token 速度 1.5 倍、成本 2.5 倍。簡單算一下：延遲少三分之一、錢多一倍半。互動場景（inline autocomplete、快速答疑）值得付，批次場景（code review、大重構）則不划算。

API 用戶

API 部分是這次比較特別的安排：發表當天沒有立刻開放，OpenAI 的說法是「API 部署需要不同層級的安全措施，目前正與 partner 與客戶討論服務端的安全與安全性需求」。這跟 Preparedness Framework 把 GPT-5.5 生物／資安能力評為 High 有關——更強能力需要更嚴的管控。上線時間沒有明確給，官方用字只說「very soon」。想第一時間拿到可以先去 OpenAI API 申請等待名單。

API 上線後會走 Responses API 與 Chat Completions API 兩條路，Batch／Flex／Priority 三種速度 / 成本權衡，選擇跟 GPT-5.4 時代相同邏輯。

API 價格與週邊影響

這次最有爭議的點就是 API 漲價。官方定價：

模型	Input $/1M	Output $/1M	Context	相對 5.4 倍率
GPT-5.4（前代）	$2.50	$15.00	1M	1x（基準）
GPT-5.5	$5.00	$30.00	1M	2.0x
GPT-5.5 Pro	$30.00	$180.00	1M	12x
Claude Opus 4.7	$5.00	$25.00	—	對照
Gemini 3.1 Pro（≤200K）	$2.00	$12.00	2M	對照
Gemini 3.1 Pro（>200K）	$4.00	$18.00	2M	對照

主流大模型 API 定價比較 bar chart：上半是 Input 單價、下半是 Output 單價。Gemini 3.1 Pro 最便宜、GPT-5.4 中段、GPT-5.5 與 Claude Opus 4.7 同級但 GPT-5.5 output 最貴 — 圖 4：主流大模型 API 定價比較（2026-04）。GPT-5.5 的 input 跟 Opus 4.7 同級、output 卻比 Opus 4.7 貴 20%；Gemini 3.1 Pro 無論 input 還是 output 都是最便宜的，但 context 超過 200K 會進入較貴的階梯。

看對照組會發現幾件有意思的事：GPT-5.5 的 input 跟 Claude Opus 4.7 完全一樣、output 比 Opus 4.7 貴 20%；Gemini 3.1 Pro 在 200K context 以下比 GPT-5.5 便宜 60%，即使加上長 context 加乘也還是最划算。OpenAI 這次漲到跟 Anthropic 同一階段，Gemini 仍保持低位策略。

顯性漲價 vs 隱性 tokenizer 膨脹

Anthropic 兩週前推 Claude Opus 4.7 時走了完全不同的策略：保持 $5／$25 定價不變、換新的 tokenizer。官方文件標註的倍率是 1×–1.35×，但社群很快（Simon Willison 2026-04-20 的文章、byteiota、CloudZero 等）量測發現實際上限更高——英文文字會吃掉最多 1.47 倍的 tokens，程式碼還更嚴重，中日韓則只增 1–7%。意思是對英文／Code 重度使用者，Opus 4.7 實質漲價上限可以到 47%，而且完全鋪在 rate card 底下看不出來。

OpenAI 這次走了相反路線——直接在 rate card 上翻倍，沒有玩 tokenizer 魔術。兩家的邏輯大概是：

Anthropic（隱性）：rate card 數字不變，客戶心理較不抗拒；但對技術敏感讀者會覺得被算計、信任受損。Simon Willison 那篇文章其實是個引爆點，引來大量轉發與批評
OpenAI（顯性）：rate card 直接翻倍，客戶第一時間可能覺得貴，但至少看得懂、預算好估。論壇反應反而比 Opus 4.7 那波低——因為數字寫在那裡沒什麼可爭論的

對開發者實務上，預算規劃建議用 rate card 加上量測後的 tokens，別只看價格標籤。遷移 Opus 4.6 → 4.7 要預留 20–47% 成本上升空間（尤其英文 heavy 的專案）；使用 GPT-5.4 → 5.5 則直接乘 2 估算即可。反過來說如果 GPT-5.5 真的能用比 5.4 少的 tokens 完成相同任務（OpenAI 的宣稱），實質成本倍率可能落在 1.5x–1.8x 而不是 2x，但這要等 API 上線實測。

GPT-5.5 Pro 值不值得

GPT-5.5 Pro 是這次新加的最高階層，API $30 input／$180 output。價位大概是標準 5.5 的 6 倍、Gemini 3.1 Pro 的 15 倍。值不值得取決於具體場景：對要壓縮研發週期、買回 engineer 時間的團隊（金融模型、新藥研究、法律複雜議題），這個價差是合理的 ROI；對一般工程師問答、日常 coding 任務，標準 5.5 完全夠用，花 Pro 的錢會是浪費。

ChatGPT Pro 方案訂閱用戶可以直接無額外付費用到 GPT-5.5 Pro，這算是 Pro 訂閱這幾年最有吸引力的時刻——因為 API 費率太高，一次性訂閱比跑 API 划算很多。中度使用者選 Pro $100（5x 用量）就夠，重度使用者再升 Pro $200（20x 用量）；兩個子層的模型權限一模一樣，只差用量上限。

Codex 用戶的計費變化

Codex 這邊同時有三層倍率變化，訂閱 Codex 整合 IDE／CLI 的開發者特別要留意，不然一不小心就被扣爆 credit。

第一層：計費單位本身改了。Codex 從 2026-04-02 起計費從 request-based 改成 token-based，還是用「credits」作為單位，但消耗是照 input、cached input、output tokens 的量計算，等同於 API。

第二層：模型間 credit 倍率。GPT-5.5 在 Codex 內每 token 消耗的 credits 是 GPT-5.4 的 2 倍，跟 API 漲幅完全一致：

模型	Input credits / 1M tok	Output credits / 1M tok
GPT-5.4	62.5	375
GPT-5.5	125	750

第三層：各訂閱方案的訊息數上限（5 小時視窗）。雖然 credit 費率翻倍，OpenAI 在方案的「每 5 小時可發訊息數」上對 GPT-5.5 只是小縮 20–25%，推測是把「5.5 完成任務所需 tokens 更少」的效率加成折進去了。

訂閱方案	GPT-5.4 訊息數	GPT-5.5 訊息數
Plus	20–100	15–80
Pro 5x	100–500	80–400
Pro 20x	400–2000	300–1600
Business	20–100	15–80
Enterprise／Edu	依 credit 彈性配置，沒有固定訊息數上限

Fast mode 的 2.5x 成本是再乘上去——所以 GPT-5.5 Fast mode = 125 × 2.5 = 312.5 credits／1M input tokens，相當於 GPT-5.4 標準速度的 5 倍。用在互動式 autocomplete、快速答疑很值得；批次 code review、大重構就別開，credits 會燒很快。

題外話：2026-05-31 前 Pro $100 方案有 2x Codex 用量促銷，Pro 5x 變成 Pro 10x（GPT-5.5 訊息數上限 160–800）。重度 Codex 用戶可以把握這段時間。

安全與使用限制

OpenAI 在 System Card 裡特別標註：GPT-5.5 在 Preparedness Framework 下的生物能力與資安能力都被評為 High。這是 OpenAI 內部風險分級最高的等級之一，代表模型具備被濫用於合成生物武器或大規模資安攻擊的潛在能力。

實務上這對開發者會有幾個影響：

API 先給 partner／enterprise：高風險評級是 API 沒有 day-one 開放的主要原因，要走核准流程
Trusted Access for Cyber 計畫：資安專業人士可透過這個專用計畫取得能跑 CTF、vulnerability research 這類敏感任務的許可
Safety fine-tuning 會更緊：拒答率可能比 GPT-5.4 高一點，特別是生物醫學、資安相關問題

一般 coding、知識工作、資料分析用途不受影響，按正常付費流程使用即可。

實務建議與觀察

值得升級的情境

長上下文重度使用者：MRCR、Graphwalks 的跳躍幅度意味著 500K+ context 的任務現在才真正可行。原本只能拆分小片送的超長文件可以考慮整份丟
Agentic coding workflow：Terminal-Bench 2.0 第一，搭配 Codex Fast mode 做 inline 開發體驗會明顯比 5.4 順
電腦操作自動化：OSWorld-Verified 78.7% 意味著桌面自動化 agent 可靠性進入堪用門檻
科學與資料分析：GeneBench 等新 eval 有明顯提升，研究型用戶值得試

可以先不換的情境

成本敏感的批次任務：GPT-5.4 用 $2.5／$15 就能搞定的東西，沒必要為了 5–8 pp 的 benchmark 差異付 2 倍
簡單問答：BigLaw 只漲 0.7 pp、CyberGym 只漲 2.8 pp，非極端任務下兩代差距感覺不到
已經綁定 Claude 工作流：Opus 4.7 的 Terminal-Bench 只比 5.5 低一點點，工具生態（Claude Code、MCP server）更豐富，沒有急著切過來的理由
中文內容為主：這幾個 benchmark 都是英文／code 任務，中文能力 OpenAI 官方沒特別宣稱進步，Gemini 系列在中文場景依然有競爭力

Portfolio 思路

現階段三家主流大模型（GPT-5.5、Claude Opus 4.7、Gemini 3.1 Pro）各有強項與價位，全押一家不是最佳解。常見的 portfolio 組合：

日常 coding：Claude Sonnet／Opus 4.7（Claude Code 生態最成熟）+ GPT-5.5（處理 Claude 卡住的題目當 fallback）
大量批次分析：Gemini 3.1 Pro（低價大 context）+ GPT-5.5（重要任務）
長文件處理：GPT-5.5（MRCR 優勢）或 Gemini 3.1 Pro（2M context）看任務類型挑
本地／隱私：Gemma 4、Llama 系列（參考 Google AI Studio 免費跑 Gemma 4）

實際怎麼接這些 provider，可以參考前幾篇 Claude Code 搭配本地 Gemma 4、Claude Code 自動化 Routines 這些實戰文，把 GPT-5.5 加進自己的 LLM 工具箱裡不困難。

等 API 開放後的追蹤點

這篇成文時 API 還沒開放，有幾個問題要等 API 上線後才有答案，我列下來做為後續追蹤：

實際 tokens 消耗：OpenAI 宣稱 5.5 用比 5.4 少的 tokens 完成相同任務，實質成本倍率是 1.5x 還是 2x 要實測
Streaming TTFT：同 per-token latency 不代表 first-token 一樣快，要測
中文與繁中表現：官方沒披露，但對華文讀者最重要
Tool use 相容性：接 Claude Code 這類工具時 tool calling 協議是否有 breaking change
Pro 版到底值多少：$30／$180 是純性能稅還是真的推理強到會有對應 ROI 的場景

整體看下來 GPT-5.5 這代是 OpenAI 自 GPT-5 以來最「有感」的升級，長上下文兩個 benchmark 的跳躍尤其接近代差。但代價是 API 價格翻倍，加上發表當天沒開 API，短期內真正能拿到的是 ChatGPT 與 Codex 訂閱戶。熱度會在 API 開放後重新起一波，有興趣的開發者可以現在就去申請 API 等待名單、在 ChatGPT 裡先用 Thinking 模式摸索 prompt 風格，等 API 開放就能無縫接上。寫這篇的時候離發表才一天，後面一兩週各家第三方 review 會陸續出，值得持續追蹤。

Post Views: 4,890