2026年3月5日發布

GPT-5.4

OpenAI最強大、最高效的專業工作前沿模型

OSWorld 75.0%（超越人類）• GPQA Diamond 92.8% • ARC-AGI-2 73.3% • 工具搜尋減少47% token

查看基準測試

GPT-5.4 功能與能力

首個將推理、程式設計和原生電腦操控合併為一個模型的OpenAI發布

原生電腦操控

GPT-5.4在OSWorld上達到75.0%，超越人類表現（72.4%）。透過Playwright程式碼和基於截圖的滑鼠/鍵盤命令操作桌面。

高級推理

GPT-5.4在ARC-AGI-2上得分73.3%（GPT-5.2為52.9%），GPQA Diamond 92.8%——真正的推理進步。

前沿程式設計

GPT-5.4結合了GPT-5.3-Codex的程式設計優勢。SWE-Bench Pro 57.7%，Terminal-Bench 2.0 75.1%。/fast模式下token速度提升1.5倍。

工具搜尋（減少47% Token）

新工具搜尋功能按需載入工具定義，而非預先全部載入。在MCP Atlas基準測試中減少47% token使用量，同時保持相同準確率。

100萬Token上下文

GPT-5.4在Codex中支援最多100萬token上下文，使智能體能夠跨長時間規劃、執行和驗證任務。標準視窗為272K token。

知識工作領導者

GDPval 83.0%（GPT-5.2為70.9%），IB建模任務87.3%，虛假聲明比GPT-5.2減少33%。

GPT-5.4 基準測試結果

推理、程式設計、電腦操控和知識工作的最先進性能

推理與科學

ARC-AGI-2（已驗證）

抽象推理——GPT-5.2為52.9%

73.3%

GPQA Diamond

博士級科學知識

92.8%

人類最後考試（含工具）

學術推理——GPT-5.2為45.5%

53.8%

FrontierMath Tier 1-3

高級數學推理

62.4%

程式設計與工程

SWE-Bench Pro（公開）

真實軟體工程任務

57.7%

Terminal-Bench 2.0

CLI和終端任務完成

75.1%

BrowseComp

網頁瀏覽和研究任務

71.2%

Toolathlon

使用真實API的多步驟工具使用

68.9%

電腦操控與視覺

OSWorld-Verified（桌面）

超越人類基準72.4%

75.0%

WebArena-Verified（瀏覽器）

瀏覽器導航和任務完成

82.3%

Online-Mind2Web（截圖）

基於截圖的網頁互動

69.1%

MMMU Pro（無工具）

多模態理解

78.4%

知識工作

GDPval（勝出或平局）

44個職業，9個行業——GPT-5.2為70.9%

83.0%

IB建模任務

投資銀行電子表格任務

87.3%

簡報偏好

人類評分者更偏好GPT-5.4的簡報

71%

虛假聲明減少

與GPT-5.2相比減少事實錯誤

-33%

Benchmark	GPT-5.4	GPT-5.2
OSWorld (Computer Use)	75.0%	47.3%
ARC-AGI-2	73.3%	52.9%
GPQA Diamond	92.8%	88.1%
GDPval	83.0%	70.9%
HLE (with tools)	53.8%	45.5%
SWE-Bench Pro	57.7%	43.2%
Terminal-Bench 2.0	75.1%	61.4%
IB Modeling Tasks	87.3%	74.1%

GPT-5.4 定價

GPT-5.4和GPT-5.4 Pro的API定價

Model
GPT-5.4	$2.50/百萬	$0.25/百萬	$15/百萬
GPT-5.4 Pro	$30/百萬	—	$180/百萬

批次處理和Flex處理以標準費率的一半計費。優先處理為2倍。GPT-5.2將於2026年6月5日停用。

GPT-5.4 常見問題

關於GPT-5.4的常見問題解答

什麼是GPT-5.4？

GPT-5.4是OpenAI於2026年3月5日發布的最強前沿模型，將推理、程式設計和原生電腦操控合併為單一模型。

GPT-5.4與GPT-5.2相比如何？

GPT-5.4顯著優於GPT-5.2：ARC-AGI-2從52.9%躍升至73.3%，GDPval從70.9%升至83.0%，OSWorld從47.3%升至75.0%（超越人類表現），虛假聲明減少33%。

GPT-5.4的電腦操控功能是什麼？

GPT-5.4可以透過Playwright程式碼和基於截圖的滑鼠/鍵盤命令原生操作電腦。在OSWorld上達到75.0%，超越人類基準72.4%。

GPT-5.4的定價是多少？

GPT-5.4 API定價：輸入$2.50/百萬token，快取輸入$0.25/百萬，輸出$15/百萬。GPT-5.4 Pro：輸入$30/百萬，輸出$180/百萬。

GPT-5.4的工具搜尋是什麼？

工具搜尋按需載入工具定義，在啟用36個MCP伺服器的250個任務中，減少了47%的總token使用量，同時保持相同準確率。

GPT-5.4支援多大的上下文視窗？

GPT-5.4支援標準272K token上下文視窗，Codex中可用100萬token上下文（超過272K按2倍費率計費）。

GPT-5.4與Gemini 3.1 Pro相比如何？

GPT-5.4在電腦操控（OSWorld 75.0%）和知識工作（GDPval 83.0%）方面領先。Gemini 3.1 Pro在程式設計（SWE-Bench 80.6% vs 57.7%）和GPQA Diamond（94.3% vs 92.8%）方面領先。

GPT-5.4在ChatGPT中可用嗎？

是的。GPT-5.4 Thinking在ChatGPT中對Plus、Team和Pro訂閱者可用，取代GPT-5.2 Thinking。GPT-5.4 Pro對Pro和Enterprise計劃可用。

關於GPT-5.4

GPT-5.4是OpenAI於2026年3月5日發布的旗艦推理模型。它是首個將推理、程式設計（GPT-5.3-Codex）和原生電腦操控合併為單一發布的主線模型。GPT-5.4在OSWorld桌面導航上超越人類表現，與GPT-5.2相比減少33%虛假聲明，並引入工具搜尋功能，為複雜智能體工作流減少47% token成本。

重要聲明：Gemini3.us是一個獨立的愛好者社群和開發者平台。我們與OpenAI沒有任何關聯、認可或官方連接。我們提供對OpenAI官方API服務的付費存取，以支援我們的基礎設施和營運。

立即體驗GPT-5.4

體驗OpenAI最強大的模型——原生電腦操控、100萬上下文和前沿推理