gemini3.us
2026年3月5日發布

GPT-5.4

OpenAI最強大、最高效的專業工作前沿模型

OSWorld 75.0%(超越人類)• GPQA Diamond 92.8% • ARC-AGI-2 73.3% • 工具搜尋減少47% token

查看基準測試

GPT-5.4 功能與能力

首個將推理、程式設計和原生電腦操控合併為一個模型的OpenAI發布

原生電腦操控

GPT-5.4在OSWorld上達到75.0%,超越人類表現(72.4%)。透過Playwright程式碼和基於截圖的滑鼠/鍵盤命令操作桌面。

高級推理

GPT-5.4在ARC-AGI-2上得分73.3%(GPT-5.2為52.9%),GPQA Diamond 92.8%——真正的推理進步。

前沿程式設計

GPT-5.4結合了GPT-5.3-Codex的程式設計優勢。SWE-Bench Pro 57.7%,Terminal-Bench 2.0 75.1%。/fast模式下token速度提升1.5倍。

工具搜尋(減少47% Token)

新工具搜尋功能按需載入工具定義,而非預先全部載入。在MCP Atlas基準測試中減少47% token使用量,同時保持相同準確率。

100萬Token上下文

GPT-5.4在Codex中支援最多100萬token上下文,使智能體能夠跨長時間規劃、執行和驗證任務。標準視窗為272K token。

知識工作領導者

GDPval 83.0%(GPT-5.2為70.9%),IB建模任務87.3%,虛假聲明比GPT-5.2減少33%。

GPT-5.4 基準測試結果

推理、程式設計、電腦操控和知識工作的最先進性能

推理與科學

ARC-AGI-2(已驗證)
抽象推理——GPT-5.2為52.9%
73.3%
GPQA Diamond
博士級科學知識
92.8%
人類最後考試(含工具)
學術推理——GPT-5.2為45.5%
53.8%
FrontierMath Tier 1-3
高級數學推理
62.4%

程式設計與工程

SWE-Bench Pro(公開)
真實軟體工程任務
57.7%
Terminal-Bench 2.0
CLI和終端任務完成
75.1%
BrowseComp
網頁瀏覽和研究任務
71.2%
Toolathlon
使用真實API的多步驟工具使用
68.9%

電腦操控與視覺

OSWorld-Verified(桌面)
超越人類基準72.4%
75.0%
WebArena-Verified(瀏覽器)
瀏覽器導航和任務完成
82.3%
Online-Mind2Web(截圖)
基於截圖的網頁互動
69.1%
MMMU Pro(無工具)
多模態理解
78.4%

知識工作

GDPval(勝出或平局)
44個職業,9個行業——GPT-5.2為70.9%
83.0%
IB建模任務
投資銀行電子表格任務
87.3%
簡報偏好
人類評分者更偏好GPT-5.4的簡報
71%
虛假聲明減少
與GPT-5.2相比減少事實錯誤
-33%

BenchmarkGPT-5.4GPT-5.2
OSWorld (Computer Use)75.0%47.3%
ARC-AGI-273.3%52.9%
GPQA Diamond92.8%88.1%
GDPval83.0%70.9%
HLE (with tools)53.8%45.5%
SWE-Bench Pro57.7%43.2%
Terminal-Bench 2.075.1%61.4%
IB Modeling Tasks87.3%74.1%

GPT-5.4 定價

GPT-5.4和GPT-5.4 Pro的API定價

Model
GPT-5.4$2.50/百萬$0.25/百萬$15/百萬
GPT-5.4 Pro$30/百萬$180/百萬

批次處理和Flex處理以標準費率的一半計費。優先處理為2倍。GPT-5.2將於2026年6月5日停用。

GPT-5.4 常見問題

關於GPT-5.4的常見問題解答

什麼是GPT-5.4?

GPT-5.4是OpenAI於2026年3月5日發布的最強前沿模型,將推理、程式設計和原生電腦操控合併為單一模型。

GPT-5.4與GPT-5.2相比如何?

GPT-5.4顯著優於GPT-5.2:ARC-AGI-2從52.9%躍升至73.3%,GDPval從70.9%升至83.0%,OSWorld從47.3%升至75.0%(超越人類表現),虛假聲明減少33%。

GPT-5.4的電腦操控功能是什麼?

GPT-5.4可以透過Playwright程式碼和基於截圖的滑鼠/鍵盤命令原生操作電腦。在OSWorld上達到75.0%,超越人類基準72.4%。

GPT-5.4的定價是多少?

GPT-5.4 API定價:輸入$2.50/百萬token,快取輸入$0.25/百萬,輸出$15/百萬。GPT-5.4 Pro:輸入$30/百萬,輸出$180/百萬。

GPT-5.4的工具搜尋是什麼?

工具搜尋按需載入工具定義,在啟用36個MCP伺服器的250個任務中,減少了47%的總token使用量,同時保持相同準確率。

GPT-5.4支援多大的上下文視窗?

GPT-5.4支援標準272K token上下文視窗,Codex中可用100萬token上下文(超過272K按2倍費率計費)。

GPT-5.4與Gemini 3.1 Pro相比如何?

GPT-5.4在電腦操控(OSWorld 75.0%)和知識工作(GDPval 83.0%)方面領先。Gemini 3.1 Pro在程式設計(SWE-Bench 80.6% vs 57.7%)和GPQA Diamond(94.3% vs 92.8%)方面領先。

GPT-5.4在ChatGPT中可用嗎?

是的。GPT-5.4 Thinking在ChatGPT中對Plus、Team和Pro訂閱者可用,取代GPT-5.2 Thinking。GPT-5.4 Pro對Pro和Enterprise計劃可用。

關於GPT-5.4

GPT-5.4是OpenAI於2026年3月5日發布的旗艦推理模型。它是首個將推理、程式設計(GPT-5.3-Codex)和原生電腦操控合併為單一發布的主線模型。GPT-5.4在OSWorld桌面導航上超越人類表現,與GPT-5.2相比減少33%虛假聲明,並引入工具搜尋功能,為複雜智能體工作流減少47% token成本。

重要聲明:Gemini3.us是一個獨立的愛好者社群和開發者平台。我們與OpenAI沒有任何關聯、認可或官方連接。我們提供對OpenAI官方API服務的付費存取,以支援我們的基礎設施和營運。

立即體驗GPT-5.4

體驗OpenAI最強大的模型——原生電腦操控、100萬上下文和前沿推理