2026年3月5日发布

GPT-5.4

OpenAI最强大、最高效的专业工作前沿模型

OSWorld 75.0%（超越人类）• GPQA Diamond 92.8% • ARC-AGI-2 73.3% • 工具搜索减少47% token

查看基准测试

OSWorld（电脑操控）

GPQA Diamond

ARC-AGI-2

GDPval知识工作

GPT-5.4 功能与能力

首个将推理、编程和原生电脑操控合并为一个模型的OpenAI发布

原生电脑操控

GPT-5.4在OSWorld上达到75.0%，超越人类表现（72.4%）。通过Playwright代码和基于截图的鼠标/键盘命令操作桌面。

高级推理

GPT-5.4在ARC-AGI-2上得分73.3%（GPT-5.2为52.9%），GPQA Diamond 92.8%——真正的推理进步。

前沿编程

GPT-5.4结合了GPT-5.3-Codex的编程优势。SWE-Bench Pro 57.7%，Terminal-Bench 2.0 75.1%。/fast模式下token速度提升1.5倍。

工具搜索（减少47% Token）

新工具搜索功能按需加载工具定义，而非预先全部加载。在MCP Atlas基准测试中减少47% token使用量，同时保持相同准确率。

100万Token上下文

GPT-5.4在Codex中支持最多100万token上下文，使智能体能够跨长时间规划、执行和验证任务。标准窗口为272K token。

知识工作领导者

GDPval 83.0%（GPT-5.2为70.9%），IB建模任务87.3%，虚假声明比GPT-5.2减少33%。OpenAI发布的最高事实准确率模型。

GPT-5.4 基准测试结果

推理、编程、电脑操控和知识工作的最先进性能

推理与科学

ARC-AGI-2（已验证）

抽象推理——GPT-5.2为52.9%

73.3%

GPQA Diamond

博士级科学知识

92.8%

人类最后考试（含工具）

学术推理——GPT-5.2为45.5%

53.8%

FrontierMath Tier 1-3

高级数学推理

62.4%

编程与工程

SWE-Bench Pro（公开）

真实软件工程任务

57.7%

Terminal-Bench 2.0

CLI和终端任务完成

75.1%

BrowseComp

网页浏览和研究任务

71.2%

Toolathlon

使用真实API的多步骤工具使用

68.9%

电脑操控与视觉

OSWorld-Verified（桌面）

超越人类基准72.4%

75.0%

WebArena-Verified（浏览器）

浏览器导航和任务完成

82.3%

Online-Mind2Web（截图）

基于截图的网页交互

69.1%

MMMU Pro（无工具）

多模态理解

78.4%

知识工作

GDPval（胜出或平局）

44个职业，9个行业——GPT-5.2为70.9%

83.0%

IB建模任务

投资银行电子表格任务

87.3%

演示文稿偏好

人类评分者更偏好GPT-5.4的演示文稿

71%

虚假声明减少

与GPT-5.2相比减少事实错误

-33%

GPT-5.4 完整基准测试对比

GPT-5.4 vs GPT-5.2 — 完整性能数据

Benchmark	GPT-5.4	GPT-5.2
OSWorld (Computer Use)	75.0%	47.3%
ARC-AGI-2	73.3%	52.9%
GPQA Diamond	92.8%	88.1%
GDPval	83.0%	70.9%
HLE (with tools)	53.8%	45.5%
SWE-Bench Pro	57.7%	43.2%
Terminal-Bench 2.0	75.1%	61.4%
IB Modeling Tasks	87.3%	74.1%

来源：OpenAI官方发布，2026年3月5日

GPT-5.4 定价

GPT-5.4和GPT-5.4 Pro的API定价

Model	输入	缓存输入	输出
GPT-5.4	$2.50/百万	$0.25/百万	$15/百万
GPT-5.4 Pro	$30/百万	—	$180/百万

批处理和Flex处理以标准费率的一半计费。优先处理为2倍。GPT-5.2将于2026年6月5日停用。

GPT-5.4 常见问题

关于GPT-5.4的常见问题解答

什么是GPT-5.4？

GPT-5.4是OpenAI于2026年3月5日发布的最强前沿模型。它将推理、编程和原生电脑操控合并为单一模型——这是OpenAI首次在一个发布中统一这些能力。

GPT-5.4与GPT-5.2相比如何？

GPT-5.4显著优于GPT-5.2：ARC-AGI-2从52.9%跃升至73.3%，GDPval从70.9%升至83.0%，OSWorld从47.3%升至75.0%（超越人类表现），虚假声明减少33%。

GPT-5.4的电脑操控功能是什么？

GPT-5.4可以通过Playwright代码和基于截图的鼠标/键盘命令原生操作电脑。在OSWorld上达到75.0%，超越人类基准72.4%——是目前桌面自动化最强的模型。

GPT-5.4的定价是多少？

GPT-5.4 API定价：输入$2.50/百万token，缓存输入$0.25/百万，输出$15/百万。GPT-5.4 Pro：输入$30/百万，输出$180/百万。批处理和Flex处理以半价计费。GPT-5.2将于2026年6月5日停用。

GPT-5.4的工具搜索是什么？

工具搜索是一项新功能，按需加载工具定义，而非预先包含所有定义。在启用36个MCP服务器的250个任务中，减少了47%的总token使用量，同时保持相同准确率——为企业智能体工作流节省大量成本。

GPT-5.4支持多大的上下文窗口？

GPT-5.4支持标准272K token上下文窗口，Codex中可用100万token上下文（超过272K标准窗口按2倍费率计费）。它是首个支持超过256K token上下文长度的OpenAI模型。

GPT-5.4与Gemini 3.1 Pro相比如何？

GPT-5.4在电脑操控（OSWorld 75.0%，Gemini无对应项）、知识工作（GDPval 83.0%）方面领先。Gemini 3.1 Pro在编程（SWE-Bench 80.6% vs 57.7%）和GPQA Diamond（94.3% vs 92.8%）方面领先。两者都是前沿模型，各有优势。

GPT-5.4在ChatGPT中可用吗？

是的。GPT-5.4 Thinking在ChatGPT中对Plus、Team和Pro订阅者可用，取代GPT-5.2 Thinking。GPT-5.4 Pro对Pro和Enterprise计划可用。企业和教育管理员可通过管理员设置启用早期访问。

关于GPT-5.4

GPT-5.4是OpenAI于2026年3月5日发布的旗舰推理模型。它是首个将推理、编程（GPT-5.3-Codex）和原生电脑操控合并为单一发布的主线模型。GPT-5.4在OSWorld桌面导航上超越人类表现，与GPT-5.2相比减少33%虚假声明，并引入工具搜索功能，为复杂智能体工作流减少47% token成本。

重要声明：Gemini3.us是一个独立的爱好者社区和开发者平台。我们与OpenAI没有任何关联、认可或官方连接。我们提供对OpenAI官方API服务的付费访问，以支持我们的基础设施和运营。

立即体验GPT-5.4

体验OpenAI最强大的模型——原生电脑操控、100万上下文和前沿推理