gemini3.us
2026年3月5日发布

GPT-5.4

OpenAI最强大、最高效的专业工作前沿模型

OSWorld 75.0%(超越人类)• GPQA Diamond 92.8% • ARC-AGI-2 73.3% • 工具搜索减少47% token

查看基准测试
OSWorld(电脑操控)
GPQA Diamond
ARC-AGI-2
GDPval知识工作

GPT-5.4 功能与能力

首个将推理、编程和原生电脑操控合并为一个模型的OpenAI发布

原生电脑操控

GPT-5.4在OSWorld上达到75.0%,超越人类表现(72.4%)。通过Playwright代码和基于截图的鼠标/键盘命令操作桌面。

高级推理

GPT-5.4在ARC-AGI-2上得分73.3%(GPT-5.2为52.9%),GPQA Diamond 92.8%——真正的推理进步。

前沿编程

GPT-5.4结合了GPT-5.3-Codex的编程优势。SWE-Bench Pro 57.7%,Terminal-Bench 2.0 75.1%。/fast模式下token速度提升1.5倍。

工具搜索(减少47% Token)

新工具搜索功能按需加载工具定义,而非预先全部加载。在MCP Atlas基准测试中减少47% token使用量,同时保持相同准确率。

100万Token上下文

GPT-5.4在Codex中支持最多100万token上下文,使智能体能够跨长时间规划、执行和验证任务。标准窗口为272K token。

知识工作领导者

GDPval 83.0%(GPT-5.2为70.9%),IB建模任务87.3%,虚假声明比GPT-5.2减少33%。OpenAI发布的最高事实准确率模型。

GPT-5.4 基准测试结果

推理、编程、电脑操控和知识工作的最先进性能

推理与科学

ARC-AGI-2(已验证)
抽象推理——GPT-5.2为52.9%
73.3%
GPQA Diamond
博士级科学知识
92.8%
人类最后考试(含工具)
学术推理——GPT-5.2为45.5%
53.8%
FrontierMath Tier 1-3
高级数学推理
62.4%

编程与工程

SWE-Bench Pro(公开)
真实软件工程任务
57.7%
Terminal-Bench 2.0
CLI和终端任务完成
75.1%
BrowseComp
网页浏览和研究任务
71.2%
Toolathlon
使用真实API的多步骤工具使用
68.9%

电脑操控与视觉

OSWorld-Verified(桌面)
超越人类基准72.4%
75.0%
WebArena-Verified(浏览器)
浏览器导航和任务完成
82.3%
Online-Mind2Web(截图)
基于截图的网页交互
69.1%
MMMU Pro(无工具)
多模态理解
78.4%

知识工作

GDPval(胜出或平局)
44个职业,9个行业——GPT-5.2为70.9%
83.0%
IB建模任务
投资银行电子表格任务
87.3%
演示文稿偏好
人类评分者更偏好GPT-5.4的演示文稿
71%
虚假声明减少
与GPT-5.2相比减少事实错误
-33%

GPT-5.4 完整基准测试对比

GPT-5.4 vs GPT-5.2 — 完整性能数据

BenchmarkGPT-5.4GPT-5.2
OSWorld (Computer Use)75.0%47.3%
ARC-AGI-273.3%52.9%
GPQA Diamond92.8%88.1%
GDPval83.0%70.9%
HLE (with tools)53.8%45.5%
SWE-Bench Pro57.7%43.2%
Terminal-Bench 2.075.1%61.4%
IB Modeling Tasks87.3%74.1%

来源:OpenAI官方发布,2026年3月5日

GPT-5.4 定价

GPT-5.4和GPT-5.4 Pro的API定价

Model输入缓存输入输出
GPT-5.4$2.50/百万$0.25/百万$15/百万
GPT-5.4 Pro$30/百万$180/百万

批处理和Flex处理以标准费率的一半计费。优先处理为2倍。GPT-5.2将于2026年6月5日停用。

GPT-5.4 常见问题

关于GPT-5.4的常见问题解答

什么是GPT-5.4?

GPT-5.4是OpenAI于2026年3月5日发布的最强前沿模型。它将推理、编程和原生电脑操控合并为单一模型——这是OpenAI首次在一个发布中统一这些能力。

GPT-5.4与GPT-5.2相比如何?

GPT-5.4显著优于GPT-5.2:ARC-AGI-2从52.9%跃升至73.3%,GDPval从70.9%升至83.0%,OSWorld从47.3%升至75.0%(超越人类表现),虚假声明减少33%。

GPT-5.4的电脑操控功能是什么?

GPT-5.4可以通过Playwright代码和基于截图的鼠标/键盘命令原生操作电脑。在OSWorld上达到75.0%,超越人类基准72.4%——是目前桌面自动化最强的模型。

GPT-5.4的定价是多少?

GPT-5.4 API定价:输入$2.50/百万token,缓存输入$0.25/百万,输出$15/百万。GPT-5.4 Pro:输入$30/百万,输出$180/百万。批处理和Flex处理以半价计费。GPT-5.2将于2026年6月5日停用。

GPT-5.4的工具搜索是什么?

工具搜索是一项新功能,按需加载工具定义,而非预先包含所有定义。在启用36个MCP服务器的250个任务中,减少了47%的总token使用量,同时保持相同准确率——为企业智能体工作流节省大量成本。

GPT-5.4支持多大的上下文窗口?

GPT-5.4支持标准272K token上下文窗口,Codex中可用100万token上下文(超过272K标准窗口按2倍费率计费)。它是首个支持超过256K token上下文长度的OpenAI模型。

GPT-5.4与Gemini 3.1 Pro相比如何?

GPT-5.4在电脑操控(OSWorld 75.0%,Gemini无对应项)、知识工作(GDPval 83.0%)方面领先。Gemini 3.1 Pro在编程(SWE-Bench 80.6% vs 57.7%)和GPQA Diamond(94.3% vs 92.8%)方面领先。两者都是前沿模型,各有优势。

GPT-5.4在ChatGPT中可用吗?

是的。GPT-5.4 Thinking在ChatGPT中对Plus、Team和Pro订阅者可用,取代GPT-5.2 Thinking。GPT-5.4 Pro对Pro和Enterprise计划可用。企业和教育管理员可通过管理员设置启用早期访问。

关于GPT-5.4

GPT-5.4是OpenAI于2026年3月5日发布的旗舰推理模型。它是首个将推理、编程(GPT-5.3-Codex)和原生电脑操控合并为单一发布的主线模型。GPT-5.4在OSWorld桌面导航上超越人类表现,与GPT-5.2相比减少33%虚假声明,并引入工具搜索功能,为复杂智能体工作流减少47% token成本。

重要声明:Gemini3.us是一个独立的爱好者社区和开发者平台。我们与OpenAI没有任何关联、认可或官方连接。我们提供对OpenAI官方API服务的付费访问,以支持我们的基础设施和运营。

立即体验GPT-5.4

体验OpenAI最强大的模型——原生电脑操控、100万上下文和前沿推理