GPT-5.4
OpenAI最强大、最高效的专业工作前沿模型
OSWorld 75.0%(超越人类)• GPQA Diamond 92.8% • ARC-AGI-2 73.3% • 工具搜索减少47% token
GPT-5.4 功能与能力
首个将推理、编程和原生电脑操控合并为一个模型的OpenAI发布
原生电脑操控
GPT-5.4在OSWorld上达到75.0%,超越人类表现(72.4%)。通过Playwright代码和基于截图的鼠标/键盘命令操作桌面。
高级推理
GPT-5.4在ARC-AGI-2上得分73.3%(GPT-5.2为52.9%),GPQA Diamond 92.8%——真正的推理进步。
前沿编程
GPT-5.4结合了GPT-5.3-Codex的编程优势。SWE-Bench Pro 57.7%,Terminal-Bench 2.0 75.1%。/fast模式下token速度提升1.5倍。
工具搜索(减少47% Token)
新工具搜索功能按需加载工具定义,而非预先全部加载。在MCP Atlas基准测试中减少47% token使用量,同时保持相同准确率。
100万Token上下文
GPT-5.4在Codex中支持最多100万token上下文,使智能体能够跨长时间规划、执行和验证任务。标准窗口为272K token。
知识工作领导者
GDPval 83.0%(GPT-5.2为70.9%),IB建模任务87.3%,虚假声明比GPT-5.2减少33%。OpenAI发布的最高事实准确率模型。
GPT-5.4 基准测试结果
推理、编程、电脑操控和知识工作的最先进性能
推理与科学
编程与工程
电脑操控与视觉
知识工作
GPT-5.4 完整基准测试对比
GPT-5.4 vs GPT-5.2 — 完整性能数据
| Benchmark | GPT-5.4 | GPT-5.2 |
|---|---|---|
| OSWorld (Computer Use) | 75.0% | 47.3% |
| ARC-AGI-2 | 73.3% | 52.9% |
| GPQA Diamond | 92.8% | 88.1% |
| GDPval | 83.0% | 70.9% |
| HLE (with tools) | 53.8% | 45.5% |
| SWE-Bench Pro | 57.7% | 43.2% |
| Terminal-Bench 2.0 | 75.1% | 61.4% |
| IB Modeling Tasks | 87.3% | 74.1% |
来源:OpenAI官方发布,2026年3月5日
GPT-5.4 定价
GPT-5.4和GPT-5.4 Pro的API定价
| Model | 输入 | 缓存输入 | 输出 |
|---|---|---|---|
| GPT-5.4 | $2.50/百万 | $0.25/百万 | $15/百万 |
| GPT-5.4 Pro | $30/百万 | — | $180/百万 |
批处理和Flex处理以标准费率的一半计费。优先处理为2倍。GPT-5.2将于2026年6月5日停用。
GPT-5.4 常见问题
关于GPT-5.4的常见问题解答
什么是GPT-5.4?
GPT-5.4是OpenAI于2026年3月5日发布的最强前沿模型。它将推理、编程和原生电脑操控合并为单一模型——这是OpenAI首次在一个发布中统一这些能力。
GPT-5.4与GPT-5.2相比如何?
GPT-5.4显著优于GPT-5.2:ARC-AGI-2从52.9%跃升至73.3%,GDPval从70.9%升至83.0%,OSWorld从47.3%升至75.0%(超越人类表现),虚假声明减少33%。
GPT-5.4的电脑操控功能是什么?
GPT-5.4可以通过Playwright代码和基于截图的鼠标/键盘命令原生操作电脑。在OSWorld上达到75.0%,超越人类基准72.4%——是目前桌面自动化最强的模型。
GPT-5.4的定价是多少?
GPT-5.4 API定价:输入$2.50/百万token,缓存输入$0.25/百万,输出$15/百万。GPT-5.4 Pro:输入$30/百万,输出$180/百万。批处理和Flex处理以半价计费。GPT-5.2将于2026年6月5日停用。
GPT-5.4的工具搜索是什么?
工具搜索是一项新功能,按需加载工具定义,而非预先包含所有定义。在启用36个MCP服务器的250个任务中,减少了47%的总token使用量,同时保持相同准确率——为企业智能体工作流节省大量成本。
GPT-5.4支持多大的上下文窗口?
GPT-5.4支持标准272K token上下文窗口,Codex中可用100万token上下文(超过272K标准窗口按2倍费率计费)。它是首个支持超过256K token上下文长度的OpenAI模型。
GPT-5.4与Gemini 3.1 Pro相比如何?
GPT-5.4在电脑操控(OSWorld 75.0%,Gemini无对应项)、知识工作(GDPval 83.0%)方面领先。Gemini 3.1 Pro在编程(SWE-Bench 80.6% vs 57.7%)和GPQA Diamond(94.3% vs 92.8%)方面领先。两者都是前沿模型,各有优势。
GPT-5.4在ChatGPT中可用吗?
是的。GPT-5.4 Thinking在ChatGPT中对Plus、Team和Pro订阅者可用,取代GPT-5.2 Thinking。GPT-5.4 Pro对Pro和Enterprise计划可用。企业和教育管理员可通过管理员设置启用早期访问。
关于GPT-5.4
GPT-5.4是OpenAI于2026年3月5日发布的旗舰推理模型。它是首个将推理、编程(GPT-5.3-Codex)和原生电脑操控合并为单一发布的主线模型。GPT-5.4在OSWorld桌面导航上超越人类表现,与GPT-5.2相比减少33%虚假声明,并引入工具搜索功能,为复杂智能体工作流减少47% token成本。
重要声明:Gemini3.us是一个独立的爱好者社区和开发者平台。我们与OpenAI没有任何关联、认可或官方连接。我们提供对OpenAI官方API服务的付费访问,以支持我们的基础设施和运营。
立即体验GPT-5.4
体验OpenAI最强大的模型——原生电脑操控、100万上下文和前沿推理