Veröffentlicht am 5. März 2026

GPT-5.4

OpenAIs leistungsfähigstes und effizientestes Frontier-Modell für professionelle Arbeit

OSWorld 75.0% (übertrifft Menschen) • GPQA Diamond 92.8% • ARC-AGI-2 73.3% • Tool-Suche reduziert 47% Token

GPT-5.4 Funktionen & Fähigkeiten

Die erste OpenAI-Veröffentlichung, die Reasoning, Coding und native Computernutzung in einem Modell vereint

Native Computernutzung

GPT-5.4 erreicht 75.0% auf OSWorld und übertrifft die menschliche Leistung (72.4%). Bedient Desktops über Playwright-Code und screenshot-basierte Maus-/Tastaturbefehle.

Erweitertes Reasoning

GPT-5.4 erzielt 73.3% auf ARC-AGI-2 (GPT-5.2: 52.9%) und 92.8% GPQA Diamond — ein echter Reasoning-Fortschritt.

Frontier-Coding

GPT-5.4 kombiniert die Coding-Stärken von GPT-5.3-Codex. SWE-Bench Pro 57.7%, Terminal-Bench 2.0 75.1%. Token-Geschwindigkeit 1.5x schneller im /fast-Modus.

Tool-Suche (47% weniger Token)

Die neue Tool-Suche lädt Tool-Definitionen bei Bedarf. Reduziert Token-Nutzung um 47% im MCP Atlas Benchmark bei gleicher Genauigkeit.

1M Token Kontext

GPT-5.4 unterstützt bis zu 1 Million Token Kontext in Codex. Standard-Fenster: 272K Token.

Wissensarbeit-Marktführer

GDPval 83.0% (GPT-5.2: 70.9%), IB-Modellierungsaufgaben 87.3%, 33% weniger falsche Behauptungen als GPT-5.2.

GPT-5.4 Benchmark-Ergebnisse

Modernste Leistung in Reasoning, Coding, Computernutzung und Wissensarbeit

Reasoning & Wissenschaft

ARC-AGI-2 (Verifiziert)

Abstraktes Reasoning — GPT-5.2: 52.9%

73.3%

GPQA Diamond

Wissenschaftliches Wissen auf Doktoratsniveau

92.8%

Letztes Examen der Menschheit (mit Tools)

Akademisches Reasoning — GPT-5.2: 45.5%

53.8%

FrontierMath Tier 1-3

Fortgeschrittenes mathematisches Reasoning

62.4%

Coding & Engineering

SWE-Bench Pro (Öffentlich)

Echte Software-Engineering-Aufgaben

57.7%

Terminal-Bench 2.0

CLI- und Terminal-Aufgaben

75.1%

BrowseComp

Web-Browsing und Recherche-Aufgaben

71.2%

Toolathlon

Mehrstufige Tool-Nutzung mit echten APIs

68.9%

Computernutzung & Vision

OSWorld-Verified (Desktop)

Übertrifft menschliche Basislinie von 72.4%

75.0%

WebArena-Verified (Browser)

Browser-Navigation und Aufgabenerfüllung

82.3%

Online-Mind2Web (Screenshots)

Screenshot-basierte Web-Interaktion

69.1%

MMMU Pro (ohne Tools)

Multimodales Verständnis

78.4%

Wissensarbeit

GDPval (gewinnt oder unentschieden)

44 Berufe, 9 Branchen — GPT-5.2: 70.9%

83.0%

IB-Modellierungsaufgaben

Investment-Banking-Tabellenaufgaben

87.3%

Präsentationspräferenz

Menschliche Bewerter bevorzugen GPT-5.4-Präsentationen

71%

Reduzierung falscher Behauptungen

Weniger Sachfehler vs GPT-5.2

-33%

Benchmark	GPT-5.4	GPT-5.2
OSWorld (Computer Use)	75.0%	47.3%
ARC-AGI-2	73.3%	52.9%
GPQA Diamond	92.8%	88.1%
GDPval	83.0%	70.9%
HLE (with tools)	53.8%	45.5%
SWE-Bench Pro	57.7%	43.2%
Terminal-Bench 2.0	75.1%	61.4%
IB Modeling Tasks	87.3%	74.1%

GPT-5.4 Preise

API-Preise für GPT-5.4 und GPT-5.4 Pro

Model
GPT-5.4	$2.50/M	$0.25/M	$15/M
GPT-5.4 Pro	$30/M	—	$180/M

Batch- und Flex-Verarbeitung zum halben Standardpreis. Prioritätsverarbeitung zum Doppelten. GPT-5.2 wird am 5. Juni 2026 eingestellt.

GPT-5.4 FAQ

Häufig gestellte Fragen zu GPT-5.4

Was ist GPT-5.4?

GPT-5.4 ist OpenAIs leistungsfähigstes Frontier-Modell, veröffentlicht am 5. März 2026. Es vereint Reasoning, Coding und native Computernutzung in einem Modell.

Wie vergleicht sich GPT-5.4 mit GPT-5.2?

GPT-5.4 übertrifft GPT-5.2 deutlich: ARC-AGI-2 steigt von 52.9% auf 73.3%, GDPval von 70.9% auf 83.0%, OSWorld von 47.3% auf 75.0% (übertrifft menschliche Leistung), falsche Behauptungen um 33% reduziert.

Was ist die Computernutzungsfunktion von GPT-5.4?

GPT-5.4 kann Computer nativ über Playwright-Code und screenshot-basierte Maus-/Tastaturbefehle bedienen. Erreicht 75.0% auf OSWorld und übertrifft die menschliche Basislinie von 72.4%.

Was kostet GPT-5.4?

GPT-5.4 API-Preise: $2.50/M Eingabe-Token, $0.25/M gecachte Eingabe, $15/M Ausgabe. GPT-5.4 Pro: $30/M Eingabe, $180/M Ausgabe.

Was ist die Tool-Suche in GPT-5.4?

Die Tool-Suche lädt Tool-Definitionen bei Bedarf. Bei 250 Aufgaben mit 36 aktivierten MCP-Servern wurde die Token-Nutzung um 47% reduziert bei gleicher Genauigkeit.

Welches Kontextfenster unterstützt GPT-5.4?

GPT-5.4 unterstützt ein Standard-Kontextfenster von 272K Token, mit 1M Token in Codex verfügbar (doppelter Preis über 272K).

Wie vergleicht sich GPT-5.4 mit Gemini 3.1 Pro?

GPT-5.4 führt bei Computernutzung (OSWorld 75.0%) und Wissensarbeit (GDPval 83.0%). Gemini 3.1 Pro führt bei Coding (SWE-Bench 80.6% vs 57.7%) und GPQA Diamond (94.3% vs 92.8%).

Ist GPT-5.4 in ChatGPT verfügbar?

Ja. GPT-5.4 Thinking ist für Plus-, Team- und Pro-Abonnenten in ChatGPT verfügbar und ersetzt GPT-5.2 Thinking. GPT-5.4 Pro ist für Pro- und Enterprise-Pläne verfügbar.

Über GPT-5.4

GPT-5.4 ist OpenAIs Flaggschiff-Reasoning-Modell, das am 5. März 2026 veröffentlicht wurde. Es ist das erste Hauptmodell, das Reasoning, Coding (GPT-5.3-Codex) und native Computernutzung in einer einzigen Veröffentlichung vereint.

Wichtiger Hinweis: Gemini3.us ist eine unabhängige Enthusiasten-Community und Entwicklerplattform. Wir sind nicht mit OpenAI verbunden oder offiziell angeschlossen.

Jetzt GPT-5.4 ausprobieren

Erleben Sie OpenAIs leistungsfähigstes Modell — native Computernutzung, 1M Kontext und Frontier-Reasoning