gemini3.us
2026년 3월 5일 출시

GPT-5.4

OpenAI의 가장 강력하고 효율적인 프론티어 모델

OSWorld 75.0%(인간 초과) • GPQA Diamond 92.8% • ARC-AGI-2 73.3% • 도구 검색으로 47% 토큰 절감

벤치마크 보기

GPT-5.4 기능 및 능력

추론, 코딩, 네이티브 컴퓨터 사용을 하나의 모델로 통합한 최초의 OpenAI 출시

네이티브 컴퓨터 사용

GPT-5.4는 OSWorld에서 75.0%를 달성하여 인간 성능(72.4%)을 초과합니다. Playwright 코드와 스크린샷 기반 마우스/키보드 명령으로 데스크톱을 조작합니다.

고급 추론

GPT-5.4는 ARC-AGI-2에서 73.3%(GPT-5.2는 52.9%), GPQA Diamond 92.8%를 달성——진정한 추론 발전.

프론티어 코딩

GPT-5.4는 GPT-5.3-Codex의 코딩 강점을 결합합니다. SWE-Bench Pro 57.7%, Terminal-Bench 2.0 75.1%. /fast 모드에서 토큰 속도 1.5배.

도구 검색 (47% 토큰 절감)

새로운 도구 검색 기능은 도구 정의를 온디맨드로 로드합니다. MCP Atlas 벤치마크에서 동일한 정확도를 유지하면서 47% 토큰 사용량 절감.

100만 토큰 컨텍스트

GPT-5.4는 Codex에서 최대 100만 토큰 컨텍스트를 지원하여 에이전트가 장기간에 걸쳐 작업을 계획, 실행, 검증할 수 있습니다. 표준 창은 272K 토큰.

지식 작업 리더

GDPval 83.0%(GPT-5.2는 70.9%), IB 모델링 작업 87.3%, GPT-5.2 대비 허위 주장 33% 감소.

GPT-5.4 벤치마크 결과

추론, 코딩, 컴퓨터 사용, 지식 작업에서 최첨단 성능

추론 및 과학

ARC-AGI-2 (검증됨)
추상 추론——GPT-5.2는 52.9%
73.3%
GPQA Diamond
박사 수준 과학 지식
92.8%
인류 최후의 시험 (도구 포함)
학술 추론——GPT-5.2는 45.5%
53.8%
FrontierMath Tier 1-3
고급 수학적 추론
62.4%

코딩 및 엔지니어링

SWE-Bench Pro (공개)
실제 소프트웨어 엔지니어링 작업
57.7%
Terminal-Bench 2.0
CLI 및 터미널 작업 완료
75.1%
BrowseComp
웹 브라우징 및 연구 작업
71.2%
Toolathlon
실제 API를 사용한 다단계 도구 사용
68.9%

컴퓨터 사용 및 비전

OSWorld-Verified (데스크톱)
인간 기준선 72.4% 초과
75.0%
WebArena-Verified (브라우저)
브라우저 탐색 및 작업 완료
82.3%
Online-Mind2Web (스크린샷)
스크린샷 기반 웹 상호작용
69.1%
MMMU Pro (도구 없음)
멀티모달 이해
78.4%

지식 작업

GDPval (승리 또는 무승부)
44개 직업, 9개 산업——GPT-5.2는 70.9%
83.0%
IB 모델링 작업
투자 은행 스프레드시트 작업
87.3%
프레젠테이션 선호도
인간 평가자가 GPT-5.4 프레젠테이션을 선호
71%
허위 주장 감소
GPT-5.2 대비 사실 오류 감소
-33%

BenchmarkGPT-5.4GPT-5.2
OSWorld (Computer Use)75.0%47.3%
ARC-AGI-273.3%52.9%
GPQA Diamond92.8%88.1%
GDPval83.0%70.9%
HLE (with tools)53.8%45.5%
SWE-Bench Pro57.7%43.2%
Terminal-Bench 2.075.1%61.4%
IB Modeling Tasks87.3%74.1%

GPT-5.4 가격

GPT-5.4 및 GPT-5.4 Pro API 가격

Model
GPT-5.4$2.50/백만$0.25/백만$15/백만
GPT-5.4 Pro$30/백만$180/백만

배치 및 Flex 처리는 표준 요금의 절반. 우선 처리는 2배. GPT-5.2는 2026년 6월 5일 종료.

GPT-5.4 자주 묻는 질문

GPT-5.4에 관한 자주 묻는 질문

GPT-5.4란 무엇인가요?

GPT-5.4는 OpenAI가 2026년 3월 5일에 출시한 가장 강력한 프론티어 모델로, 추론, 코딩, 네이티브 컴퓨터 사용을 하나의 모델로 통합합니다.

GPT-5.4는 GPT-5.2와 어떻게 다른가요?

GPT-5.4는 GPT-5.2를 크게 능가합니다: ARC-AGI-2가 52.9%에서 73.3%로, GDPval이 70.9%에서 83.0%로, OSWorld가 47.3%에서 75.0%로 향상되었으며 허위 주장이 33% 감소했습니다.

GPT-5.4의 컴퓨터 사용 기능은 무엇인가요?

GPT-5.4는 Playwright 코드와 스크린샷 기반 마우스/키보드 명령으로 컴퓨터를 네이티브로 조작할 수 있습니다. OSWorld에서 75.0%를 달성하여 인간 기준선 72.4%를 초과합니다.

GPT-5.4의 가격은 얼마인가요?

GPT-5.4 API 가격: 입력 $2.50/백만 토큰, 캐시 입력 $0.25/백만, 출력 $15/백만. GPT-5.4 Pro: 입력 $30/백만, 출력 $180/백만.

GPT-5.4의 도구 검색이란 무엇인가요?

도구 검색은 도구 정의를 온디맨드로 로드하는 새로운 기능입니다. 36개 MCP 서버가 활성화된 250개 작업에서 동일한 정확도를 유지하면서 토큰 사용량을 47% 절감했습니다.

GPT-5.4는 어떤 컨텍스트 창을 지원하나요?

GPT-5.4는 표준 272K 토큰 컨텍스트 창을 지원하며, Codex에서는 100만 토큰 컨텍스트를 사용할 수 있습니다(272K 초과 시 2배 요금).

GPT-5.4는 Gemini 3.1 Pro와 어떻게 비교되나요?

GPT-5.4는 컴퓨터 사용(OSWorld 75.0%)과 지식 작업(GDPval 83.0%)에서 앞섭니다. Gemini 3.1 Pro는 코딩(SWE-Bench 80.6% vs 57.7%)과 GPQA Diamond(94.3% vs 92.8%)에서 앞섭니다.

GPT-5.4는 ChatGPT에서 사용 가능한가요?

네. GPT-5.4 Thinking은 ChatGPT의 Plus, Team, Pro 구독자에게 제공되며 GPT-5.2 Thinking을 대체합니다. GPT-5.4 Pro는 Pro 및 Enterprise 플랜에서 사용 가능합니다.

GPT-5.4 소개

GPT-5.4는 OpenAI가 2026년 3월 5일에 출시한 플래그십 추론 모델입니다. 추론, 코딩(GPT-5.3-Codex), 네이티브 컴퓨터 사용을 단일 출시로 통합한 최초의 메인라인 모델입니다.

중요 공지: Gemini3.us는 독립적인 애호가 커뮤니티 및 개발자 플랫폼입니다. OpenAI와 어떠한 관계도 없습니다.

지금 GPT-5.4 사용해보기

OpenAI의 가장 강력한 모델 경험——네이티브 컴퓨터 사용, 100만 컨텍스트, 프론티어 추론