gemini3.us
2026년 3월 3일 출시

Gemini 3.1 Flash Lite

Gemini 3 시리즈에서 가장 빠르고 비용 효율적인 모델

Gemini 2.5 Flash보다 2.5배 빠름 • 363 토큰/초 • 100만 토큰 컨텍스트 • 대규모 처리를 위해 설계

벤치마크 보기
2.5×
첫 토큰 속도 향상
363
토큰/초
100만
토큰 컨텍스트
1/8×
Pro 대비 비용

Gemini 3.1 Flash Lite 특징

속도, 비용, 대용량 프로덕션 워크로드에 최적화

첫 토큰 2.5배 빠름

Gemini 3.1 Flash Lite는 Gemini 2.5 Flash보다 첫 토큰 응답 시간이 2.5배 빠릅니다. 실시간 및 인터랙티브 애플리케이션에 이상적입니다.

극한의 비용 효율성

Gemini 3.1 Pro의 8분의 1 가격으로, 대용량 프로덕션 배포에 가장 경제적인 선택입니다.

363 토큰/초

출력 속도 363 토큰/초 달성. Gemini 2.5 Flash의 249 토큰/초보다 45% 빠르면서 유사하거나 더 나은 품질 유지.

완전한 멀티모달 입력

텍스트, 이미지, 비디오, 오디오, PDF 입력 지원. 100만 토큰 컨텍스트 창. 텍스트만 출력.

동적 사고 수준

작업 복잡성에 맞게 컴퓨팅 리소스를 조정하는 적응형 사고. 즉각적인 응답부터 심층 추론까지.

대용량 에이전트 작업

대규모 에이전트 파이프라인, 간단한 데이터 추출, 분류, 번역 작업을 위해 설계.

Gemini 3.1 Flash Lite 성능

Gemini 3 시리즈에서 가장 빠르고 비용 효율적

속도 및 처리량

첫 토큰 시간
Gemini 2.5 Flash보다 2.5배 빠름
2.5×
출력 속도
363 토큰/초 vs 249 토큰/초
363/s
속도 향상
Gemini 2.5 Flash보다 출력 45% 빠름
+45%
지연 시간 프로파일
저지연 애플리케이션에 최적화
Low

비용 효율성

Gemini 3.1 Pro 대비 비용
8분의 1 가격
1/8×
입력 가격
100만 토큰당 매우 낮은 비용
Low
규모 적합성
하루 수백만 요청을 위해 설계
M+/day
예산 최적화
Gemini 3 시리즈 최고의 가성비
Best

컨텍스트 및 멀티모달

컨텍스트 창
1,048,576 입력 토큰
1M
출력 토큰 제한
응답당 65,536 토큰
65K
입력 유형
텍스트, 이미지, 비디오, 오디오, PDF
5
배치 API
대량 처리 지원

지원되는 기능

함수 호출
지원
검색 그라운딩
지원
코드 실행
지원
구조화된 출력
지원

Gemini 3.1 Flash Lite 벤치마크 결과

모든 주요 벤치마크에서 Gemini 2.5 Flash를 능가하며 비용도 더 낮음

벤치마크점수설명
Arena Elo1432Arena.ai 인간 선호도 순위 — 동급 모델 중 최고 성능
인텔리전스 지수34Artificial Analysis 인텔리전스 지수 — Gemini 2.5 Flash-Lite보다 12점 향상
GPQA Diamond86.9%박사급 과학 지식 — Gemini 2.5 Flash(82.8%), Claude 4.5 Haiku(73.0%), GPT-5 mini(82.3%) 능가
MMMU-Pro76.8%멀티모달 이해 및 추론 — Claude Opus 4.6, Kimi K2.5, GPT-5 mini(74.1%) 능가
Video-MMMU84.8%비디오 지식 습득 — GPT-5 mini(82.5%), Grok 4.1 Fast(74.6%) 능가
Humanity's Last Exam16.0%텍스트 및 멀티모달 학술 추론 — GPT-5 mini(16.7%)와 동등
LiveCodeBench72.0%코드 생성(2025년 1월~5월) — Gemini 2.5 Flash-Lite(34.3%)의 2배
SimpleQA Verified43.3%파라메트릭 지식 정확도 — GPT-5 mini(9.5%), Claude 4.5 Haiku(5.5%)의 4배
MMMLU (다국어)88.9%다국어 Q&A — GPT-5 mini(84.9%), Claude 4.5 Haiku(83.0%), Grok 4.1 Fast(86.8%) 능가
CharXiv Reasoning73.2%복잡한 차트 정보 종합 — Gemini 2.5 Flash(63.7%), Claude 4.5 Haiku(61.7%) 능가
MRCR v2 (128k)60.1%긴 컨텍스트 성능(8-needle, 128k 평균) — GPT-5 mini(52.5%), Claude 4.5 Haiku(35.3%) 능가
출력 속도363 tok/sGemini 2.5 Flash(249 tok/s)보다 45% 빠름 — 동가격대 최고 속도
입력 가격$0.25/1M백만 입력 토큰당 — GPT-5 mini($0.25/1M)와 동등
출력 가격$1.50/1M백만 출력 토큰당 — Claude 4.5 Haiku($5.00/1M)보다 훨씬 저렴

출처: Artificial Analysis 및 Arena.ai 리더보드

Gemini 3.1 Flash Lite 소개

Gemini 3.1 Flash Lite는 Google DeepMind가 2026년 3월 3일에 출시한 Gemini 3 시리즈에서 가장 빠르고 비용 효율적인 모델입니다. 번역, 분류, 간단한 데이터 추출과 같은 고처리량, 지연 시간에 민감한 작업에 최적화되어 있습니다. 363 토큰/초의 처리량과 100만 토큰 컨텍스트 창으로 낮은 비용에 탁월한 성능을 제공합니다.

중요 공지: Gemini3.us는 독립적인 애호가 커뮤니티 및 개발자 플랫폼입니다. Google LLC와 제휴, 승인 또는 공식 연결이 없습니다. 인프라 및 운영을 지원하기 위해 Google의 공식 Gemini API 서비스에 대한 유료 액세스를 제공합니다.

Gemini 3.1 Flash Lite 지금 시작하기

Gemini 3 시리즈에서 가장 빠르고 비용 효율적인 모델 경험