2026년 3월 3일 출시

Gemini 3.1 Flash Lite

Gemini 3 시리즈에서 가장 빠르고 비용 효율적인 모델

Gemini 2.5 Flash보다 2.5배 빠름 • 363 토큰/초 • 100만 토큰 컨텍스트 • 대규모 처리를 위해 설계

벤치마크 보기

2.5×

첫 토큰 속도 향상

363

토큰/초

100만

토큰 컨텍스트

1/8×

Pro 대비 비용

Gemini 3.1 Flash Lite 특징

속도, 비용, 대용량 프로덕션 워크로드에 최적화

첫 토큰 2.5배 빠름

Gemini 3.1 Flash Lite는 Gemini 2.5 Flash보다 첫 토큰 응답 시간이 2.5배 빠릅니다. 실시간 및 인터랙티브 애플리케이션에 이상적입니다.

극한의 비용 효율성

Gemini 3.1 Pro의 8분의 1 가격으로, 대용량 프로덕션 배포에 가장 경제적인 선택입니다.

363 토큰/초

출력 속도 363 토큰/초 달성. Gemini 2.5 Flash의 249 토큰/초보다 45% 빠르면서 유사하거나 더 나은 품질 유지.

완전한 멀티모달 입력

텍스트, 이미지, 비디오, 오디오, PDF 입력 지원. 100만 토큰 컨텍스트 창. 텍스트만 출력.

동적 사고 수준

작업 복잡성에 맞게 컴퓨팅 리소스를 조정하는 적응형 사고. 즉각적인 응답부터 심층 추론까지.

대용량 에이전트 작업

대규모 에이전트 파이프라인, 간단한 데이터 추출, 분류, 번역 작업을 위해 설계.

Gemini 3.1 Flash Lite 성능

Gemini 3 시리즈에서 가장 빠르고 비용 효율적

속도 및 처리량

첫 토큰 시간

Gemini 2.5 Flash보다 2.5배 빠름

2.5×

출력 속도

363 토큰/초 vs 249 토큰/초

363/s

속도 향상

Gemini 2.5 Flash보다 출력 45% 빠름

+45%

지연 시간 프로파일

저지연 애플리케이션에 최적화

Low

비용 효율성

Gemini 3.1 Pro 대비 비용

8분의 1 가격

1/8×

입력 가격

100만 토큰당 매우 낮은 비용

Low

규모 적합성

하루 수백만 요청을 위해 설계

M+/day

예산 최적화

Gemini 3 시리즈 최고의 가성비

Best

컨텍스트 및 멀티모달

컨텍스트 창

1,048,576 입력 토큰

출력 토큰 제한

응답당 65,536 토큰

65K

입력 유형

텍스트, 이미지, 비디오, 오디오, PDF

배치 API

대량 처리 지원

✓

지원되는 기능

함수 호출

지원

✓

검색 그라운딩

지원

✓

코드 실행

지원

✓

구조화된 출력

지원

✓

Gemini 3.1 Flash Lite 벤치마크 결과

모든 주요 벤치마크에서 Gemini 2.5 Flash를 능가하며 비용도 더 낮음

벤치마크	점수	설명
Arena Elo	1432	Arena.ai 인간 선호도 순위 — 동급 모델 중 최고 성능
인텔리전스 지수	34	Artificial Analysis 인텔리전스 지수 — Gemini 2.5 Flash-Lite보다 12점 향상
GPQA Diamond	86.9%	박사급 과학 지식 — Gemini 2.5 Flash(82.8%), Claude 4.5 Haiku(73.0%), GPT-5 mini(82.3%) 능가
MMMU-Pro	76.8%	멀티모달 이해 및 추론 — Claude Opus 4.6, Kimi K2.5, GPT-5 mini(74.1%) 능가
Video-MMMU	84.8%	비디오 지식 습득 — GPT-5 mini(82.5%), Grok 4.1 Fast(74.6%) 능가
Humanity's Last Exam	16.0%	텍스트 및 멀티모달 학술 추론 — GPT-5 mini(16.7%)와 동등
LiveCodeBench	72.0%	코드 생성(2025년 1월~5월) — Gemini 2.5 Flash-Lite(34.3%)의 2배
SimpleQA Verified	43.3%	파라메트릭 지식 정확도 — GPT-5 mini(9.5%), Claude 4.5 Haiku(5.5%)의 4배
MMMLU (다국어)	88.9%	다국어 Q&A — GPT-5 mini(84.9%), Claude 4.5 Haiku(83.0%), Grok 4.1 Fast(86.8%) 능가
CharXiv Reasoning	73.2%	복잡한 차트 정보 종합 — Gemini 2.5 Flash(63.7%), Claude 4.5 Haiku(61.7%) 능가
MRCR v2 (128k)	60.1%	긴 컨텍스트 성능(8-needle, 128k 평균) — GPT-5 mini(52.5%), Claude 4.5 Haiku(35.3%) 능가
출력 속도	363 tok/s	Gemini 2.5 Flash(249 tok/s)보다 45% 빠름 — 동가격대 최고 속도
입력 가격	$0.25/1M	백만 입력 토큰당 — GPT-5 mini($0.25/1M)와 동등
출력 가격	$1.50/1M	백만 출력 토큰당 — Claude 4.5 Haiku($5.00/1M)보다 훨씬 저렴

출처: Artificial Analysis 및 Arena.ai 리더보드

Gemini 3.1 Flash Lite 소개

Gemini 3.1 Flash Lite는 Google DeepMind가 2026년 3월 3일에 출시한 Gemini 3 시리즈에서 가장 빠르고 비용 효율적인 모델입니다. 번역, 분류, 간단한 데이터 추출과 같은 고처리량, 지연 시간에 민감한 작업에 최적화되어 있습니다. 363 토큰/초의 처리량과 100만 토큰 컨텍스트 창으로 낮은 비용에 탁월한 성능을 제공합니다.

중요 공지: Gemini3.us는 독립적인 애호가 커뮤니티 및 개발자 플랫폼입니다. Google LLC와 제휴, 승인 또는 공식 연결이 없습니다. 인프라 및 운영을 지원하기 위해 Google의 공식 Gemini API 서비스에 대한 유료 액세스를 제공합니다.

Gemini 3.1 Flash Lite 지금 시작하기

Gemini 3 시리즈에서 가장 빠르고 비용 효율적인 모델 경험