Diluncurkan 3 Maret 2026

Gemini 3.1 Flash Lite

Model Gemini 3 tercepat dan paling hemat biaya dari Google

2,5× lebih cepat dari Gemini 2.5 Flash • 363 token/detik • Konteks 1M token • Dirancang untuk skala

Jelajahi Benchmark

2,5×

Token pertama lebih cepat

363

Token/detik

Konteks token

1/8×

Biaya vs Pro

Fitur Gemini 3.1 Flash Lite

Dioptimalkan untuk kecepatan, biaya, dan beban kerja produksi volume tinggi

2,5× lebih cepat di token pertama

Gemini 3.1 Flash Lite mencapai waktu ke token pertama 2,5x lebih cepat dari Gemini 2.5 Flash, ideal untuk aplikasi real-time dan interaktif.

Efisiensi biaya ekstrem

Dengan harga seperdelapan biaya Gemini 3.1 Pro, ini adalah pilihan paling terjangkau untuk deployment produksi volume tinggi.

363 token per detik

Mencapai kecepatan output 363 token/detik, 45% lebih cepat dari 249 token/detik Gemini 2.5 Flash, sambil mempertahankan kualitas serupa atau lebih baik.

Input multimodal lengkap

Mendukung input teks, gambar, video, audio, dan PDF dengan jendela konteks 1M token. Hanya output teks.

Level pemikiran dinamis

Pemikiran adaptif yang menyesuaikan komputasi dengan kompleksitas tugas, dari respons instan hingga penalaran mendalam.

Tugas agentik volume tinggi

Dirancang untuk pipeline agentik, ekstraksi data sederhana, klasifikasi, dan terjemahan dalam skala besar.

Performa Gemini 3.1 Flash Lite

Tercepat dan paling hemat biaya dalam seri Gemini 3

Kecepatan dan throughput

Waktu ke token pertama

2,5× lebih cepat dari Gemini 2.5 Flash

2.5×

Kecepatan output

363 token/detik vs 249 token/detik

363/s

Peningkatan kecepatan

45% lebih cepat dari Gemini 2.5 Flash

+45%

Profil latensi

Dioptimalkan untuk aplikasi latensi rendah

Low

Efisiensi biaya

Biaya vs Gemini 3.1 Pro

Seperdelapan harga

1/8×

Harga input

Biaya sangat rendah per 1M token

Low

Kesesuaian untuk skala

Dirancang untuk jutaan permintaan/hari

M+/day

Optimasi anggaran

Rasio kualitas/harga terbaik dalam seri Gemini 3

Best

Konteks dan multimodal

Jendela konteks

1.048.576 token input

Batas token output

65.536 token per respons

65K

Jenis input

Teks, gambar, video, audio, PDF

Batch API

Mendukung pemrosesan massal

✓

Kemampuan yang didukung

Pemanggilan fungsi

Didukung

✓

Search Grounding

Didukung

✓

Eksekusi kode

Didukung

✓

Output terstruktur

Didukung

✓

Hasil Benchmark Gemini 3.1 Flash Lite

Mengungguli Gemini 2.5 Flash di setiap benchmark utama — dengan biaya lebih rendah

Benchmark	Skor	Deskripsi
Arena Elo	1432	Peringkat preferensi manusia (Arena.ai) — mengungguli model di kelasnya
Indeks Kecerdasan	34	Indeks Kecerdasan Artificial Analysis — +12 poin dari Gemini 2.5 Flash-Lite
GPQA Diamond	86.9%	Pengetahuan ilmiah tingkat PhD — mengungguli Gemini 2.5 Flash (82.8%), Claude 4.5 Haiku (73.0%), GPT-5 mini (82.3%)
MMMU-Pro	76.8%	Pemahaman dan penalaran multimodal — mengungguli Claude Opus 4.6, Kimi K2.5, dan GPT-5 mini (74.1%)
Video-MMMU	84.8%	Perolehan pengetahuan dari video — mengungguli GPT-5 mini (82.5%) dan Grok 4.1 Fast (74.6%)
Humanity's Last Exam	16.0%	Penalaran akademis melalui teks & multimodal — sebanding dengan GPT-5 mini (16.7%)
LiveCodeBench	72.0%	Pembuatan kode (Jan–Mei 2025) — 2× lebih baik dari Gemini 2.5 Flash-Lite (34.3%)
SimpleQA Terverifikasi	43.3%	Akurasi pengetahuan parametrik — 4× lebih baik dari GPT-5 mini (9.5%) dan Claude 4.5 Haiku (5.5%)
MMMLU (Multibahasa)	88.9%	Tanya jawab multibahasa — mengungguli GPT-5 mini (84.9%), Claude 4.5 Haiku (83.0%), Grok 4.1 Fast (86.8%)
CharXiv Reasoning	73.2%	Sintesis informasi dari grafik kompleks — mengungguli Gemini 2.5 Flash (63.7%) dan Claude 4.5 Haiku (61.7%)
MRCR v2 (128k)	60.1%	Performa konteks panjang (8 jarum, rata-rata 128k) — mengungguli GPT-5 mini (52.5%) dan Claude 4.5 Haiku (35.3%)
Kecepatan Output	363 tok/s	45% lebih cepat dari Gemini 2.5 Flash (249 tok/s) — tercepat di kelasnya
Harga Input	$0.25/1M	Per juta token input — kompetitif dengan GPT-5 mini ($0.25/1M)
Harga Output	$1.50/1M	Per juta token output — jauh lebih murah dari Claude 4.5 Haiku ($5.00/1M)

Sumber: Artificial Analysis & Arena.ai Leaderboard

Tentang Gemini 3.1 Flash Lite

Gemini 3.1 Flash Lite adalah model tercepat dan paling hemat biaya dalam seri Gemini 3 dari Google DeepMind, diluncurkan pada 3 Maret 2026. Dioptimalkan untuk tugas throughput tinggi dan sensitif latensi seperti terjemahan, klasifikasi, dan ekstraksi data sederhana. Dengan throughput 363 token/detik dan jendela konteks 1M token, memberikan performa luar biasa dengan biaya yang sangat rendah.

Pemberitahuan penting: Gemini3.us adalah platform komunitas independen para penggemar dan pengembang. Kami tidak berafiliasi, didukung, atau terhubung secara resmi dengan Google LLC. Kami menyediakan akses berbayar ke layanan Gemini API resmi Google untuk mendukung infrastruktur dan operasi kami.

Mulai dengan Gemini 3.1 Flash Lite

Rasakan model tercepat dan paling hemat biaya dalam seri Gemini 3