Veröffentlicht am 3. März 2026

Gemini 3.1 Flash Lite

Googles schnellstes und kosteneffizientestes Gemini 3 Modell

2,5× schneller als Gemini 2.5 Flash • 363 Token/Sek. • 1M Token Kontext • Für Skalierung entwickelt

Benchmarks ansehen

2,5×

Erstes Token schneller

363

Token/Sek.

Token-Kontext

1/8×

Kosten vs. Pro

Gemini 3.1 Flash Lite Funktionen

Optimiert für Geschwindigkeit, Kosten und hochvolumige Produktionsworkloads

2,5× schneller beim ersten Token

Gemini 3.1 Flash Lite erreicht eine 2,5x schnellere Zeit bis zum ersten Token als Gemini 2.5 Flash, ideal für Echtzeit- und interaktive Anwendungen.

Extreme Kosteneffizienz

Zum Preis von einem Achtel der Kosten von Gemini 3.1 Pro ist es die günstigste Option für hochvolumige Produktionsbereitstellungen.

363 Token pro Sekunde

Erreicht 363 Token/Sek. Ausgabegeschwindigkeit, 45% schneller als die 249 Token/Sek. von Gemini 2.5 Flash, bei ähnlicher oder besserer Qualität.

Vollständige multimodale Eingabe

Unterstützt Text-, Bild-, Video-, Audio- und PDF-Eingaben mit einem 1M Token Kontextfenster. Nur Textausgabe.

Dynamische Denkstufen

Adaptives Denken, das die Rechenleistung an die Aufgabenkomplexität anpasst, von sofortigen Antworten bis hin zu tiefem Denken.

Hochvolumige agentische Aufgaben

Entwickelt für agentische Pipelines, einfache Datenextraktion, Klassifizierung und Übersetzung in großem Maßstab.

Gemini 3.1 Flash Lite Leistung

Das schnellste und kosteneffizienteste der Gemini 3 Serie

Geschwindigkeit und Durchsatz

Zeit bis zum ersten Token

2,5× schneller als Gemini 2.5 Flash

2.5×

Ausgabegeschwindigkeit

363 Token/Sek. vs. 249 Token/Sek.

363/s

Geschwindigkeitsverbesserung

45% schneller als Gemini 2.5 Flash

+45%

Latenzprofil

Optimiert für Anwendungen mit niedriger Latenz

Low

Kosteneffizienz

Kosten vs. Gemini 3.1 Pro

Ein Achtel des Preises

1/8×

Eingabepreis

Extrem niedrige Kosten pro 1M Token

Low

Skalierungseignung

Entwickelt für Millionen von Anfragen/Tag

M+/day

Budgetoptimierung

Bestes Preis-Leistungs-Verhältnis der Gemini 3 Serie

Best

Kontext und Multimodal

Kontextfenster

1.048.576 Eingabe-Token

Ausgabe-Token-Limit

65.536 Token pro Antwort

65K

Eingabetypen

Text, Bild, Video, Audio, PDF

Batch-API

Unterstützt Massenverarbeitung

✓

Unterstützte Funktionen

Funktionsaufruf

Unterstützt

✓

Such-Grounding

Unterstützt

✓

Code-Ausführung

Unterstützt

✓

Strukturierte Ausgaben

Unterstützt

✓

Gemini 3.1 Flash Lite Benchmark-Ergebnisse

Übertrifft Gemini 2.5 Flash in jedem wichtigen Benchmark – zu niedrigeren Kosten

Benchmark	Ergebnis	Beschreibung
Arena Elo	1432	Menschliche Präferenzrangliste (Arena.ai) — übertrifft Modelle seiner Gewichtsklasse
Intelligenz-Index	34	Artificial Analysis Intelligenz-Index — +12 Punkte gegenüber Gemini 2.5 Flash-Lite
GPQA Diamond	86.9%	Wissenschaftliches Wissen auf Doktorandenniveau — übertrifft Gemini 2.5 Flash (82.8%), Claude 4.5 Haiku (73.0%), GPT-5 mini (82.3%)
MMMU-Pro	76.8%	Multimodales Verständnis & Reasoning — übertrifft Claude Opus 4.6, Kimi K2.5 und GPT-5 mini (74.1%)
Video-MMMU	84.8%	Wissenserwerb aus Videos — übertrifft GPT-5 mini (82.5%) und Grok 4.1 Fast (74.6%)
Humanity's Last Exam	16.0%	Akademisches Reasoning über Text & Multimodal — vergleichbar mit GPT-5 mini (16.7%)
LiveCodeBench	72.0%	Code-Generierung (Jan–Mai 2025) — 2× besser als Gemini 2.5 Flash-Lite (34.3%)
SimpleQA Verifiziert	43.3%	Parametrische Wissensgenauigkeit — 4× besser als GPT-5 mini (9.5%) und Claude 4.5 Haiku (5.5%)
MMMLU (Mehrsprachig)	88.9%	Mehrsprachiges Q&A — übertrifft GPT-5 mini (84.9%), Claude 4.5 Haiku (83.0%), Grok 4.1 Fast (86.8%)
CharXiv Reasoning	73.2%	Informationssynthese aus komplexen Diagrammen — übertrifft Gemini 2.5 Flash (63.7%) und Claude 4.5 Haiku (61.7%)
MRCR v2 (128k)	60.1%	Langkontext-Leistung (8-Nadel, 128k Durchschnitt) — übertrifft GPT-5 mini (52.5%) und Claude 4.5 Haiku (35.3%)
Ausgabegeschwindigkeit	363 tok/s	45% schneller als Gemini 2.5 Flash (249 tok/s) — schnellstes in seiner Preisklasse
Eingabepreis	$0.25/1M	Pro Million Eingabe-Token — wettbewerbsfähig mit GPT-5 mini ($0.25/1M)
Ausgabepreis	$1.50/1M	Pro Million Ausgabe-Token — deutlich günstiger als Claude 4.5 Haiku ($5.00/1M)

Quelle: Artificial Analysis & Arena.ai Leaderboard

Über Gemini 3.1 Flash Lite

Gemini 3.1 Flash Lite ist das schnellste und kosteneffizienteste Modell der Gemini 3 Serie von Google DeepMind, veröffentlicht am 3. März 2026. Optimiert für hochdurchsatzige, latenzempfindliche Aufgaben wie Übersetzung, Klassifizierung und einfache Datenextraktion. Mit 363 Token/Sek. Durchsatz und einem 1M Token Kontextfenster bietet es außergewöhnliche Leistung zu einem Bruchteil der Kosten.

Wichtiger Hinweis: Gemini3.us ist eine unabhängige Enthusiasten-Community und Entwicklerplattform. Wir sind nicht mit Google LLC verbunden, von Google LLC unterstützt oder offiziell mit Google LLC verbunden. Wir bieten kostenpflichtigen Zugang zu Googles offiziellen Gemini API-Diensten, um unsere Infrastruktur und den Betrieb zu unterstützen.

Mit Gemini 3.1 Flash Lite beginnen

Erleben Sie das schnellste und kosteneffizienteste Modell der Gemini 3 Serie