gemini3.us
Veröffentlicht am 3. März 2026

Gemini 3.1 Flash Lite

Googles schnellstes und kosteneffizientestes Gemini 3 Modell

2,5× schneller als Gemini 2.5 Flash • 363 Token/Sek. • 1M Token Kontext • Für Skalierung entwickelt

Benchmarks ansehen
2,5×
Erstes Token schneller
363
Token/Sek.
1M
Token-Kontext
1/8×
Kosten vs. Pro

Gemini 3.1 Flash Lite Funktionen

Optimiert für Geschwindigkeit, Kosten und hochvolumige Produktionsworkloads

2,5× schneller beim ersten Token

Gemini 3.1 Flash Lite erreicht eine 2,5x schnellere Zeit bis zum ersten Token als Gemini 2.5 Flash, ideal für Echtzeit- und interaktive Anwendungen.

Extreme Kosteneffizienz

Zum Preis von einem Achtel der Kosten von Gemini 3.1 Pro ist es die günstigste Option für hochvolumige Produktionsbereitstellungen.

363 Token pro Sekunde

Erreicht 363 Token/Sek. Ausgabegeschwindigkeit, 45% schneller als die 249 Token/Sek. von Gemini 2.5 Flash, bei ähnlicher oder besserer Qualität.

Vollständige multimodale Eingabe

Unterstützt Text-, Bild-, Video-, Audio- und PDF-Eingaben mit einem 1M Token Kontextfenster. Nur Textausgabe.

Dynamische Denkstufen

Adaptives Denken, das die Rechenleistung an die Aufgabenkomplexität anpasst, von sofortigen Antworten bis hin zu tiefem Denken.

Hochvolumige agentische Aufgaben

Entwickelt für agentische Pipelines, einfache Datenextraktion, Klassifizierung und Übersetzung in großem Maßstab.

Gemini 3.1 Flash Lite Leistung

Das schnellste und kosteneffizienteste der Gemini 3 Serie

Geschwindigkeit und Durchsatz

Zeit bis zum ersten Token
2,5× schneller als Gemini 2.5 Flash
2.5×
Ausgabegeschwindigkeit
363 Token/Sek. vs. 249 Token/Sek.
363/s
Geschwindigkeitsverbesserung
45% schneller als Gemini 2.5 Flash
+45%
Latenzprofil
Optimiert für Anwendungen mit niedriger Latenz
Low

Kosteneffizienz

Kosten vs. Gemini 3.1 Pro
Ein Achtel des Preises
1/8×
Eingabepreis
Extrem niedrige Kosten pro 1M Token
Low
Skalierungseignung
Entwickelt für Millionen von Anfragen/Tag
M+/day
Budgetoptimierung
Bestes Preis-Leistungs-Verhältnis der Gemini 3 Serie
Best

Kontext und Multimodal

Kontextfenster
1.048.576 Eingabe-Token
1M
Ausgabe-Token-Limit
65.536 Token pro Antwort
65K
Eingabetypen
Text, Bild, Video, Audio, PDF
5
Batch-API
Unterstützt Massenverarbeitung

Unterstützte Funktionen

Funktionsaufruf
Unterstützt
Such-Grounding
Unterstützt
Code-Ausführung
Unterstützt
Strukturierte Ausgaben
Unterstützt

Gemini 3.1 Flash Lite Benchmark-Ergebnisse

Übertrifft Gemini 2.5 Flash in jedem wichtigen Benchmark – zu niedrigeren Kosten

BenchmarkErgebnisBeschreibung
Arena Elo1432Menschliche Präferenzrangliste (Arena.ai) — übertrifft Modelle seiner Gewichtsklasse
Intelligenz-Index34Artificial Analysis Intelligenz-Index — +12 Punkte gegenüber Gemini 2.5 Flash-Lite
GPQA Diamond86.9%Wissenschaftliches Wissen auf Doktorandenniveau — übertrifft Gemini 2.5 Flash (82.8%), Claude 4.5 Haiku (73.0%), GPT-5 mini (82.3%)
MMMU-Pro76.8%Multimodales Verständnis & Reasoning — übertrifft Claude Opus 4.6, Kimi K2.5 und GPT-5 mini (74.1%)
Video-MMMU84.8%Wissenserwerb aus Videos — übertrifft GPT-5 mini (82.5%) und Grok 4.1 Fast (74.6%)
Humanity's Last Exam16.0%Akademisches Reasoning über Text & Multimodal — vergleichbar mit GPT-5 mini (16.7%)
LiveCodeBench72.0%Code-Generierung (Jan–Mai 2025) — 2× besser als Gemini 2.5 Flash-Lite (34.3%)
SimpleQA Verifiziert43.3%Parametrische Wissensgenauigkeit — 4× besser als GPT-5 mini (9.5%) und Claude 4.5 Haiku (5.5%)
MMMLU (Mehrsprachig)88.9%Mehrsprachiges Q&A — übertrifft GPT-5 mini (84.9%), Claude 4.5 Haiku (83.0%), Grok 4.1 Fast (86.8%)
CharXiv Reasoning73.2%Informationssynthese aus komplexen Diagrammen — übertrifft Gemini 2.5 Flash (63.7%) und Claude 4.5 Haiku (61.7%)
MRCR v2 (128k)60.1%Langkontext-Leistung (8-Nadel, 128k Durchschnitt) — übertrifft GPT-5 mini (52.5%) und Claude 4.5 Haiku (35.3%)
Ausgabegeschwindigkeit363 tok/s45% schneller als Gemini 2.5 Flash (249 tok/s) — schnellstes in seiner Preisklasse
Eingabepreis$0.25/1MPro Million Eingabe-Token — wettbewerbsfähig mit GPT-5 mini ($0.25/1M)
Ausgabepreis$1.50/1MPro Million Ausgabe-Token — deutlich günstiger als Claude 4.5 Haiku ($5.00/1M)

Quelle: Artificial Analysis & Arena.ai Leaderboard

Über Gemini 3.1 Flash Lite

Gemini 3.1 Flash Lite ist das schnellste und kosteneffizienteste Modell der Gemini 3 Serie von Google DeepMind, veröffentlicht am 3. März 2026. Optimiert für hochdurchsatzige, latenzempfindliche Aufgaben wie Übersetzung, Klassifizierung und einfache Datenextraktion. Mit 363 Token/Sek. Durchsatz und einem 1M Token Kontextfenster bietet es außergewöhnliche Leistung zu einem Bruchteil der Kosten.

Wichtiger Hinweis: Gemini3.us ist eine unabhängige Enthusiasten-Community und Entwicklerplattform. Wir sind nicht mit Google LLC verbunden, von Google LLC unterstützt oder offiziell mit Google LLC verbunden. Wir bieten kostenpflichtigen Zugang zu Googles offiziellen Gemini API-Diensten, um unsere Infrastruktur und den Betrieb zu unterstützen.

Mit Gemini 3.1 Flash Lite beginnen

Erleben Sie das schnellste und kosteneffizienteste Modell der Gemini 3 Serie