Lancé le 3 mars 2026

Gemini 3.1 Flash Lite

Le modèle Gemini 3 le plus rapide et le plus rentable de Google

2,5× plus rapide que Gemini 2.5 Flash • 363 tokens/sec • Contexte 1M tokens • Conçu pour la mise à l'échelle

Voir les benchmarks

2,5×

Premier token plus rapide

363

Tokens/sec

Contexte de tokens

1/8×

Coût vs Pro

Fonctionnalités de Gemini 3.1 Flash Lite

Optimisé pour la vitesse, le coût et les charges de travail de production à haut volume

2,5× plus rapide au premier token

Gemini 3.1 Flash Lite atteint un temps de premier token 2,5x plus rapide que Gemini 2.5 Flash, idéal pour les applications en temps réel et interactives.

Efficacité de coût extrême

Au prix d'un huitième du coût de Gemini 3.1 Pro, c'est l'option la plus abordable pour les déploiements de production à haut volume.

363 tokens par seconde

Atteint 363 tokens/sec de vitesse de sortie, 45% plus rapide que les 249 tokens/sec de Gemini 2.5 Flash, tout en maintenant une qualité similaire ou meilleure.

Entrée multimodale complète

Prend en charge les entrées texte, image, vidéo, audio et PDF avec une fenêtre de contexte de 1M tokens. Sortie texte uniquement.

Niveaux de réflexion dynamiques

Réflexion adaptative qui ajuste le calcul à la complexité de la tâche, des réponses instantanées au raisonnement approfondi.

Tâches agentiques à haut volume

Conçu pour les pipelines agentiques, l'extraction simple de données, la classification et la traduction à grande échelle.

Performances de Gemini 3.1 Flash Lite

Le plus rapide et le plus rentable de la série Gemini 3

Vitesse et débit

Temps au premier token

2,5× plus rapide que Gemini 2.5 Flash

2.5×

Vitesse de sortie

363 tokens/sec vs 249 tokens/sec

363/s

Amélioration de la vitesse

45% plus rapide que Gemini 2.5 Flash

+45%

Profil de latence

Optimisé pour les applications à faible latence

Low

Efficacité de coût

Coût vs Gemini 3.1 Pro

Un huitième du prix

1/8×

Prix d'entrée

Coût extrêmement bas par 1M tokens

Low

Adéquation à l'échelle

Conçu pour des millions de requêtes/jour

M+/day

Optimisation du budget

Meilleur rapport qualité-prix de la série Gemini 3

Best

Contexte et multimodal

Fenêtre de contexte

1 048 576 tokens d'entrée

Limite de tokens de sortie

65 536 tokens par réponse

65K

Types d'entrée

Texte, image, vidéo, audio, PDF

API par lots

Compatible avec le traitement en masse

✓

Capacités prises en charge

Appel de fonctions

Compatible

✓

Ancrage de recherche

Compatible

✓

Exécution de code

Compatible

✓

Sorties structurées

Compatible

✓

Résultats des benchmarks de Gemini 3.1 Flash Lite

Surpasse Gemini 2.5 Flash sur tous les benchmarks clés à moindre coût

Benchmark	Score	Description
Arena Elo	1432	Classement de préférence humaine Arena.ai — meilleures performances dans sa catégorie
Indice d'Intelligence	34	Indice d'Intelligence Artificial Analysis — +12 points par rapport à Gemini 2.5 Flash-Lite
GPQA Diamond	86.9%	Connaissances scientifiques de niveau doctoral — surpasse Gemini 2.5 Flash (82.8%), Claude 4.5 Haiku (73.0%), GPT-5 mini (82.3%)
MMMU-Pro	76.8%	Compréhension et raisonnement multimodal — surpasse Claude Opus 4.6, Kimi K2.5 et GPT-5 mini (74.1%)
Video-MMMU	84.8%	Acquisition de connaissances à partir de vidéos — surpasse GPT-5 mini (82.5%) et Grok 4.1 Fast (74.6%)
Humanity's Last Exam	16.0%	Raisonnement académique texte et multimodal — comparable à GPT-5 mini (16.7%)
LiveCodeBench	72.0%	Génération de code (jan–mai 2025) — 2× mieux que Gemini 2.5 Flash-Lite (34.3%)
SimpleQA Verified	43.3%	Précision des connaissances paramétriques — 4× mieux que GPT-5 mini (9.5%) et Claude 4.5 Haiku (5.5%)
MMMLU (Multilingue)	88.9%	Q&A multilingue — surpasse GPT-5 mini (84.9%), Claude 4.5 Haiku (83.0%), Grok 4.1 Fast (86.8%)
CharXiv Reasoning	73.2%	Synthèse d'informations de graphiques complexes — surpasse Gemini 2.5 Flash (63.7%) et Claude 4.5 Haiku (61.7%)
MRCR v2 (128k)	60.1%	Performance en contexte long (8-needle, moyenne 128k) — surpasse GPT-5 mini (52.5%) et Claude 4.5 Haiku (35.3%)
Vitesse de sortie	363 tok/s	45% plus rapide que Gemini 2.5 Flash (249 tok/s) — le plus rapide dans sa gamme de prix
Prix d'entrée	$0.25/1M	Par million de tokens d'entrée — identique à GPT-5 mini ($0.25/1M)
Prix de sortie	$1.50/1M	Par million de tokens de sortie — bien moins cher que Claude 4.5 Haiku ($5.00/1M)

Source : Artificial Analysis et Arena.ai Leaderboard

À propos de Gemini 3.1 Flash Lite

Gemini 3.1 Flash Lite est le modèle le plus rapide et le plus rentable de la série Gemini 3 de Google DeepMind, lancé le 3 mars 2026. Optimisé pour les tâches à haut débit et sensibles à la latence comme la traduction, la classification et l'extraction simple de données. Avec 363 tokens/sec de débit et une fenêtre de contexte de 1M tokens, il offre des performances exceptionnelles à une fraction du coût.

Avis important : Gemini3.us est une plateforme indépendante de la communauté des passionnés et des développeurs. Nous ne sommes pas affiliés, approuvés ou officiellement connectés à Google LLC. Nous fournissons un accès payant aux services officiels de l'API Gemini de Google pour soutenir notre infrastructure et nos opérations.

Commencer avec Gemini 3.1 Flash Lite

Découvrez le modèle le plus rapide et le plus rentable de la série Gemini 3