Lançado em 3 de março de 2026

Gemini 3.1 Flash Lite

O modelo Gemini 3 mais rápido e econômico do Google

2,5× mais rápido que o Gemini 2.5 Flash • 363 tokens/seg • Contexto de 1M tokens • Projetado para escala

Ver benchmarks

2,5×

Primeiro token mais rápido

363

Tokens/seg

Contexto de tokens

1/8×

Custo vs Pro

Recursos do Gemini 3.1 Flash Lite

Otimizado para velocidade, custo e cargas de trabalho de produção de alto volume

2,5× mais rápido no primeiro token

O Gemini 3.1 Flash Lite alcança um tempo de primeiro token 2,5x mais rápido que o Gemini 2.5 Flash, ideal para aplicações em tempo real e interativas.

Eficiência de custo extrema

Com preço de um oitavo do custo do Gemini 3.1 Pro, é a opção mais acessível para implantações de produção de alto volume.

363 tokens por segundo

Alcança 363 tokens/seg de velocidade de saída, 45% mais rápido que os 249 tokens/seg do Gemini 2.5 Flash, mantendo qualidade similar ou melhor.

Entrada multimodal completa

Suporta entradas de texto, imagem, vídeo, áudio e PDF com janela de contexto de 1M tokens. Apenas saída de texto.

Níveis de pensamento dinâmico

Pensamento adaptativo que ajusta o processamento à complexidade da tarefa, de respostas instantâneas ao raciocínio profundo.

Tarefas agênticas de alto volume

Projetado para pipelines agênticos, extração simples de dados, classificação e tradução em grande escala.

Desempenho do Gemini 3.1 Flash Lite

O mais rápido e econômico da série Gemini 3

Velocidade e throughput

Tempo ao primeiro token

2,5× mais rápido que o Gemini 2.5 Flash

2.5×

Velocidade de saída

363 tokens/seg vs 249 tokens/seg

363/s

Melhoria de velocidade

45% mais rápido que o Gemini 2.5 Flash

+45%

Perfil de latência

Otimizado para aplicações de baixa latência

Low

Eficiência de custo

Custo vs Gemini 3.1 Pro

Um oitavo do preço

1/8×

Preço de entrada

Custo extremamente baixo por 1M tokens

Low

Adequação para escala

Projetado para milhões de requisições/dia

M+/day

Otimização de orçamento

Melhor relação custo-qualidade na série Gemini 3

Best

Contexto e multimodal

Janela de contexto

1.048.576 tokens de entrada

Limite de tokens de saída

65.536 tokens por resposta

65K

Tipos de entrada

Texto, imagem, vídeo, áudio, PDF

API em lote

Compatível com processamento em massa

✓

Capacidades suportadas

Chamada de funções

Compatível

✓

Fundamentação de pesquisa

Compatível

✓

Execução de código

Compatível

✓

Saídas estruturadas

Compatível

✓

Resultados de benchmarks do Gemini 3.1 Flash Lite

Supera o Gemini 2.5 Flash em todos os benchmarks principais com menor custo

Benchmark	Pontuação	Descrição
Arena Elo	1432	Ranking de preferência humana Arena.ai — melhor desempenho em sua classe
Índice de Inteligência	34	Índice de Inteligência Artificial Analysis — +12 pontos sobre Gemini 2.5 Flash-Lite
GPQA Diamond	86.9%	Conhecimento científico de nível doutoral — supera Gemini 2.5 Flash (82.8%), Claude 4.5 Haiku (73.0%), GPT-5 mini (82.3%)
MMMU-Pro	76.8%	Compreensão e raciocínio multimodal — supera Claude Opus 4.6, Kimi K2.5 e GPT-5 mini (74.1%)
Video-MMMU	84.8%	Aquisição de conhecimento a partir de vídeos — supera GPT-5 mini (82.5%) e Grok 4.1 Fast (74.6%)
Humanity's Last Exam	16.0%	Raciocínio acadêmico em texto e multimodal — comparável ao GPT-5 mini (16.7%)
LiveCodeBench	72.0%	Geração de código (jan–mai 2025) — 2× melhor que Gemini 2.5 Flash-Lite (34.3%)
SimpleQA Verified	43.3%	Precisão de conhecimento paramétrico — 4× melhor que GPT-5 mini (9.5%) e Claude 4.5 Haiku (5.5%)
MMMLU (Multilíngue)	88.9%	Q&A multilíngue — supera GPT-5 mini (84.9%), Claude 4.5 Haiku (83.0%), Grok 4.1 Fast (86.8%)
CharXiv Reasoning	73.2%	Síntese de informações de gráficos complexos — supera Gemini 2.5 Flash (63.7%) e Claude 4.5 Haiku (61.7%)
MRCR v2 (128k)	60.1%	Desempenho em contexto longo (8-needle, média 128k) — supera GPT-5 mini (52.5%) e Claude 4.5 Haiku (35.3%)
Velocidade de saída	363 tok/s	45% mais rápido que Gemini 2.5 Flash (249 tok/s) — o mais rápido na sua faixa de preço
Preço de entrada	$0.25/1M	Por milhão de tokens de entrada — igual ao GPT-5 mini ($0.25/1M)
Preço de saída	$1.50/1M	Por milhão de tokens de saída — muito mais barato que Claude 4.5 Haiku ($5.00/1M)

Fonte: Artificial Analysis e Arena.ai Leaderboard

Sobre o Gemini 3.1 Flash Lite

O Gemini 3.1 Flash Lite é o modelo mais rápido e econômico da série Gemini 3 do Google DeepMind, lançado em 3 de março de 2026. Otimizado para tarefas de alto throughput e sensíveis à latência, como tradução, classificação e extração simples de dados. Com 363 tokens/seg de throughput e janela de contexto de 1M tokens, oferece desempenho excepcional a uma fração do custo.

Aviso importante: Gemini3.us é uma plataforma independente da comunidade de entusiastas e desenvolvedores. Não somos afiliados, endossados ou oficialmente conectados ao Google LLC. Fornecemos acesso pago aos serviços oficiais da API Gemini do Google para apoiar nossa infraestrutura e operações.

Começar com Gemini 3.1 Flash Lite

Experimente o modelo mais rápido e econômico da série Gemini 3