2026年3月3日发布

Gemini 3.1 Flash Lite

谷歌 Gemini 3 系列最快、最经济的模型

比 Gemini 2.5 Flash 快2.5倍 • 363 tokens/秒 • 100万token上下文 • 专为规模化设计

查看性能指标

2.5×

首token速度提升

363

Tokens/秒

100万

Token上下文

1/8×

相比Pro的成本

Gemini 3.1 Flash Lite 特性

针对速度、成本和高并发生产工作负载优化

首token速度提升2.5倍

Gemini 3.1 Flash Lite 首token响应时间比 Gemini 2.5 Flash 快2.5倍，非常适合实时和交互式应用。

极致成本效益

价格仅为 Gemini 3.1 Pro 的八分之一，是高并发生产部署最经济实惠的选择。

363 Tokens/秒

输出速度达363 tokens/秒，比 Gemini 2.5 Flash 的249 tokens/秒快45%，同时保持相近或更好的质量。

全模态输入支持

支持文本、图像、视频、音频和PDF输入，上下文窗口达100万token，仅输出文本。

动态思考级别

自适应思考能力，根据任务复杂度匹配计算资源，从即时响应到深度推理按需调整。

高并发智能体任务

专为大规模智能体流水线、简单数据提取、分类和翻译任务设计。

Gemini 3.1 Flash Lite 性能

Gemini 3 系列中最快、最经济的模型

速度与吞吐量

首token时间

比 Gemini 2.5 Flash 快2.5倍

2.5×

输出速度

363 tokens/秒 vs 249 tokens/秒

363/s

速度提升

输出速度比 Gemini 2.5 Flash 快45%

+45%

延迟特性

针对低延迟应用优化

Low

成本效益

相比 Gemini 3.1 Pro 成本

价格仅为八分之一

1/8×

输入定价

每百万token成本极低

Low

规模适用性

专为每日数百万次请求设计

M+/day

预算优化

Gemini 3 系列中最佳性价比

Best

上下文与多模态

上下文窗口

1,048,576 输入token

输出token限制

每次响应65,536 token

65K

输入类型

文本、图像、视频、音频、PDF

批处理API

支持批量处理

✓

支持的功能

函数调用

支持

✓

搜索接地

支持

✓

代码执行

支持

✓

结构化输出

支持

✓

Gemini 3.1 Flash Lite 基准测试成绩

在所有关键基准测试中超越 Gemini 2.5 Flash，且成本更低

基准测试	得分	说明
Arena Elo	1432	Arena.ai 人类偏好排名 — 在同级别模型中表现最优
智能指数	34	Artificial Analysis 智能指数 — 比 Gemini 2.5 Flash-Lite 提升 12 分
GPQA Diamond	86.9%	博士级科学知识 — 超越 Gemini 2.5 Flash（82.8%）、Claude 4.5 Haiku（73.0%）、GPT-5 mini（82.3%）
MMMU-Pro	76.8%	多模态理解与推理 — 超越 Claude Opus 4.6、Kimi K2.5 及 GPT-5 mini（74.1%）
Video-MMMU	84.8%	视频知识获取 — 超越 GPT-5 mini（82.5%）和 Grok 4.1 Fast（74.6%）
Humanity's Last Exam	16.0%	文本与多模态学术推理 — 与 GPT-5 mini（16.7%）相当
LiveCodeBench	72.0%	代码生成（2025年1月–5月）— 是 Gemini 2.5 Flash-Lite（34.3%）的两倍
SimpleQA Verified	43.3%	参数化知识准确率 — 是 GPT-5 mini（9.5%）和 Claude 4.5 Haiku（5.5%）的四倍
MMMLU（多语言）	88.9%	多语言问答 — 超越 GPT-5 mini（84.9%）、Claude 4.5 Haiku（83.0%）、Grok 4.1 Fast（86.8%）
CharXiv Reasoning	73.2%	复杂图表信息综合 — 超越 Gemini 2.5 Flash（63.7%）和 Claude 4.5 Haiku（61.7%）
MRCR v2（128k）	60.1%	长上下文性能（8针，128k均值）— 超越 GPT-5 mini（52.5%）和 Claude 4.5 Haiku（35.3%）
输出速度	363 tok/s	比 Gemini 2.5 Flash（249 tok/s）快 45% — 同价位最快
输入价格	$0.25/1M	每百万输入 token — 与 GPT-5 mini（$0.25/1M）持平
输出价格	$1.50/1M	每百万输出 token — 远低于 Claude 4.5 Haiku（$5.00/1M）

数据来源：Artificial Analysis 与 Arena.ai 排行榜

关于 Gemini 3.1 Flash Lite

Gemini 3.1 Flash Lite 是 Google DeepMind 于2026年3月3日发布的 Gemini 3 系列中最快、最经济的模型。专为高并发、延迟敏感型任务（如翻译、分类和简单数据提取）优化。凭借363 tokens/秒的吞吐量和100万token上下文窗口，以极低成本提供卓越性能。

重要声明：Gemini3.us 是独立的爱好者社区和开发者平台，与 Google LLC 没有任何关联、认可或官方连接。我们提供对 Google 官方 Gemini API 服务的付费访问，以支持我们的基础设施和运营。

立即体验 Gemini 3.1 Flash Lite

感受 Gemini 3 系列最快、最经济的模型