gemini3.us
2026年3月3日发布

Gemini 3.1 Flash Lite

谷歌 Gemini 3 系列最快、最经济的模型

比 Gemini 2.5 Flash 快2.5倍 • 363 tokens/秒 • 100万token上下文 • 专为规模化设计

查看性能指标
2.5×
首token速度提升
363
Tokens/秒
100万
Token上下文
1/8×
相比Pro的成本

Gemini 3.1 Flash Lite 特性

针对速度、成本和高并发生产工作负载优化

首token速度提升2.5倍

Gemini 3.1 Flash Lite 首token响应时间比 Gemini 2.5 Flash 快2.5倍,非常适合实时和交互式应用。

极致成本效益

价格仅为 Gemini 3.1 Pro 的八分之一,是高并发生产部署最经济实惠的选择。

363 Tokens/秒

输出速度达363 tokens/秒,比 Gemini 2.5 Flash 的249 tokens/秒快45%,同时保持相近或更好的质量。

全模态输入支持

支持文本、图像、视频、音频和PDF输入,上下文窗口达100万token,仅输出文本。

动态思考级别

自适应思考能力,根据任务复杂度匹配计算资源,从即时响应到深度推理按需调整。

高并发智能体任务

专为大规模智能体流水线、简单数据提取、分类和翻译任务设计。

Gemini 3.1 Flash Lite 性能

Gemini 3 系列中最快、最经济的模型

速度与吞吐量

首token时间
比 Gemini 2.5 Flash 快2.5倍
2.5×
输出速度
363 tokens/秒 vs 249 tokens/秒
363/s
速度提升
输出速度比 Gemini 2.5 Flash 快45%
+45%
延迟特性
针对低延迟应用优化
Low

成本效益

相比 Gemini 3.1 Pro 成本
价格仅为八分之一
1/8×
输入定价
每百万token成本极低
Low
规模适用性
专为每日数百万次请求设计
M+/day
预算优化
Gemini 3 系列中最佳性价比
Best

上下文与多模态

上下文窗口
1,048,576 输入token
1M
输出token限制
每次响应65,536 token
65K
输入类型
文本、图像、视频、音频、PDF
5
批处理API
支持批量处理

支持的功能

函数调用
支持
搜索接地
支持
代码执行
支持
结构化输出
支持

Gemini 3.1 Flash Lite 基准测试成绩

在所有关键基准测试中超越 Gemini 2.5 Flash,且成本更低

基准测试得分说明
Arena Elo1432Arena.ai 人类偏好排名 — 在同级别模型中表现最优
智能指数34Artificial Analysis 智能指数 — 比 Gemini 2.5 Flash-Lite 提升 12 分
GPQA Diamond86.9%博士级科学知识 — 超越 Gemini 2.5 Flash(82.8%)、Claude 4.5 Haiku(73.0%)、GPT-5 mini(82.3%)
MMMU-Pro76.8%多模态理解与推理 — 超越 Claude Opus 4.6、Kimi K2.5 及 GPT-5 mini(74.1%)
Video-MMMU84.8%视频知识获取 — 超越 GPT-5 mini(82.5%)和 Grok 4.1 Fast(74.6%)
Humanity's Last Exam16.0%文本与多模态学术推理 — 与 GPT-5 mini(16.7%)相当
LiveCodeBench72.0%代码生成(2025年1月–5月)— 是 Gemini 2.5 Flash-Lite(34.3%)的两倍
SimpleQA Verified43.3%参数化知识准确率 — 是 GPT-5 mini(9.5%)和 Claude 4.5 Haiku(5.5%)的四倍
MMMLU(多语言)88.9%多语言问答 — 超越 GPT-5 mini(84.9%)、Claude 4.5 Haiku(83.0%)、Grok 4.1 Fast(86.8%)
CharXiv Reasoning73.2%复杂图表信息综合 — 超越 Gemini 2.5 Flash(63.7%)和 Claude 4.5 Haiku(61.7%)
MRCR v2(128k)60.1%长上下文性能(8针,128k均值)— 超越 GPT-5 mini(52.5%)和 Claude 4.5 Haiku(35.3%)
输出速度363 tok/s比 Gemini 2.5 Flash(249 tok/s)快 45% — 同价位最快
输入价格$0.25/1M每百万输入 token — 与 GPT-5 mini($0.25/1M)持平
输出价格$1.50/1M每百万输出 token — 远低于 Claude 4.5 Haiku($5.00/1M)

数据来源:Artificial Analysis 与 Arena.ai 排行榜

关于 Gemini 3.1 Flash Lite

Gemini 3.1 Flash Lite 是 Google DeepMind 于2026年3月3日发布的 Gemini 3 系列中最快、最经济的模型。专为高并发、延迟敏感型任务(如翻译、分类和简单数据提取)优化。凭借363 tokens/秒的吞吐量和100万token上下文窗口,以极低成本提供卓越性能。

重要声明:Gemini3.us 是独立的爱好者社区和开发者平台,与 Google LLC 没有任何关联、认可或官方连接。我们提供对 Google 官方 Gemini API 服务的付费访问,以支持我们的基础设施和运营。

立即体验 Gemini 3.1 Flash Lite

感受 Gemini 3 系列最快、最经济的模型