2026年3月3日發布

Gemini 3.1 Flash Lite

谷歌 Gemini 3 系列最快、最經濟的模型

比 Gemini 2.5 Flash 快2.5倍 • 363 tokens/秒 • 100萬token上下文 • 專為規模化設計

查看性能指標

2.5×

首token速度提升

363

Tokens/秒

100萬

Token上下文

1/8×

相比Pro的成本

Gemini 3.1 Flash Lite 特性

針對速度、成本和高並發生產工作負載優化

首token速度提升2.5倍

Gemini 3.1 Flash Lite 首token響應時間比 Gemini 2.5 Flash 快2.5倍，非常適合即時和互動式應用。

極致成本效益

價格僅為 Gemini 3.1 Pro 的八分之一，是高並發生產部署最經濟實惠的選擇。

363 Tokens/秒

輸出速度達363 tokens/秒，比 Gemini 2.5 Flash 的249 tokens/秒快45%，同時保持相近或更好的品質。

全模態輸入支援

支援文字、圖像、影片、音訊和PDF輸入，上下文視窗達100萬token，僅輸出文字。

動態思考級別

自適應思考能力，根據任務複雜度匹配計算資源，從即時響應到深度推理按需調整。

高並發智能體任務

專為大規模智能體流水線、簡單資料提取、分類和翻譯任務設計。

Gemini 3.1 Flash Lite 性能

Gemini 3 系列中最快、最經濟的模型

速度與吞吐量

首token時間

比 Gemini 2.5 Flash 快2.5倍

2.5×

輸出速度

363 tokens/秒 vs 249 tokens/秒

363/s

速度提升

輸出速度比 Gemini 2.5 Flash 快45%

+45%

延遲特性

針對低延遲應用優化

Low

成本效益

相比 Gemini 3.1 Pro 成本

價格僅為八分之一

1/8×

輸入定價

每百萬token成本極低

Low

規模適用性

專為每日數百萬次請求設計

M+/day

預算優化

Gemini 3 系列中最佳性價比

Best

上下文與多模態

上下文視窗

1,048,576 輸入token

輸出token限制

每次響應65,536 token

65K

輸入類型

文字、圖像、影片、音訊、PDF

批次處理API

支援批次處理

✓

支援的功能

函數呼叫

支援

✓

搜尋接地

支援

✓

程式碼執行

支援

✓

結構化輸出

支援

✓

Gemini 3.1 Flash Lite 基準測試成績

在所有關鍵基準測試中超越 Gemini 2.5 Flash，且成本更低

基準測試	得分	說明
Arena Elo	1432	Arena.ai 人類偏好排名 — 在同級別模型中表現最優
智能指數	34	Artificial Analysis 智能指數 — 比 Gemini 2.5 Flash-Lite 提升 12 分
GPQA Diamond	86.9%	博士級科學知識 — 超越 Gemini 2.5 Flash（82.8%）、Claude 4.5 Haiku（73.0%）、GPT-5 mini（82.3%）
MMMU-Pro	76.8%	多模態理解與推理 — 超越 Claude Opus 4.6、Kimi K2.5 及 GPT-5 mini（74.1%）
Video-MMMU	84.8%	影片知識獲取 — 超越 GPT-5 mini（82.5%）和 Grok 4.1 Fast（74.6%）
Humanity's Last Exam	16.0%	文字與多模態學術推理 — 與 GPT-5 mini（16.7%）相當
LiveCodeBench	72.0%	程式碼生成（2025年1月–5月）— 是 Gemini 2.5 Flash-Lite（34.3%）的兩倍
SimpleQA Verified	43.3%	參數化知識準確率 — 是 GPT-5 mini（9.5%）和 Claude 4.5 Haiku（5.5%）的四倍
MMMLU（多語言）	88.9%	多語言問答 — 超越 GPT-5 mini（84.9%）、Claude 4.5 Haiku（83.0%）、Grok 4.1 Fast（86.8%）
CharXiv Reasoning	73.2%	複雜圖表資訊綜合 — 超越 Gemini 2.5 Flash（63.7%）和 Claude 4.5 Haiku（61.7%）
MRCR v2（128k）	60.1%	長上下文效能（8針，128k均值）— 超越 GPT-5 mini（52.5%）和 Claude 4.5 Haiku（35.3%）
輸出速度	363 tok/s	比 Gemini 2.5 Flash（249 tok/s）快 45% — 同價位最快
輸入價格	$0.25/1M	每百萬輸入 token — 與 GPT-5 mini（$0.25/1M）持平
輸出價格	$1.50/1M	每百萬輸出 token — 遠低於 Claude 4.5 Haiku（$5.00/1M）

資料來源：Artificial Analysis 與 Arena.ai 排行榜

關於 Gemini 3.1 Flash Lite

Gemini 3.1 Flash Lite 是 Google DeepMind 於2026年3月3日發布的 Gemini 3 系列中最快、最經濟的模型。專為高並發、延遲敏感型任務（如翻譯、分類和簡單資料提取）優化。憑藉363 tokens/秒的吞吐量和100萬token上下文視窗，以極低成本提供卓越性能。

重要聲明：Gemini3.us 是獨立的愛好者社群和開發者平台，與 Google LLC 沒有任何關聯、認可或官方連接。我們提供對 Google 官方 Gemini API 服務的付費存取，以支援我們的基礎設施和營運。

立即體驗 Gemini 3.1 Flash Lite

感受 Gemini 3 系列最快、最經濟的模型