Ra mắt ngày 3 tháng 3 năm 2026

Gemini 3.1 Flash Lite

Mô hình Gemini 3 nhanh nhất và tiết kiệm nhất của Google

Nhanh hơn Gemini 2.5 Flash 2,5× • 363 token/giây • Ngữ cảnh 1M token • Được thiết kế để mở rộng quy mô

Khám phá Benchmarks

2,5×

Token đầu tiên nhanh hơn

363

Token/giây

Ngữ cảnh token

1/8×

Chi phí so với Pro

Tính năng của Gemini 3.1 Flash Lite

Được tối ưu hóa cho tốc độ, chi phí và khối lượng công việc sản xuất lớn

Token đầu tiên nhanh hơn 2,5×

Gemini 3.1 Flash Lite đạt thời gian đến token đầu tiên nhanh hơn 2,5 lần so với Gemini 2.5 Flash, lý tưởng cho các ứng dụng thời gian thực và tương tác.

Hiệu quả chi phí cực cao

Với giá chỉ bằng một phần tám chi phí của Gemini 3.1 Pro, đây là lựa chọn tiết kiệm nhất cho các triển khai sản xuất khối lượng lớn.

363 token mỗi giây

Đạt tốc độ đầu ra 363 token/giây, nhanh hơn 45% so với 249 token/giây của Gemini 2.5 Flash, trong khi duy trì chất lượng tương đương hoặc tốt hơn.

Đầu vào đa phương thức đầy đủ

Hỗ trợ đầu vào văn bản, hình ảnh, video, âm thanh và PDF với cửa sổ ngữ cảnh 1M token. Chỉ xuất văn bản.

Mức độ suy nghĩ động

Suy nghĩ thích ứng điều chỉnh tính toán theo độ phức tạp của tác vụ, từ phản hồi tức thì đến lý luận sâu.

Tác vụ agentic khối lượng lớn

Được thiết kế cho các pipeline agentic, trích xuất dữ liệu đơn giản, phân loại và dịch thuật ở quy mô lớn.

Hiệu suất của Gemini 3.1 Flash Lite

Nhanh nhất và tiết kiệm nhất trong dòng Gemini 3

Tốc độ và thông lượng

Thời gian đến token đầu tiên

Nhanh hơn Gemini 2.5 Flash 2,5×

2.5×

Tốc độ đầu ra

363 token/giây so với 249 token/giây

363/s

Cải thiện tốc độ

Nhanh hơn Gemini 2.5 Flash 45%

+45%

Hồ sơ độ trễ

Được tối ưu hóa cho các ứng dụng độ trễ thấp

Low

Hiệu quả chi phí

Chi phí so với Gemini 3.1 Pro

Một phần tám giá

1/8×

Giá đầu vào

Chi phí cực thấp mỗi 1M token

Low

Phù hợp để mở rộng quy mô

Được thiết kế cho hàng triệu yêu cầu/ngày

M+/day

Tối ưu hóa ngân sách

Tỷ lệ chất lượng/giá tốt nhất trong dòng Gemini 3

Best

Ngữ cảnh và đa phương thức

Cửa sổ ngữ cảnh

1.048.576 token đầu vào

Giới hạn token đầu ra

65.536 token mỗi phản hồi

65K

Loại đầu vào

Văn bản, hình ảnh, video, âm thanh, PDF

Batch API

Hỗ trợ xử lý hàng loạt

✓

Khả năng được hỗ trợ

Gọi hàm

Được hỗ trợ

✓

Search Grounding

Được hỗ trợ

✓

Thực thi mã

Được hỗ trợ

✓

Đầu ra có cấu trúc

Được hỗ trợ

✓

Kết quả Benchmark của Gemini 3.1 Flash Lite

Vượt trội hơn Gemini 2.5 Flash ở mọi benchmark quan trọng — với chi phí thấp hơn

Benchmark	Điểm số	Mô tả
Arena Elo	1432	Xếp hạng ưu tiên của con người (Arena.ai) — vượt trội các mô hình cùng hạng
Chỉ số Trí tuệ	34	Chỉ số Trí tuệ Artificial Analysis — +12 điểm so với Gemini 2.5 Flash-Lite
GPQA Diamond	86.9%	Kiến thức khoa học cấp tiến sĩ — vượt Gemini 2.5 Flash (82.8%), Claude 4.5 Haiku (73.0%), GPT-5 mini (82.3%)
MMMU-Pro	76.8%	Hiểu biết và lý luận đa phương thức — vượt Claude Opus 4.6, Kimi K2.5 và GPT-5 mini (74.1%)
Video-MMMU	84.8%	Tiếp thu kiến thức từ video — vượt GPT-5 mini (82.5%) và Grok 4.1 Fast (74.6%)
Humanity's Last Exam	16.0%	Lý luận học thuật qua văn bản và đa phương thức — tương đương GPT-5 mini (16.7%)
LiveCodeBench	72.0%	Tạo mã (tháng 1–5/2025) — tốt hơn 2× so với Gemini 2.5 Flash-Lite (34.3%)
SimpleQA Đã xác minh	43.3%	Độ chính xác kiến thức tham số — tốt hơn 4× so với GPT-5 mini (9.5%) và Claude 4.5 Haiku (5.5%)
MMMLU (Đa ngôn ngữ)	88.9%	Hỏi đáp đa ngôn ngữ — vượt GPT-5 mini (84.9%), Claude 4.5 Haiku (83.0%), Grok 4.1 Fast (86.8%)
CharXiv Reasoning	73.2%	Tổng hợp thông tin từ biểu đồ phức tạp — vượt Gemini 2.5 Flash (63.7%) và Claude 4.5 Haiku (61.7%)
MRCR v2 (128k)	60.1%	Hiệu suất ngữ cảnh dài (8 kim, trung bình 128k) — vượt GPT-5 mini (52.5%) và Claude 4.5 Haiku (35.3%)
Tốc độ đầu ra	363 tok/s	Nhanh hơn 45% so với Gemini 2.5 Flash (249 tok/s) — nhanh nhất trong phân khúc giá
Giá đầu vào	$0.25/1M	Mỗi triệu token đầu vào — cạnh tranh với GPT-5 mini ($0.25/1M)
Giá đầu ra	$1.50/1M	Mỗi triệu token đầu ra — rẻ hơn đáng kể so với Claude 4.5 Haiku ($5.00/1M)

Nguồn: Artificial Analysis & Arena.ai Leaderboard

Về Gemini 3.1 Flash Lite

Gemini 3.1 Flash Lite là mô hình nhanh nhất và tiết kiệm nhất trong dòng Gemini 3 của Google DeepMind, ra mắt ngày 3 tháng 3 năm 2026. Được tối ưu hóa cho các tác vụ thông lượng cao và nhạy cảm với độ trễ như dịch thuật, phân loại và trích xuất dữ liệu đơn giản. Với thông lượng 363 token/giây và cửa sổ ngữ cảnh 1M token, cung cấp hiệu suất vượt trội với chi phí chỉ bằng một phần nhỏ.

Thông báo quan trọng: Gemini3.us là nền tảng cộng đồng độc lập của những người đam mê và nhà phát triển. Chúng tôi không liên kết, được chứng thực hoặc kết nối chính thức với Google LLC. Chúng tôi cung cấp quyền truy cập có trả phí vào các dịch vụ Gemini API chính thức của Google để hỗ trợ cơ sở hạ tầng và hoạt động của chúng tôi.

Bắt đầu với Gemini 3.1 Flash Lite

Trải nghiệm mô hình nhanh nhất và tiết kiệm nhất trong dòng Gemini 3