gemini3.us
Ra mắt ngày 3 tháng 3 năm 2026

Gemini 3.1 Flash Lite

Mô hình Gemini 3 nhanh nhất và tiết kiệm nhất của Google

Nhanh hơn Gemini 2.5 Flash 2,5× • 363 token/giây • Ngữ cảnh 1M token • Được thiết kế để mở rộng quy mô

Khám phá Benchmarks
2,5×
Token đầu tiên nhanh hơn
363
Token/giây
1M
Ngữ cảnh token
1/8×
Chi phí so với Pro

Tính năng của Gemini 3.1 Flash Lite

Được tối ưu hóa cho tốc độ, chi phí và khối lượng công việc sản xuất lớn

Token đầu tiên nhanh hơn 2,5×

Gemini 3.1 Flash Lite đạt thời gian đến token đầu tiên nhanh hơn 2,5 lần so với Gemini 2.5 Flash, lý tưởng cho các ứng dụng thời gian thực và tương tác.

Hiệu quả chi phí cực cao

Với giá chỉ bằng một phần tám chi phí của Gemini 3.1 Pro, đây là lựa chọn tiết kiệm nhất cho các triển khai sản xuất khối lượng lớn.

363 token mỗi giây

Đạt tốc độ đầu ra 363 token/giây, nhanh hơn 45% so với 249 token/giây của Gemini 2.5 Flash, trong khi duy trì chất lượng tương đương hoặc tốt hơn.

Đầu vào đa phương thức đầy đủ

Hỗ trợ đầu vào văn bản, hình ảnh, video, âm thanh và PDF với cửa sổ ngữ cảnh 1M token. Chỉ xuất văn bản.

Mức độ suy nghĩ động

Suy nghĩ thích ứng điều chỉnh tính toán theo độ phức tạp của tác vụ, từ phản hồi tức thì đến lý luận sâu.

Tác vụ agentic khối lượng lớn

Được thiết kế cho các pipeline agentic, trích xuất dữ liệu đơn giản, phân loại và dịch thuật ở quy mô lớn.

Hiệu suất của Gemini 3.1 Flash Lite

Nhanh nhất và tiết kiệm nhất trong dòng Gemini 3

Tốc độ và thông lượng

Thời gian đến token đầu tiên
Nhanh hơn Gemini 2.5 Flash 2,5×
2.5×
Tốc độ đầu ra
363 token/giây so với 249 token/giây
363/s
Cải thiện tốc độ
Nhanh hơn Gemini 2.5 Flash 45%
+45%
Hồ sơ độ trễ
Được tối ưu hóa cho các ứng dụng độ trễ thấp
Low

Hiệu quả chi phí

Chi phí so với Gemini 3.1 Pro
Một phần tám giá
1/8×
Giá đầu vào
Chi phí cực thấp mỗi 1M token
Low
Phù hợp để mở rộng quy mô
Được thiết kế cho hàng triệu yêu cầu/ngày
M+/day
Tối ưu hóa ngân sách
Tỷ lệ chất lượng/giá tốt nhất trong dòng Gemini 3
Best

Ngữ cảnh và đa phương thức

Cửa sổ ngữ cảnh
1.048.576 token đầu vào
1M
Giới hạn token đầu ra
65.536 token mỗi phản hồi
65K
Loại đầu vào
Văn bản, hình ảnh, video, âm thanh, PDF
5
Batch API
Hỗ trợ xử lý hàng loạt

Khả năng được hỗ trợ

Gọi hàm
Được hỗ trợ
Search Grounding
Được hỗ trợ
Thực thi mã
Được hỗ trợ
Đầu ra có cấu trúc
Được hỗ trợ

Kết quả Benchmark của Gemini 3.1 Flash Lite

Vượt trội hơn Gemini 2.5 Flash ở mọi benchmark quan trọng — với chi phí thấp hơn

BenchmarkĐiểm sốMô tả
Arena Elo1432Xếp hạng ưu tiên của con người (Arena.ai) — vượt trội các mô hình cùng hạng
Chỉ số Trí tuệ34Chỉ số Trí tuệ Artificial Analysis — +12 điểm so với Gemini 2.5 Flash-Lite
GPQA Diamond86.9%Kiến thức khoa học cấp tiến sĩ — vượt Gemini 2.5 Flash (82.8%), Claude 4.5 Haiku (73.0%), GPT-5 mini (82.3%)
MMMU-Pro76.8%Hiểu biết và lý luận đa phương thức — vượt Claude Opus 4.6, Kimi K2.5 và GPT-5 mini (74.1%)
Video-MMMU84.8%Tiếp thu kiến thức từ video — vượt GPT-5 mini (82.5%) và Grok 4.1 Fast (74.6%)
Humanity's Last Exam16.0%Lý luận học thuật qua văn bản và đa phương thức — tương đương GPT-5 mini (16.7%)
LiveCodeBench72.0%Tạo mã (tháng 1–5/2025) — tốt hơn 2× so với Gemini 2.5 Flash-Lite (34.3%)
SimpleQA Đã xác minh43.3%Độ chính xác kiến thức tham số — tốt hơn 4× so với GPT-5 mini (9.5%) và Claude 4.5 Haiku (5.5%)
MMMLU (Đa ngôn ngữ)88.9%Hỏi đáp đa ngôn ngữ — vượt GPT-5 mini (84.9%), Claude 4.5 Haiku (83.0%), Grok 4.1 Fast (86.8%)
CharXiv Reasoning73.2%Tổng hợp thông tin từ biểu đồ phức tạp — vượt Gemini 2.5 Flash (63.7%) và Claude 4.5 Haiku (61.7%)
MRCR v2 (128k)60.1%Hiệu suất ngữ cảnh dài (8 kim, trung bình 128k) — vượt GPT-5 mini (52.5%) và Claude 4.5 Haiku (35.3%)
Tốc độ đầu ra363 tok/sNhanh hơn 45% so với Gemini 2.5 Flash (249 tok/s) — nhanh nhất trong phân khúc giá
Giá đầu vào$0.25/1MMỗi triệu token đầu vào — cạnh tranh với GPT-5 mini ($0.25/1M)
Giá đầu ra$1.50/1MMỗi triệu token đầu ra — rẻ hơn đáng kể so với Claude 4.5 Haiku ($5.00/1M)

Nguồn: Artificial Analysis & Arena.ai Leaderboard

Về Gemini 3.1 Flash Lite

Gemini 3.1 Flash Lite là mô hình nhanh nhất và tiết kiệm nhất trong dòng Gemini 3 của Google DeepMind, ra mắt ngày 3 tháng 3 năm 2026. Được tối ưu hóa cho các tác vụ thông lượng cao và nhạy cảm với độ trễ như dịch thuật, phân loại và trích xuất dữ liệu đơn giản. Với thông lượng 363 token/giây và cửa sổ ngữ cảnh 1M token, cung cấp hiệu suất vượt trội với chi phí chỉ bằng một phần nhỏ.

Thông báo quan trọng: Gemini3.us là nền tảng cộng đồng độc lập của những người đam mê và nhà phát triển. Chúng tôi không liên kết, được chứng thực hoặc kết nối chính thức với Google LLC. Chúng tôi cung cấp quyền truy cập có trả phí vào các dịch vụ Gemini API chính thức của Google để hỗ trợ cơ sở hạ tầng và hoạt động của chúng tôi.

Bắt đầu với Gemini 3.1 Flash Lite

Trải nghiệm mô hình nhanh nhất và tiết kiệm nhất trong dòng Gemini 3