Gemini 3.1 Flash Lite
Mô hình Gemini 3 nhanh nhất và tiết kiệm nhất của Google
Nhanh hơn Gemini 2.5 Flash 2,5× • 363 token/giây • Ngữ cảnh 1M token • Được thiết kế để mở rộng quy mô
Tính năng của Gemini 3.1 Flash Lite
Được tối ưu hóa cho tốc độ, chi phí và khối lượng công việc sản xuất lớn
Token đầu tiên nhanh hơn 2,5×
Gemini 3.1 Flash Lite đạt thời gian đến token đầu tiên nhanh hơn 2,5 lần so với Gemini 2.5 Flash, lý tưởng cho các ứng dụng thời gian thực và tương tác.
Hiệu quả chi phí cực cao
Với giá chỉ bằng một phần tám chi phí của Gemini 3.1 Pro, đây là lựa chọn tiết kiệm nhất cho các triển khai sản xuất khối lượng lớn.
363 token mỗi giây
Đạt tốc độ đầu ra 363 token/giây, nhanh hơn 45% so với 249 token/giây của Gemini 2.5 Flash, trong khi duy trì chất lượng tương đương hoặc tốt hơn.
Đầu vào đa phương thức đầy đủ
Hỗ trợ đầu vào văn bản, hình ảnh, video, âm thanh và PDF với cửa sổ ngữ cảnh 1M token. Chỉ xuất văn bản.
Mức độ suy nghĩ động
Suy nghĩ thích ứng điều chỉnh tính toán theo độ phức tạp của tác vụ, từ phản hồi tức thì đến lý luận sâu.
Tác vụ agentic khối lượng lớn
Được thiết kế cho các pipeline agentic, trích xuất dữ liệu đơn giản, phân loại và dịch thuật ở quy mô lớn.
Hiệu suất của Gemini 3.1 Flash Lite
Nhanh nhất và tiết kiệm nhất trong dòng Gemini 3
Tốc độ và thông lượng
Hiệu quả chi phí
Ngữ cảnh và đa phương thức
Khả năng được hỗ trợ
Kết quả Benchmark của Gemini 3.1 Flash Lite
Vượt trội hơn Gemini 2.5 Flash ở mọi benchmark quan trọng — với chi phí thấp hơn
| Benchmark | Điểm số | Mô tả |
|---|---|---|
| Arena Elo | 1432 | Xếp hạng ưu tiên của con người (Arena.ai) — vượt trội các mô hình cùng hạng |
| Chỉ số Trí tuệ | 34 | Chỉ số Trí tuệ Artificial Analysis — +12 điểm so với Gemini 2.5 Flash-Lite |
| GPQA Diamond | 86.9% | Kiến thức khoa học cấp tiến sĩ — vượt Gemini 2.5 Flash (82.8%), Claude 4.5 Haiku (73.0%), GPT-5 mini (82.3%) |
| MMMU-Pro | 76.8% | Hiểu biết và lý luận đa phương thức — vượt Claude Opus 4.6, Kimi K2.5 và GPT-5 mini (74.1%) |
| Video-MMMU | 84.8% | Tiếp thu kiến thức từ video — vượt GPT-5 mini (82.5%) và Grok 4.1 Fast (74.6%) |
| Humanity's Last Exam | 16.0% | Lý luận học thuật qua văn bản và đa phương thức — tương đương GPT-5 mini (16.7%) |
| LiveCodeBench | 72.0% | Tạo mã (tháng 1–5/2025) — tốt hơn 2× so với Gemini 2.5 Flash-Lite (34.3%) |
| SimpleQA Đã xác minh | 43.3% | Độ chính xác kiến thức tham số — tốt hơn 4× so với GPT-5 mini (9.5%) và Claude 4.5 Haiku (5.5%) |
| MMMLU (Đa ngôn ngữ) | 88.9% | Hỏi đáp đa ngôn ngữ — vượt GPT-5 mini (84.9%), Claude 4.5 Haiku (83.0%), Grok 4.1 Fast (86.8%) |
| CharXiv Reasoning | 73.2% | Tổng hợp thông tin từ biểu đồ phức tạp — vượt Gemini 2.5 Flash (63.7%) và Claude 4.5 Haiku (61.7%) |
| MRCR v2 (128k) | 60.1% | Hiệu suất ngữ cảnh dài (8 kim, trung bình 128k) — vượt GPT-5 mini (52.5%) và Claude 4.5 Haiku (35.3%) |
| Tốc độ đầu ra | 363 tok/s | Nhanh hơn 45% so với Gemini 2.5 Flash (249 tok/s) — nhanh nhất trong phân khúc giá |
| Giá đầu vào | $0.25/1M | Mỗi triệu token đầu vào — cạnh tranh với GPT-5 mini ($0.25/1M) |
| Giá đầu ra | $1.50/1M | Mỗi triệu token đầu ra — rẻ hơn đáng kể so với Claude 4.5 Haiku ($5.00/1M) |
Nguồn: Artificial Analysis & Arena.ai Leaderboard
Về Gemini 3.1 Flash Lite
Gemini 3.1 Flash Lite là mô hình nhanh nhất và tiết kiệm nhất trong dòng Gemini 3 của Google DeepMind, ra mắt ngày 3 tháng 3 năm 2026. Được tối ưu hóa cho các tác vụ thông lượng cao và nhạy cảm với độ trễ như dịch thuật, phân loại và trích xuất dữ liệu đơn giản. Với thông lượng 363 token/giây và cửa sổ ngữ cảnh 1M token, cung cấp hiệu suất vượt trội với chi phí chỉ bằng một phần nhỏ.
Thông báo quan trọng: Gemini3.us là nền tảng cộng đồng độc lập của những người đam mê và nhà phát triển. Chúng tôi không liên kết, được chứng thực hoặc kết nối chính thức với Google LLC. Chúng tôi cung cấp quyền truy cập có trả phí vào các dịch vụ Gemini API chính thức của Google để hỗ trợ cơ sở hạ tầng và hoạt động của chúng tôi.
Bắt đầu với Gemini 3.1 Flash Lite
Trải nghiệm mô hình nhanh nhất và tiết kiệm nhất trong dòng Gemini 3