Menu
Gemini 3 Flash

Gemini 3 Flash

Google

Reasoning Language Model Dec 2025
86.71
KI Weekly Score
1.0M
Kontextfenster
$0.50
Input / 1M
$3.00
Output / 1M
286
tok/s
145ms
Latency TTFT

Performance

Multi-Dimensionale Bewertung
Arena Score
1480
SWE-bench
78.0%
GPQA Diamond
90.4%
HarmBench
92.8%
MMMU-Pro
69.4%

LMArena Scores

Text 1480
WebDev 1454
Vision 1284

LLM Stats Benchmarks

Benchmark Score
AIR-Bench 2024
Regulatorisch relevant fĂĽr EU-Deployment. PrĂĽft Compliance mit AI Act Anforderungen.
87.20%
Chatbot Arena
ELO-basierter Score aus Community-Bewertungen auf LMArena. Einzige große Quelle echter menschlicher Präferenz.
1480.00ELO
GPQA Diamond
Graduate-Level Google-Proof Q&A. Differenziert zwischen Frontier-Modellen bei Expertenwissen.
90.40%
HarmBench
Offizieller Standard der AI Safety Institutes. Misst Robustheit gegen schädliche Prompts.
92.80%
HELM
Umfassendste Multi-Dimensionen-Bewertung von Stanford. Testet Genauigkeit, Kalibrierung, Robustheit.
89.50Score
LiveCodeBench
Kontaminationsfreier Coding-Benchmark mit ständig neuen Aufgaben.
65.20%
MMLU-Pro
Aktueller Standard fĂĽr breites Wissen. Erweiterte Version mit schwierigeren Fragen aus 57 Fachgebieten.
88.10%
MMMU-Pro
Bester Test für multimodale Fähigkeiten. Prüft Verständnis von Bildern und Diagrammen.
69.40%
RULER
Entlarvt übertriebene Context-Length-Claims. Testet tatsächliche Nutzung langer Kontexte.
95.80%
SWE-bench Verified
Realistischster Test für praktische Coding-Fähigkeiten. Misst die Fähigkeit, echte GitHub Issues zu lösen.
78.00%

Artificial Analysis

Intelligence

Intelligence Index 89.4
Coding Index 85.2
Agentic Index 82.1

Speed & Latency

Output Speed 286 tok/s
Time to First Token 145 ms

Alle Benchmarks

Benchmark Score Kategorie Quelle
AA Intelligence Index ? 89 Arena artificialanalysis
Chatbot Arena ? 1480 Arena llmstats
HELM ? 90 Arena llmstats
LMArena Text ? 1480 Arena lmarena
AA Coding Index ? 85 Coding artificialanalysis
LiveCodeBench ? 65.2% Coding llmstats
LMArena WebDev ? 1454 Coding lmarena
SWE-bench Verified ? 78.0% Coding llmstats
GPQA Diamond ? 90.4% Knowledge llmstats
MMLU-Pro ? 88.1% Knowledge llmstats
AIR-Bench 2024 ? 87.2% Safety llmstats
HarmBench ? 92.8% Safety llmstats
LMArena Vision ? 1284 Multimodal lmarena
MMMU-Pro ? 69.4% Multimodal llmstats
RULER ? 95.8% Capability llmstats
Latency (First Token) ? 145ms Speed artificialanalysis
Output Speed ? 286 tok/s Speed artificialanalysis
Input Price ? $0.50 Cost artificialanalysis
Output Price ? $3.00 Cost artificialanalysis
AA Agentic Index ? 82 Agent artificialanalysis