Gemini 3 Flash

Google

Reasoning Language Model Dec 2025

86.71

KI Weekly Score

1.0M

Kontextfenster

$0.50

Input / 1M

$3.00

Output / 1M

286

tok/s

145ms

Latency TTFT

Performance

Multi-Dimensionale Bewertung

Arena Score

1480

SWE-bench

78.0%

GPQA Diamond

90.4%

HarmBench

92.8%

MMMU-Pro

69.4%

LMArena Scores

Text 1480

WebDev 1454

Vision 1284

LLM Stats Benchmarks

Benchmark	Score
AIR-Bench 2024 Regulatorisch relevant für EU-Deployment. Prüft Compliance mit AI Act Anforderungen.	87.20%
Chatbot Arena ELO-basierter Score aus Community-Bewertungen auf LMArena. Einzige große Quelle echter menschlicher Präferenz.	1480.00ELO
GPQA Diamond Graduate-Level Google-Proof Q&A. Differenziert zwischen Frontier-Modellen bei Expertenwissen.	90.40%
HarmBench Offizieller Standard der AI Safety Institutes. Misst Robustheit gegen schädliche Prompts.	92.80%
HELM Umfassendste Multi-Dimensionen-Bewertung von Stanford. Testet Genauigkeit, Kalibrierung, Robustheit.	89.50Score
LiveCodeBench Kontaminationsfreier Coding-Benchmark mit ständig neuen Aufgaben.	65.20%
MMLU-Pro Aktueller Standard für breites Wissen. Erweiterte Version mit schwierigeren Fragen aus 57 Fachgebieten.	88.10%
MMMU-Pro Bester Test für multimodale Fähigkeiten. Prüft Verständnis von Bildern und Diagrammen.	69.40%
RULER Entlarvt übertriebene Context-Length-Claims. Testet tatsächliche Nutzung langer Kontexte.	95.80%
SWE-bench Verified Realistischster Test für praktische Coding-Fähigkeiten. Misst die Fähigkeit, echte GitHub Issues zu lösen.	78.00%

Artificial Analysis

Intelligence

Intelligence Index 89.4

Coding Index 85.2

Agentic Index 82.1

Speed & Latency

Output Speed 286 tok/s

Time to First Token 145 ms

Alle Benchmarks

Benchmark	Score	Kategorie	Quelle
AA Intelligence Index ?	89	Arena	artificialanalysis
Chatbot Arena ?	1480	Arena	llmstats
HELM ?	90	Arena	llmstats
LMArena Text ?	1480	Arena	lmarena
AA Coding Index ?	85	Coding	artificialanalysis
LiveCodeBench ?	65.2%	Coding	llmstats
LMArena WebDev ?	1454	Coding	lmarena
SWE-bench Verified ?	78.0%	Coding	llmstats
GPQA Diamond ?	90.4%	Knowledge	llmstats
MMLU-Pro ?	88.1%	Knowledge	llmstats
AIR-Bench 2024 ?	87.2%	Safety	llmstats
HarmBench ?	92.8%	Safety	llmstats
LMArena Vision ?	1284	Multimodal	lmarena
MMMU-Pro ?	69.4%	Multimodal	llmstats
RULER ?	95.8%	Capability	llmstats
Latency (First Token) ?	145ms	Speed	artificialanalysis
Output Speed ?	286 tok/s	Speed	artificialanalysis
Input Price ?	$0.50	Cost	artificialanalysis
Output Price ?	$3.00	Cost	artificialanalysis
AA Agentic Index ?	82	Agent	artificialanalysis

Zurueck zur Uebersicht Zum Vergleich hinzufuegen