Gemini 3 Pro

Google

Reasoning Language Model Dec 2025

86.80

KI Weekly Score

1.0M

Kontextfenster

$2.00

Input / 1M

$12.00

Output / 1M

145

tok/s

285ms

Latency TTFT

Performance

Multi-Dimensionale Bewertung

Arena Score

1490

SWE-bench

76.2%

GPQA Diamond

91.9%

HarmBench

94.2%

MMMU-Pro

72.8%

LMArena Scores

Text 1490

WebDev 1471

Vision 1309

Search 1214

Text-to-Image 1235

Image Edit 1399

LLM Stats Benchmarks

Benchmark	Score
AIR-Bench 2024 Regulatorisch relevant für EU-Deployment. Prüft Compliance mit AI Act Anforderungen.	88.90%
Chatbot Arena ELO-basierter Score aus Community-Bewertungen auf LMArena. Einzige große Quelle echter menschlicher Präferenz.	1490.00ELO
GPQA Diamond Graduate-Level Google-Proof Q&A. Differenziert zwischen Frontier-Modellen bei Expertenwissen.	91.90%
HarmBench Offizieller Standard der AI Safety Institutes. Misst Robustheit gegen schädliche Prompts.	94.20%
HELM Umfassendste Multi-Dimensionen-Bewertung von Stanford. Testet Genauigkeit, Kalibrierung, Robustheit.	91.30Score
LiveCodeBench Kontaminationsfreier Coding-Benchmark mit ständig neuen Aufgaben.	68.40%
MMLU-Pro Aktueller Standard für breites Wissen. Erweiterte Version mit schwierigeren Fragen aus 57 Fachgebieten.	89.70%
MMMU-Pro Bester Test für multimodale Fähigkeiten. Prüft Verständnis von Bildern und Diagrammen.	72.80%
RULER Entlarvt übertriebene Context-Length-Claims. Testet tatsächliche Nutzung langer Kontexte.	96.50%
SWE-bench Verified Realistischster Test für praktische Coding-Fähigkeiten. Misst die Fähigkeit, echte GitHub Issues zu lösen.	76.20%

Artificial Analysis

Intelligence

Intelligence Index 94.5

Coding Index 92.1

Agentic Index 88.7

Speed & Latency

Output Speed 145 tok/s

Time to First Token 285 ms

Alle Benchmarks

Benchmark	Score	Kategorie	Quelle
AA Intelligence Index ?	94	Arena	artificialanalysis
Chatbot Arena ?	1490	Arena	llmstats
HELM ?	91	Arena	llmstats
LMArena Text ?	1490	Arena	lmarena
AA Coding Index ?	92	Coding	artificialanalysis
LiveCodeBench ?	68.4%	Coding	llmstats
LMArena WebDev ?	1471	Coding	lmarena
SWE-bench Verified ?	76.2%	Coding	llmstats
GPQA Diamond ?	91.9%	Knowledge	llmstats
MMLU-Pro ?	89.7%	Knowledge	llmstats
AIR-Bench 2024 ?	88.9%	Safety	llmstats
HarmBench ?	94.2%	Safety	llmstats
LMArena Vision ?	1309	Multimodal	lmarena
MMMU-Pro ?	72.8%	Multimodal	llmstats
RULER ?	96.5%	Capability	llmstats
Latency (First Token) ?	285ms	Speed	artificialanalysis
Output Speed ?	145 tok/s	Speed	artificialanalysis
Input Price ?	$2.00	Cost	artificialanalysis
Output Price ?	$12.00	Cost	artificialanalysis
LMArena Image Edit ?	1399	Generative	lmarena
LMArena Text-to-Image ?	1235	Generative	lmarena
AA Agentic Index ?	89	Agent	artificialanalysis
LMArena Search ?	1214	Agent	lmarena

Zurueck zur Uebersicht Zum Vergleich hinzufuegen