Menu
Gemini 3 Pro

Gemini 3 Pro

Google

Reasoning Language Model Dec 2025
86.80
KI Weekly Score
1.0M
Kontextfenster
$2.00
Input / 1M
$12.00
Output / 1M
145
tok/s
285ms
Latency TTFT

Performance

Multi-Dimensionale Bewertung
Arena Score
1490
SWE-bench
76.2%
GPQA Diamond
91.9%
HarmBench
94.2%
MMMU-Pro
72.8%

LMArena Scores

Text 1490
WebDev 1471
Vision 1309
Search 1214
Text-to-Image 1235
Image Edit 1399

LLM Stats Benchmarks

Benchmark Score
AIR-Bench 2024
Regulatorisch relevant fĂĽr EU-Deployment. PrĂĽft Compliance mit AI Act Anforderungen.
88.90%
Chatbot Arena
ELO-basierter Score aus Community-Bewertungen auf LMArena. Einzige große Quelle echter menschlicher Präferenz.
1490.00ELO
GPQA Diamond
Graduate-Level Google-Proof Q&A. Differenziert zwischen Frontier-Modellen bei Expertenwissen.
91.90%
HarmBench
Offizieller Standard der AI Safety Institutes. Misst Robustheit gegen schädliche Prompts.
94.20%
HELM
Umfassendste Multi-Dimensionen-Bewertung von Stanford. Testet Genauigkeit, Kalibrierung, Robustheit.
91.30Score
LiveCodeBench
Kontaminationsfreier Coding-Benchmark mit ständig neuen Aufgaben.
68.40%
MMLU-Pro
Aktueller Standard fĂĽr breites Wissen. Erweiterte Version mit schwierigeren Fragen aus 57 Fachgebieten.
89.70%
MMMU-Pro
Bester Test für multimodale Fähigkeiten. Prüft Verständnis von Bildern und Diagrammen.
72.80%
RULER
Entlarvt übertriebene Context-Length-Claims. Testet tatsächliche Nutzung langer Kontexte.
96.50%
SWE-bench Verified
Realistischster Test für praktische Coding-Fähigkeiten. Misst die Fähigkeit, echte GitHub Issues zu lösen.
76.20%

Artificial Analysis

Intelligence

Intelligence Index 94.5
Coding Index 92.1
Agentic Index 88.7

Speed & Latency

Output Speed 145 tok/s
Time to First Token 285 ms

Alle Benchmarks

Benchmark Score Kategorie Quelle
AA Intelligence Index ? 94 Arena artificialanalysis
Chatbot Arena ? 1490 Arena llmstats
HELM ? 91 Arena llmstats
LMArena Text ? 1490 Arena lmarena
AA Coding Index ? 92 Coding artificialanalysis
LiveCodeBench ? 68.4% Coding llmstats
LMArena WebDev ? 1471 Coding lmarena
SWE-bench Verified ? 76.2% Coding llmstats
GPQA Diamond ? 91.9% Knowledge llmstats
MMLU-Pro ? 89.7% Knowledge llmstats
AIR-Bench 2024 ? 88.9% Safety llmstats
HarmBench ? 94.2% Safety llmstats
LMArena Vision ? 1309 Multimodal lmarena
MMMU-Pro ? 72.8% Multimodal llmstats
RULER ? 96.5% Capability llmstats
Latency (First Token) ? 285ms Speed artificialanalysis
Output Speed ? 145 tok/s Speed artificialanalysis
Input Price ? $2.00 Cost artificialanalysis
Output Price ? $12.00 Cost artificialanalysis
LMArena Image Edit ? 1399 Generative lmarena
LMArena Text-to-Image ? 1235 Generative lmarena
AA Agentic Index ? 89 Agent artificialanalysis
LMArena Search ? 1214 Agent lmarena