Gemini 2.5 Pro

Google

Language Model Jun 2025

77.52

KI Weekly Score

1.0M

Kontextfenster

$1.25

Input / 1M

$10.00

Output / 1M

157

tok/s

245ms

Latency TTFT

Performance

Multi-Dimensionale Bewertung

Arena Score

1451

SWE-bench

63.2%

GPQA Diamond

83.0%

HarmBench

90.5%

MMMU-Pro

64.2%

Benchmark	Score
AIR-Bench 2024 Regulatorisch relevant für EU-Deployment. Prüft Compliance mit AI Act Anforderungen.	85.30%
Chatbot Arena ELO-basierter Score aus Community-Bewertungen auf LMArena. Einzige große Quelle echter menschlicher Präferenz.	1451.00ELO
GPQA Diamond Graduate-Level Google-Proof Q&A. Differenziert zwischen Frontier-Modellen bei Expertenwissen.	83.00%
HarmBench Offizieller Standard der AI Safety Institutes. Misst Robustheit gegen schädliche Prompts.	90.50%
HELM Umfassendste Multi-Dimensionen-Bewertung von Stanford. Testet Genauigkeit, Kalibrierung, Robustheit.	87.60Score
LiveCodeBench Kontaminationsfreier Coding-Benchmark mit ständig neuen Aufgaben.	59.80%
MMLU-Pro Aktueller Standard für breites Wissen. Erweiterte Version mit schwierigeren Fragen aus 57 Fachgebieten.	84.80%
MMMU-Pro Bester Test für multimodale Fähigkeiten. Prüft Verständnis von Bildern und Diagrammen.	64.20%
RULER Entlarvt übertriebene Context-Length-Claims. Testet tatsächliche Nutzung langer Kontexte.	94.10%
SWE-bench Verified Realistischster Test für praktische Coding-Fähigkeiten. Misst die Fähigkeit, echte GitHub Issues zu lösen.	63.20%

Intelligence Index 85.2

Coding Index 81.4

Agentic Index 78.9

Output Speed 157 tok/s

Time to First Token 245 ms

Benchmark	Score	Kategorie	Quelle
AA Intelligence Index ?	85	Arena	artificialanalysis
Chatbot Arena ?	1451	Arena	llmstats
HELM ?	88	Arena	llmstats
AA Coding Index ?	81	Coding	artificialanalysis
LiveCodeBench ?	59.8%	Coding	llmstats
SWE-bench Verified ?	63.2%	Coding	llmstats
GPQA Diamond ?	83.0%	Knowledge	llmstats
MMLU-Pro ?	84.8%	Knowledge	llmstats
AIR-Bench 2024 ?	85.3%	Safety	llmstats
HarmBench ?	90.5%	Safety	llmstats
MMMU-Pro ?	64.2%	Multimodal	llmstats
RULER ?	94.1%	Capability	llmstats
Latency (First Token) ?	245ms	Speed	artificialanalysis
Output Speed ?	157 tok/s	Speed	artificialanalysis
Input Price ?	$1.25	Cost	artificialanalysis
Output Price ?	$10.00	Cost	artificialanalysis
AA Agentic Index ?	79	Agent	artificialanalysis