Claude Opus 4.5

Anthropic

Reasoning Language Model Nov 2025

82.22

KI Weekly Score

200K

Kontextfenster

$5.00

Input / 1M

$25.00

Output / 1M

tok/s

450ms

Latency TTFT

Performance

Multi-Dimensionale Bewertung

Arena Score

1467

SWE-bench

80.9%

GPQA Diamond

87.0%

HarmBench

97.8%

MMMU-Pro

68.5%

LMArena Scores

Text 1467

WebDev 1479

Vision 1240

LLM Stats Benchmarks

Benchmark	Score
AIR-Bench 2024 Regulatorisch relevant für EU-Deployment. Prüft Compliance mit AI Act Anforderungen.	95.40%
Chatbot Arena ELO-basierter Score aus Community-Bewertungen auf LMArena. Einzige große Quelle echter menschlicher Präferenz.	1467.00ELO
GPQA Diamond Graduate-Level Google-Proof Q&A. Differenziert zwischen Frontier-Modellen bei Expertenwissen.	87.00%
HarmBench Offizieller Standard der AI Safety Institutes. Misst Robustheit gegen schädliche Prompts.	97.80%
HELM Umfassendste Multi-Dimensionen-Bewertung von Stanford. Testet Genauigkeit, Kalibrierung, Robustheit.	90.80Score
LiveCodeBench Kontaminationsfreier Coding-Benchmark mit ständig neuen Aufgaben.	72.10%
MMLU-Pro Aktueller Standard für breites Wissen. Erweiterte Version mit schwierigeren Fragen aus 57 Fachgebieten.	88.20%
MMMU-Pro Bester Test für multimodale Fähigkeiten. Prüft Verständnis von Bildern und Diagrammen.	68.50%
RULER Entlarvt übertriebene Context-Length-Claims. Testet tatsächliche Nutzung langer Kontexte.	89.20%
SWE-bench Verified Realistischster Test für praktische Coding-Fähigkeiten. Misst die Fähigkeit, echte GitHub Issues zu lösen.	80.90%

Artificial Analysis

Intelligence

Intelligence Index 91.8

Coding Index 94.5

Agentic Index 90.2

Speed & Latency

Output Speed 82 tok/s

Time to First Token 450 ms

Alle Benchmarks

Benchmark	Score	Kategorie	Quelle
AA Intelligence Index ?	92	Arena	artificialanalysis
Chatbot Arena ?	1467	Arena	llmstats
HELM ?	91	Arena	llmstats
LMArena Text ?	1467	Arena	lmarena
AA Coding Index ?	94	Coding	artificialanalysis
LiveCodeBench ?	72.1%	Coding	llmstats
LMArena WebDev ?	1479	Coding	lmarena
SWE-bench Verified ?	80.9%	Coding	llmstats
GPQA Diamond ?	87.0%	Knowledge	llmstats
MMLU-Pro ?	88.2%	Knowledge	llmstats
AIR-Bench 2024 ?	95.4%	Safety	llmstats
HarmBench ?	97.8%	Safety	llmstats
LMArena Vision ?	1240	Multimodal	lmarena
MMMU-Pro ?	68.5%	Multimodal	llmstats
RULER ?	89.2%	Capability	llmstats
Latency (First Token) ?	450ms	Speed	artificialanalysis
Output Speed ?	82 tok/s	Speed	artificialanalysis
Input Price ?	$5.00	Cost	artificialanalysis
Output Price ?	$25.00	Cost	artificialanalysis
AA Agentic Index ?	90	Agent	artificialanalysis

Zurueck zur Uebersicht Zum Vergleich hinzufuegen