Menu
Claude Opus 4.5

Claude Opus 4.5

Anthropic

Reasoning Language Model Nov 2025
82.22
KI Weekly Score
200K
Kontextfenster
$5.00
Input / 1M
$25.00
Output / 1M
82
tok/s
450ms
Latency TTFT

Performance

Multi-Dimensionale Bewertung
Arena Score
1467
SWE-bench
80.9%
GPQA Diamond
87.0%
HarmBench
97.8%
MMMU-Pro
68.5%

LMArena Scores

Text 1467
WebDev 1479
Vision 1240

LLM Stats Benchmarks

Benchmark Score
AIR-Bench 2024
Regulatorisch relevant fĂĽr EU-Deployment. PrĂĽft Compliance mit AI Act Anforderungen.
95.40%
Chatbot Arena
ELO-basierter Score aus Community-Bewertungen auf LMArena. Einzige große Quelle echter menschlicher Präferenz.
1467.00ELO
GPQA Diamond
Graduate-Level Google-Proof Q&A. Differenziert zwischen Frontier-Modellen bei Expertenwissen.
87.00%
HarmBench
Offizieller Standard der AI Safety Institutes. Misst Robustheit gegen schädliche Prompts.
97.80%
HELM
Umfassendste Multi-Dimensionen-Bewertung von Stanford. Testet Genauigkeit, Kalibrierung, Robustheit.
90.80Score
LiveCodeBench
Kontaminationsfreier Coding-Benchmark mit ständig neuen Aufgaben.
72.10%
MMLU-Pro
Aktueller Standard fĂĽr breites Wissen. Erweiterte Version mit schwierigeren Fragen aus 57 Fachgebieten.
88.20%
MMMU-Pro
Bester Test für multimodale Fähigkeiten. Prüft Verständnis von Bildern und Diagrammen.
68.50%
RULER
Entlarvt übertriebene Context-Length-Claims. Testet tatsächliche Nutzung langer Kontexte.
89.20%
SWE-bench Verified
Realistischster Test für praktische Coding-Fähigkeiten. Misst die Fähigkeit, echte GitHub Issues zu lösen.
80.90%

Artificial Analysis

Intelligence

Intelligence Index 91.8
Coding Index 94.5
Agentic Index 90.2

Speed & Latency

Output Speed 82 tok/s
Time to First Token 450 ms

Alle Benchmarks

Benchmark Score Kategorie Quelle
AA Intelligence Index ? 92 Arena artificialanalysis
Chatbot Arena ? 1467 Arena llmstats
HELM ? 91 Arena llmstats
LMArena Text ? 1467 Arena lmarena
AA Coding Index ? 94 Coding artificialanalysis
LiveCodeBench ? 72.1% Coding llmstats
LMArena WebDev ? 1479 Coding lmarena
SWE-bench Verified ? 80.9% Coding llmstats
GPQA Diamond ? 87.0% Knowledge llmstats
MMLU-Pro ? 88.2% Knowledge llmstats
AIR-Bench 2024 ? 95.4% Safety llmstats
HarmBench ? 97.8% Safety llmstats
LMArena Vision ? 1240 Multimodal lmarena
MMMU-Pro ? 68.5% Multimodal llmstats
RULER ? 89.2% Capability llmstats
Latency (First Token) ? 450ms Speed artificialanalysis
Output Speed ? 82 tok/s Speed artificialanalysis
Input Price ? $5.00 Cost artificialanalysis
Output Price ? $25.00 Cost artificialanalysis
AA Agentic Index ? 90 Agent artificialanalysis