Menu
Claude Sonnet 4.5

Claude Sonnet 4.5

Anthropic

Reasoning Language Model Sep 2025
79.45
KI Weekly Score
200K
Kontextfenster
$3.00
Input / 1M
$15.00
Output / 1M
99
tok/s
380ms
Latency TTFT

Performance

Multi-Dimensionale Bewertung
Arena Score
1450
SWE-bench
75.2%
GPQA Diamond
83.4%
HarmBench
96.4%
MMMU-Pro
65.1%

LMArena Scores

Text 1450
WebDev 1391

LLM Stats Benchmarks

Benchmark Score
AIR-Bench 2024
Regulatorisch relevant fĂĽr EU-Deployment. PrĂĽft Compliance mit AI Act Anforderungen.
93.80%
Chatbot Arena
ELO-basierter Score aus Community-Bewertungen auf LMArena. Einzige große Quelle echter menschlicher Präferenz.
1450.00ELO
GPQA Diamond
Graduate-Level Google-Proof Q&A. Differenziert zwischen Frontier-Modellen bei Expertenwissen.
83.40%
HarmBench
Offizieller Standard der AI Safety Institutes. Misst Robustheit gegen schädliche Prompts.
96.40%
HELM
Umfassendste Multi-Dimensionen-Bewertung von Stanford. Testet Genauigkeit, Kalibrierung, Robustheit.
88.90Score
LiveCodeBench
Kontaminationsfreier Coding-Benchmark mit ständig neuen Aufgaben.
67.30%
MMLU-Pro
Aktueller Standard fĂĽr breites Wissen. Erweiterte Version mit schwierigeren Fragen aus 57 Fachgebieten.
86.30%
MMMU-Pro
Bester Test für multimodale Fähigkeiten. Prüft Verständnis von Bildern und Diagrammen.
65.10%
RULER
Entlarvt übertriebene Context-Length-Claims. Testet tatsächliche Nutzung langer Kontexte.
88.70%
SWE-bench Verified
Realistischster Test für praktische Coding-Fähigkeiten. Misst die Fähigkeit, echte GitHub Issues zu lösen.
75.20%

Artificial Analysis

Intelligence

Intelligence Index 87.4
Coding Index 89.2
Agentic Index 85.6

Speed & Latency

Output Speed 99 tok/s
Time to First Token 380 ms

Alle Benchmarks

Benchmark Score Kategorie Quelle
AA Intelligence Index ? 87 Arena artificialanalysis
Chatbot Arena ? 1450 Arena llmstats
HELM ? 89 Arena llmstats
LMArena Text ? 1450 Arena lmarena
AA Coding Index ? 89 Coding artificialanalysis
LiveCodeBench ? 67.3% Coding llmstats
LMArena WebDev ? 1391 Coding lmarena
SWE-bench Verified ? 75.2% Coding llmstats
GPQA Diamond ? 83.4% Knowledge llmstats
MMLU-Pro ? 86.3% Knowledge llmstats
AIR-Bench 2024 ? 93.8% Safety llmstats
HarmBench ? 96.4% Safety llmstats
MMMU-Pro ? 65.1% Multimodal llmstats
RULER ? 88.7% Capability llmstats
Latency (First Token) ? 380ms Speed artificialanalysis
Output Speed ? 99 tok/s Speed artificialanalysis
Input Price ? $3.00 Cost artificialanalysis
Output Price ? $15.00 Cost artificialanalysis
AA Agentic Index ? 86 Agent artificialanalysis