Claude Sonnet 4.5

Anthropic

Reasoning Language Model Sep 2025

79.45

KI Weekly Score

200K

Kontextfenster

$3.00

Input / 1M

$15.00

Output / 1M

tok/s

380ms

Latency TTFT

Performance

Multi-Dimensionale Bewertung

Arena Score

1450

SWE-bench

75.2%

GPQA Diamond

83.4%

HarmBench

96.4%

MMMU-Pro

65.1%

LMArena Scores

Text 1450

WebDev 1391

LLM Stats Benchmarks

Benchmark	Score
AIR-Bench 2024 Regulatorisch relevant für EU-Deployment. Prüft Compliance mit AI Act Anforderungen.	93.80%
Chatbot Arena ELO-basierter Score aus Community-Bewertungen auf LMArena. Einzige große Quelle echter menschlicher Präferenz.	1450.00ELO
GPQA Diamond Graduate-Level Google-Proof Q&A. Differenziert zwischen Frontier-Modellen bei Expertenwissen.	83.40%
HarmBench Offizieller Standard der AI Safety Institutes. Misst Robustheit gegen schädliche Prompts.	96.40%
HELM Umfassendste Multi-Dimensionen-Bewertung von Stanford. Testet Genauigkeit, Kalibrierung, Robustheit.	88.90Score
LiveCodeBench Kontaminationsfreier Coding-Benchmark mit ständig neuen Aufgaben.	67.30%
MMLU-Pro Aktueller Standard für breites Wissen. Erweiterte Version mit schwierigeren Fragen aus 57 Fachgebieten.	86.30%
MMMU-Pro Bester Test für multimodale Fähigkeiten. Prüft Verständnis von Bildern und Diagrammen.	65.10%
RULER Entlarvt übertriebene Context-Length-Claims. Testet tatsächliche Nutzung langer Kontexte.	88.70%
SWE-bench Verified Realistischster Test für praktische Coding-Fähigkeiten. Misst die Fähigkeit, echte GitHub Issues zu lösen.	75.20%

Artificial Analysis

Intelligence

Intelligence Index 87.4

Coding Index 89.2

Agentic Index 85.6

Speed & Latency

Output Speed 99 tok/s

Time to First Token 380 ms

Alle Benchmarks

Benchmark	Score	Kategorie	Quelle
AA Intelligence Index ?	87	Arena	artificialanalysis
Chatbot Arena ?	1450	Arena	llmstats
HELM ?	89	Arena	llmstats
LMArena Text ?	1450	Arena	lmarena
AA Coding Index ?	89	Coding	artificialanalysis
LiveCodeBench ?	67.3%	Coding	llmstats
LMArena WebDev ?	1391	Coding	lmarena
SWE-bench Verified ?	75.2%	Coding	llmstats
GPQA Diamond ?	83.4%	Knowledge	llmstats
MMLU-Pro ?	86.3%	Knowledge	llmstats
AIR-Bench 2024 ?	93.8%	Safety	llmstats
HarmBench ?	96.4%	Safety	llmstats
MMMU-Pro ?	65.1%	Multimodal	llmstats
RULER ?	88.7%	Capability	llmstats
Latency (First Token) ?	380ms	Speed	artificialanalysis
Output Speed ?	99 tok/s	Speed	artificialanalysis
Input Price ?	$3.00	Cost	artificialanalysis
Output Price ?	$15.00	Cost	artificialanalysis
AA Agentic Index ?	86	Agent	artificialanalysis

Zurueck zur Uebersicht Zum Vergleich hinzufuegen