Grok 4.1

xAI

Reasoning Agent Nov 2025

79.98

KI Weekly Score

131K

Kontextfenster

$2.00

Input / 1M

$10.00

Output / 1M

168

tok/s

280ms

Latency TTFT

Performance

Multi-Dimensionale Bewertung

Arena Score

1466

SWE-bench

70.0%

GPQA Diamond

85.0%

HarmBench

88.3%

MMMU-Pro

61.2%

LMArena Scores

Search 1185

LLM Stats Benchmarks

Benchmark	Score
AIR-Bench 2024 Regulatorisch relevant für EU-Deployment. Prüft Compliance mit AI Act Anforderungen.	82.10%
Chatbot Arena ELO-basierter Score aus Community-Bewertungen auf LMArena. Einzige große Quelle echter menschlicher Präferenz.	1466.00ELO
GPQA Diamond Graduate-Level Google-Proof Q&A. Differenziert zwischen Frontier-Modellen bei Expertenwissen.	85.00%
HarmBench Offizieller Standard der AI Safety Institutes. Misst Robustheit gegen schädliche Prompts.	88.30%
HELM Umfassendste Multi-Dimensionen-Bewertung von Stanford. Testet Genauigkeit, Kalibrierung, Robustheit.	86.20Score
LiveCodeBench Kontaminationsfreier Coding-Benchmark mit ständig neuen Aufgaben.	58.90%
MMLU-Pro Aktueller Standard für breites Wissen. Erweiterte Version mit schwierigeren Fragen aus 57 Fachgebieten.	85.60%
MMMU-Pro Bester Test für multimodale Fähigkeiten. Prüft Verständnis von Bildern und Diagrammen.	61.20%
RULER Entlarvt übertriebene Context-Length-Claims. Testet tatsächliche Nutzung langer Kontexte.	78.40%
SWE-bench Verified Realistischster Test für praktische Coding-Fähigkeiten. Misst die Fähigkeit, echte GitHub Issues zu lösen.	70.00%

Artificial Analysis

Intelligence

Intelligence Index 88.5

Coding Index 82.4

Agentic Index 79.8

Speed & Latency

Output Speed 168 tok/s

Time to First Token 280 ms

Alle Benchmarks

Benchmark	Score	Kategorie	Quelle
AA Intelligence Index ?	88	Arena	artificialanalysis
Chatbot Arena ?	1466	Arena	llmstats
HELM ?	86	Arena	llmstats
AA Coding Index ?	82	Coding	artificialanalysis
LiveCodeBench ?	58.9%	Coding	llmstats
SWE-bench Verified ?	70.0%	Coding	llmstats
GPQA Diamond ?	85.0%	Knowledge	llmstats
MMLU-Pro ?	85.6%	Knowledge	llmstats
AIR-Bench 2024 ?	82.1%	Safety	llmstats
HarmBench ?	88.3%	Safety	llmstats
MMMU-Pro ?	61.2%	Multimodal	llmstats
RULER ?	78.4%	Capability	llmstats
Latency (First Token) ?	280ms	Speed	artificialanalysis
Output Speed ?	168 tok/s	Speed	artificialanalysis
Input Price ?	$2.00	Cost	artificialanalysis
Output Price ?	$10.00	Cost	artificialanalysis
AA Agentic Index ?	80	Agent	artificialanalysis
LMArena Search ?	1185	Agent	lmarena

Zurueck zur Uebersicht Zum Vergleich hinzufuegen