Menu
Grok 4.1

Grok 4.1

xAI

Reasoning Agent Nov 2025
79.98
KI Weekly Score
131K
Kontextfenster
$2.00
Input / 1M
$10.00
Output / 1M
168
tok/s
280ms
Latency TTFT

Performance

Multi-Dimensionale Bewertung
Arena Score
1466
SWE-bench
70.0%
GPQA Diamond
85.0%
HarmBench
88.3%
MMMU-Pro
61.2%

LMArena Scores

Search 1185

LLM Stats Benchmarks

Benchmark Score
AIR-Bench 2024
Regulatorisch relevant fĂĽr EU-Deployment. PrĂĽft Compliance mit AI Act Anforderungen.
82.10%
Chatbot Arena
ELO-basierter Score aus Community-Bewertungen auf LMArena. Einzige große Quelle echter menschlicher Präferenz.
1466.00ELO
GPQA Diamond
Graduate-Level Google-Proof Q&A. Differenziert zwischen Frontier-Modellen bei Expertenwissen.
85.00%
HarmBench
Offizieller Standard der AI Safety Institutes. Misst Robustheit gegen schädliche Prompts.
88.30%
HELM
Umfassendste Multi-Dimensionen-Bewertung von Stanford. Testet Genauigkeit, Kalibrierung, Robustheit.
86.20Score
LiveCodeBench
Kontaminationsfreier Coding-Benchmark mit ständig neuen Aufgaben.
58.90%
MMLU-Pro
Aktueller Standard fĂĽr breites Wissen. Erweiterte Version mit schwierigeren Fragen aus 57 Fachgebieten.
85.60%
MMMU-Pro
Bester Test für multimodale Fähigkeiten. Prüft Verständnis von Bildern und Diagrammen.
61.20%
RULER
Entlarvt übertriebene Context-Length-Claims. Testet tatsächliche Nutzung langer Kontexte.
78.40%
SWE-bench Verified
Realistischster Test für praktische Coding-Fähigkeiten. Misst die Fähigkeit, echte GitHub Issues zu lösen.
70.00%

Artificial Analysis

Intelligence

Intelligence Index 88.5
Coding Index 82.4
Agentic Index 79.8

Speed & Latency

Output Speed 168 tok/s
Time to First Token 280 ms

Alle Benchmarks

Benchmark Score Kategorie Quelle
AA Intelligence Index ? 88 Arena artificialanalysis
Chatbot Arena ? 1466 Arena llmstats
HELM ? 86 Arena llmstats
AA Coding Index ? 82 Coding artificialanalysis
LiveCodeBench ? 58.9% Coding llmstats
SWE-bench Verified ? 70.0% Coding llmstats
GPQA Diamond ? 85.0% Knowledge llmstats
MMLU-Pro ? 85.6% Knowledge llmstats
AIR-Bench 2024 ? 82.1% Safety llmstats
HarmBench ? 88.3% Safety llmstats
MMMU-Pro ? 61.2% Multimodal llmstats
RULER ? 78.4% Capability llmstats
Latency (First Token) ? 280ms Speed artificialanalysis
Output Speed ? 168 tok/s Speed artificialanalysis
Input Price ? $2.00 Cost artificialanalysis
Output Price ? $10.00 Cost artificialanalysis
AA Agentic Index ? 80 Agent artificialanalysis
LMArena Search ? 1185 Agent lmarena