Menu
GPT-5.1

GPT-5.1

OpenAI

Reasoning Coding Sep 2025
82.21
KI Weekly Score
400K
Kontextfenster
$1.25
Input / 1M
$10.00
Output / 1M
135
tok/s
295ms
Latency TTFT

Performance

Multi-Dimensionale Bewertung
Arena Score
1458
SWE-bench
76.3%
GPQA Diamond
88.1%
HarmBench
92.1%
MMMU-Pro
67.8%

LMArena Scores

WebDev 1395

LLM Stats Benchmarks

Benchmark Score
AIR-Bench 2024
Regulatorisch relevant fĂĽr EU-Deployment. PrĂĽft Compliance mit AI Act Anforderungen.
89.10%
Chatbot Arena
ELO-basierter Score aus Community-Bewertungen auf LMArena. Einzige große Quelle echter menschlicher Präferenz.
1458.00ELO
GPQA Diamond
Graduate-Level Google-Proof Q&A. Differenziert zwischen Frontier-Modellen bei Expertenwissen.
88.10%
HarmBench
Offizieller Standard der AI Safety Institutes. Misst Robustheit gegen schädliche Prompts.
92.10%
HELM
Umfassendste Multi-Dimensionen-Bewertung von Stanford. Testet Genauigkeit, Kalibrierung, Robustheit.
90.40Score
LiveCodeBench
Kontaminationsfreier Coding-Benchmark mit ständig neuen Aufgaben.
68.70%
MMLU-Pro
Aktueller Standard fĂĽr breites Wissen. Erweiterte Version mit schwierigeren Fragen aus 57 Fachgebieten.
89.40%
MMMU-Pro
Bester Test für multimodale Fähigkeiten. Prüft Verständnis von Bildern und Diagrammen.
67.80%
RULER
Entlarvt übertriebene Context-Length-Claims. Testet tatsächliche Nutzung langer Kontexte.
93.20%
SWE-bench Verified
Realistischster Test für praktische Coding-Fähigkeiten. Misst die Fähigkeit, echte GitHub Issues zu lösen.
76.30%

Artificial Analysis

Intelligence

Intelligence Index 90.1
Coding Index 88.7
Agentic Index 86.3

Speed & Latency

Output Speed 135 tok/s
Time to First Token 295 ms

Alle Benchmarks

Benchmark Score Kategorie Quelle
AA Intelligence Index ? 90 Arena artificialanalysis
Chatbot Arena ? 1458 Arena llmstats
HELM ? 90 Arena llmstats
AA Coding Index ? 89 Coding artificialanalysis
LiveCodeBench ? 68.7% Coding llmstats
LMArena WebDev ? 1395 Coding lmarena
SWE-bench Verified ? 76.3% Coding llmstats
GPQA Diamond ? 88.1% Knowledge llmstats
MMLU-Pro ? 89.4% Knowledge llmstats
AIR-Bench 2024 ? 89.1% Safety llmstats
HarmBench ? 92.1% Safety llmstats
MMMU-Pro ? 67.8% Multimodal llmstats
RULER ? 93.2% Capability llmstats
Latency (First Token) ? 295ms Speed artificialanalysis
Output Speed ? 135 tok/s Speed artificialanalysis
Input Price ? $1.25 Cost artificialanalysis
Output Price ? $10.00 Cost artificialanalysis
AA Agentic Index ? 86 Agent artificialanalysis