GPT-5.1

OpenAI

Reasoning Coding Sep 2025

82.21

KI Weekly Score

400K

Kontextfenster

$1.25

Input / 1M

$10.00

Output / 1M

135

tok/s

295ms

Latency TTFT

Performance

Multi-Dimensionale Bewertung

Arena Score

1458

SWE-bench

76.3%

GPQA Diamond

88.1%

HarmBench

92.1%

MMMU-Pro

67.8%

LMArena Scores

WebDev 1395

LLM Stats Benchmarks

Benchmark	Score
AIR-Bench 2024 Regulatorisch relevant für EU-Deployment. Prüft Compliance mit AI Act Anforderungen.	89.10%
Chatbot Arena ELO-basierter Score aus Community-Bewertungen auf LMArena. Einzige große Quelle echter menschlicher Präferenz.	1458.00ELO
GPQA Diamond Graduate-Level Google-Proof Q&A. Differenziert zwischen Frontier-Modellen bei Expertenwissen.	88.10%
HarmBench Offizieller Standard der AI Safety Institutes. Misst Robustheit gegen schädliche Prompts.	92.10%
HELM Umfassendste Multi-Dimensionen-Bewertung von Stanford. Testet Genauigkeit, Kalibrierung, Robustheit.	90.40Score
LiveCodeBench Kontaminationsfreier Coding-Benchmark mit ständig neuen Aufgaben.	68.70%
MMLU-Pro Aktueller Standard für breites Wissen. Erweiterte Version mit schwierigeren Fragen aus 57 Fachgebieten.	89.40%
MMMU-Pro Bester Test für multimodale Fähigkeiten. Prüft Verständnis von Bildern und Diagrammen.	67.80%
RULER Entlarvt übertriebene Context-Length-Claims. Testet tatsächliche Nutzung langer Kontexte.	93.20%
SWE-bench Verified Realistischster Test für praktische Coding-Fähigkeiten. Misst die Fähigkeit, echte GitHub Issues zu lösen.	76.30%

Artificial Analysis

Intelligence

Intelligence Index 90.1

Coding Index 88.7

Agentic Index 86.3

Speed & Latency

Output Speed 135 tok/s

Time to First Token 295 ms

Alle Benchmarks

Benchmark	Score	Kategorie	Quelle
AA Intelligence Index ?	90	Arena	artificialanalysis
Chatbot Arena ?	1458	Arena	llmstats
HELM ?	90	Arena	llmstats
AA Coding Index ?	89	Coding	artificialanalysis
LiveCodeBench ?	68.7%	Coding	llmstats
LMArena WebDev ?	1395	Coding	lmarena
SWE-bench Verified ?	76.3%	Coding	llmstats
GPQA Diamond ?	88.1%	Knowledge	llmstats
MMLU-Pro ?	89.4%	Knowledge	llmstats
AIR-Bench 2024 ?	89.1%	Safety	llmstats
HarmBench ?	92.1%	Safety	llmstats
MMMU-Pro ?	67.8%	Multimodal	llmstats
RULER ?	93.2%	Capability	llmstats
Latency (First Token) ?	295ms	Speed	artificialanalysis
Output Speed ?	135 tok/s	Speed	artificialanalysis
Input Price ?	$1.25	Cost	artificialanalysis
Output Price ?	$10.00	Cost	artificialanalysis
AA Agentic Index ?	86	Agent	artificialanalysis

Zurueck zur Uebersicht Zum Vergleich hinzufuegen