GPT-5.2

OpenAI

Reasoning Language Model Dec 2025

83.68

KI Weekly Score

400K

Kontextfenster

$1.75

Input / 1M

$14.00

Output / 1M

126

tok/s

320ms

Latency TTFT

Performance

Multi-Dimensionale Bewertung

Arena Score

1458

SWE-bench

80.0%

GPQA Diamond

92.4%

HarmBench

93.5%

MMMU-Pro

70.2%

Benchmark	Score
AIR-Bench 2024 Regulatorisch relevant für EU-Deployment. Prüft Compliance mit AI Act Anforderungen.	90.30%
Chatbot Arena ELO-basierter Score aus Community-Bewertungen auf LMArena. Einzige große Quelle echter menschlicher Präferenz.	1458.00ELO
GPQA Diamond Graduate-Level Google-Proof Q&A. Differenziert zwischen Frontier-Modellen bei Expertenwissen.	92.40%
HarmBench Offizieller Standard der AI Safety Institutes. Misst Robustheit gegen schädliche Prompts.	93.50%
HELM Umfassendste Multi-Dimensionen-Bewertung von Stanford. Testet Genauigkeit, Kalibrierung, Robustheit.	92.10Score
LiveCodeBench Kontaminationsfreier Coding-Benchmark mit ständig neuen Aufgaben.	71.50%
MMLU-Pro Aktueller Standard für breites Wissen. Erweiterte Version mit schwierigeren Fragen aus 57 Fachgebieten.	91.20%
MMMU-Pro Bester Test für multimodale Fähigkeiten. Prüft Verständnis von Bildern und Diagrammen.	70.20%
RULER Entlarvt übertriebene Context-Length-Claims. Testet tatsächliche Nutzung langer Kontexte.	94.80%
SWE-bench Verified Realistischster Test für praktische Coding-Fähigkeiten. Misst die Fähigkeit, echte GitHub Issues zu lösen.	80.00%

Intelligence Index 93.2

Coding Index 91.8

Agentic Index 89.4

Output Speed 126 tok/s

Time to First Token 320 ms

Benchmark	Score	Kategorie	Quelle
AA Intelligence Index ?	93	Arena	artificialanalysis
Chatbot Arena ?	1458	Arena	llmstats
HELM ?	92	Arena	llmstats
AA Coding Index ?	92	Coding	artificialanalysis
LiveCodeBench ?	71.5%	Coding	llmstats
SWE-bench Verified ?	80.0%	Coding	llmstats
GPQA Diamond ?	92.4%	Knowledge	llmstats
MMLU-Pro ?	91.2%	Knowledge	llmstats
AIR-Bench 2024 ?	90.3%	Safety	llmstats
HarmBench ?	93.5%	Safety	llmstats
MMMU-Pro ?	70.2%	Multimodal	llmstats
RULER ?	94.8%	Capability	llmstats
Latency (First Token) ?	320ms	Speed	artificialanalysis
Output Speed ?	126 tok/s	Speed	artificialanalysis
Input Price ?	$1.75	Cost	artificialanalysis
Output Price ?	$14.00	Cost	artificialanalysis
AA Agentic Index ?	89	Agent	artificialanalysis