DeepSeek V3.2

DeepSeek

Language Model Oct 2025

75.52

KI Weekly Score

131K

Kontextfenster

$0.28

Input / 1M

$0.42

Output / 1M

246

tok/s

180ms

Latency TTFT

Performance

Multi-Dimensionale Bewertung

Arena Score

1420

SWE-bench

73.1%

GPQA Diamond

82.0%

HarmBench

78.2%

MMMU-Pro

58.9%

Benchmark	Score
AIR-Bench 2024 Regulatorisch relevant für EU-Deployment. Prüft Compliance mit AI Act Anforderungen.	76.80%
Chatbot Arena ELO-basierter Score aus Community-Bewertungen auf LMArena. Einzige große Quelle echter menschlicher Präferenz.	1420.00ELO
GPQA Diamond Graduate-Level Google-Proof Q&A. Differenziert zwischen Frontier-Modellen bei Expertenwissen.	82.00%
HarmBench Offizieller Standard der AI Safety Institutes. Misst Robustheit gegen schädliche Prompts.	78.20%
HELM Umfassendste Multi-Dimensionen-Bewertung von Stanford. Testet Genauigkeit, Kalibrierung, Robustheit.	84.10Score
LiveCodeBench Kontaminationsfreier Coding-Benchmark mit ständig neuen Aufgaben.	66.40%
MMLU-Pro Aktueller Standard für breites Wissen. Erweiterte Version mit schwierigeren Fragen aus 57 Fachgebieten.	83.40%
MMMU-Pro Bester Test für multimodale Fähigkeiten. Prüft Verständnis von Bildern und Diagrammen.	58.90%
RULER Entlarvt übertriebene Context-Length-Claims. Testet tatsächliche Nutzung langer Kontexte.	82.60%
SWE-bench Verified Realistischster Test für praktische Coding-Fähigkeiten. Misst die Fähigkeit, echte GitHub Issues zu lösen.	73.10%

Intelligence Index 84.1

Coding Index 86.8

Agentic Index 75.4

Output Speed 246 tok/s

Time to First Token 180 ms

Benchmark	Score	Kategorie	Quelle
AA Intelligence Index ?	84	Arena	artificialanalysis
Chatbot Arena ?	1420	Arena	llmstats
HELM ?	84	Arena	llmstats
AA Coding Index ?	87	Coding	artificialanalysis
LiveCodeBench ?	66.4%	Coding	llmstats
SWE-bench Verified ?	73.1%	Coding	llmstats
GPQA Diamond ?	82.0%	Knowledge	llmstats
MMLU-Pro ?	83.4%	Knowledge	llmstats
AIR-Bench 2024 ?	76.8%	Safety	llmstats
HarmBench ?	78.2%	Safety	llmstats
MMMU-Pro ?	58.9%	Multimodal	llmstats
RULER ?	82.6%	Capability	llmstats
Latency (First Token) ?	180ms	Speed	artificialanalysis
Output Speed ?	246 tok/s	Speed	artificialanalysis
Input Price ?	$0.28	Cost	artificialanalysis
Output Price ?	$0.42	Cost	artificialanalysis
AA Agentic Index ?	75	Agent	artificialanalysis