86.80
KI Weekly Score
1.0M
Kontextfenster
$2.00
Input / 1M
$12.00
Output / 1M
145
tok/s
285ms
Latency TTFT
Performance
Multi-Dimensionale Bewertung
Arena Score
1490
SWE-bench
76.2%
GPQA Diamond
91.9%
HarmBench
94.2%
MMMU-Pro
72.8%
LMArena Scores
Text
1490
WebDev
1471
Vision
1309
Search
1214
Text-to-Image
1235
Image Edit
1399
LLM Stats Benchmarks
| Benchmark | Score |
|---|---|
|
AIR-Bench 2024
Regulatorisch relevant fĂĽr EU-Deployment. PrĂĽft Compliance mit AI Act Anforderungen. |
88.90% |
|
Chatbot Arena
ELO-basierter Score aus Community-Bewertungen auf LMArena. Einzige große Quelle echter menschlicher Präferenz. |
1490.00ELO |
|
GPQA Diamond
Graduate-Level Google-Proof Q&A. Differenziert zwischen Frontier-Modellen bei Expertenwissen. |
91.90% |
|
HarmBench
Offizieller Standard der AI Safety Institutes. Misst Robustheit gegen schädliche Prompts. |
94.20% |
|
HELM
Umfassendste Multi-Dimensionen-Bewertung von Stanford. Testet Genauigkeit, Kalibrierung, Robustheit. |
91.30Score |
|
LiveCodeBench
Kontaminationsfreier Coding-Benchmark mit ständig neuen Aufgaben. |
68.40% |
|
MMLU-Pro
Aktueller Standard fĂĽr breites Wissen. Erweiterte Version mit schwierigeren Fragen aus 57 Fachgebieten. |
89.70% |
|
MMMU-Pro
Bester Test für multimodale Fähigkeiten. Prüft Verständnis von Bildern und Diagrammen. |
72.80% |
|
RULER
Entlarvt übertriebene Context-Length-Claims. Testet tatsächliche Nutzung langer Kontexte. |
96.50% |
|
SWE-bench Verified
Realistischster Test für praktische Coding-Fähigkeiten. Misst die Fähigkeit, echte GitHub Issues zu lösen. |
76.20% |
Artificial Analysis
Intelligence
Intelligence Index
94.5
Coding Index
92.1
Agentic Index
88.7
Speed & Latency
Output Speed
145 tok/s
Time to First Token
285 ms
Alle Benchmarks
| Benchmark | Score | Kategorie | Quelle |
|---|---|---|---|
| AA Intelligence Index ? | 94 | Arena | artificialanalysis |
| Chatbot Arena ? | 1490 | Arena | llmstats |
| HELM ? | 91 | Arena | llmstats |
| LMArena Text ? | 1490 | Arena | lmarena |
| AA Coding Index ? | 92 | Coding | artificialanalysis |
| LiveCodeBench ? | 68.4% | Coding | llmstats |
| LMArena WebDev ? | 1471 | Coding | lmarena |
| SWE-bench Verified ? | 76.2% | Coding | llmstats |
| GPQA Diamond ? | 91.9% | Knowledge | llmstats |
| MMLU-Pro ? | 89.7% | Knowledge | llmstats |
| AIR-Bench 2024 ? | 88.9% | Safety | llmstats |
| HarmBench ? | 94.2% | Safety | llmstats |
| LMArena Vision ? | 1309 | Multimodal | lmarena |
| MMMU-Pro ? | 72.8% | Multimodal | llmstats |
| RULER ? | 96.5% | Capability | llmstats |
| Latency (First Token) ? | 285ms | Speed | artificialanalysis |
| Output Speed ? | 145 tok/s | Speed | artificialanalysis |
| Input Price ? | $2.00 | Cost | artificialanalysis |
| Output Price ? | $12.00 | Cost | artificialanalysis |
| LMArena Image Edit ? | 1399 | Generative | lmarena |
| LMArena Text-to-Image ? | 1235 | Generative | lmarena |
| AA Agentic Index ? | 89 | Agent | artificialanalysis |
| LMArena Search ? | 1214 | Agent | lmarena |