Rohdaten für Benchmark AA-Omniscience. AA-Omniscience Scores nach Veröffentlichungsdata. Niedrigster Score: -100 %. Höchster Score: 100 %.
Modell	Veröffentlichungsdata	Score
Claude Opus 4.6	Feb. 2026	14 %
Claude Sonnet 4.6	Feb. 2026	12 %
Gemini 3.1 Pro	Feb. 2026	33 %
GLM-5	Feb. 2026	-1 %
GPT-5.3-Codex	Feb. 2026	10 %
GPT-5.4	März 2026	6 %
Kimi K2.5 (Thinking)	Jan. 2026	-8 %
MiniMax M2.5	Feb. 2026	-40 %
MiniMax M2.7	März 2026	1 %
Qwen3.5-397B-A17B	Feb. 2026	-36 %

AA-Omniscience Scores nach Veröffentlichungsdata. Niedrigster Score: -100 %. Höchster Score: 100 %.

Rohdaten für Benchmark Aider Polyglot. Aider Polyglot Scores nach Veröffentlichungsdata. Niedrigster Score: 0 %. Höchster Score: 100 %.
Modell	Veröffentlichungsdata	Score
Claude Sonnet 4.5	Sept. 2025	78,8 %
DeepSeek-R1-0528	Mai 2025	71,6 %
Gemini 2.5 Flash	Juni 2025	56,7 %
Gemini 2.5 Flash-Lite	Juli 2025	27,1 %
Gemini 2.5 Pro	Juni 2025	82,2 %
GPT-5	Aug. 2025	88 %
GPT-5 mini	Aug. 2025	71,6 %
GPT-5 nano	Aug. 2025	48,4 %
GPT-5 Pro	Aug. 2025	88 %
OpenAI o3	Apr. 2025	79,6 %
OpenAI o3-mini	Jan. 2025	60,4 %
OpenAI o4-mini	Apr. 2025	58,2 %
Qwen3 30B A3B Instruct 2507	Juli 2025	35,6 %

Aider Polyglot Scores nach Veröffentlichungsdata. Niedrigster Score: 0 %. Höchster Score: 100 %.

Rohdaten für Benchmark AIME 2025. AIME 2025 Scores nach Veröffentlichungsdata. Niedrigster Score: 0 %. Höchster Score: 100 %.
Modell	Veröffentlichungsdata	Score
Claude 3.7 Sonnet	Feb. 2025	54,8 %
Claude Haiku 4.5	Okt. 2025	80,7 %
Claude Opus 4	Mai 2025	75,5 %
Claude Opus 4.1	Aug. 2025	78 %
Claude Sonnet 4	Mai 2025	70,5 %
Claude Sonnet 4.5	Sept. 2025	87 %
DeepSeek-R1-0528	Mai 2025	87,5 %
DeepSeek-v3.2 Speciale	Dez. 2025	96 %
DeepSeek-v3.2 Thinking	Dez. 2025	93,1 %
Gemini 2.5 Flash	Juni 2025	72 %
Gemini 2.5 Flash-Lite	Juli 2025	63,1 %
Gemini 2.5 Pro	Juni 2025	88 %
Gemini 3 Pro	Nov. 2025	95 %
Gemini Diffusion	Mai 2025	23,3 %
GLM-4.6	Sept. 2025	93,9 %
GLM-4.7	Dez. 2025	95,7 %
GPT-4o (2024-11-20)	Nov. 2024	5,8 %
GPT-5	Aug. 2025	99,6 %
GPT-5 mini	Aug. 2025	91,1 %
GPT-5 nano	Aug. 2025	85,2 %
GPT-5 Pro	Aug. 2025	96,7 %
GPT-5.1	Nov. 2025	94 %
GPT-5.2	Dez. 2025	100 %
GPT-5.2 Pro	Dez. 2025	100 %
GPT-5.4 mini	März 2026	90,83 %
GPT-5.4 nano	März 2026	98,33 %
Grok-4	Juli 2025	98,8 %
Grok-4 Heavy	Juli 2025	100 %
Kimi K2 (0905)	Sept. 2025	49,5 %
Kimi K2 Thinking	Nov. 2025	94,5 %
Kimi K2.5 (Thinking)	Jan. 2026	96,1 %
MiniMax M2.1	Dez. 2025	83 %
MiniMax M2.5	Feb. 2026	86,3 %
MiniMax-M2	Okt. 2025	78 %
Nemotron 3 Super	März 2026	90,21 %
OpenAI o3	Apr. 2025	88,9 %
OpenAI o3-mini	Jan. 2025	86,5 %
OpenAI o4-mini	Apr. 2025	92,7 %
Qwen3 235B A22B Thinking 2507	Juli 2025	92,3 %
Qwen3 30B A3B Instruct 2507	Juli 2025	61,3 %

AIME 2025 Scores nach Veröffentlichungsdata. Niedrigster Score: 0 %. Höchster Score: 100 %.

Rohdaten für Benchmark AIME 2026. AIME 2026 Scores nach Veröffentlichungsdata. Niedrigster Score: 0 %. Höchster Score: 100 %.
Modell	Veröffentlichungsdata	Score
Gemma 4 31B	Apr. 2026	89,2 %
GLM-5.1	Apr. 2026	95,3 %
GLM-5.2	Juni 2026	99,2 %
Kimi K2.6	Apr. 2026	96,4 %

AIME 2026 Scores nach Veröffentlichungsdata. Niedrigster Score: 0 %. Höchster Score: 100 %.

Rohdaten für Benchmark APEX-Agents. APEX-Agents Scores nach Veröffentlichungsdata. Niedrigster Score: 0 %. Höchster Score: 100 %.
Modell	Veröffentlichungsdata	Score
Kimi K2.6	Apr. 2026	27,9 %
MiniMax M2.7	März 2026	5,6 %
MiniMax-M3	Juni 2026	27,7 %

APEX-Agents Scores nach Veröffentlichungsdata. Niedrigster Score: 0 %. Höchster Score: 100 %.

Rohdaten für Benchmark ARC-AGI-2. ARC-AGI-2 Scores nach Veröffentlichungsdata. Niedrigster Score: 0 %. Höchster Score: 100 %.
Modell	Veröffentlichungsdata	Score
Claude Opus 4.5	Nov. 2025	37,6 %
Claude Opus 4.6	Feb. 2026	68,8 %
Claude Sonnet 4.6	Feb. 2026	58,3 %
Gemini 3 Deep Think	Nov. 2025	45,1 %
Gemini 3 Pro	Nov. 2025	31,1 %
Gemini 3.1 Pro	Feb. 2026	77,1 %
Gemini 3.5 Flash	Mai 2026	72,1 %
GPT-5.2	Dez. 2025	52,9 %
GPT-5.2 Pro	Dez. 2025	54,2 %
GPT-5.5	Apr. 2026	85 %
Grok-4	Juli 2025	15,9 %
Muse Spark	Apr. 2026	42,5 %

ARC-AGI-2 Scores nach Veröffentlichungsdata. Niedrigster Score: 0 %. Höchster Score: 100 %.

Rohdaten für Benchmark ARC-AGI-3. ARC-AGI-3 Scores nach Veröffentlichungsdata. Niedrigster Score: 0 %. Höchster Score: 100 %.
Modell	Veröffentlichungsdata	Score
Claude Opus 4.6	Feb. 2026	0,5 %
Claude Opus 4.7	Apr. 2026	0,2 %
Claude Opus 4.8	Mai 2026	1,5 %
Gemini 3.1 Pro	Feb. 2026	0,4 %
GPT-5.4	März 2026	0,2 %
GPT-5.5	Apr. 2026	0,4 %

ARC-AGI-3 Scores nach Veröffentlichungsdata. Niedrigster Score: 0 %. Höchster Score: 100 %.

Rohdaten für Benchmark Artificial Analysis Intelligence Index. Artificial Analysis Intelligence Index Scores nach Veröffentlichungsdata. Niedrigster Score: 0 %. Höchster Score: 100 %.
Modell	Veröffentlichungsdata	Score
Claude Fable 5	Juni 2026	65 %
Claude Opus 4.8	Mai 2026	61 %
DeepSeek-V4-Pro (Preview)	Apr. 2026	44 %
Gemini 3.5 Flash	Mai 2026	55 %
MiniMax M2.7	März 2026	50 %

Artificial Analysis Intelligence Index Scores nach Veröffentlichungsdata. Niedrigster Score: 0 %. Höchster Score: 100 %.

Rohdaten für Benchmark BrowseComp. BrowseComp Scores nach Veröffentlichungsdata. Niedrigster Score: 0 %. Höchster Score: 100 %.
Modell	Veröffentlichungsdata	Score
Claude Opus 4.7	Apr. 2026	79,3 %
Claude Opus 4.8	Mai 2026	84,3 %
DeepSeek-V4-Pro (Preview)	Apr. 2026	83,4 %
GLM-5.1	Apr. 2026	68 %
GPT-5.5	Apr. 2026	84,4 %
Kimi K2.6	Apr. 2026	83,2 %
MiniMax M2.7	März 2026	76,3 %
MiniMax-M3	Juni 2026	83,52 %

BrowseComp Scores nach Veröffentlichungsdata. Niedrigster Score: 0 %. Höchster Score: 100 %.

Rohdaten für Benchmark CyberGym. CyberGym Scores nach Veröffentlichungsdata. Niedrigster Score: 0 %. Höchster Score: 100 %.
Modell	Veröffentlichungsdata	Score
Claude Opus 4.7	Apr. 2026	73,1 %
Claude Opus 4.8	Mai 2026	78,8 %
GLM-5.1	Apr. 2026	68,7 %
GPT-5.5	Apr. 2026	81,8 %

CyberGym Scores nach Veröffentlichungsdata. Niedrigster Score: 0 %. Höchster Score: 100 %.

Rohdaten für Benchmark FrontierMath. FrontierMath Scores nach Veröffentlichungsdata. Niedrigster Score: 0 %. Höchster Score: 100 %.
Modell	Veröffentlichungsdata	Score
Claude Opus 4.1	Aug. 2025	4,17 %
Claude Opus 4.5	Nov. 2025	4,17 %
Claude Opus 4.6	Feb. 2026	22,9 %
Claude Sonnet 4.6	Feb. 2026	8,3 %
DeepSeek-v3.2 Thinking	Dez. 2025	2,1 %
Gemini 3 Pro	Nov. 2025	18,75 %
Gemini 3.1 Pro	Feb. 2026	16,7 %
GLM-5	Feb. 2026	2,1 %
GPT-5	Aug. 2025	12,5 %
GPT-5 Pro	Aug. 2025	14,6 %
GPT-5.1	Nov. 2025	12,5 %
GPT-5.2	Dez. 2025	18,8 %
GPT-5.2 Pro	Dez. 2025	31,3 %
GPT-5.4	März 2026	27,1 %
GPT-5.5	Apr. 2026	51,7 %
Grok-4 Heavy	Juli 2025	2,08 %
Kimi K2.5 (Thinking)	Jan. 2026	4,2 %
OpenAI o3	Apr. 2025	2,08 %
OpenAI o4-mini	Apr. 2025	6,25 %

FrontierMath Scores nach Veröffentlichungsdata. Niedrigster Score: 0 %. Höchster Score: 100 %.

Rohdaten für Benchmark GAIA. GAIA Scores nach Veröffentlichungsdata. Niedrigster Score: 0 %. Höchster Score: 100 %.
Modell	Veröffentlichungsdata	Score
MiniMax-M2	Okt. 2025	75,7 %

GAIA Scores nach Veröffentlichungsdata. Niedrigster Score: 0 %. Höchster Score: 100 %.

Rohdaten für Benchmark GDPval-AA. GDPval-AA Scores nach Veröffentlichungsdata. Niedrigster Score: 0 %. Höchster Score: 1.932 %.
Modell	Veröffentlichungsdata	Score
Claude Fable 5	Juni 2026	1.932 %
Claude Opus 4.8	Mai 2026	1.890 %
DeepSeek-V4-Pro (Preview)	Apr. 2026	1.554 %
Gemini 3.5 Flash	Mai 2026	1.656 %
MiniMax M2.7	März 2026	1.495 %
Muse Spark	Apr. 2026	1.444 %

GDPval-AA Scores nach Veröffentlichungsdata. Niedrigster Score: 0 %. Höchster Score: 1.932 %.

Rohdaten für Benchmark GPQA Diamond. GPQA Diamond Scores nach Veröffentlichungsdata. Niedrigster Score: 0 %. Höchster Score: 100 %.
Modell	Veröffentlichungsdata	Score
Claude 3.7 Sonnet	Feb. 2025	78,2 %
Claude Fable 5	Juni 2026	93,18 %
Claude Haiku 4.5	Okt. 2025	73 %
Claude Mythos Preview	Apr. 2026	94,5 %
Claude Opus 4	Mai 2025	79,6 %
Claude Opus 4.1	Aug. 2025	80,9 %
Claude Opus 4.5	Nov. 2025	87 %
Claude Opus 4.6	Feb. 2026	91,3 %
Claude Opus 4.7	Apr. 2026	94,2 %
Claude Opus 4.8	Mai 2026	93,6 %
Claude Sonnet 4	Mai 2025	79,6 %
Claude Sonnet 4.5	Sept. 2025	83,4 %
Claude Sonnet 4.6	Feb. 2026	89,9 %
DeepSeek-R1-0120	Jan. 2025	71,5 %
DeepSeek-R1-0528	Mai 2025	81 %
DeepSeek-v3.2 Speciale	Dez. 2025	85,7 %
DeepSeek-v3.2 Thinking	Dez. 2025	82,4 %
DeepSeek-V4-Pro (Preview)	Apr. 2026	90,1 %
Fugu Ultra	Juni 2026	95,5 %
Gemini 2.5 Flash-Lite	Juli 2025	82,8 %
Gemini 2.5 Pro	Juni 2025	86,4 %
Gemini 3 Deep Think	Nov. 2025	93,8 %
Gemini 3 Pro	Nov. 2025	91,9 %
Gemini 3.1 Flash-Lite	März 2026	86,9 %
Gemini 3.1 Pro	Feb. 2026	94,3 %
Gemini Diffusion	Mai 2025	40,4 %
Gemma 4 31B	Apr. 2026	84,3 %
GLM-4.7	Dez. 2025	85,7 %
GLM-5	Feb. 2026	86 %
GLM-5.1	Apr. 2026	86,2 %
GLM-5.2	Juni 2026	91,2 %
GPT-5	Aug. 2025	87,3 %
GPT-5 mini	Aug. 2025	82,3 %
GPT-5 nano	Aug. 2025	71,2 %
GPT-5 Pro	Aug. 2025	88,4 %
GPT-5.1	Nov. 2025	88,1 %
GPT-5.2	Dez. 2025	92,4 %
GPT-5.2 Pro	Dez. 2025	93,2 %
GPT-5.4	März 2026	92,8 %
GPT-5.4 mini	März 2026	81,57 %
GPT-5.4 nano	März 2026	82,83 %
GPT-5.5	Apr. 2026	93,6 %
Kimi K2 (0905)	Sept. 2025	75,1 %
Kimi K2.5 (Thinking)	Jan. 2026	87,6 %
Kimi K2.6	Apr. 2026	90,5 %
MiniMax M2.1	Dez. 2025	83 %
MiniMax M2.5	Feb. 2026	85,2 %
MiniMax-M2	Okt. 2025	78 %
Muse Spark	Apr. 2026	89,5 %
OpenAI o3	Apr. 2025	83,3 %
OpenAI o3-mini	Jan. 2025	77 %
OpenAI o3-pro	Juni 2025	84 %
OpenAI o4-mini	Apr. 2025	81,4 %

GPQA Diamond Scores nach Veröffentlichungsdata. Niedrigster Score: 0 %. Höchster Score: 100 %.

Rohdaten für Benchmark HMMT 2025. HMMT 2025 Scores nach Veröffentlichungsdata. Niedrigster Score: 0 %. Höchster Score: 100 %.
Modell	Veröffentlichungsdata	Score
GLM-5.1	Apr. 2026	94 %
GLM-5.2	Juni 2026	94,4 %
Kimi K2.6	Apr. 2026	92,7 %

HMMT 2025 Scores nach Veröffentlichungsdata. Niedrigster Score: 0 %. Höchster Score: 100 %.

Rohdaten für Benchmark Humanity's Last Exam. Humanity's Last Exam Scores nach Veröffentlichungsdata. Niedrigster Score: 0 %. Höchster Score: 100 %.
Modell	Veröffentlichungsdata	Score
Claude Mythos Preview	Apr. 2026	56,8 %
Claude Opus 4.6	Feb. 2026	40 %
Claude Opus 4.7	Apr. 2026	46,9 %
Claude Opus 4.8	Mai 2026	49,8 %
Claude Sonnet 4.6	Feb. 2026	33,2 %
DeepSeek-R1-0528	Mai 2025	17,7 %
DeepSeek-v3.2 Speciale	Dez. 2025	30,6 %
DeepSeek-v3.2 Thinking	Dez. 2025	25,1 %
DeepSeek-V4-Pro (Preview)	Apr. 2026	37,7 %
Fugu Ultra	Juni 2026	50 %
Gemini 2.5 Flash	Juni 2025	11 %
Gemini 2.5 Pro	Juni 2025	21,6 %
Gemini 3 Deep Think	Nov. 2025	41 %
Gemini 3 Pro	Nov. 2025	37,5 %
Gemini 3.1 Flash-Lite	März 2026	16 %
Gemini 3.1 Pro	Feb. 2026	44,4 %
Gemini 3.5 Flash	Mai 2026	40,2 %
Gemma 4 31B	Apr. 2026	19,5 %
GLM-4.5	Juli 2025	14,4 %
GLM-4.5 Air	Aug. 2025	10,6 %
GLM-4.6	Sept. 2025	17,2 %
GLM-4.7	Dez. 2025	24,8 %
GLM-5	Feb. 2026	30,5 %
GLM-5.1	Apr. 2026	31 %
GLM-5.2	Juni 2026	40,5 %
GPT-5	Aug. 2025	35,2 %
GPT-5 mini	Aug. 2025	16,7 %
GPT-5 nano	Aug. 2025	8,7 %
GPT-5 Pro	Aug. 2025	30,7 %
GPT-5.2	Dez. 2025	45,5 %
GPT-5.2 Pro	Dez. 2025	50 %
GPT-5.4 mini	März 2026	18,32 %
GPT-5.4 nano	März 2026	24,26 %
GPT-5.5	Apr. 2026	41,4 %
Grok-4	Juli 2025	38,6 %
Grok-4 Heavy	Juli 2025	44,4 %
Kimi K2 Thinking	Nov. 2025	23,9 %
Kimi K2.5 (Thinking)	Jan. 2026	30,1 %
Kimi K2.6	Apr. 2026	34,7 %
MiniMax M2.1	Dez. 2025	22,2 %
MiniMax M2.5	Feb. 2026	19,4 %
MiniMax-M2	Okt. 2025	12,5 %
Muse Spark	Apr. 2026	42,8 %
Nemotron 3 Super	März 2026	18,26 %
OpenAI o3	Apr. 2025	24,9 %
OpenAI o3-mini	Jan. 2025	13,4 %
OpenAI o4-mini	Apr. 2025	17,7 %
Qwen3 235B A22B Thinking 2507	Juli 2025	18,2 %
Qwen3.5-397B-A17B	Feb. 2026	28,7 %

Humanity's Last Exam Scores nach Veröffentlichungsdata. Niedrigster Score: 0 %. Höchster Score: 100 %.

Rohdaten für Benchmark IFEval. IFEval Scores nach Veröffentlichungsdata. Niedrigster Score: 0 %. Höchster Score: 100 %.
Modell	Veröffentlichungsdata	Score
Qwen3.5-397B-A17B	Feb. 2026	92,6 %

IFEval Scores nach Veröffentlichungsdata. Niedrigster Score: 0 %. Höchster Score: 100 %.

Rohdaten für Benchmark LiveCodeBench. LiveCodeBench Scores nach Veröffentlichungsdata. Niedrigster Score: 0 %. Höchster Score: 100 %.
Modell	Veröffentlichungsdata	Score
Claude Sonnet 4	Mai 2025	55,9 %
DeepSeek-R1-0528	Mai 2025	73,3 %
DeepSeek-v3.2 Speciale	Dez. 2025	88,7 %
DeepSeek-v3.2 Thinking	Dez. 2025	83,3 %
DeepSeek-V4-Pro (Preview)	Apr. 2026	93,5 %
Fugu Ultra	Juni 2026	93,2 %
Gemini 2.5 Flash	Juni 2025	59,3 %
Gemini 2.5 Flash-Lite	Juli 2025	34,3 %
Gemini 2.5 Pro	Juni 2025	74,2 %
Gemini 3.1 Flash-Lite	März 2026	72 %
Gemini 3.1 Pro	Feb. 2026	2.887 %
Gemini Diffusion	Mai 2025	30,9 %
Gemma 3	März 2025	29,7 %
Gemma 4 31B	Apr. 2026	80 %
GLM-4.5	Juli 2025	72,9 %
GLM-4.5 Air	Aug. 2025	70,7 %
GLM-4.6	Sept. 2025	82,8 %
GLM-4.7	Dez. 2025	84,9 %
GPT-4o (2024-11-20)	Nov. 2024	29,5 %
Grok-4	Juli 2025	79,3 %
Grok-4 Heavy	Juli 2025	79,4 %
Kimi K2 (0905)	Sept. 2025	53,7 %
Kimi K2 Thinking	Nov. 2025	83,1 %
Kimi K2.5 (Thinking)	Jan. 2026	85 %
Kimi K2.6	Apr. 2026	89,6 %
MiniMax M2.1	Dez. 2025	81 %
MiniMax-M2	Okt. 2025	83 %
Muse Spark	Apr. 2026	80 %
Nemotron 3 Super	März 2026	81,19 %
Qwen3 235B A22B Thinking 2507	Juli 2025	74,1 %
Qwen3 30B A3B Instruct 2507	Juli 2025	43,2 %
Qwen3.5-397B-A17B	Feb. 2026	83,6 %

LiveCodeBench Scores nach Veröffentlichungsdata. Niedrigster Score: 0 %. Höchster Score: 100 %.

Rohdaten für Benchmark LiveCodeBench Pro. LiveCodeBench Pro Scores nach Veröffentlichungsdata. Niedrigster Score: 0 %. Höchster Score: 100 %.
Modell	Veröffentlichungsdata	Score
Fugu Ultra	Juni 2026	90,8 %

LiveCodeBench Pro Scores nach Veröffentlichungsdata. Niedrigster Score: 0 %. Höchster Score: 100 %.

Rohdaten für Benchmark MathVista. MathVista Scores nach Veröffentlichungsdata. Niedrigster Score: 0 %. Höchster Score: 100 %.
Modell	Veröffentlichungsdata	Score
Kimi K2.5 (Thinking)	Jan. 2026	90,1 %

MathVista Scores nach Veröffentlichungsdata. Niedrigster Score: 0 %. Höchster Score: 100 %.

Rohdaten für Benchmark MCP-Atlas. MCP-Atlas Scores nach Veröffentlichungsdata. Niedrigster Score: 0 %. Höchster Score: 100 %.
Modell	Veröffentlichungsdata	Score
Claude Fable 5	Juni 2026	83,3 %
Claude Opus 4.7	Apr. 2026	77,3 %
Claude Opus 4.8	Mai 2026	82,2 %
DeepSeek-V4-Pro (Preview)	Apr. 2026	73,6 %
Gemini 3.5 Flash	Mai 2026	83,6 %
GLM-5.1	Apr. 2026	71,8 %
GLM-5.2	Juni 2026	76,8 %
GPT-5.5	Apr. 2026	75,3 %
MiniMax M2.7	März 2026	49,4 %
MiniMax-M3	Juni 2026	74,2 %

MCP-Atlas Scores nach Veröffentlichungsdata. Niedrigster Score: 0 %. Höchster Score: 100 %.

Rohdaten für Benchmark MMLU-Pro. MMLU-Pro Scores nach Veröffentlichungsdata. Niedrigster Score: 0 %. Höchster Score: 100 %.
Modell	Veröffentlichungsdata	Score
DeepSeek-R1-0528	Mai 2025	85 %
DeepSeek-V4-Pro (Preview)	Apr. 2026	87,5 %
Gemma 3	März 2025	67,5 %
Gemma 4 31B	Apr. 2026	85,2 %
GLM-4.5	Juli 2025	84,6 %
GLM-4.5 Air	Aug. 2025	81,4 %
GLM-4.7	Dez. 2025	84,3 %
Grok-4	Juli 2025	86,6 %
Kimi K2 Thinking	Nov. 2025	84,6 %
Kimi K2.5 (Thinking)	Jan. 2026	87,1 %
MiniMax M2.1	Dez. 2025	88 %
MiniMax-M2	Okt. 2025	82 %
Nemotron 3 Super	März 2026	83,73 %
Qwen3 235B A22B Thinking 2507	Juli 2025	84,4 %
Qwen3 30B A3B Instruct 2507	Juli 2025	78,4 %
Qwen3.5-397B-A17B	Feb. 2026	87,8 %

MMLU-Pro Scores nach Veröffentlichungsdata. Niedrigster Score: 0 %. Höchster Score: 100 %.

Rohdaten für Benchmark MMMLU. MMMLU Scores nach Veröffentlichungsdata. Niedrigster Score: 0 %. Höchster Score: 100 %.
Modell	Veröffentlichungsdata	Score
Claude Mythos Preview	Apr. 2026	92,7 %
Claude Opus 4.7	Apr. 2026	91,5 %
DeepSeek-V4-Pro (Preview)	Apr. 2026	90,3 %
Gemma 4 31B	Apr. 2026	88,4 %

MMMLU Scores nach Veröffentlichungsdata. Niedrigster Score: 0 %. Höchster Score: 100 %.

Rohdaten für Benchmark MMMU. MMMU Scores nach Veröffentlichungsdata. Niedrigster Score: 0 %. Höchster Score: 100 %.
Modell	Veröffentlichungsdata	Score
Claude Haiku 4.5	Okt. 2025	73,2 %
Claude Opus 4.5	Nov. 2025	80,7 %
GPT-5 Pro	Aug. 2025	84,2 %
GPT-5.1	Nov. 2025	85,4 %

MMMU Scores nach Veröffentlichungsdata. Niedrigster Score: 0 %. Höchster Score: 100 %.

Rohdaten für Benchmark MMMU-Pro. MMMU-Pro Scores nach Veröffentlichungsdata. Niedrigster Score: 0 %. Höchster Score: 100 %.
Modell	Veröffentlichungsdata	Score
Claude Fable 5	Juni 2026	89,31 %
Gemini 3.5 Flash	Mai 2026	83,6 %
Gemma 4 31B	Apr. 2026	76,9 %
GPT-5.5	Apr. 2026	81,2 %
Kimi K2.6	Apr. 2026	79,4 %
MiniMax-M3	Juni 2026	78,1 %
Muse Spark	Apr. 2026	80,4 %

MMMU-Pro Scores nach Veröffentlichungsdata. Niedrigster Score: 0 %. Höchster Score: 100 %.

Rohdaten für Benchmark MRCR v2. MRCR v2 Scores nach Veröffentlichungsdata. Niedrigster Score: 0 %. Höchster Score: 100 %.
Modell	Veröffentlichungsdata	Score
Fugu Ultra	Juni 2026	93,6 %
Gemini 3.5 Flash	Mai 2026	77,3 %
Gemma 4 31B	Apr. 2026	66,4 %

MRCR v2 Scores nach Veröffentlichungsdata. Niedrigster Score: 0 %. Höchster Score: 100 %.

Rohdaten für Benchmark OSWorld-Verified. OSWorld-Verified Scores nach Veröffentlichungsdata. Niedrigster Score: 0 %. Höchster Score: 100 %.
Modell	Veröffentlichungsdata	Score
Claude Fable 5	Juni 2026	85 %
Claude Haiku 4.5	Okt. 2025	50,7 %
Claude Mythos Preview	Apr. 2026	79,6 %
Claude Opus 4.5	Nov. 2025	66,3 %
Claude Opus 4.6	Feb. 2026	72,7 %
Claude Opus 4.7	Apr. 2026	78 %
Claude Opus 4.8	Mai 2026	83,4 %
Claude Sonnet 4.6	Feb. 2026	72,5 %
Gemini 3.5 Flash	Mai 2026	78,4 %
GPT-5.3-Codex	Feb. 2026	64,7 %
GPT-5.4	März 2026	75 %
GPT-5.4 mini	März 2026	42 %
GPT-5.5	Apr. 2026	78,7 %
Kimi K2.6	Apr. 2026	73,1 %
MiniMax-M3	Juni 2026	70,06 %

OSWorld-Verified Scores nach Veröffentlichungsdata. Niedrigster Score: 0 %. Höchster Score: 100 %.

Rohdaten für Benchmark SimpleQA. SimpleQA Scores nach Veröffentlichungsdata. Niedrigster Score: 0 %. Höchster Score: 100 %.
Modell	Veröffentlichungsdata	Score
DeepSeek-V4-Pro (Preview)	Apr. 2026	57,9 %

SimpleQA Scores nach Veröffentlichungsdata. Niedrigster Score: 0 %. Höchster Score: 100 %.

Rohdaten für Benchmark SWE-bench Multilingual. SWE-bench Multilingual Scores nach Veröffentlichungsdata. Niedrigster Score: 0 %. Höchster Score: 100 %.
Modell	Veröffentlichungsdata	Score
Claude Mythos Preview	Apr. 2026	87,3 %
Claude Opus 4.8	Mai 2026	84,4 %
DeepSeek-V4-Pro (Preview)	Apr. 2026	76,2 %
Kimi K2.6	Apr. 2026	76,7 %
MiniMax M2.7	März 2026	76,5 %

SWE-bench Multilingual Scores nach Veröffentlichungsdata. Niedrigster Score: 0 %. Höchster Score: 100 %.

Rohdaten für Benchmark SWE-bench Multimodal. SWE-bench Multimodal Scores nach Veröffentlichungsdata. Niedrigster Score: 0 %. Höchster Score: 100 %.
Modell	Veröffentlichungsdata	Score
Claude Mythos Preview	Apr. 2026	59 %

SWE-bench Multimodal Scores nach Veröffentlichungsdata. Niedrigster Score: 0 %. Höchster Score: 100 %.

Rohdaten für Benchmark SWE-bench Pro. SWE-bench Pro Scores nach Veröffentlichungsdata. Niedrigster Score: 0 %. Höchster Score: 100 %.
Modell	Veröffentlichungsdata	Score
Claude Fable 5	Juni 2026	80 %
Claude Mythos Preview	Apr. 2026	77,8 %
Claude Opus 4.7	Apr. 2026	64,3 %
Claude Opus 4.8	Mai 2026	69,2 %
DeepSeek-V4-Pro (Preview)	Apr. 2026	55,4 %
Fugu Ultra	Juni 2026	73,7 %
Gemini 3.5 Flash	Mai 2026	55,1 %
GLM-5.1	Apr. 2026	58,4 %
GLM-5.2	Juni 2026	62,1 %
GPT-5.5	Apr. 2026	58,6 %
Kimi K2.6	Apr. 2026	58,6 %
MiniMax M2.7	März 2026	56,22 %
MiniMax-M3	Juni 2026	59 %
Muse Spark	Apr. 2026	52,4 %

SWE-bench Pro Scores nach Veröffentlichungsdata. Niedrigster Score: 0 %. Höchster Score: 100 %.

Rohdaten für Benchmark SWE-bench Verified. SWE-bench Verified Scores nach Veröffentlichungsdata. Niedrigster Score: 0 %. Höchster Score: 100 %.
Modell	Veröffentlichungsdata	Score
Claude 3.7 Sonnet	Feb. 2025	62,3 %
Claude Fable 5	Juni 2026	95 %
Claude Haiku 4.5	Okt. 2025	73,3 %
Claude Mythos Preview	Apr. 2026	93,9 %
Claude Opus 4	Mai 2025	72,5 %
Claude Opus 4.1	Aug. 2025	74,5 %
Claude Opus 4.5	Nov. 2025	80,9 %
Claude Opus 4.6	Feb. 2026	80,8 %
Claude Opus 4.7	Apr. 2026	87,6 %
Claude Opus 4.8	Mai 2026	88,6 %
Claude Sonnet 4	Mai 2025	64,93 %
Claude Sonnet 4.5	Sept. 2025	77,2 %
Claude Sonnet 4.6	Feb. 2026	79,6 %
DeepSeek-R1-0120	Jan. 2025	49,2 %
DeepSeek-V4-Pro (Preview)	Apr. 2026	80,6 %
Gemini 2.5 Flash	Juni 2025	48,9 %
Gemini 2.5 Flash-Lite	Juli 2025	27,6 %
Gemini 2.5 Pro	Juni 2025	59,6 %
Gemini 3 Pro	Nov. 2025	76,2 %
Gemini 3.1 Pro	Feb. 2026	80,6 %
Gemini Diffusion	Mai 2025	22,9 %
GLM-4.5	Juli 2025	64,2 %
GLM-4.5 Air	Aug. 2025	57,6 %
GLM-4.6	Sept. 2025	68 %
GLM-4.7	Dez. 2025	73,8 %
GLM-5	Feb. 2026	77,8 %
GPT-4o (2024-11-20)	Nov. 2024	21,62 %
GPT-5	Aug. 2025	74,9 %
GPT-5 mini	Aug. 2025	71 %
GPT-5 nano	Aug. 2025	54,7 %
GPT-5 Pro	Aug. 2025	74,9 %
GPT-5.1	Nov. 2025	76,3 %
GPT-5.2	Dez. 2025	80 %
Kimi K2	Juli 2025	65,8 %
Kimi K2 (0905)	Sept. 2025	69,2 %
Kimi K2 Thinking	Nov. 2025	71,3 %
Kimi K2.5 (Thinking)	Jan. 2026	76,8 %
Kimi K2.6	Apr. 2026	80,2 %
MiniMax M2.1	Dez. 2025	74 %
MiniMax M2.5	Feb. 2026	80,2 %
MiniMax M2.7	März 2026	79,9 %
MiniMax-M2	Okt. 2025	69,4 %
MiniMax-M3	Juni 2026	80,5 %
Muse Spark	Apr. 2026	77,4 %
OpenAI o3	Apr. 2025	69,1 %
OpenAI o3-mini	Jan. 2025	49,3 %
OpenAI o4-mini	Apr. 2025	68,1 %
Qwen3.5-397B-A17B	Feb. 2026	76,4 %

SWE-bench Verified Scores nach Veröffentlichungsdata. Niedrigster Score: 0 %. Höchster Score: 100 %.

Rohdaten für Benchmark Terminal-Bench 2.0. Terminal-Bench 2.0 Scores nach Veröffentlichungsdata. Niedrigster Score: 0 %. Höchster Score: 100 %.
Modell	Veröffentlichungsdata	Score
Claude Mythos Preview	Apr. 2026	82 %
Claude Opus 4.5	Nov. 2025	59,3 %
Claude Opus 4.6	Feb. 2026	65,4 %
Claude Opus 4.7	Apr. 2026	69,4 %
Claude Sonnet 4.6	Feb. 2026	59,1 %
DeepSeek-v3.2 Thinking	Dez. 2025	46,4 %
DeepSeek-V4-Pro (Preview)	Apr. 2026	67,9 %
Gemini 3.1 Pro	Feb. 2026	68,5 %
GLM-4.7	Dez. 2025	41 %
GLM-5	Feb. 2026	56,2 %
GLM-5.1	Apr. 2026	63,5 %
GPT-5.3-Codex	Feb. 2026	77,3 %
GPT-5.4	März 2026	75,1 %
GPT-5.4 mini	März 2026	38,2 %
GPT-5.4 nano	März 2026	46,3 %
GPT-5.5	Apr. 2026	82,7 %
Kimi K2 Thinking	Nov. 2025	47,1 %
Kimi K2.5 (Thinking)	Jan. 2026	50,8 %
Kimi K2.6	Apr. 2026	66,7 %
MiniMax M2.1	Dez. 2025	47,9 %
MiniMax M2.5	Feb. 2026	51,7 %
MiniMax M2.7	März 2026	57 %
MiniMax-M2	Okt. 2025	46,3 %
Muse Spark	Apr. 2026	59 %
Nemotron 3 Super	März 2026	31 %
Qwen3.5-397B-A17B	Feb. 2026	52,5 %

Terminal-Bench 2.0 Scores nach Veröffentlichungsdata. Niedrigster Score: 0 %. Höchster Score: 100 %.

Rohdaten für Benchmark Terminal-Bench 2.1. Terminal-Bench 2.1 Scores nach Veröffentlichungsdata. Niedrigster Score: 0 %. Höchster Score: 100 %.
Modell	Veröffentlichungsdata	Score
Claude Fable 5	Juni 2026	84,3 %
Claude Opus 4.8	Mai 2026	74,6 %
Fugu Ultra	Juni 2026	82,1 %
Gemini 3.5 Flash	Mai 2026	76,2 %
GLM-5.2	Juni 2026	82,7 %
MiniMax M2.7	März 2026	51,1 %
MiniMax-M3	Juni 2026	66 %

Terminal-Bench 2.1 Scores nach Veröffentlichungsdata. Niedrigster Score: 0 %. Höchster Score: 100 %.

Rohdaten für Benchmark Vending-Bench 2. Vending-Bench 2 Scores nach Veröffentlichungsdata. Niedrigster Score: 0 %. Höchster Score: 5.680,26 %.
Modell	Veröffentlichungsdata	Score
Claude Fable 5	Juni 2026	5.680,26 %
Claude Opus 4.8	Mai 2026	2.992,34 %
GLM-5.1	Apr. 2026	5.634,41 %

Vending-Bench 2 Scores nach Veröffentlichungsdata. Niedrigster Score: 0 %. Höchster Score: 5.680,26 %.

Rohdaten für Benchmark Video-MMMU. Video-MMMU Scores nach Veröffentlichungsdata. Niedrigster Score: 0 %. Höchster Score: 100 %.
Modell	Veröffentlichungsdata	Score
MiniMax-M3	Juni 2026	84,6 %

Video-MMMU Scores nach Veröffentlichungsdata. Niedrigster Score: 0 %. Höchster Score: 100 %.

Rohdaten für Benchmark τ²-Bench. τ²-Bench Scores nach Veröffentlichungsdata. Niedrigster Score: 0 %. Höchster Score: 100 %.
Modell	Veröffentlichungsdata	Score
Claude Haiku 4.5	Okt. 2025	76,6 %
Claude Opus 4.5	Nov. 2025	93,55 %
Claude Opus 4.6	Feb. 2026	95,6 %
Claude Sonnet 4.5	Sept. 2025	84,7 %
Claude Sonnet 4.6	Feb. 2026	94,8 %
DeepSeek-v3.2 Thinking	Dez. 2025	80,3 %
Gemini 3 Pro	Nov. 2025	85,4 %
Gemini 3.1 Pro	Feb. 2026	95,1 %
Gemma 4 31B	Apr. 2026	76,9 %
GLM-4.6	Sept. 2025	75,9 %
GLM-4.7	Dez. 2025	87,4 %
GLM-5	Feb. 2026	89,7 %
GLM-5.1	Apr. 2026	70,6 %
GPT-5	Aug. 2025	80,1 %
GPT-5 mini	Aug. 2025	70,8 %
GPT-5 nano	Aug. 2025	46,3 %
GPT-5.1	Nov. 2025	80,2 %
GPT-5.2	Dez. 2025	90,35 %
GPT-5.4 mini	März 2026	74,1 %
GPT-5.4 nano	März 2026	88,38 %
Kimi K2 (0905)	Sept. 2025	66,1 %
MiniMax M2.1	Dez. 2025	87 %
MiniMax-M2	Okt. 2025	77,2 %
Muse Spark	Apr. 2026	91,5 %
Nemotron 3 Super	März 2026	61,15 %
Qwen3.5-397B-A17B	Feb. 2026	86,7 %

τ²-Bench Scores nach Veröffentlichungsdata. Niedrigster Score: 0 %. Höchster Score: 100 %.

LLM
Vergleich

LLM Vergleichstabelle

Benchmark Chart

ARC-AGI-2 Scores nach Veröffentlichungsdatum

ARC-AGI-2 Übersicht