OpenAI öffnet API-Zugang für die GPT-4.1 Modellreihe

OpenAI hat mit GPT-4.1 eine neue Modellreihe vorgestellt, die sich vorwiegend an Entwickler richtet.

Mit den neuen Modellen setzt OpenAI auf größere Kontextfenster von bis zu 1 Mio. Token und eine bessere Kosteneffizienz. Damit schließt OpenAI zu konkurrierenden Modellen von Google DeepMind auf, die mit Gemini 2.5 Pro erst kürzlich ein günstiges und sehr leistungsstarkes Modell für Entwickler veröffentlicht haben.

In ChatGPT wird GPT-4.1 vorerst nicht verfügbar sein.

Folgende Modelle wurden vorgestellt:

OpenAI verspricht bessere Coding-Kompetenzen und Verbesserungen im Instruction Following

Ausgelegt auf Entwickler verspricht OpenAI eine deutlich verbesserte Performance von GPT-4.1 gegenüber dem alten GPT-4o Modell. Erste von OpenAI veröffentlichte Benchmarks zeigen eine Performance-Verbesserung in Höhe von 21,4 % von GPT-4.1 gegenüber GPT-4o im SWE-bench Verified Benchmark:

Im SWE-bench Verified Benchmark erzielt GPT-4.1 55 %, GPT-4o 33%, OpenAI-o1 (high) 41%, OpenAI o3-mini (high) 49 % und GPT-4.5 38 %. Die kleineren Modelle erzielen 24 % (GPT-4.1 mini vs. 9 % von GPT-4o mini) — GPT-4.1 übertrifft die älteren Modelle im SWE-bench Verified Benchmark deutlich.

Nicht ganz so stark fallen die Ergebnisse im Aider's polyglot Benchmark aus. Hier erzielt GPT-4.1 weniger Genauigkeit, als die Reasoning-Modelle OpenAI o1 (high) und OpenAI o3-mini (high). Dies lässt sich vermutlich darauf zurückführen, dass es sich bei GPT-4.1 nicht um ein Reasoning-Modell handelt. Sollte zukünftig ein hybrider "Thinking" Modus ergänzt werden, wie es z.B. bei Claude-3.7 Sonnet der Fall ist, könnten die Benchmark Ergebnisse noch deutlich höher ausfallen.

Benchmark-Ergebnisse: GPT-4.1: 52 %, GPT-4o: 31%, OpenAI o1 (high): 64 %, OpenAI o3-mini (high): 67 %, GPT-4.1 mini: 35 %, GPT-4.1 nano: 10 %, GPT-4o mini: 4 %

Als praktisches Beispiel zeigte Michelle Pokrass die Zero-Shot-Erstellung des Frontends einer Lernkarten-App. Das Ergebnis war zufriedenstellend, wird unter Vibe-Codern, die für bereits gestylte Bibliotheken wie shadcn o.ä. verwenden, jedoch keine Begeisterung ausgelöst haben.

Verbessertes Instruction Following

Im Instruction Following, also dem Befolgen von Anweisungen in einem Prompt, soll GPT-4.1 signifikante Fortschritte gegenüber seinen Vorgängermodellen zeigen. Über eigens entwickelte Evals hat OpenAI die neuen Modelle auf Funktionen wie dem Einhalten von Format-Vorgaben (z.B: XML, YAML oder Markdown), dem Einhalten negativer Instruktionen und dem Befolgen einer Reihenfolge von Prompts getestet.

Interne Eval von OpenAI für Instruction Following: GPT-4.1: 49 %, GPT-4o: 29 %. Die Thinking Modelle erreichen 50-51 %, GPT-4.5 54%, GPT-4.1 mini 45 %, GPT-4.1 nano 32 % und GPT-4o mini 27 %.

Über besagten internen Benchmark kann GPT-4.1 damit fast mit den großen Thinking-Modellen gleichziehen.

Gute Leistung bei sehr langen Kontextfenstern und Multimodalität

Mit GPT-4.1 erhöht OpenAI die Größe der Kontextfenster von 128.000 auf 1.000.000 Tokens. In der Vergangenheit hat sich gezeigt, dass viele Modelle bei längeren Kontext-Eingaben eine schlechtere Performance liefern. Dies ist auch bei GPT-4.1 der Fall, allerdings liegen die erzielten Ergebnisse deutlich über denen der Vorgängermodelle:

GPT-4.1 schneidet bei langen Kontextlängen deutlich besser ab, als die vorherigen OpenAI Modelle

Das neue Kontextfenster dürfte für viele Entwickler als Grundvoraussetzung für das Nutzen in größeren Codebasen gelten. Auch für die Analyse von längeren Texten, z.B. im Bereich von Recht & Jura dürften die Modelle neue Anwendungen finden.

In Multimodalitäts-Benchmarks erzielt vor allem das mittlere GPT-4.1 mini Modell beachtliche Ergebnisse. Es ist davon auszugehen, dass für einfache Image-to-Text Aufgaben zukünftig aus Effizienzgründen auf dieses Modell zurückgegriffen wird.

MMMU Benchmark: GPT-4.1: 75 %, GPT-4o: 69 %, OpenAI o1 (high) 78 %, GPT-4.1 mini: 73 %, GPT-4.1 nano: 55 %, GPT-4o mini: 56 %.

Günstige Preise für GPT-4.1 - Verfügbar allerdings nur per API

OpenAI gibt an, dass durch die neuen Anpassungen in ihrem Inferenz-System GPT-4.1 um bis zu 26 % günstiger wird als der Vorgänger GPT-4o. Außerdem erhöht OpenAI den Discount für Prompt Caching auf ganze 75 % (zuvor lag der Rabatt bei 50 % im Vergleich zur normalen Prompt-Ausführung).

Anders als Google DeepMind berechnet OpenAI zudem keine zusätzlichen Gebühren für Kontextfenster, die größer als 128.000 Token sind.

Modell	Input	Cached Input	Output
GPT-4.1	$2,00	$0,50	$8,00
GPT-4.1 mini	$0,40	$0,10	$1,60
GPT-4.1 nano	$0,10	$0,025	$0,40

Für viele Entwickler wird vor allem die extrem günstige Bepreisung für das GPT-4.1 nano Modell interessant sein. Doch auch GPT-4.1 mini bedeutet einen deutlichen Preisrückgang gegenüber GPT-4o.

Fazit

Mit GPT-4.1 stellt OpenAI eine neue Modellreihe vor, die unter Entwicklern bestimmt eine sehr positive Resonanz erfahren wird. Spannend bleibt abzuwarten, wie gut GPT-4.1 im Web Dev Arena Leaderboard performen wird. Ohne Thinking-Funktion könnte es GPT-4.1 schwer haben, zu den "Vibe-Coding-Königen" Claude-3.7 Sonnet und Gemini 2.5 Pro aufzuschließen.

OpenAI öffnet API-Zugang für die GPT-4.1 Modellreihe

OpenAI verspricht bessere Coding-Kompetenzen und Verbesserungen im Instruction Following

Verbessertes Instruction Following

Gute Leistung bei sehr langen Kontextfenstern und Multimodalität

Günstige Preise für GPT-4.1 - Verfügbar allerdings nur per API

Preistabelle für GPT-4.1

Fazit

Christian Musanke

AI Newsletter