OpenAI hat mit GPT-4.1 eine neue Modellreihe vorgestellt, die sich vorwiegend an Entwickler richtet.
Mit den neuen Modellen setzt OpenAI auf größere Kontextfenster von bis zu 1 Mio. Token und eine bessere Kosteneffizienz. Damit schließt OpenAI zu konkurrierenden Modellen von Google DeepMind auf, die mit Gemini 2.5 Pro erst kürzlich ein günstiges und sehr leistungsstarkes Modell für Entwickler veröffentlicht haben.
In ChatGPT wird GPT-4.1 vorerst nicht verfügbar sein.
Folgende Modelle wurden vorgestellt:
Ausgelegt auf Entwickler verspricht OpenAI eine deutlich verbesserte Performance von GPT-4.1 gegenüber dem alten GPT-4o Modell. Erste von OpenAI veröffentlichte Benchmarks zeigen eine Performance-Verbesserung in Höhe von 21,4 % von GPT-4.1 gegenüber GPT-4o im SWE-bench Verified Benchmark:
Nicht ganz so stark fallen die Ergebnisse im Aider's polyglot Benchmark aus. Hier erzielt GPT-4.1 weniger Genauigkeit, als die Reasoning-Modelle OpenAI o1 (high) und OpenAI o3-mini (high). Dies lässt sich vermutlich darauf zurückführen, dass es sich bei GPT-4.1 nicht um ein Reasoning-Modell handelt. Sollte zukünftig ein hybrider "Thinking" Modus ergänzt werden, wie es z.B. bei Claude-3.7 Sonnet der Fall ist, könnten die Benchmark Ergebnisse noch deutlich höher ausfallen.
Als praktisches Beispiel zeigte Michelle Pokrass die Zero-Shot-Erstellung des Frontends einer Lernkarten-App. Das Ergebnis war zufriedenstellend, wird unter Vibe-Codern, die für bereits gestylte Bibliotheken wie shadcn o.ä. verwenden, jedoch keine Begeisterung ausgelöst haben.
Im Instruction Following, also dem Befolgen von Anweisungen in einem Prompt, soll GPT-4.1 signifikante Fortschritte gegenüber seinen Vorgängermodellen zeigen. Über eigens entwickelte Evals hat OpenAI die neuen Modelle auf Funktionen wie dem Einhalten von Format-Vorgaben (z.B: XML, YAML oder Markdown), dem Einhalten negativer Instruktionen und dem Befolgen einer Reihenfolge von Prompts getestet.
Über besagten internen Benchmark kann GPT-4.1 damit fast mit den großen Thinking-Modellen gleichziehen.
Mit GPT-4.1 erhöht OpenAI die Größe der Kontextfenster von 128.000 auf 1.000.000 Tokens. In der Vergangenheit hat sich gezeigt, dass viele Modelle bei längeren Kontext-Eingaben eine schlechtere Performance liefern. Dies ist auch bei GPT-4.1 der Fall, allerdings liegen die erzielten Ergebnisse deutlich über denen der Vorgängermodelle:
Das neue Kontextfenster dürfte für viele Entwickler als Grundvoraussetzung für das Nutzen in größeren Codebasen gelten. Auch für die Analyse von längeren Texten, z.B. im Bereich von Recht & Jura dürften die Modelle neue Anwendungen finden.
In Multimodalitäts-Benchmarks erzielt vor allem das mittlere GPT-4.1 mini Modell beachtliche Ergebnisse. Es ist davon auszugehen, dass für einfache Image-to-Text Aufgaben zukünftig aus Effizienzgründen auf dieses Modell zurückgegriffen wird.
OpenAI gibt an, dass durch die neuen Anpassungen in ihrem Inferenz-System GPT-4.1 um bis zu 26 % günstiger wird als der Vorgänger GPT-4o. Außerdem erhöht OpenAI den Discount für Prompt Caching auf ganze 75 % (zuvor lag der Rabatt bei 50 % im Vergleich zur normalen Prompt-Ausführung).
Anders als Google DeepMind berechnet OpenAI zudem keine zusätzlichen Gebühren für Kontextfenster, die größer als 128.000 Token sind.
Modell | Input | Cached Input | Output |
---|---|---|---|
GPT-4.1 | $2,00 | $0,50 | $8,00 |
GPT-4.1 mini | $0,40 | $0,10 | $1,60 |
GPT-4.1 nano | $0,10 | $0,025 | $0,40 |
Für viele Entwickler wird vor allem die extrem günstige Bepreisung für das GPT-4.1 nano Modell interessant sein. Doch auch GPT-4.1 mini bedeutet einen deutlichen Preisrückgang gegenüber GPT-4o.
Mit GPT-4.1 stellt OpenAI eine neue Modellreihe vor, die unter Entwicklern bestimmt eine sehr positive Resonanz erfahren wird. Spannend bleibt abzuwarten, wie gut GPT-4.1 im Web Dev Arena Leaderboard performen wird. Ohne Thinking-Funktion könnte es GPT-4.1 schwer haben, zu den "Vibe-Coding-Königen" Claude-3.7 Sonnet und Gemini 2.5 Pro aufzuschließen.