Übersicht
Qwen 3 ist eine Reihe an Sprachmodellen, die als Open Weight Models von Alibaba veröffentlicht wurden. Die Qwen 3 Familie umfasst mehrere Transformer und Mixture-of-Expert Modelle. Das Flaggschiff-Modell Qwen3-235B-A22B besitzt insgesamt 235 Mrd. Parameter und verwendet davon 22 Mrd. aktive Parameter pro Token während der Inferenz. Besonders beeindruckend sind die kleineren Modelle aus der Qwen 3 Familie, die in Benchmarks mit deutlich größeren Konkurrenzmodellen gleichziehen können. Eine Evaluation für die breite Nutzung, außerhalb der Benchmark-Umgebungen steht noch aus.
Websuche
JaKann das Modell auf relevante Informationen aus dem Web zugreifen?
Multimodalität
NeinKann das Modell verschiedene Medienarten verarbeiten?
Finetuning
JaKann das Modell finetuned werden?
Performance
Qwen 3 Benchmark Übersicht
Provider
Du kannst Qwen 3 über die API folgender Anbieter nutzen:
DeepInfra
Fehler gefunden? Kontaktiere uns!
Wir legen großen Wert auf die Genauigkeit unserer Modelldaten. Falls dir Unstimmigkeiten oder veraltete Informationen auffallen, lass es uns bitte wissen. Dein Feedback hilft uns, die Qualität unserer Plattform stetig zu verbessern.
Technische Details
Architektur
Architektur-Typ | Transformer, Mixture of Experts |
Input Kontextlänge | 41k Token |
Output Kontextlänge | 41k Token |
Inferenzoptimierung | Quantisierung, Modell-Distillation |
Trainingsmethode | Unsupervised Pretraining, Supervised Fine-Tuning, Reinforcement Learning, Reinforcement Learning from Human Feedback, Direct Preference Optimization |
Tokenizer & Attention
Tokenizer Modell | GPT-2 |
BOS Token | |
EOS Token | |
Padding Token | |
Attention Heads | 64 |
KV Heads | 4 |
Quantisierung | 235B, 32B, 30B, 14B, 8B, 4B, 1.7B, 0.6B |
Vor- & Nachteile
Vorteile
Open Weight Modelle, lokal ausführbar
Die gesamte Qwen 3 Modellfamilie wird komplett inklusive offener Gewichtungen veröffentlicht und kann beliebig nach-trainiert werden. Außerdem lassen sich die Qwen 3 Modelle über Apps wie Ollama oder LM Studio lokal und ohne Internetverbindung nutzen.
Großzügige Lizenzen
Mit Apache-2.0 gewährt Alibaba Entwicklern viel Spielraum für die kommerzielle Nutzung der Qwen 3 Modelle.
Dynamischer "Thinking" Modus
Für die größeren Modelle lassen sich verschiedene "Thinking" Stufen definieren, die die Qualität der Outputs verbessern.
Starke Benchmark-Performances der kleinen Modelle
Insbesondere die kleinen Modelle, rund um Qwen3-30B-A3B erzielen beeindruckende Ergebnisse, die in größeren Benchmarks mit Modellen wie DeepSeekV3 und GPT-4o mithalten können.
Gutes Instruction Following
Nach ersten Einschätzungen scheinen die Qwen 3 Modelle gut im Instruction Following zu sein.
Nachteile
Breite Performance noch fraglich
Aktuell lässt sich noch nicht sagen, ob die Qwen 3 Modelle auch außerhalb von Benchmark-Szenarien eine vergleichbar beeindruckende Performance liefern können.
Schlechte Coding-Performance
Entwickler sollten Coding-Posttraining-Modelle der Community abwarten, bis sie Qwen 3 für produktive Entwicklungsarbeiten nutzen. Die aktuelle Coding-Qualität von Qwen 3 überzeugt noch nicht,
Keine native Multimodalität
Qwen 3 ist nativ keine multimodale Modellfamilie. Die Modelle lassen sich von Haus aus also nicht für Computer Vision o.ä. nutzen.