Alibaba Cloud veröffentlicht mit der neuen Qwen-3 Familie eine Nachfolge der älteren Qwen 2.5 Reihe.
Die neuen Modelle werden inklusive Gewichtungen und Apache-2.0-Lizenz veröffentlicht, was insbesondere von der Open Source Entwickler-Community als sehr positiv aufgenommen werden dürfte.
Erste Benchmarks zeigen, dass Qwen-3 in allen Größenklassen konkurrenzfähig zu anderen (Closed-Source) Modellen ist.
Im Gegensatz zu amerikanischen KI-Entwicklern herrscht bei chinesischen KI-Schmieden aktuell geradezu ein Wettlauf um das stärkste Open-Source LLM.
Noch vor 3 Monaten schaffte DeepSeek AI mit DeepSeek-R1 einen Coup, aber auch Entwickler wie Baidu oder Zhipu AI brachten leistungsfähige offene LLMs auf den Markt.
Hinter der Open-Weights-Strategie steckt die Hoffnung, auch im Ausland die Akzeptanz für chinesische Modelle zu fördern. Open-Weight Models lassen sich per Post-Training und Finetuning nämlich individuell auf eigene Use-Cases spezialisieren.
Qwen-3 erscheint in acht Varianten verschiedener Größen. Das kleinste Modell startet mit 0,6 Mrd. Parametern, wohingegen das größte Modell ganze 235 Mrd. verfügt. Neben den klassischen "dichten" Transformer-Modellen gibt es mit 30B-A3B und 235B-A22B auch Mixture-of-Experts Versionen, die nur 3 bzw. 22 Mrd. Parameter pro Token aktivieren.
Im Vergleich zum Nachfolger ist neu, dass über API-Parameter oder Prompt-Tags ein Umschalten zwischen "Thinking Mode" und "Non-Thinking Mode" verfögbar ist. Dadurch lassen sich die Qwen-3 Modelle sowohl als Reasoning-Modelle mit Chain-of-Thought Output sowie als "normale" Non-Reasoning LLMs verwenden.
Alle Modelle aus der Qwen-3 Familie unterstützen mindestens 32k Token als Input. Ab einer Parameter-Anzahl von 8 Mrd. werden sogar bis zu 128k Token für lange Kontext-Inputs unterstützt.
Für das Training von Qwen-3 kam ein vierstufiges Post-Training zum Einsatz. Neben klassischem überwachten Finetuning (SFT) kamen insbesondere Reinforcement Learning (RL) und Reinforcement Learning from Human Feedback (RLHF) zum Einsatz, um die Modelle auf die neuen Reasoning-Outputs zu trainieren. Laut Alibaba ist der Fokus auf RL im Post-Training einer der Hauptgründe für das Erreichen der starken Benchmark-Scores.
Neben RL und RLHF lag ein weiterer Fokus auf dem MoE-Layer, durch den Alibaba die Modellkapazitäten weiter erhöhen konnte. MoE Modelle gruppieren Parameter nach "Fachgebieten" und aktivieren bei der Generation jedes Tokens somit nur einen Teil aller Parameter. Dadurch sinken FLOPs und Speicherbedarf während der Inferenz im Vergleich zu klassischen Transformer-Modellen enorm.
Bei Qwen-3 kommen insgesamt 128 Experten zum Einsatz, von denen 8 Experten geroutet werden. Dies ist vergleichbar mit dem Modell Mixtral 8x7B von Mistral.
Durch die Reihe weg überzeugen die Performances von Qwen-3 in den ersten veröffentlichen Benchmarks. Sowohl kleine Modelle mit 7B - 30B Parametern, als auch die großen MoE-Modelle wie Qwen-3-235B-A22B können mit teilweise deutlich größeren Modellen anderer Entwickler mithalten.
Es zeigt sich, dass bereits das kleine Qwen3-30B-A3B Modell die 2024-11-20 Version von GPT-4o und Grok 3 übertreffen kann.
Besonders beeindruckend ist ebenso, dass Qwen-3-4B das frühere, knapp 18x so große Qwen-2.5-72B-Instruct Modell übertrifft. Damit dürften insbesondere die kleineren Qwen-3 Modelle interessante Kandidation für Edge-Szenarien werden.
Du kannst Qwen-3 mit weiteren Modellen in unserem großen LLM-Vergleich gegenüberstellen.
Durch die großzügige Lizenzfreiheit dürften viele Entwickler bereits begonnen haben, eigene Varianten von Qwen-3 zu trainieren. Laut Angaben von Alibaba benötigt die kleine MoE-Variante von Qwen-3 mit 30B Parametern und 3B aktivierten Parametern weniger als 40 GB VRAM. Damit ließe sich dieses Modell bereits lokal mit handelsüblichen Grafikkarten, wie z.B. der NVIDIA RTX 5090 ausführen.
Wir können also davon ausgehen, dass in naher Zukunft spezialisierte Versionen, z.B. Coding-Modelle ähnlich DeepSeek-Coder auf dem Markt erscheinen werden.
Ob sich Qwen-3 letzten Endes gegen die (starke) Konkurrenz wie Llama-4, DeepSeek-R1 und R2 trotz aktuell noch mangelnder Multimodalität durchsetzen werden kann, wird sich zeigen.