Alibaba veröffentlicht neue Qwen-3 Open Weights Modellserie

Qwen-3 Schriftzug in weiß vor lilanem Hintergrund mit einem Cartoon-Biber als Maskottchen

Alibaba Cloud veröffentlicht mit der neuen Qwen-3 Familie eine Nachfolge der älteren Qwen 2.5 Reihe.

Die neuen Modelle werden inklusive Gewichtungen und Apache-2.0-Lizenz veröffentlicht, was insbesondere von der Open Source Entwickler-Community als sehr positiv aufgenommen werden dürfte.

Erste Benchmarks zeigen, dass Qwen-3 in allen Größenklassen konkurrenzfähig zu anderen (Closed-Source) Modellen ist.

Chinas Wettlauf um offene Modelle

Im Gegensatz zu amerikanischen KI-Entwicklern herrscht bei chinesischen KI-Schmieden aktuell geradezu ein Wettlauf um das stärkste Open-Source LLM.

Noch vor 3 Monaten schaffte DeepSeek AI mit DeepSeek-R1 einen Coup, aber auch Entwickler wie Baidu oder Zhipu AI brachten leistungsfähige offene LLMs auf den Markt.

Hinter der Open-Weights-Strategie steckt die Hoffnung, auch im Ausland die Akzeptanz für chinesische Modelle zu fördern. Open-Weight Models lassen sich per Post-Training und Finetuning nämlich individuell auf eigene Use-Cases spezialisieren.

Die Qwen-3 Familie im Überblick

Qwen-3 erscheint in acht Varianten verschiedener Größen. Das kleinste Modell startet mit 0,6 Mrd. Parametern, wohingegen das größte Modell ganze 235 Mrd. verfügt. Neben den klassischen "dichten" Transformer-Modellen gibt es mit 30B-A3B und 235B-A22B auch Mixture-of-Experts Versionen, die nur 3 bzw. 22 Mrd. Parameter pro Token aktivieren.

Im Vergleich zum Nachfolger ist neu, dass über API-Parameter oder Prompt-Tags ein Umschalten zwischen "Thinking Mode" und "Non-Thinking Mode" verfögbar ist. Dadurch lassen sich die Qwen-3 Modelle sowohl als Reasoning-Modelle mit Chain-of-Thought Output sowie als "normale" Non-Reasoning LLMs verwenden.

Alle Modelle aus der Qwen-3 Familie unterstützen mindestens 32k Token als Input. Ab einer Parameter-Anzahl von 8 Mrd. werden sogar bis zu 128k Token für lange Kontext-Inputs unterstützt.

Alibaba nutzt verstärkt Reinforcement Learning und MoE-Ansätze beim Modelltraining

Für das Training von Qwen-3 kam ein vierstufiges Post-Training zum Einsatz. Neben klassischem überwachten Finetuning (SFT) kamen insbesondere Reinforcement Learning (RL) und Reinforcement Learning from Human Feedback (RLHF) zum Einsatz, um die Modelle auf die neuen Reasoning-Outputs zu trainieren. Laut Alibaba ist der Fokus auf RL im Post-Training einer der Hauptgründe für das Erreichen der starken Benchmark-Scores.

Diagramm mit den einzelnen Stufen des Posttraining-Prozess von Qwen-3 LLMs
Übersicht der einzelnen Schritte, die während des Posttrainings der Qwen-3 Modelle durchlaufen wurden.

Neben RL und RLHF lag ein weiterer Fokus auf dem MoE-Layer, durch den Alibaba die Modellkapazitäten weiter erhöhen konnte. MoE Modelle gruppieren Parameter nach "Fachgebieten" und aktivieren bei der Generation jedes Tokens somit nur einen Teil aller Parameter. Dadurch sinken FLOPs und Speicherbedarf während der Inferenz im Vergleich zu klassischen Transformer-Modellen enorm.

Bei Qwen-3 kommen insgesamt 128 Experten zum Einsatz, von denen 8 Experten geroutet werden. Dies ist vergleichbar mit dem Modell Mixtral 8x7B von Mistral.

Beeindruckende Benchmark-Ergebnisse, insbesondere im Bereich der 30B Parameter

Durch die Reihe weg überzeugen die Performances von Qwen-3 in den ersten veröffentlichen Benchmarks. Sowohl kleine Modelle mit 7B - 30B Parametern, als auch die großen MoE-Modelle wie Qwen-3-235B-A22B können mit teilweise deutlich größeren Modellen anderer Entwickler mithalten.

Benchmark-Tabelle der Qwen-3 Modellfamilie im Vergleich mit Konkurrenzmodellen

Es zeigt sich, dass bereits das kleine Qwen3-30B-A3B Modell die 2024-11-20 Version von GPT-4o und Grok 3 übertreffen kann.

Besonders beeindruckend ist ebenso, dass Qwen-3-4B das frühere, knapp 18x so große Qwen-2.5-72B-Instruct Modell übertrifft. Damit dürften insbesondere die kleineren Qwen-3 Modelle interessante Kandidation für Edge-Szenarien werden.

Du kannst Qwen-3 mit weiteren Modellen in unserem großen LLM-Vergleich gegenüberstellen.

Ausblick und Bedeutung der neuen Modelle für Entwickler

Durch die großzügige Lizenzfreiheit dürften viele Entwickler bereits begonnen haben, eigene Varianten von Qwen-3 zu trainieren. Laut Angaben von Alibaba benötigt die kleine MoE-Variante von Qwen-3 mit 30B Parametern und 3B aktivierten Parametern weniger als 40 GB VRAM. Damit ließe sich dieses Modell bereits lokal mit handelsüblichen Grafikkarten, wie z.B. der NVIDIA RTX 5090 ausführen.

Wir können also davon ausgehen, dass in naher Zukunft spezialisierte Versionen, z.B. Coding-Modelle ähnlich DeepSeek-Coder auf dem Markt erscheinen werden.

Ob sich Qwen-3 letzten Endes gegen die (starke) Konkurrenz wie Llama-4, DeepSeek-R1 und R2 trotz aktuell noch mangelnder Multimodalität durchsetzen werden kann, wird sich zeigen.

Christian Musanke

Christian Musanke

Gründer

Christian begeistert sich für Machine Learning und testet mit Leidenschaft die neuesten AI-Tools.