Alibaba Logo

Qwen 3Alibaba

NeuApache-2.0

Release Date
April 2025
Knowledge Cutoff
Juni 2025
Parameter
235B
Modellfamilie
Qwen 3

Übersicht

Qwen 3 ist eine Reihe an Sprachmodellen, die als Open Weight Models von Alibaba veröffentlicht wurden. Die Qwen 3 Familie umfasst mehrere Transformer und Mixture-of-Expert Modelle. Das Flaggschiff-Modell Qwen3-235B-A22B besitzt insgesamt 235 Mrd. Parameter und verwendet davon 22 Mrd. aktive Parameter pro Token während der Inferenz. Besonders beeindruckend sind die kleineren Modelle aus der Qwen 3 Familie, die in Benchmarks mit deutlich größeren Konkurrenzmodellen gleichziehen können. Eine Evaluation für die breite Nutzung, außerhalb der Benchmark-Umgebungen steht noch aus.

Websuche

Ja

Kann das Modell auf relevante Informationen aus dem Web zugreifen?

Multimodalität

Nein

Kann das Modell verschiedene Medienarten verarbeiten?

Finetuning

Ja

Kann das Modell finetuned werden?

Max. Input
41k Token
Max. Output
41k Token
Trainingsdaten
NaNB
Parameter
235B
Input Preis
$0,20
Output Preis
$0,60
Vokabular
Unbekannt
Dateigröße
142 GB

Performance

Qwen 3 Benchmark Übersicht

MathematikWissen & SprachverständnisCoding

AIME 2024 Benchmark

Daten werden geladen...

Provider

Du kannst Qwen 3 über die API folgender Anbieter nutzen:

DeepInfra logo

DeepInfra

Token (in)41k
Token (out)41k
USD/1M Input$0,20
USD/1M Output$0,60
Latency20,31ms
Throughput43,88t/s
Datenqualität

Fehler gefunden? Kontaktiere uns!

Wir legen großen Wert auf die Genauigkeit unserer Modelldaten. Falls dir Unstimmigkeiten oder veraltete Informationen auffallen, lass es uns bitte wissen. Dein Feedback hilft uns, die Qualität unserer Plattform stetig zu verbessern.

Technische Details

Architektur

Architektur-Typ
Transformer, Mixture of Experts
Input Kontextlänge
41k Token
Output Kontextlänge
41k Token
Inferenzoptimierung
Quantisierung, Modell-Distillation
Trainingsmethode
Unsupervised Pretraining, Supervised Fine-Tuning, Reinforcement Learning, Reinforcement Learning from Human Feedback, Direct Preference Optimization

Tokenizer & Attention

Tokenizer Modell
GPT-2
BOS Token
EOS Token
Padding Token
Attention Heads
64
KV Heads
4
Quantisierung
235B, 32B, 30B, 14B, 8B, 4B, 1.7B, 0.6B

Vor- & Nachteile

Vorteile

  • Open Weight Modelle, lokal ausführbar

    Die gesamte Qwen 3 Modellfamilie wird komplett inklusive offener Gewichtungen veröffentlicht und kann beliebig nach-trainiert werden. Außerdem lassen sich die Qwen 3 Modelle über Apps wie Ollama oder LM Studio lokal und ohne Internetverbindung nutzen.

  • Großzügige Lizenzen

    Mit Apache-2.0 gewährt Alibaba Entwicklern viel Spielraum für die kommerzielle Nutzung der Qwen 3 Modelle.

  • Dynamischer "Thinking" Modus

    Für die größeren Modelle lassen sich verschiedene "Thinking" Stufen definieren, die die Qualität der Outputs verbessern.

  • Starke Benchmark-Performances der kleinen Modelle

    Insbesondere die kleinen Modelle, rund um Qwen3-30B-A3B erzielen beeindruckende Ergebnisse, die in größeren Benchmarks mit Modellen wie DeepSeekV3 und GPT-4o mithalten können.

  • Gutes Instruction Following

    Nach ersten Einschätzungen scheinen die Qwen 3 Modelle gut im Instruction Following zu sein.

Nachteile

  • Breite Performance noch fraglich

    Aktuell lässt sich noch nicht sagen, ob die Qwen 3 Modelle auch außerhalb von Benchmark-Szenarien eine vergleichbar beeindruckende Performance liefern können.

  • Schlechte Coding-Performance

    Entwickler sollten Coding-Posttraining-Modelle der Community abwarten, bis sie Qwen 3 für produktive Entwicklungsarbeiten nutzen. Die aktuelle Coding-Qualität von Qwen 3 überzeugt noch nicht,

  • Keine native Multimodalität

    Qwen 3 ist nativ keine multimodale Modellfamilie. Die Modelle lassen sich von Haus aus also nicht für Computer Vision o.ä. nutzen.

Loading model comparison data...