Deepseek Logo

DeepSeek-R1Deepseek

NeuMIT-License

Release Date
Januar 2025
Knowledge Cutoff
Oktober 2023
Parameter
671B
Modellfamilie
DeepSeek R1

Übersicht

DeepSeek-R1 ist das erste Reasoning-Modell, das auf Basis von DeepSeek-V3 entwickelt wurde. Neben Reinforcement Learning verwendet es Chain-of-Thought Mechanismen und liefert beeindruckende SOTA-Ergebnisse in den Benchmarks.

Websuche

Nein

Kann das Modell auf relevante Informationen aus dem Web zugreifen?

Multimodalität

Nein

Kann das Modell verschiedene Medienarten verarbeiten?

Finetuning

Ja

Kann das Modell finetuned werden?

Max. Input
163,8k Token
Max. Output
32,8k Token
Trainingsdaten
14,8T
Parameter
671B
Input Preis
$0,55
Output Preis
$2,19
Vokabular
129.280
Dateigröße
404 GB

Performance

DeepSeek-R1 Benchmark Übersicht

MathematikCodingLogikWissen & Sprachverständnis

AIME 2024 Benchmark

Daten werden geladen...

Provider

Du kannst DeepSeek-R1 über die API folgender Anbieter nutzen:

Together.ai logo

Together.ai

Token (in)163,8k
Token (out)32,8k
USD/1M Input$7,00
USD/1M Output$7,00
Latency1.210ms
Throughput18,09t/s
Datenqualität

Fehler gefunden? Kontaktiere uns!

Wir legen großen Wert auf die Genauigkeit unserer Modelldaten. Falls dir Unstimmigkeiten oder veraltete Informationen auffallen, lass es uns bitte wissen. Dein Feedback hilft uns, die Qualität unserer Plattform stetig zu verbessern.

Technische Details

Architektur

Architektur-Typ
Transformer, Mixture of Experts
Input Kontextlänge
163,8k Token
Output Kontextlänge
32,8k Token
Inferenzoptimierung
Modell-Distillation
Trainingsmethode
Supervised Fine-Tuning, Reinforcement Learning

Tokenizer & Attention

Tokenizer Modell
SentencePiece
BOS Token
<|begin▁of▁sentence|>
EOS Token
<|end▁of▁sentence|>
Padding Token
Attention Heads
28
KV Heads
4
Quantisierung
fp8, bf16

Vor- & Nachteile

Vorteile

  • Open-Source

    DeepSeek-R1 wurde als Open-Source Modell mit MIT-Lizenz veröffentlicht.

  • Lokal ausführbar

    Das Modell lässt sich herunterladen und über Programme wie LM Studio oder OpenLlama lokal ausführen.

  • Viele Versionen verfügbar

    Neben dem Hauptmodell sind viele kleinere, distillierte Modelle verfügbar.

  • Reasoning-Kapazitäten

    DeepSeek-R1 ist ein Reasoning-LLM, das den vollständigen <think> Prozess ausgibt.

Nachteile

  • Modell-Bias

    Das Modell wurde nicht mit neutralen Daten trainiert und verschleiert dunkle Episoden chinesischer Geschichte.

  • Kein Datenschutz beim Chatbot

    Wer DeepSeek-R1 über die offizielle Website oder App verwendet, gibt seine Daten preis.

  • Fehlende Multimodalität

    Das Modell kann nur mit Text- und nicht mit Bild- oder Audio-Daten umgehen.

Loading model comparison data...