DeepSeek-R1Deepseek

Neu • MIT-License

Zum Modell

Release Date

Januar 2025

Knowledge Cutoff

Oktober 2023

Parameter

671B

Modellfamilie

DeepSeek R1

Übersicht

DeepSeek-R1 ist das erste Reasoning-Modell, das auf Basis von DeepSeek-V3 entwickelt wurde. Neben Reinforcement Learning verwendet es Chain-of-Thought Mechanismen und liefert beeindruckende SOTA-Ergebnisse in den Benchmarks.

Model Weights

Research Paper

API Referenz

Websuche

Nein

Kann das Modell auf relevante Informationen aus dem Web zugreifen?

Multimodalität

Nein

Kann das Modell verschiedene Medienarten verarbeiten?

Finetuning

Kann das Modell finetuned werden?

Max. Input

163,8k Token

Max. Output

32,8k Token

Trainingsdaten

14,8T

Parameter

671B

Input Preis

$0,55

Output Preis

$2,19

Vokabular

129.280

Dateigröße

404 GB

Performance

DeepSeek-R1 Benchmark Übersicht

AIME 2024 Benchmark

Daten werden geladen...

Provider

Du kannst DeepSeek-R1 über die API folgender Anbieter nutzen:

Together.ai

Token (in)163,8k

Token (out)32,8k

USD/1M Input$7,00

USD/1M Output$7,00

Latency1.210ms

Throughput18,09t/s

Zu Together.ai

Datenqualität

Fehler gefunden? Kontaktiere uns!

Wir legen großen Wert auf die Genauigkeit unserer Modelldaten. Falls dir Unstimmigkeiten oder veraltete Informationen auffallen, lass es uns bitte wissen. Dein Feedback hilft uns, die Qualität unserer Plattform stetig zu verbessern.

Feedback senden

Technische Details

Architektur

Architektur-Typ	Transformer, Mixture of Experts
Input Kontextlänge	163,8k Token
Output Kontextlänge	32,8k Token
Inferenzoptimierung	Modell-Distillation
Trainingsmethode	Supervised Fine-Tuning, Reinforcement Learning

Tokenizer & Attention

Tokenizer Modell	SentencePiece
BOS Token	<｜begin▁of▁sentence｜>
EOS Token	<｜end▁of▁sentence｜>
Padding Token
Attention Heads	28
KV Heads	4
Quantisierung	fp8, bf16

Vor- & Nachteile

Vorteile

Open-Source
DeepSeek-R1 wurde als Open-Source Modell mit MIT-Lizenz veröffentlicht.
Lokal ausführbar
Das Modell lässt sich herunterladen und über Programme wie LM Studio oder OpenLlama lokal ausführen.
Viele Versionen verfügbar
Neben dem Hauptmodell sind viele kleinere, distillierte Modelle verfügbar.
Reasoning-Kapazitäten
DeepSeek-R1 ist ein Reasoning-LLM, das den vollständigen <think> Prozess ausgibt.

Nachteile

Modell-Bias
Das Modell wurde nicht mit neutralen Daten trainiert und verschleiert dunkle Episoden chinesischer Geschichte.
Kein Datenschutz beim Chatbot
Wer DeepSeek-R1 über die offizielle Website oder App verwendet, gibt seine Daten preis.
Fehlende Multimodalität
Das Modell kann nur mit Text- und nicht mit Bild- oder Audio-Daten umgehen.

Loading model comparison data...