April 8, 2025

Was ist Generative AI? » Einführung in generative KI

Screenshot der Generative AI Applikation "Midjourney".

1. Was ist Generative AI? Ein erster Überblick

Generative AI besteht im Kern aus Algorithmen, die aus vorhandenen Daten neue, originelle Inhalte erschaffen können. Beispiele, auf die du sicherlich schon gestoßen bist, sind Text-to-Text KIs, wie ChatGPT oder Text-to-Image KIs wie Midjourney oder Stable Diffusion.

Definition von Generative AI

Generative AI (kurz GenAI) beschreibt Deep-Learning-Modelle, die hochqualitative Inhalte wie Text, Bilder, Videos, Musik oder Stimmen generieren können.

Der Output hängt von den Daten ab, mit denen die Modelle trainiert wurden. Generative KI kann z.B. aus Textdaten, Programmiercodes, Bilddateien oder Stimmaufnahmen lernen.

Aktuelle Generative AI Tools

Unter dem Begriff der generativen KI kannst du dir am besten etwas vorstellen, wenn du diese bereits einmal verwendet hast. Vielleicht sagen dir manche der folgenden Tools ja schon etwas.

Generative AI-Tools für Text

Generative AI-Tools für Bildgenerierung

Generative AI-Tools für Sprach- & Audiogenerierung

Generative AI-Tools für Videogeneration

Generative AI als Teil des KI-Ökosystems

Generative AI ist ein Teil des großen Gebietes der Künstlichen Intelligenz. Lass uns einen Blick darauf werfen, welche anderen KI-Arten es gibt und wie sich GenAI von ihnen unterscheidet.

Anders als klassische KI-Systeme, die hauptsächlich auf Analyse und Klassifikation von Daten ausgelegt sind, liegt die Stärke der Generativen KI in der Erstellung neuer Inhalte.

Einordnung der Generativen KI

KI-Art	Hauptfunktion	Beispielanwendungen
Generative KI	Erschafft neue Inhalte	Text-, Bild- oder Video-Generierung
Analytische KI	Analysiert Daten	Medizinische Diagnosen, Prognosen
Klassifikations-KI	Ordnet Daten ein	Spam-Filter, Bilderkennung
Robotik-KI	Steuert physische Systeme	Robotersteuerung, Autonomes Fahren

2. Arten von Generative AI und ihre Anwendungsbereiche

Wie du weiter oben anhand der Kategorisierung der GenAI Tools vielleicht bereits erahnt hast, gibt es verschiedene Modelle für die unterschiedlichen Anwendungsbereiche.

Text- und Sprachgeneration

Text-to-Text: Generiert Texte, wie Gedichte, Geschichten oder Lerninhalte, durch Aufforderung in Text-Form.
Text-to-Speech: Generiert eine künstliche Sprachausgabe oder ganze Lieder anhand eines Text-Prompts.
Speech-to-Text: Transkribiert aufgenommene Sprache automatisch in Text-Form und kann parallel noch inhaltliche Optimierungen oder Formatierungen vornehmen.
Speech-to-Speech: Ändert die Stimmfarbe, entfernt Akzente oder Dialekte oder übersetzt Sprache in andere Sprachen.

AABBCDCD Reim über einen segelnden Roboter, generiert vom OpenAI-o1 Modell

Die Text- und Sprachgeneration hat sich in den letzten Jahren rasant entwickelt. Neben immer besser werdenden Lage-Language-Modellen (LLMs) wie GPT, Claude oder Llama hat sich auch generative KI für Sprachausgabe stark verbessert.

Neue Modelle weisen eine immer niedrigere Latenz bei der Generierung auf, was dazu führt, dass sich heute ganz anders mit Sprachmodellen arbeiten lässt, als noch zu Zeiten von Alexa oder Siri.

Inzwischen ist es keine Science Fiction mehr, dass man über natürliche Sprache einen Computer steuern und diesem Fragen stellen kann.

Anwendungsbeispiele für Text- und Sprach-KIs

Schreibassistenten (Journalisten, Autoren, Content Creators)
Programmierung (Coding-Agenten, Auto-Vervollständigung, Testing etc.)
Komponieren (Demotapes, Arrangements, Sound-Effekte etc.)
Transkribieren (Interviews, Meeting-Notizen etc.)
Wissenschaftliche Forschung (Research-Zusammenfassungen, Datenverarbeitung etc.)

Bild- und Videogeneration

Text-to-Image: Generiert Bilder anhand von Textbeschreibungen.
Image-to-Image: Transformiert bestehende Bilder in andere Stile oder entfernt / baut neue Elemente ein.
Image-to-Text: Beschreibt Bildinhalte in Textform, z.B. für Bildunterschriften
Text-to-Video: Erstellt (kurze) Videos anhand von Skripten oder Textvorgaben
Text-to-3D: Erstellt einfache 3D-Modelle anhand von Textbeschreibungen
Image-to-3D: Rekonstruiert 3D-Geometrie anhand von 2D-Bildmaterial

Moderne Bildgenerierungs-KIs können innerhalb weniger Sekunden Kunstwerke schaffen, für die es vor wenigen Jahren noch Stunden an fähiger Arbeit benötigt hätte. Bild-KIs wie Midjourney, DALL-E oder Flux (aus dem Schwarzwald), werden immer besser, indem sie anfängliche Probleme bei der Darstellung von Händen und Fingern oder die Konsistenz von Charakteren (Identity Consistency Problem) stetig verbessern.

Screenshot der Midjourney Exploration Page mit Text-to-Image Beispielen — Die Exploration-Page vom Text-to-Image Tool Midjourney

Mit Runway und Sora wurden in der Zwischenzeit die ersten Video-Modelle entwickelt, mit denen kurze, zusammenhängende Videosequenzen durch Text-Prompts generiert werden können. Da Videogenerations-AIs hohe Ressourcen an Rechenleistung benötigen, ist davon auszugehen, dass in der Zukunft noch großer Spielraum für bessere Modelle vorhanden ist.

Runway Gen-4 Text-to-Video Modell

Durch das Abspielen akzeptieren Sie die Datenschutzerklärung von YouTube

Mehr erfahren

Video-Ausschnitte, die über das Text-to-Image Modell "Gen-4" von Runway generiert wurden.

Viel Potential steckt auch in generativen Modellen, die anhand von Text oder Bildern 3D-Modelle erstellen können. Diese Modelle können vor allem für Gaming und Unterhaltungsfilme, aber auch für Architekten oder im E-Commerce produktiv verwendet werden.

Ansichten eines 3D-Modells eines Dinosauriers, das von den Modellen Zero123-XL und Stable Zero123 generiert wurde. — Text-to-3D und Image-to-3D Modelle könnten schon bald in Produktionsumgebungen eingesetzt werden.

Anwendungsbeispiele für Bild- und Video-KIs

Kunst & Kultur (Kreative Kunstwerke, Rekonstruktion in der Archäologie, Analyse von Maltechniken etc.)
Game-Design (Texturen, 3D-Modelle, Landschaften etc.)
Unterhaltungsbranche (Spielfilmsequenzen, Spezialeffekte etc.)
Architektur (Explorationen, Beschleunigung von Prozessen)
E-Commerce (Aufbereitung von Produktvisualisierungen, Werbung etc.)

3. Technische Grundlagen von Generative AI

Du hast nun hoffentlich einen guten Überblick über die verschiedenen Arten von Generativer KI und ihren Anwendungsbereichen. Vielleicht hast du dir auch bereits die Frage gestellt, wie diese Modelle dazu in der Lage sind, Outputs zu generieren, die teilweise nicht von menschengemachten Inhalten zu unterscheiden sind.

Im folgenden Abschnitt schauen wir uns die technischen Grundlagen von Generative AI einmal genauer an.

Techniken und Architektur generativer KI-Modelle

Generative AI-Modelle sind Systeme, die über maschinelles Lernen trainiert werden. Das bedeutet, dass riesige Datenmengen Algorithmen durchlaufen, anhand derer die Modelle Zusammenhänge zwischen den Daten herstellen, also "lernen" können.

Viele Generative AI-Modelle werden über Unsupervised Learning trainiert. Das bedeutet, dass die Modelle mit rohen, unstrukturierten Daten trainiert werden. Der Vorteil dieser Lernmethode ist, dass zuvor keine Resourcen benötigt werden, über die die Daten gelabelt und in ein strukturiertes Format gebracht werden müssen, wie es bspw. beim Überwachten Lernen der Fall ist.

Generative AI Frameworks

Transformer: Basis moderner Sprachmodelle mit Attention-Mechanismen
General Adversarial Networks (GANs): Zwei Neuronale Netzwerke, die sich gegenseitig trainieren
Diffusion: Schrittweise Verfeinerung des Outputs durch Reduzierung von Noise
Variational Autoencoder: Generatives Modell, das eine latente Verteilung lernt und so in der Lage ist, Variationen komplexer Daten (z.B. Bilder) realistisch zu erzeugen

4. Chancen und Risiken von Generativer KI

Noch lässt sich das Potential und die Auswirkung, die Generative AI auf unser Leben haben wird, nur erahnen. Doch mit Chancen kommen auch Risiken einher. Die möglichen Vorteile und Nachteile von generativer KI haben wir in der folgenden Liste gesammelt:

Chancen durch Generative AI

Massive Produktivitätssteigerungen durch Automatisierung und Optimierung von Arbeitsprozessen möglich
Demokratisierung von Expertenwissen
Personalisierte Bildung / individualisierte Lernmöglichkeiten für den Bildungssektor
Überwindung von Sprachbarrieren durch Echtzeitübersetzungen
Entstehung neuer Berufsfelder

Risiken von Generative AI

Gefahr von Desinformationen und Manipulation durch KI-Bots auf Social Media oder Deep-Fakes
Datenschutz- und Sicherheitsbedenken
Rechtliche Ungewissheit bei Urheberrecht
Gesellschaftliche Aufgabe, mögliche Jobverluste aufzufangen
Potenzielle Verstärkung sozialer Ungleichheit

Generative künstliche Intelligenz erfährt aktuell ein exponentielles Wachstum und entwickelt sich rasant. Schon heute ist klar, dass die Technologie das Potential hat, unsere Gesellschaft nachhaltig zu verändern.

Im nächsten Abschnitt werfen wir abschließend noch einen Blick auf die Themen und Entwicklungen, die wir in den kommenden Jahren erwarten können.

5. Ein Blick in die Zukunft: Weiterentwicklung von Generativer KI

Wer die technischen Entwicklungen von KI-Systemen verfolgt, der weiß, wie schnell in den letzten Jahren neue Durchbrüche erzielt wurden.

Für das Jahr 2025 sehe ich hauptsächlich folgende Trends für Generative KI-Systeme:

KI-Agenten

Autonome KI-Systeme, die komplexe Aufgabenketten selbstständig ausführen

Multimodale Modelle

Integration von Text, Bild, Audio und Video in einem System

Lokale Modelle

Leistungsstarke KI direkt auf deinem Gerät

Video-KI

Fortschritte in der KI-gestützten Videogenerierung

KI-Agenten: Produktive & autonome KI-Systeme

Ich gehe davon aus, dass 2025 die ersten produktiven KI-Agenten veröffentlicht werden. Diese werden eigenständig Aufgabenketten abarbeiten können und ohne menschliches Eingreifen zu produktiven Ergebnissen gelangen.

Katalysator für diese Modelle werden u.a. Effizienzgewinne im Training sowie günstigere Tokenpreise sein.

Multimodale Modelle sind im Kommen

Die nächste Generation von KI-Modellen wird verschiedene Modalitäten nahtlos integrieren. Ein einzelnes Modell wird Text, Bilder, Audio und Video gleichzeitig verstehen und generieren können. Einen guten Prototyp hierfür hat Anthropic bereits mit "Computer Use" geliefert.

Lokale Modelle - Verbesserte Privatsphäre

Der Trend zu lokalen KI-Modellen wird sich immer mehr verstärken. Lokale Modelle sind kleiner und effizienter, können aber direkt auf deinem Gerät laufen – ohne Internetverbindung und mit maximaler Privatsphäre.

Inzwischen lassen sich auf neueren Smartphone-Modellen sogar bereits leistungsstarke Small-Language-Modelle wie Ministral-8B-Instruct, Qwen2.5-7B oder Llama-3.2-8B betreiben. Verwenden lassen sich diese Modelle über Apps wie z.B. Apollo AI.

Fortschritt in der Videogenerierung

Die Entwicklung im Bereich der Video-KI wird in diesem Jahr aller Voraussicht nach weiter stark vorangetrieben. Längere Sequenzen und besseres Verständnis von Physik durch leistungsfähigeres Training wird dazu führen, dass wir schon bald KI-generierte Video-Inhalte auf der Kino-Leinwand bewundern dürfen.

Christian Musanke

Gründer

Christian begeistert sich für Machine Learning und testet mit Leidenschaft die neuesten AI-Tools.

Christian Musanke

AI Newsletter

KI-Updates & Insights
Exklusive Praxis-Tipps
Kostenlos & jederzeit kündbar

Newsletteranmeldung

Was ist Generative AI? » Einführung in generative KI

1. Was ist Generative AI? Ein erster Überblick

Definition von Generative AI

Aktuelle Generative AI Tools

Generative AI-Tools für Text

Generative AI-Tools für Bildgenerierung

Generative AI-Tools für Sprach- & Audiogenerierung

Generative AI-Tools für Videogeneration

Generative AI als Teil des KI-Ökosystems

Einordnung der Generativen KI

2. Arten von Generative AI und ihre Anwendungsbereiche

Text- und Sprachgeneration

Anwendungsbeispiele für Text- und Sprach-KIs

Bild- und Videogeneration

Runway Gen-4 Text-to-Video Modell

Anwendungsbeispiele für Bild- und Video-KIs

3. Technische Grundlagen von Generative AI

Techniken und Architektur generativer KI-Modelle

Generative AI Frameworks

Transformer-basierte Modelle

GAN-Modelle

Diffusion Modelle

VAE-Modelle

4. Chancen und Risiken von Generativer KI

Chancen durch Generative AI

Risiken von Generative AI

5. Ein Blick in die Zukunft: Weiterentwicklung von Generativer KI

KI-Agenten

Multimodale Modelle

Lokale Modelle

Video-KI

KI-Agenten: Produktive & autonome KI-Systeme

Multimodale Modelle sind im Kommen

Lokale Modelle - Verbesserte Privatsphäre

Fortschritt in der Videogenerierung

Christian Musanke

AI Newsletter