Was ist Generative AI? » Einführung in generative KI

1. Was ist Generative AI? Ein erster Überblick
Generative AI besteht im Kern aus Algorithmen, die aus vorhandenen Daten neue, originelle Inhalte erschaffen können. Beispiele, auf die du sicherlich schon gestoßen bist, sind Text-to-Text KIs, wie ChatGPT oder Text-to-Image KIs wie Midjourney oder Stable Diffusion.
Definition von Generative AI
Generative AI (kurz GenAI) beschreibt Deep-Learning-Modelle, die hochqualitative Inhalte wie Text, Bilder, Videos, Musik oder Stimmen generieren können.
Der Output hängt von den Daten ab, mit denen die Modelle trainiert wurden. Generative KI kann z.B. aus Textdaten, Programmiercodes, Bilddateien oder Stimmaufnahmen lernen.
Aktuelle Generative AI Tools
Unter dem Begriff der generativen KI kannst du dir am besten etwas vorstellen, wenn du diese bereits einmal verwendet hast. Vielleicht sagen dir manche der folgenden Tools ja schon etwas.
Generative AI-Tools für Text
Generative AI-Tools für Bildgenerierung
Generative AI-Tools für Sprach- & Audiogenerierung
Generative AI-Tools für Videogeneration
Generative AI als Teil des KI-Ökosystems
Generative AI ist ein Teil des großen Gebietes der Künstlichen Intelligenz. Lass uns einen Blick darauf werfen, welche anderen KI-Arten es gibt und wie sich GenAI von ihnen unterscheidet.
Anders als klassische KI-Systeme, die hauptsächlich auf Analyse und Klassifikation von Daten ausgelegt sind, liegt die Stärke der Generativen KI in der Erstellung neuer Inhalte.
Einordnung der Generativen KI
KI-Art | Hauptfunktion | Beispielanwendungen |
---|---|---|
Generative KI | Erschafft neue Inhalte | Text-, Bild- oder Video-Generierung |
Analytische KI | Analysiert Daten | Medizinische Diagnosen, Prognosen |
Klassifikations-KI | Ordnet Daten ein | Spam-Filter, Bilderkennung |
Robotik-KI | Steuert physische Systeme | Robotersteuerung, Autonomes Fahren |
2. Arten von Generative AI und ihre Anwendungsbereiche
Wie du weiter oben anhand der Kategorisierung der GenAI Tools vielleicht bereits erahnt hast, gibt es verschiedene Modelle für die unterschiedlichen Anwendungsbereiche.
Text- und Sprachgeneration
- Text-to-Text: Generiert Texte, wie Gedichte, Geschichten oder Lerninhalte, durch Aufforderung in Text-Form.
- Text-to-Speech: Generiert eine künstliche Sprachausgabe oder ganze Lieder anhand eines Text-Prompts.
- Speech-to-Text: Transkribiert aufgenommene Sprache automatisch in Text-Form und kann parallel noch inhaltliche Optimierungen oder Formatierungen vornehmen.
- Speech-to-Speech: Ändert die Stimmfarbe, entfernt Akzente oder Dialekte oder übersetzt Sprache in andere Sprachen.

Die Text- und Sprachgeneration hat sich in den letzten Jahren rasant entwickelt. Neben immer besser werdenden Lage-Language-Modellen (LLMs) wie GPT, Claude oder Llama hat sich auch generative KI für Sprachausgabe stark verbessert.
Neue Modelle weisen eine immer niedrigere Latenz bei der Generierung auf, was dazu führt, dass sich heute ganz anders mit Sprachmodellen arbeiten lässt, als noch zu Zeiten von Alexa oder Siri.
Inzwischen ist es keine Science Fiction mehr, dass man über natürliche Sprache einen Computer steuern und diesem Fragen stellen kann.
Anwendungsbeispiele für Text- und Sprach-KIs
- Schreibassistenten (Journalisten, Autoren, Content Creators)
- Programmierung (Coding-Agenten, Auto-Vervollständigung, Testing etc.)
- Komponieren (Demotapes, Arrangements, Sound-Effekte etc.)
- Transkribieren (Interviews, Meeting-Notizen etc.)
- Wissenschaftliche Forschung (Research-Zusammenfassungen, Datenverarbeitung etc.)
Bild- und Videogeneration
- Text-to-Image: Generiert Bilder anhand von Textbeschreibungen.
- Image-to-Image: Transformiert bestehende Bilder in andere Stile oder entfernt / baut neue Elemente ein.
- Image-to-Text: Beschreibt Bildinhalte in Textform, z.B. für Bildunterschriften
- Text-to-Video: Erstellt (kurze) Videos anhand von Skripten oder Textvorgaben
- Text-to-3D: Erstellt einfache 3D-Modelle anhand von Textbeschreibungen
- Image-to-3D: Rekonstruiert 3D-Geometrie anhand von 2D-Bildmaterial
Moderne Bildgenerierungs-KIs können innerhalb weniger Sekunden Kunstwerke schaffen, für die es vor wenigen Jahren noch Stunden an fähiger Arbeit benötigt hätte. Bild-KIs wie Midjourney, DALL-E oder Flux (aus dem Schwarzwald), werden immer besser, indem sie anfängliche Probleme bei der Darstellung von Händen und Fingern oder die Konsistenz von Charakteren (Identity Consistency Problem) stetig verbessern.

Mit Runway und Sora wurden in der Zwischenzeit die ersten Video-Modelle entwickelt, mit denen kurze, zusammenhängende Videosequenzen durch Text-Prompts generiert werden können. Da Videogenerations-AIs hohe Ressourcen an Rechenleistung benötigen, ist davon auszugehen, dass in der Zukunft noch großer Spielraum für bessere Modelle vorhanden ist.
Runway Gen-4 Text-to-Video Modell
Durch das Abspielen akzeptieren Sie die Datenschutzerklärung von YouTube
Video-Ausschnitte, die über das Text-to-Image Modell "Gen-4" von Runway generiert wurden.
Viel Potential steckt auch in generativen Modellen, die anhand von Text oder Bildern 3D-Modelle erstellen können. Diese Modelle können vor allem für Gaming und Unterhaltungsfilme, aber auch für Architekten oder im E-Commerce produktiv verwendet werden.

Anwendungsbeispiele für Bild- und Video-KIs
- Kunst & Kultur (Kreative Kunstwerke, Rekonstruktion in der Archäologie, Analyse von Maltechniken etc.)
- Game-Design (Texturen, 3D-Modelle, Landschaften etc.)
- Unterhaltungsbranche (Spielfilmsequenzen, Spezialeffekte etc.)
- Architektur (Explorationen, Beschleunigung von Prozessen)
- E-Commerce (Aufbereitung von Produktvisualisierungen, Werbung etc.)
3. Technische Grundlagen von Generative AI
Du hast nun hoffentlich einen guten Überblick über die verschiedenen Arten von Generativer KI und ihren Anwendungsbereichen. Vielleicht hast du dir auch bereits die Frage gestellt, wie diese Modelle dazu in der Lage sind, Outputs zu generieren, die teilweise nicht von menschengemachten Inhalten zu unterscheiden sind.
Im folgenden Abschnitt schauen wir uns die technischen Grundlagen von Generative AI einmal genauer an.
Techniken und Architektur generativer KI-Modelle
Generative AI-Modelle sind Systeme, die über maschinelles Lernen trainiert werden. Das bedeutet, dass riesige Datenmengen Algorithmen durchlaufen, anhand derer die Modelle Zusammenhänge zwischen den Daten herstellen, also "lernen" können.
Viele Generative AI-Modelle werden über Unsupervised Learning trainiert. Das bedeutet, dass die Modelle mit rohen, unstrukturierten Daten trainiert werden. Der Vorteil dieser Lernmethode ist, dass zuvor keine Resourcen benötigt werden, über die die Daten gelabelt und in ein strukturiertes Format gebracht werden müssen, wie es bspw. beim Überwachten Lernen der Fall ist.
Generative AI Frameworks
- Transformer: Basis moderner Sprachmodelle mit Attention-Mechanismen
- General Adversarial Networks (GANs): Zwei Neuronale Netzwerke, die sich gegenseitig trainieren
- Diffusion: Schrittweise Verfeinerung des Outputs durch Reduzierung von Noise
- Variational Autoencoder: Generatives Modell, das eine latente Verteilung lernt und so in der Lage ist, Variationen komplexer Daten (z.B. Bilder) realistisch zu erzeugen
4. Chancen und Risiken von Generativer KI
Noch lässt sich das Potential und die Auswirkung, die Generative AI auf unser Leben haben wird, nur erahnen. Doch mit Chancen kommen auch Risiken einher. Die möglichen Vorteile und Nachteile von generativer KI haben wir in der folgenden Liste gesammelt:
Chancen durch Generative AI
- Massive Produktivitätssteigerungen durch Automatisierung und Optimierung von Arbeitsprozessen möglich
- Demokratisierung von Expertenwissen
- Personalisierte Bildung / individualisierte Lernmöglichkeiten für den Bildungssektor
- Überwindung von Sprachbarrieren durch Echtzeitübersetzungen
- Entstehung neuer Berufsfelder
Risiken von Generative AI
- Gefahr von Desinformationen und Manipulation durch KI-Bots auf Social Media oder Deep-Fakes
- Datenschutz- und Sicherheitsbedenken
- Rechtliche Ungewissheit bei Urheberrecht
- Gesellschaftliche Aufgabe, mögliche Jobverluste aufzufangen
- Potenzielle Verstärkung sozialer Ungleichheit
Generative künstliche Intelligenz erfährt aktuell ein exponentielles Wachstum und entwickelt sich rasant. Schon heute ist klar, dass die Technologie das Potential hat, unsere Gesellschaft nachhaltig zu verändern.
Im nächsten Abschnitt werfen wir abschließend noch einen Blick auf die Themen und Entwicklungen, die wir in den kommenden Jahren erwarten können.
5. Ein Blick in die Zukunft: Weiterentwicklung von Generativer KI
Wer die technischen Entwicklungen von KI-Systemen verfolgt, der weiß, wie schnell in den letzten Jahren neue Durchbrüche erzielt wurden.
Für das Jahr 2025 sehe ich hauptsächlich folgende Trends für Generative KI-Systeme:
KI-Agenten
Autonome KI-Systeme, die komplexe Aufgabenketten selbstständig ausführen
Multimodale Modelle
Integration von Text, Bild, Audio und Video in einem System
Lokale Modelle
Leistungsstarke KI direkt auf deinem Gerät
Video-KI
Fortschritte in der KI-gestützten Videogenerierung
KI-Agenten: Produktive & autonome KI-Systeme
Ich gehe davon aus, dass 2025 die ersten produktiven KI-Agenten veröffentlicht werden. Diese werden eigenständig Aufgabenketten abarbeiten können und ohne menschliches Eingreifen zu produktiven Ergebnissen gelangen.
Katalysator für diese Modelle werden u.a. Effizienzgewinne im Training sowie günstigere Tokenpreise sein.
Multimodale Modelle sind im Kommen
Die nächste Generation von KI-Modellen wird verschiedene Modalitäten nahtlos integrieren. Ein einzelnes Modell wird Text, Bilder, Audio und Video gleichzeitig verstehen und generieren können. Einen guten Prototyp hierfür hat Anthropic bereits mit "Computer Use" geliefert.
Lokale Modelle - Verbesserte Privatsphäre
Der Trend zu lokalen KI-Modellen wird sich immer mehr verstärken. Lokale Modelle sind kleiner und effizienter, können aber direkt auf deinem Gerät laufen – ohne Internetverbindung und mit maximaler Privatsphäre.
Inzwischen lassen sich auf neueren Smartphone-Modellen sogar bereits leistungsstarke Small-Language-Modelle wie Ministral-8B-Instruct, Qwen2.5-7B oder Llama-3.2-8B betreiben. Verwenden lassen sich diese Modelle über Apps wie z.B. Apollo AI.
Fortschritt in der Videogenerierung
Die Entwicklung im Bereich der Video-KI wird in diesem Jahr aller Voraussicht nach weiter stark vorangetrieben. Längere Sequenzen und besseres Verständnis von Physik durch leistungsfähigeres Training wird dazu führen, dass wir schon bald KI-generierte Video-Inhalte auf der Kino-Leinwand bewundern dürfen.