Ein Diffusionsmodell ist ein spezieller Typ von KI-Modell, der hauptsächlich zur Generierung von Bildern, Audio oder anderen Medien verwendet wird. Bekannt wurden Diffusionsmodelle vor allem durch KI-Bildgeneratoren wie Stable Diffusion, Midjourney, DALL·E oder Flux. Sie gelten heute als eine der wichtigsten Technologien im Bereich generativer KI.
Das Grundprinzip eines Diffusionsmodells basiert darauf, dass ein Bild zunächst künstlich mit Rauschen „zerstört“ wird. Die KI lernt anschließend Schritt für Schritt, dieses Rauschen wieder zu entfernen und daraus ein sinnvolles Bild zu rekonstruieren. Während des Trainings analysiert das Modell Millionen von Bildern und erkennt Muster, Formen, Farben, Lichtstimmungen und Zusammenhänge zwischen Text und Bild.
Bei der eigentlichen Bildgenerierung startet das Modell meist mit reinem Zufallsrauschen. Anhand eines Prompts – also einer Texteingabe wie „cinematic jungle warrior at sunset“ – erzeugt das Modell daraus schrittweise ein vollständiges Bild. Dieser Prozess läuft in vielen kleinen Berechnungsschritten ab und erzeugt oft sehr detailreiche Ergebnisse.
Diffusionsmodelle sind besonders leistungsfähig bei fotorealistischen Bildern, kreativen Illustrationen und Stilübertragungen. Sie ermöglichen außerdem Funktionen wie Inpainting (gezieltes Ersetzen von Bildbereichen), Outpainting (Erweitern eines Bildes), Upscaling oder Bild-zu-Bild-Transformationen.
Im Vergleich zu älteren KI-Verfahren liefern Diffusionsmodelle meist deutlich hochwertigere und konsistentere Ergebnisse. Allerdings benötigen sie hohe Rechenleistung und große Trainingsdatenmengen. Deshalb werden viele moderne Modelle über Cloud-Infrastrukturen betrieben oder auf spezialisierten GPUs ausgeführt.