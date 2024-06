In bekannten Text-zu-Bild-Generatoren wie Midjourney steckt generative Künstliche Intelligenz (KI) made in Germany: Das Modell heißt Stable Diffusion und stammt aus München. Entwickelt hat es der Informatik-Professor Björn Ommer mit seinem Team an der Ludwig-Maximilians-Universität. Im Gegensatz zu den Technologiekonzernen machen die Wissenschaftler kein Geheimnis aus dem Quellcode ihrer KI, sondern stellen das Modell per Open-Source-Lizenz allgemein zur Verfügung.

impulse: Wie lernt eine Künstliche Intelligenz, realistisch aussehende Bilder zu generieren?

Björn Ommer: Was wir trainiert haben, ist ein sogenanntes ­Diffusionsmodell. Das Vorgehen dabei kann man sich so vorstellen: Sie nehmen ein einzelnes Foto und addieren auf das Bild im ersten Schritt Rauschen, also eine Bildstörung. Nur so wenig, dass ein Mensch dieses Rauschen kaum sehen kann. Diesen Schritt wiederholen Sie jedoch Tausende Male. Das Endergebnis sieht so aus wie das Schneegestöber auf einem Fernseher, bei dem jemand das Antennenkabel gezogen hat. Das ­ursprüngliche Bild ist nicht mehr zu erkennen.

Was bringt das?

Dieses verrauschte Bild zeigen wir der KI. Dann nehmen wir das Rauschen Schritt für Schritt ­wieder weg. Am Ende ist das Bildmotiv wieder zu erkennen. Die KI lernt durch den Entrauschungsprozess, stückweise Bildinhalte zu ergänzen – bis sie ganze Szenen generieren kann. Besonders ist jedoch: Wir haben uns von Anfang an vorgenommen, dass unser Modell auf einem normalen Computer laufen soll.

Der Experte Der Informatik-Professor Björn Ommer, 44, forscht und lehrt an der LMU München. Er hat sich darauf spezialisiert, Künstlicher Intelligenz das Sehen beizubringen. Aktuell arbeitet seine Forschungsgruppe unter anderem an Video-KIs.

Warum ist Ihnen das wichtig?

Ein Problem generativer KI ist, dass sowohl das Training als auch die Anwendung der Modelle sehr viel Rechenkapazität brauchen. Damit eine KI sinnvolle Aussagen über unsere Welt machen kann, muss sie Milliarden von Bildern sehen. Also viele, viele Terabyte Daten. Eine ­Infrastruktur zu betreiben, auf der entsprechend riesige Modelle laufen, können sich nur große Firmen leisten. Unser Ziel war, generative KI durch eine Steigerung ihrer Effizienz zu demokratisieren. Inzwischen läuft unser Modell sogar auf ­einem Mobiltelefon.