In den USA haben Kreative eine Klage gegen Stable Diffusion eingereicht, weil das AI-Tool die Rechte von Künstlern verletzte.
Stable Diffusion gehört bekanntlich zu einer neuen Kategorie von KI-Systemen, die generative KI genannt wird. Diese Systeme werden auf Basis vorhandener Werke – zum Beispiel von Fotografien – trainiert und mischen diese Werke dann neu, um Werke der gleichen Art abzuleiten beziehungsweise zu „generieren“.
Der Schriftsteller, Designer, Programmierer und Anwalt Matthew Butterick kooperiert seit November 2022 mit den auf Sammelklagen spezialisierten Anwälten der Anwaltskanzlei Joseph Saveri.
Matthew Butterick: „Seitdem haben wir von Kreativen auf der ganzen Welt gehört, die sich Sorgen darüber machen, dass KI-Systeme mit riesigen Mengen urheberrechtlich geschützter Werke trainiert werden, ohne dass eine Zustimmung, eine Urhebernennung oder eine Entschädigung erfolgt.“ Sein Ziel: KI für alle fair und ethisch zu gestalten.
Im Namen der drei Künstler Sarah Andersen, Kelly McKernan und Karla Ortiz haben die Anwälte eine Sammelklage gegen Stability AI, DeviantArt und Midjourney wegen der Verwendung von Stable Diffusion eingereicht, ein Tool, das die urheberrechtlich geschützten Werke von Millionen von Künstlern als Trainingsdaten für AI Systeme verwendet.
„Stable Diffusion ist eine Software für künstliche Intelligenz (KI), die im August 2022 von der Firma Stability AI veröffentlicht wurde und unautorisierte Kopien von Millionen – möglicherweise Milliarden – urheberrechtlich geschützter Bilder nutzt“, so Matthew Butterick. „Diese Kopien wurden ohne das Wissen oder die Zustimmung der Künstler erstellt. Selbst wenn man von einem nominalen Schadenersatz von einem Dollar pro Bild ausgeht, würde sich der Wert dieser widerrechtlichen Aneignung auf etwa fünf Milliarden Dollar belaufen. Zum Vergleich: Der größte Kunstraub aller Zeiten war der Diebstahl von 13 Kunstwerken aus dem Isabella Stewart Gardner Museum im Jahr 1990 mit einem geschätzten Wert von 500 Millionen Dollar“, so der Anwalt.
„Stable Diffusion stützt sich auf einen mathematischen Prozess namens Diffusion, um komprimierte Kopien der Trainingsbilder zu speichern, die wiederum neu kombiniert werden, um so andere Bilder abzuleiten. Kurz gesagt handelt es sich um ein Collage-Tool des 21. Jahrhunderts. Die daraus resultierenden Bilder können den Trainingsbildern äußerlich ähneln, müssen es aber nicht. Nichtsdestotrotz sind sie von Kopien der Trainingsbilder abgeleitet und konkurrieren mit diesen auf dem Markt. Zumindest wird die Fähigkeit von Stable Diffusion, den Markt mit einer praktisch unbegrenzten Anzahl von rechtsverletzenden Bildern zu überschwemmen, dem Markt für Kunst und Künstler dauerhaften Schaden zufügen“, so die Begründung der Klage.
Matthew Butterick: „Selbst der CEO von Stability AI, Emad Mostaque, hat prognostiziert, dass „künftige KI-Modelle vollständig lizenziert sein werden“. Aber Stable Diffusion ist es nicht. Es ist ein Parasit, der, wenn er sich weiter ausbreiten darf, den Künstlern jetzt und in Zukunft irreparablen Schaden zufügen wird.“
Die Technologie
Die Diffusionstechnik wurde 2015 von KI-Forschern an der Stanford University erfunden. Die erste Phase der Diffusion besteht darin, einem Bild (oder andere Daten) in einer Reihe von Schritten immer mehr visuelles Rauschen hinzuzufügen. Bei jedem Schritt zeichnet die KI auf, wie sich das Bild verändert, bis es in ein zufälliges Rauschen „diffundiert“.
Die zweite Phase verläuft wie die erste, nur in umgekehrter Reihenfolge. Nachdem die KI die Schritte aufgezeichnet hat, die ein bestimmtes Bild in Rauschen verwandeln, kann sie diese Schritte rückwärts ablaufen lassen. Durch Entfernen des Rauschens (oder „Entrauschen“) der Daten erzeugt die KI eine Kopie des Originalbildes.
Im Jahr 2020 wurde die Diffusionstechnik von Forschern der Universität Berkeley in zweierlei Hinsicht verbessert: Sie zeigten, wie ein Diffusionsmodell seine Trainingsbilder in einem komprimierteren Format speichern kann, ohne seine Fähigkeit zu beeinträchtigen, originalgetreue Kopien zu rekonstruieren. Diese komprimierten Kopien der Trainingsbilder werden als latente Bilder bezeichnet. Die Forscher fanden heraus, dass diese latenten Bilder interpoliert, das heißt mathematisch überlagert werden können, um neue Bilder abzuleiten beziehungsweise zu erzeugen.
„Kurz gesagt, die Diffusion ist eine Möglichkeit für ein KI-Programm, herauszufinden, wie es eine Kopie der Trainingsdaten durch Rauschunterdrückung rekonstruieren kann. Da dies so ist, unterscheidet es sich urheberrechtlich nicht von einer MP3- oder JPEG-Datei, denn letztlich sind beide eine Möglichkeit, eine komprimierte Kopie bestimmter digitaler Daten zu speichern“, so Butterick.
Stable Diffusion
Stable Diffusion konvertiert Trainingsbilder in latente Bilder unter Verwendung eines Variational Autoencoders (oder VAE). Mathematisch gesehen werden die von einem Autoencoder erzeugten latenten Bilder als Punkte in einem mehrdimensionalen geometrischen Raum, dem sogenannten latenten Raum, modelliert. Die Forscher der Universität Berkeley stellten auch die Idee vor, Diffusion mit einem KI-Modell zu erzeugen, das von Biomedizin-Forschern in Freiburg zum Zweck der Bildsegmentierung beziehungsweise der Erkennung von Gruppen visuell zusammengehöriger Pixel entwickelt wurde. Dabei wendet die Technolgie eine Reihe von Komprimierungen und Dekomprimierungen auf das Bild an.
Im Jahr 2022 schließlich fanden Forscher in München heraus, wie man den Entrauschungsprozess mit zusätzlichen Informationen optimieren kann. Dieser Prozess wird Konditionierung genannt. Einer dieser Forscher, Robin Rombach, ist heute bei Stability AI als Entwickler von Stable Diffusion tätig.
Das gebräuchlichste Mittel zur Konditionierung sind kurze Texte, die Elemente des Bildes beschreiben, zum Beispiel „ein Hund, der eine Baseballmütze trägt und Eis isst“. Daraus ergab sich die Umwandlung einer Textaufforderung durch Stable Diffusion und anderen KI-Bildgeneratoren in ein Bild.
Die Text-Eingabeaufforderung dient jedoch noch einem anderen Zweck. Sie erschwert es den Benutzern, offensichtliche Kopien der Trainingsbilder zu erzeugen. Matthew Butterick: „Da jedoch alle visuellen Informationen im System von den urheberrechtlich geschützten Trainingsbildern abgeleitet sind, handelt es sich bei den produzierten Bildern – unabhängig von ihrem äußeren Erscheinungsbild – zwangsläufig um Werke, die von diesen Trainingsbildern abgeleitet sind.“
LAION
In Stable Diffusion werden die oben Technologien als drei separate KI-Modelle implementiert, die zusammenarbeiten. Entwickler von Stable Diffusion ist Stability AI. Trainiert wurde Stable Diffusion anhand des LAION- Bilddatensatzes, der von der gleichnamigen, deutschen Organisation zur Verwendung durch KI-Entwickler ohne Zustimmung oder Entschädigung der Urheber erstellt wurde. Stability AI hat außerdem DreamStudio veröffentlicht, eine kostenpflichtige Anwendung, die Stable Diffusion in einer Weboberfläche zusammenfasst.
Matthew Butterick: „Tausende – wahrscheinlich eher Millionen – von Bildern wurden von DeviantArt in LAION kopiert und zum Trainieren von Stable Diffusion verwendet. Anstatt sich für seine Künstlergemeinschaft einzusetzen und sie vor KI-Training zu schützen, hat DeviantArt stattdessen DreamUp veröffentlicht, eine kostenpflichtige App, die auf Stable Diffusion basiert. Im Gegenzug hat eine Flut von KI-generierter Kunst DeviantArt überschwemmt und Künstler verdrängt“, so der Anwalt.
Eine weitere KI, die einen Text-zu-Bild-Generator bietet, ist Midjourney, das im Jahr 2021 von David Holz in San Francisco gegründet wurde. „Obwohl Midjourney sich selbst als „Forschungslabor“ bezeichnet, hat es eine große Zahl von zahlenden Kunden, die Midjournys Bildgenerator professionell nutzen“, so Butterick, der sich mit seiner Klage auf das amerikanische Urheberrecht stützt.
Weitere Informationen zu dem Thema, die fortlaufend aktualisiert werden:
https://stablediffusionlitigation.com