Die Entwicklung von KI-Systemen zur Bildgenerierung verläuft in geradezu atemberaubender Rasanz – trainiert mit Bergen bereits existierender Kunst. Ein Update von ProfiFoto Chefredakteur Thomas Gerwers zur Kehrseite der Technologie.
Text-zu-Bild-Generatoren auf Basis künstlicher Intelligenz wie DALL-E 2, Dreamstudio, Midjourney, Disco Diffusion oder NightCafe sowie Stable Diffusion und Imagen sind seit ein paar Monaten in aller Munde. Dank Machine Learning Imagery erstellen diese Künstlichen Intelligenzen (KI) auf Basis von Bild-Uploads oder Texteingaben fotorealistische Bilder. Voraussetzung dazu ist, dass sie mit möglichst vielen Bildern trainiert werden.
Das Large-scale Artificial Intelligence Open Network (LAION) ist eine deutsche gemeinnützige Organisation mit dem erklärten Ziel, große Mengen an „Datensätzen und zugehörigen Codes zugänglich zu machen“, um damit KI-Systeme füttern zu können. Konkret handelt es sich dabei vor allem um Bilder und Bildbeschreibungen von Webseiten, die im Netz vagabundieren, ohne noch aktiv aktualisiert zu werden.
Dabei hostet LAION die Bilder nicht selbst auf seinen Servern, sondern verlinkt lediglich Metadaten mit jedem Datensatz, der eigentliche Bildinhalt wird nicht gespeichert, sondern nur geframed.
Die erste derartige Datenbank, LAION-400M, wurde im August 2021 veröffentlicht und bestand aus 400 Millionen solcher Datensätze. Ein Nachfolger mit mehr als fünf Milliarden Datensätzen, LAION-5B, wurde im März 2022 veröffentlicht, zu diesem Zeitpunkt der größte frei verfügbare Datenbestand dieser Art, den es je gab.
Das Problem: Darunter befinden sich die Links zu urheberrechtlich geschützten Werken von Künstlern aus der ganzen Welt, die LAION quasi als Open-Source-Daten behandelt.
Neben der Frage der Nutzungsrechte ergeben sich weitere unangenehme Folgen für die Urheber. Schon jetzt ist mithilfe der AI-Systeme möglich, über die entsprechende Textvorgabe Bildstile bestimmter Künstler zu adaptieren. Es ist nur eine Frage der Zeit, wann solche AI-Werke unter dem Namen bekannter Urheber als Fälschungen kursieren oder wann deren Werke nicht mehr von AI-Nachahmungen zu unterscheiden sein werden.
Wer wie so oft hinterherhinkt ist der Gesetzgeber, denn die Technologie ist schnell, das Gesetz aber langsam, wie man am Fall der Social Media Bildlizensierung sehen kann, die viele Jahre auf sich warten ließ und noch immer nur in der Theorie funktioniert.
Nun ist es geübte Praxis, dass auch Künstler sich bei anderen inspirieren. Die Grenze zum Plagiat ist dabei häufig fließend. Im Normalfall kombinieren Kreative solches Referenzmaterial gemäß ihren Fähigkeiten mit ihrem persönlichen Stil, um eigene Werke zu erstellen, während KI direkt von der Nutzung des künstlerischen Eigentums anderer abhängt. Daten sind eine entscheidende Komponente für das Funktionieren von KI.
Die Frage ist: Sollten diejenigen, von denen diese Daten stammen, nicht ein Mitspracherecht haben, wenn diese von großen Technologiefirmen für kommerzielle Zwecke verwendet werden? Regelungen und Gesetze zum Schutz der Urheber gegen den Missbrauch ihrer Werke durch KI-Entwickler scheinen drigend erforderlich.
In den USA hat die Federal Trade Commission bereits die Forderung erhoben, dass Algorithmen oder KI-Modelle, die ohne Genehmigung auf persönlichen Informationen und Daten von Usern basieren, gelöscht werden müssen.
Die in Berlin lebenden Künstler Holly Herndon und Mat Dryhurst haben die Website „Have I Been Trained“ gestartet, auf der Urheber herausfinden können, ob ihre Werke unter den 5,8 Milliarden Bildern des LAION-5B Datensatzes zu finden sind.
Herndon und Dryhurst sind außerdem im Team von Spawning, einer Initiative, die im Auftrag großer KI-Modelle aktuell Tools entwickelt, die es Künstlern ermöglichen sollen, sich für oder gegen die Verwendung ihrer Bilddaten für das Training großer KI-Modelle zu entscheiden. Über ein in „Have I Been Trained“ integriertes Tool steht bereits jetzt eine Opt-in- und Opt-out-Option zur Verfügung, die aber noch in der Betaphase ist.
Spawning ist ein Begriff, der den Akt der Erschaffung von Werken mittels KI bezeichnen soll, die auf bereits vorhandenen Bildern basieren. So soll verdeutlicht werden, dass sich dieser Prozess von Techniken wie Sampling oder Collage unterscheidet. Zitat aus den FAQ: „Das Urheberrecht ist ein veraltetes System, das schlecht in die KI-Ära passt“.
Bildagenturen, die wie Shutterstock die KI-Technologie vorantreiben, versprechen wenigstens, Urheber von Werken, die zum Trainieren der KI verwendet wurden, über einen Contributor Fund zu entschädigen. Außerdem will Shutterstock Urheber immer dann entlohnen, wenn neue generative Inhalte, die ihr geistiges Eigentum nutzen, erstellt und von Kunden lizenziert werden. Wie und in welcher Höhe das erfolgen soll, ist bislang nicht bekannt, aber es zeigt, in welche Richtung es gehen muss: Wer mit urheberrechtlich geschützten Werken KI-Systeme bei Machine Learning Imagery Nachhilfe erteilt, muss dafür auch bezahlt werden!