DreamStudio von Stability AI nutzt einen Text-zu-Bild-Generator auf Basis künstlicher Intelligenz. Die neueste Version 2.0 bietet leistungsstarke Funktionen und ermöglicht die Hochskalierung der Auflösung der künstlich erzeugten Bilder auf 2048×2048 Pixel. Zum Vergleich: Der bisherige KI-Platzhirsch DALL-E 2 liefert Bilddaten mit nur 1024×1024 Pixel.
Stability AI mit Hauptsitz in London und Entwicklern auf der ganzen Welt wurde von Emad Mostaque als Open-Source-Unternehmen für künstliche Intelligenz (KI) gegründet. Das weltweit erste Community-gesteuerte Open-Source-Unternehmen für künstliche Intelligenz arbeitet an der Entwicklung offener KI-Modelle und hat mit Stable Diffusion einen leistungsfähigen, kostenlosen und quelloffenen Text-zu-Bild-Generator entwickelt, der im August 2022 auf den Markt kam. Seit seiner Markteinführung wurde Stable Diffusion von mehr als 200.000 Entwicklern weltweit heruntergeladen und lizenziert. DreamStudio wuchs schnell auf weit über eine Million registrierte Benutzer aus mehr als 50 Ländern, die zusammen mehr als 170 Millionen Bilder erstellt haben.
Emad Mostaque: „Wir haben wir hart daran gearbeitet, Stable Diffusion so zu optimieren, dass es auf einem einzigen Grafikprozessor läuft – wir wollten es von Anfang an so vielen Menschen wie möglich zugänglich machen. Das ist die Stärke von Open Source: das riesige Potenzial von Millionen talentierter Menschen zu nutzen, die vielleicht nicht die Ressourcen haben, um ein hochmodernes Modell zu trainieren, aber in der Lage sind, mit einem solchen Modell Unglaubliches zu schaffen.“
Bereits das ursprüngliche Stable Diffusion V1, das von CompVis entwickelt wurde, hat die Art der Open-Source-KI-Modelle verändert. Das Team von Robin Rombach (Stability AI) und Patrick Esser (Runway ML) von der CompVis-Gruppe an der LMU München unter der Leitung von Prof. Dr. Björn Ommer leitete das ursprüngliche Release.
Stable Diffusion 2.0 bietet im Vergleich zur ursprünglichen V1-Version eine Reihe wichtiger Verbesserungen und Funktionen und enthält Text-Bild-Modelle, die mit einem brandneuen Text-Encoder (OpenCLIP) trainiert wurden, der von LAION mit Unterstützung von Stability AI entwickelt wurde und die Qualität der generierten Bilder im Vergleich zu früheren V1-Versionen erheblich verbessert. Die Text-Bild-Modelle in dieser Version können Bilder mit Standardauflösungen von 512×512 Pixeln und 768×768 Pixeln erzeugen. Über ein Upscaler-Diffusionsmodell kann die Auflösung der Bilder jedoch um den Faktor 4 auf 2048×2048 Pixel erhöht werden.
Außerdem erweitert das neue, tiefengesteuerte Stable Diffusion-Modell depth2img die bisherige Bild-zu-Bild-Funktion aus V1 um neue Möglichkeiten für kreative Anwendungen. Depth2img ermittelt die Tiefe eines Eingabebildes unter Verwendung eines bestehenden Modells und generiert dann neue Bilder, die sowohl den Text als auch die Tiefeninformationen verwenden.
Depth-to-Image kann so Transformationen liefern, die radikal anders aussehen als das Original, aber dennoch die Kohärenz und Tiefe des Bildes bewahren. Stable Diffusion 2.0 erleichtert zusätzlich das intelligente und schnelle Austauschen von Teilen eines Bildes.
https://stability.ai/blog/stable-diffusion-v2-release