Nach der Aufregung um Sora 1 im Februar 2024 hat Open AI nun aus dem Nichts Sora 2 released. Die Version 2 überzeugt vor allem durch realistische Physics – also das menschenähnliche Bewegungsmodell. Hauptsächlicher Use-Case sind sogenannte Cameos. Dennoch vermag uns auch Sora 2 nicht vollständig zu überzeugen, da es neben seinen Stärken auch noch deutliche Schwächen aufweist.
ComfyUI gilt als das Nonplusultra, wenn es darum geht, die letzten Prozente aus einer AI-Produktion herauszuholen. Bislang lief die Anwendung jedoch nur lokal – entsprechend benötigte man eine hohe Rechenleistung, um überhaupt mitspielen zu können. Dem wirkt Comfy nun entgegen, indem die Plattform für die Online-Nutzung lanciert wird. Das Tool bleibt in Umfang und Komplexität unverändert, kann nun aber auf bereitgestellten Servern betrieben werden. Aktuell befindet sich die Lösung noch in der Beta-Phase und einige Nodes fehlen noch. Dennoch ermöglicht diese Entwicklung erstmals, ohne grosse Investitionen das Maximum aus AI herauszuholen.
Adobe hat die Bildbearbeitungsmodelle Nano Banana und Flux Kontext in Photoshop integriert. Nachdem das Unternehmen bereits 2023 sein eigenes Modell Firefly eingebunden hatte, folgt nun die Öffnung des Systems für weitere Modelle. Das ist eine erfreuliche Entwicklung, denn Nano Banana und Flux Kontext übertreffen Adobes eigene Modelle in den meisten Anwendungsfällen deutlich.
Der einzige Wermutstropfen: Adobe führt für die externen Modelle ein Credit-System ein.
In den letzten Monaten sind Node-basierte Plattformen wie Pilze aus dem Boden geschossen. Sie bieten eine flexible und nachhaltige Art, mit unterschiedlichen AI-Modellen zu arbeiten. Nun folgt auch Freepik diesem Trend und führt mit Spaces ein eigenes Workflow-Tool ein. Die Plattform steckt zwar noch in den Kinderschuhen und bietet derzeit weniger Möglichkeiten als vergleichbare Lösungen, doch der Launch zeigt klar, wohin die Entwicklung aktuell geht.
Google hat mit Nano Banana (Gemini 2.5. Flash Image) ihr neustes Bildmodell veröffentlicht. Das Modell überzeugt besonders bei der Bearbeitung und Komposition von (mehreren) bestehenden Bildern. Die Konsistenz von Charakteren und Objekten ist dabei einzigartig unter Bildmodellen. In unserem Test haben wir das Modell dem Vergleich mit Flux Kontext unterzogen. Was direkt auffällt? Die Prompt Adherence ist beeindruckend.
Mooodboard.com wurde nach einiger Verzögerung im August veröffentlicht. Das Tool unterstützt die Konzeption, indem es AI-gestützte Moodboards erstellt. Dabei kreiert es keine neuen Bilder, sondern sucht lediglich bestehende Werke zu einem Thema zusammen. Mooodboard ist vergleichbar mit bestehenden Tools wie Cosmos oder Shotdeck, nur dass die Ergebnisse kuratiert sind.
Figma Make wurde bereits vor einiger Zeit angekündigt. Nun ist die Funktion auch in der Schweiz verfügbar. Mit Make können Nutzer*innen direkt in Figma Webseiten «vibe-coden». Dieser Schritt folgt der branchenweiten Entwicklung, dass etablierte Applikationen immer mehr AI-Funktionen integrieren. Wir gehen davon aus, dass in naher Zukunftt bestehende Figma-Funktionalitäten in Make integriert werden.
Wan ist eigentlich ein Videomodell. Doch die Version 2.2 macht besonders dank hyperrealistischen Bilder auf sich aufmerksam. Die Darstellung von Personen in alltäglichen Situationen gelingt dabei besonders gut. Etwas schwächer schneidet das Modell hingegen bei der Wiedergabe von Text und Grafiken ab.
Runway legt mit Aleph den Grundstein für die kontextualisierte Anpassung von Videos. Neu kannst du in bestehenden Clips den Winkel, Ort oder die Umweltbedingungen ändern. Zudem kannst du Clips aus neuen Perspektiven darstellen lassen oder den Stil für eine neue Szene übernehmen.
Midjourney gehört zusammen mit Flux zu den Marktführern im Bereich der Bildgenerierung. Doch das reicht dem Unternehmen nicht mehr: Mitte Juni kündigte Midjourney die Integration von Videofunktionen in sein Tool an. Neu können generierte Bilder auch animiert werden. Besonders überzeugend ist das Verständnis für Bildinhalte und den allgemeinen Kontext. Für längere Szenen ist das Tool unserer Einschätzung nach allerdings noch nicht geeignet.
Flux Kontext ermöglicht es Nutzern, präzise und kontextbezogene Änderungen an bestehenden Bildern per Texteingabe vorzunehmen. Das Update sorgt für konsistente Charakterdarstellungen über mehrere Bilder hinweg, erlaubt gezielte lokale Bearbeitungen und arbeitet deutlich schneller. So wird KI-gestützte Bildbearbeitung zu einem intuitiven, iterativen Prozess.
Google Veo 3.0 liefert verbesserte visuelle Qualität und Realismus mit bis zu 4K-Auflösung sowie einer höheren Prompt Adherence. Nutzer profitieren von erweiterter kreativer Kontrolle über Kamera und Objekte und können bis zu 60 Sekunden lange Videosequenzen erstellen.
Knapp einen Monat nach dem beindruckenden Model 2.0 bringt der AI-Video Generator Kling schon die Version 2.1. heraus. Momentan befindet sich Kling 2.1 noch in der Beta-Testphase aber die Resultate sind schon stark. Kling 2.0 hat es geschafft, wirklich cinematische Sequenzen zu erzeugen, die gerade bei Menschen auch realistisch aussehen. Kling 2.1 hat das nochmal verbessert - insbesondere bei Bewegungen.