In einer Welt, in der das Visuelle eine Sprache für sich ist, haben Forschende einen Durchbruch erzielt, der das Potenzial hat, die digitale Bildbearbeitung grundlegend zu verändern.
Ein internationales Forschungsteam, bestehend aus Experten des Max-Planck-Instituts für Informatik, des Saarbrücken Research Center for Visual Computing, Interaction and Artificial Intelligence (VIA), des MIT CSAIL und der Universität Pennsylvania, hat eine bahnbrechende Bildbearbeitungsmethode namens DragGAN vorgestellt. Diese Methode ermöglicht es, Eigenschaften wie Mimik, Pose, Perspektiven und vieles mehr auf Fotos durch einfaches Drag-and-drop zu verändern. Das Besondere an DragGAN ist, dass es für die Bearbeitung fotorealistischer Inhalte nicht mehr das umfangreiche Können und die Erfahrung erfordert, die bisher mit Programmen wie Photoshop notwendig waren. Stattdessen reicht es aus, Start- und Endpunkte auf einem Foto zu markieren, um beispielsweise ein Lächeln zu zaubern, die Körperhaltung anzupassen, Kleidung zu verlängern oder die Perspektive zu drehen.
Das Herzstück von DragGAN ist ein KI-gesteuertes System, das die markierten Punkte verfolgt und Bilder erzeugt, die den gewünschten Änderungen entsprechen. Diese Technologie funktioniert insbesondere gut mit Bildinhalten, die bereits trainierten Kategorien wie Menschen, Tiere, Landschaften oder Fahrzeugen angehören. Die Forschenden haben den Quellcode von DragGAN auf GitHub zur Verfügung gestellt und bieten zudem Demos auf Plattformen wie Hugging Face, OpenXLab und Google Colab an, um die Möglichkeiten dieser Methode zu demonstrieren.
Eines der Kernelemente von DragGAN ist die Verwendung von PyTorch, einer Pythonbibliothek, die speziell für maschinelles Lernen optimiert ist. Obwohl die Hardware-Anforderungen noch nicht im Detail bekannt gegeben wurden, betonen die Autoren die Effizienz ihres Ansatzes: Nutzer müssen nur wenige Sekunden warten und können die Bearbeitung so lange fortsetzen, bis sie mit dem Ergebnis zufrieden sind.