Ein neues KI-System verspricht die Art und Weise, wie Musik bearbeitet wird, grundlegend zu verändern.
Forscher der Queen Mary University of London, Sony AI und des Music X Lab am MBZUAI haben gemeinsam das KI-System „Instruct-MusicGen“ entwickelt. Dieses innovative System kann bestehende Musikstücke anhand von Textanweisungen gezielt modifizieren. Basierend auf dem Open Source KI-Modell MusicGen, wurde Instruct-MusicGen speziell für Text-zu-Musik-Bearbeitungsaufgaben optimiert.
Das Forscherteam hat die ursprüngliche MusicGen-Architektur durch die Integration eines Text- und eines Audio-Fusion-Moduls erweitert. Dadurch kann das Modell sowohl Prompts als auch Audioeingaben gleichzeitig verarbeiten. Dies ermöglicht präzise Bearbeitungsaufgaben wie das Hinzufügen, Entfernen oder Trennen von Musikspuren (Stems). Stems sind gemischte Gruppen von Spuren, die meist nach Instrumententyp sortiert sind und eine zentrale Rolle in der Musikproduktion spielen.
Die Forscher betonen, dass Instruct-MusicGen die Effizienz der Text-zu-Musik-Verarbeitung erheblich verbessert und die Anwendbarkeit von Musik-Sprachmodellen in dynamischen Produktionsumgebungen erweitert. Um diese bemerkenswerten Ergebnisse zu erzielen, benötigte das neue Modell nur acht Prozent mehr Parameter und fünftausend zusätzliche Trainingsschritte, was weniger als ein Prozent der gesamten Trainingszeit von MusicGen ausmacht.
Entwickler stellen Beispiele, das Modell, den Code und die Gewichte auf der Projektseite zur Verfügung. Sony dürfte dabei lizenzrechtlich auf der sicheren Seite stehen, da Meta MusicGen nach eigenen Angaben nur auf lizenzierter Musik trainiert hat und für das eigene Instruction Tuning den Slakh2100-Datensatz mit synthetisch erzeugten Musikstücken verwendete.