Forscher des Tencent AI Lab Seattle haben eine bahnbrechende Methode zur Generierung synthetischer Daten vorgestellt, die „Personas“ genannt wird.
Die neue Methode namens „Personas“ soll als Stellvertreter für reale Menschen dienen und ermöglicht die Generierung von Milliarden synthetischer Datensätze für die Entwicklung von KI-Systemen. Als Teil dieser Forschung hat das Team den „Persona Hub“ geschaffen, der eine Milliarde virtueller Charaktere umfasst. Zwei Hauptansätze werden verwendet: „Text-to-Persona“, bei dem Persönlichkeiten aus Webtexten abgeleitet werden, und „Persona-to-Persona“, das neue Personas auf Basis von Beziehungen zu bereits erstellten Persönlichkeiten generiert.
Personas fungieren als eine Art Multiplikator für synthetische Daten, da unterschiedliche Hintergründe jeweils eigene Datenvarianten erzeugen können. Dies ähnelt dem Prompting, bei dem eine zugewiesene Rolle die Ausgabe von Sprachmodellen beeinflusst. Durch die Verwendung synthetischer Personas können Forscher eine Vielzahl von Daten für das Training von KI-Modellen generieren. Als Beispiel nennen die Forscher mathematische Probleme, Anweisungen für Sprachmodelle und logische Denkaufgaben.
Die Forscher haben mit Hilfe des Persona Hubs in einem Experiment 1,07 Millionen mathematische Aufgaben generiert. Ein damit trainiertes Modell mit 7 Milliarden Parametern erreichte im MATH-Benchmark eine Genauigkeit von 64,9 Prozent, was der Leistung von OpenAIs gpt-4-turbo-preview entspricht, jedoch bei einem Bruchteil der Modellgröße. Dies zeigt das Potenzial für einen Paradigmenwechsel in der Datengenerierung für KI. Zukünftig könnten große Sprachmodelle eigenständig vielfältige synthetische Daten erzeugen, anstatt auf von Menschen erzeugte Daten angewiesen zu sein. Zusätzlich zu den Anwendungen in der KI-Entwicklung sehen die Forscher weitere Möglichkeiten in der Erstellung von NPCs (Non Player Characters) in Videospielen oder in der Entwicklung berufsspezifischer Tools. Die Publikation weist jedoch auch auf mögliche Risiken und ethische Bedenken hin, da die Methode die gesamte gespeicherte Wissensbasis eines Sprachmodells auslesen und replizieren könnte.