In einer kürzlich veröffentlichten Enthüllung bringt die New York Times Licht ins Dunkel der Trainingsdaten von ChatGPT.
Die New York Times berichtet, dass OpenAI für die Verbesserung von ChatGPT rund eine Million Stunden Videomaterial von YouTube verarbeitet hat, ohne Google, Alphabet oder die Videoproduzenten darüber in Kenntnis zu setzen. Diese Praxis fiel gegen Ende 2021 auf, als offenbar die üblichen Textdatenquellen erschöpft waren. OpenAI griff daher zu einer innovativen Methode: Mit Hilfe des Tools „Whisper“ wurden Tonspuren aus den Videos in Texte umgewandelt, die dann als Trainingsdaten dienten.
Google, das Unternehmen hinter YouTube, unternahm trotz Kenntnis dieser Praxis keine Schritte dagegen. Der Grund könnte im Eigeninteresse liegen, da Google selbst ähnliche Methoden zur Datengewinnung für seine KI-Modelle nutzt. In den USA ist aktuell eine Flut von Klagen gegen die Nutzung urheberrechtlich geschützter Inhalte für KI-Trainings ohne entsprechende Lizenzen zu beobachten. Über 10.000 Beschwerden wurden allein im letzten Jahr beim United States Copyright Office eingereicht.
Tech-Unternehmen wie Google und Facebook haben in Reaktion darauf ihre Nutzungsbedingungen angepasst, sodass Nutzer der Verwendung ihres Materials für KI-Training zustimmen müssen. OpenAI beruft sich auf das amerikanische Rechtskonzept des „fair use“, um seine Aktionen zu legitimieren.
Währenddessen beginnen einige Unternehmen, explizite Lizenzvereinbarungen für die Verwendung von Daten zu schließen, nicht zuletzt wegen des bevorstehenden EU AI-Acts. Die enorme Menge an Videomaterial auf YouTube, das stetig wächst, relativiert jedoch die Dimension der von OpenAI genutzten Daten.