Eine neue Methode namens PEER könnte die Effizienz und Skalierbarkeit von KI-Modellen grundlegend verbessern.
Wissenschaftler von Google DeepMind haben eine neue Methode zur Konstruktion von KI-Modellen entwickelt, die sie als „Parameter Efficient Expert Retrieval“ (PEER) bezeichnen. PEER nutzt über eine Million winziger „Experten“, die im Wesentlichen kleine neuronale Netze mit nur einem Neuron sind, und geht damit über die bisherigen Ansätze der „Mixture of Experts“ (MoE) hinaus.
Das Prinzip der MoE, bei dem ein KI-System aus vielen spezialisierten Teilnetzwerken besteht, wird hier durch die Verwendung einer extrem großen Anzahl von Mini-Experten erweitert. Diese werden je nach Aufgabe aktiviert, wodurch die Leistungsfähigkeit der Modelle erheblich gesteigert wird. Ein zentrales Element der PEER-Technik ist das „Product Key Memory“, das eine effiziente Auswahl der relevantesten Experten aus Millionen von Optionen ermöglicht, ohne diese alle einzeln überprüfen zu müssen.
In verschiedenen Benchmarks zur Sprachmodellierung übertraf PEER herkömmliche Transformer-Modelle und bisherige MoE-Ansätze in Effizienz und Leistung, und das bei gleicher Rechenleistung. Die Forscher erklären diesen Erfolg mit den sogenannten Skalierungsgesetzen, die beschreiben, wie die Leistung von KI-Modellen mit der Größe und Menge der Trainingsdaten zunimmt.
Ein weiterer Vorteil von PEER ist die Möglichkeit des „lebenslangen Lernens“. Neue Experten können einfach hinzugefügt werden, sodass PEER-Modelle theoretisch ständig neue Informationen aufnehmen können, ohne bereits Gelerntes zu vergessen. Die Forscher sehen hierin einen vielversprechenden Ansatz, um KI-Modelle effizienter und skalierbarer zu machen.