Eine bahnbrechende Forschung verspricht, die Welt der künstlichen Intelligenz zu revolutionieren, indem sie den Rechenaufwand von Sprachmodellen drastisch reduziert.
In einer jüngsten Zusammenarbeit haben Forscher von Microsoft und der Chinesischen Akademie der Wissenschaften einen innovativen Ansatz vorgestellt, der den Rechenaufwand von Sprachmodellen erheblich verringert. Veröffentlicht auf arXiv, konzentriert sich die Forschung darauf, alle Parameter eines Sprachmodells auf die Werte -1, 0 oder 1 zu reduzieren. Dieser Ansatz, der darauf abzielt, Modelle von Grund auf zu trainieren – anstatt sie nur zu quantisieren oder zu feintunen –, könnte die Art und Weise, wie wir mit künstlicher Intelligenz arbeiten, grundlegend verändern.
Im Gegensatz zu traditionellen Methoden, die große Mengen an Rechenleistung und Speicher erfordern, nutzt dieser trinäre Ansatz, auch bekannt als 1-Bit-LLMs (Language Learning Models), tatsächlich nur 1,58 Bits pro Parameter. Diese Reduzierung in der Parametergröße verspricht erhebliche Einsparungen in Bezug auf Latenz, Speicherbedarf, Durchsatz und Energieverbrauch. Die Forscher berichten, dass die Trainingsergebnisse dieser Methode vergleichbar mit denen von 16-Bit-Verfahren sind und erwarten sogar bessere Ergebnisse von spezialisierter Hardware.
Die Diskussionen auf Plattformen wie Reddit und Hacker News deuten darauf hin, dass diese Entdeckung nur der Beginn einer Bewegung hin zu effizienteren Quantisierungsansätzen sein könnte. Während Nvidia derzeit den Markt für maschinelles Lernen dominiert, bieten alternative Quantisierungsansätze wie GPTQ, AWQ und ExLllamaV2 Vorteile bei großen Sprachmodellen. Ein deutsches Start-up, Mobius Labs, entwickelt beispielsweise eine Half Quadratic Quantization, die eine bessere Performance bei großer Quantisierung verspricht.