Hugging Face ermöglicht serverlose Inferenzen ohne Mehrkosten

KI-Modelle ausführen, ohne sich um Infrastruktur zu kümmern – das bietet Hugging Face nun mit neuen Drittanbietern. Doch was bedeutet das für Entwickler?

Die bekannte KI-Plattform Hugging Face erweitert ihr Angebot um serverlose Inferenzen von Drittanbietern. Das bedeutet, dass Entwickler ihre KI-Modelle direkt auf der Infrastruktur externer Anbieter ausführen können – ohne sich selbst um die Hardware-Verwaltung kümmern zu müssen. Unterstützt werden zunächst Sambanova, Replicate, Together AI und Fal. Das Besondere daran: Die Nutzung über Hugging Face ist nicht teurer als der direkte Zugriff auf die Anbieter selbst.

KI-Modelle einfach skalieren

Mit der neuen Funktion erhalten Entwickler mehr Flexibilität. Über die Weboberfläche lassen sich Token für die gewünschten Anbieter generieren, und Anfragen laufen automatisch über die Infrastruktur von Hugging Face. Dabei zahlt das Unternehmen exakt die Kosten weiter, die es selbst an die jeweiligen Dienstleister entrichtet. Zukünftig sind zudem Abkommen mit den Inferenzanbietern geplant, um Umsatzbeteiligungen zu ermöglichen.

Auch preislich gibt es attraktive Optionen: Im kostenlosen Tarif stehen Nutzern begrenzte Anfragen zur Verfügung, während das Pro-Abonnement für 9 USD pro Monat ein Guthaben von 2 USD beinhaltet, das bei allen unterstützten Anbietern eingelöst werden kann.

Flexible API-Integration

Neben der Nutzung über Hugging Face bleibt es weiterhin möglich, bestehende API-Schlüssel von Inferenzdienstleistern einzusetzen. In diesem Fall erfolgt die Abrechnung direkt über den jeweiligen Anbieter. Entwickler können Token und API-Keys über Client-SDKs in Python und JavaScript nutzen oder alternativ auf direkte HTTP-Anfragen zurückgreifen. Insbesondere OpenAI-kompatible Schnittstellen profitieren von dieser Flexibilität. Hugging Face stellt zudem Codebeispiele auf seinem Blog bereit, um den Einstieg zu erleichtern.

Mehr als nur Inferenz – Hugging Face entwickelt weiter

Neben der neuen Funktion für serverlose Inferenzen bietet Hugging Face weiterhin die Möglichkeit, dedizierte Hardware für die Ausführung von KI-Modellen zu mieten. Das erleichtert Entwicklern das Skalieren ihrer Modelle, ohne selbst Infrastruktur verwalten zu müssen. Die Anbieter passen die benötigte Rechenleistung dynamisch an, sodass ein effizienter Betrieb gewährleistet ist.

Doch das Unternehmen ruht sich nicht auf den aktuellen Entwicklungen aus: Parallel arbeitet Hugging Face an Open-R1, einer quelloffenen Variante des R1-Modells von DeepSeek. Damit setzt die Plattform weiterhin auf offene und zugängliche KI-Technologien.

Fazit: Einfacher Zugang zu leistungsfähiger KI-Infrastruktur

Mit der Integration serverloser Inferenzanbieter macht Hugging Face die Nutzung von KI-Modellen noch einfacher. Entwickler profitieren von einem unkomplizierten Zugang, flexibler Skalierung und transparenten Kosten. Wer sich für innovative KI-Technologien interessiert, sollte einen Blick auf diese neue Möglichkeit werfen – besonders in Kombination mit den weiteren Angeboten von Hugging Face.

Wir führen seit Jahren Beratung zu KI (Künstlicher Intelligenz) für KMUs (Klein- und Mittelständische Unternehmen) erfolgreich durch.

Mehr zu aktuellen Themen der #KI (Künstlichen Intelligenz) oder zu

Ihrem individuellen, optimalen "KI-Masterplan" für Ihr Unternehmen finden Sie in unserem Newsletter.

Abonnieren Sie den Newsletter hier:

Hugging Face ermöglicht serverlose Inferenzen ohne Mehrkosten

Hugging Face ermöglicht serverlose Inferenzen ohne Mehrkosten

Das könnte Sie auch interessieren

Mirage verbessert das räumliche Gedächtnis von Video-KI

Google macht KI-Wissen mit Markdown portabler

Abonnieren Sie jetzt unseren Newsletter!