12. Mai 2026

Neues Microsoft-Tool nimmt Copilot-Agenten unter die Lupe

Mit dem Microsoft 365 Copilot Agent Evaluations CLI stellt Microsoft ein Kommandozeilentool bereit, das Antworten von Copilot-Agenten systematisch auswertet. Das Tool ist seit dem 8. Mai als kostenfreie Vorschauversion verfügbar und richtet sich vor allem an Entwicklungsteams, die KI-Agenten nicht nur bauen, sondern auch wiederholbar prüfen und verbessern möchten.

Das Prinzip ist vergleichsweise klar: Das CLI sendet Fragen oder Prompts an einen in Microsoft 365 bereitgestellten Agenten. Anschließend werden die Antworten mithilfe von Azure-OpenAI-Modellen bewertet. Damit entsteht ein strukturierter Prüfprozess, der über manuelles Ausprobieren hinausgeht und stärker in professionelle Entwicklungsabläufe passt.

Unterstützt werden drei Eingabearten: JSON-Datensätze, interaktive Eingaben und Inline-Prompts. Dadurch lassen sich sowohl vorbereitete Testreihen als auch dialogähnliche Szenarien abbilden. Gerade für Agenten, die in realen Arbeitsprozessen eingesetzt werden sollen, ist das wichtig: Entscheidend ist nicht nur, ob eine einzelne Antwort gut klingt, sondern ob der Agent Kontext versteht, Folgefragen sinnvoll verarbeitet und Aufgaben Ende zu Ende bewältigt.

Die Bewertung erfolgt anhand von sieben Metriken. Dazu zählen unter anderem das Kontextverständnis in Einzel- und Mehrfachdialogen sowie die Fähigkeit, Folgefragen korrekt einzuordnen. Die Ergebnisse können als HTML-, JSON- oder CSV-Bericht ausgegeben werden. Damit lassen sie sich in Code-Reviews, Entwicklungszyklen oder CI/CD-Pipelines integrieren.

Aus Beratungssicht ist genau dieser Punkt spannend: KI-Agenten werden zunehmend Teil produktiver Geschäftsprozesse. Damit reicht es nicht mehr aus, sie nur „gefühlt“ zu testen. Unternehmen brauchen nachvollziehbare Kriterien, wiederholbare Tests und belastbare Auswertungen. Microsofts CLI geht genau in diese Richtung und könnte dazu beitragen, Qualitätssicherung bei Copilot-Agenten stärker zu standardisieren.

Für die Nutzung sind allerdings einige Voraussetzungen nötig. Benötigt werden eine Microsoft-365-Copilot-Lizenz, Node.js 24.12.0 oder höher, ein im Tenant bereitgestellter Agent mit entsprechender Administratorzustimmung sowie ein Azure-OpenAI-Endpunkt für die LLM-Bewertungen. Standardmäßig kommt dabei gpt-4o-mini zum Einsatz. Aktuell unterstützt das Tool nur Windows-Entwicklungsumgebungen; Support für macOS und Linux ist angekündigt.


Wir führen seit Jahren Beratung zu KI (Künstlicher Intelligenz) für KMUs (Klein- und Mittelständische Unternehmen) erfolgreich durch.

Mehr zu aktuellen Themen der #KI (Künstlichen Intelligenz) oder zu

Ihrem individuellen, optimalen "KI-Masterplan" für Ihr Unternehmen finden Sie in unserem Newsletter.

Abonnieren Sie den Newsletter hier:


Tags


Das könnte Sie auch interessieren

Abonnieren Sie jetzt unseren Newsletter!

>