Mit dem Microsoft 365 Copilot Agent Evaluations CLI stellt Microsoft ein Kommandozeilentool bereit, das Antworten von Copilot-Agenten systematisch auswertet. Das Tool ist seit dem 8. Mai als kostenfreie Vorschauversion verfügbar und richtet sich vor allem an Entwicklungsteams, die KI-Agenten nicht nur bauen, sondern auch wiederholbar prüfen und verbessern möchten.
Das Prinzip ist vergleichsweise klar: Das CLI sendet Fragen oder Prompts an einen in Microsoft 365 bereitgestellten Agenten. Anschließend werden die Antworten mithilfe von Azure-OpenAI-Modellen bewertet. Damit entsteht ein strukturierter Prüfprozess, der über manuelles Ausprobieren hinausgeht und stärker in professionelle Entwicklungsabläufe passt.
Unterstützt werden drei Eingabearten: JSON-Datensätze, interaktive Eingaben und Inline-Prompts. Dadurch lassen sich sowohl vorbereitete Testreihen als auch dialogähnliche Szenarien abbilden. Gerade für Agenten, die in realen Arbeitsprozessen eingesetzt werden sollen, ist das wichtig: Entscheidend ist nicht nur, ob eine einzelne Antwort gut klingt, sondern ob der Agent Kontext versteht, Folgefragen sinnvoll verarbeitet und Aufgaben Ende zu Ende bewältigt.
Die Bewertung erfolgt anhand von sieben Metriken. Dazu zählen unter anderem das Kontextverständnis in Einzel- und Mehrfachdialogen sowie die Fähigkeit, Folgefragen korrekt einzuordnen. Die Ergebnisse können als HTML-, JSON- oder CSV-Bericht ausgegeben werden. Damit lassen sie sich in Code-Reviews, Entwicklungszyklen oder CI/CD-Pipelines integrieren.
Aus Beratungssicht ist genau dieser Punkt spannend: KI-Agenten werden zunehmend Teil produktiver Geschäftsprozesse. Damit reicht es nicht mehr aus, sie nur „gefühlt“ zu testen. Unternehmen brauchen nachvollziehbare Kriterien, wiederholbare Tests und belastbare Auswertungen. Microsofts CLI geht genau in diese Richtung und könnte dazu beitragen, Qualitätssicherung bei Copilot-Agenten stärker zu standardisieren.
Für die Nutzung sind allerdings einige Voraussetzungen nötig. Benötigt werden eine Microsoft-365-Copilot-Lizenz, Node.js 24.12.0 oder höher, ein im Tenant bereitgestellter Agent mit entsprechender Administratorzustimmung sowie ein Azure-OpenAI-Endpunkt für die LLM-Bewertungen. Standardmäßig kommt dabei gpt-4o-mini zum Einsatz. Aktuell unterstützt das Tool nur Windows-Entwicklungsumgebungen; Support für macOS und Linux ist angekündigt.
