Sie haben einen grossartigen KI-Use-Case entwickelt. Jetzt kündigt OpenAI das neue Modell «GPT-5.1» an: schneller, besser, klüger. Sie schalten das Modell in Ihrem LLM-Gateway (Teil 2) um und… die Antworten werden schlechter. Plötzlich ignoriert die KI wichtige Anweisungen. Ohne ein System zur Evaluation fliegen Sie im Blindflug.
Ein Modellwechsel ist nie nur ein technisches Update. Jedes Modell hat ein anderes Verhalten, einen anderen Stil und eine andere «Persönlichkeit». Selbst ein vermeintliches «Upgrade» kann zu Regressionen führen. Das heisst, der Use Case wird in spezifischen Bereichen schlechter statt besser.
Für Entwickler und Führungskräfte ist dies ein Albtraum. Wenn Sie die Qualität nicht objektiv messen können, basiert die Freigabe eines neuen Modells auf manuellem Testen und «Bauchgefühl».
Das Problem: Qualitätsverlust bei jedem Update
- Subjektive Wahrnehmung: Ein Entwickler testet fünf Anfragen und findet das neue Modell «besser». Ein Fachexperte testet fünf andere Anfragen und findet es «katastrophal».
- Keine Messbarkeit: Sie können nicht beweisen, dass eine Änderung (am Modell oder am Prompt) eine Verbesserung gebracht hat.
- Regressionen: Ein neues Modell ist vielleicht kreativer, folgt aber dafür nicht mehr exakt den Anweisungen zur Formatierung oder zur Nutzung der RAG-Quellen.
- Blindflug im Betrieb: Sie wissen nicht, ob die Qualität Ihrer KI-Anwendung über die Zeit konstant bleibt oder langsam erodiert.
Die Lösung: Ein automatisiertes Evaluation-Framework
Um die Qualität objektiv zu sichern, benötigen Sie ein Evaluation-Framework als festen Bestandteil Ihrer KI-Infrastruktur (Teil 1).
Dieses Framework automatisiert den Prozess des Testens. Es funktioniert, indem es einen vordefinierten Datensatz von Testfällen gegen das KI-Modell laufen lässt und die Ergebnisse bewertet.

Exklusiv für CEOs und GL: Sichern Sie Ihre Compliance und minimieren Sie KI-Risiken
Compliance-Falle KI? Als CEO oder GL-Mitglied tragen Sie die Verantwortung. Dieser exklusive Kurs deckt Compliance-Anforderungen im Umgang mit KI auf.
Der Prozess sieht so aus:
- Test-Datensatz erstellen: Sie definieren einen Satz von «Golden Questions» – typische Anfragen, die Ihr System beantworten muss.
- Referenz-Antworten definieren: Für jede Frage definieren Sie eine «Muster-Antwort» (Reference Output) und (falls Sie RAG nutzen) die «Muster-Quellen», die gefunden werden sollten.
- Automatisierter Testlauf: Das Framework spielt alle Fragen an das KI-Modell (z.B. «GPT-4o») und speichert die generierten Antworten.
- Automatische Bewertung (Evaluation): Der schwierigste Teil. Wie bewertet man die Qualität?
- Metriken: Das Framework berechnet Scores (z.B. zwischen 0 und 1) für verschiedene Kriterien: Correctness (faktische Korrektheit), Completeness (Vollständigkeit), Relevancy (Relevanz der Quelle), Prägnanz etc.
- LLM-as-a-Judge: Oft wird hier ein Trick angewendet. Man nutzt ein anderes, starkes LLM (z.B. Claude 3 Opus) als «Richter» (Judge). Man gibt ihm die Muster-Antwort, die generierte Antwort und ein Bewertungskriterium (z.B. «Bewerte die faktische Korrektheit von 0 bis 1») und lässt es den Score vergeben.
- Vergleich: Sie führen denselben Test mit dem neuen Modell (z.B. «GPT-5») durch und vergleichen die Scores. Sind die Scores für «Correctness» im Durchschnitt von 0.95 auf 0.80 gefallen? Dann ist das neue Modell eine Regression und darf nicht freigegeben werden.

Swiss AI Impact Report 2025
Empfehlungen zur erfolgreichen KI-Einführung
Laden Sie den Swiss AI Impact Report 2025 herunter und entdecken Sie, wie KI die Zukunft von Schweizer Unternehmen prägt.
Praxis-Beispiel: Evaluation-Frameworks
Diese Funktionalität ist entscheidend für die Professionalisierung von KI-Entwicklung (LLMOps).
- Langfuse und LangSmith (von LangChain) sind populäre Tools, die speziell für das Tracing (siehe Teil 7) und die Evaluation von LLM-Anwendungen entwickelt wurden.
- Arize Phoenix ist ein weiteres Framework, das sich auf Observability und Evaluation spezialisiert hat.
Mit einem solchen Framework werden Qualitätsentscheidungen datengetrieben. Sie können bei jedem Code-Check-in oder Modellwechsel automatisiert einen Evaluations-Lauf starten und die Freigabe von einer Verbesserung (oder zumindest keiner Verschlechterung) der Scores abhängig machen.

Strategien und Lösungen
KI-Beratung für KMU
Von der Strategie bis zur Umsetzung: Unsere KI-Beratung unterstützt Ihr Unternehmen mit passgenauen AI-Lösungen.
FAQ KI Updates
Kann ich dem «LLM-as-a-Judge» vertrauen?
Es ist erstaunlich robust, aber nicht unfehlbar. Die Ergebnisse müssen mit Stichproben und menschlicher Bewertung validiert werden. Es ist jedoch die einzige skalierbare Methode, um Hunderte von Antworten schnell zu bewerten.
Ist das Erstellen des Test-Datensatzes nicht sehr aufwändig?
Ja, das ist es. Aber es ist die wertvollste Investition, die Sie in die Qualität Ihrer KI-Anwendung tätigen können. Ein guter Test-Datensatz mit 50-100 qualitativ hochwertigen Fragen und Referenzantworten ist oft wertvoller als Tausende schwache Testfälle.
Gehört Evaluation nicht zur Entwicklung (Dev) statt zur Infrastruktur (Ops)?
Es ist beides. Entwickler nutzen es während der Entwicklung, um ihre Prompts zu verbessern. Die Infrastruktur nutzt es im Betrieb (Ops), um die Qualität laufend zu überwachen und Regressionen bei Modell-Updates zu verhindern (CI/CD).
DAS KÖNNTE SIE AUCH INTERESSIEREN
Das letzte Bollwerk – Datenschutz & PII-Schutz in der KI
Transparenz – was passiert im Inneren des KI-Agenten?
Die tickende Zeitbombe: Veraltete KI-Wissensbasen
So nutzt KI Ihr internes Wissen – ohne Halluzinationen
