Blogserie «Anforderungen an moderne KI-Infrastruktur» – Teil 6

Schluss mit dem «Blindflug» bei KI-Updates

Dieser Beitrag ist Teil unserer achtteiligen Serie zu den zentralen Bausteinen einer robusten KI-Infrastruktur. Nachdem wir in den vorherigen Teilen gezeigt haben, wie LLM-Gateways (Teil 2), Kostenkontrolle (Teil 3), RAG-Systeme (Teil 4) und automatisierte Ingestion-Pipelines (Teil 5) Ihre KI stabil und zuverlässig machen, widmen wir uns nun einer weiteren kritisch unterschätzten Herausforderung: der Qualitätssicherung bei Modell-Updates.

Sie haben einen grossartigen KI-Use-Case entwickelt. Jetzt kündigt OpenAI das neue Modell «GPT-5.1» an: schneller, besser, klüger. Sie schalten das Modell in Ihrem LLM-Gateway (Teil 2) um und… die Antworten werden schlechter. Plötzlich ignoriert die KI wichtige Anweisungen. Ohne ein System zur Evaluation fliegen Sie im Blindflug.

Ein Modellwechsel ist nie nur ein technisches Update. Jedes Modell hat ein anderes Verhalten, einen anderen Stil und eine andere «Persönlichkeit». Selbst ein vermeintliches «Upgrade» kann zu Regressionen führen. Das heisst, der Use Case wird in spezifischen Bereichen schlechter statt besser.

Für Entwickler und Führungskräfte ist dies ein Albtraum. Wenn Sie die Qualität nicht objektiv messen können, basiert die Freigabe eines neuen Modells auf manuellem Testen und «Bauchgefühl».

Das Problem: Qualitätsverlust bei jedem Update

Die Lösung: Ein automatisiertes Evaluation-Framework

Um die Qualität objektiv zu sichern, benötigen Sie ein Evaluation-Framework als festen Bestandteil Ihrer KI-Infrastruktur (Teil 1).

Dieses Framework automatisiert den Prozess des Testens. Es funktioniert, indem es einen vordefinierten Datensatz von Testfällen gegen das KI-Modell laufen lässt und die Ergebnisse bewertet.

3D-Bild zu Generative AI

Exklusiv für CEOs und GL: Sichern Sie Ihre Compliance und minimieren Sie KI-Risiken

Compliance-Falle KI? Als CEO oder GL-Mitglied tragen Sie die Verantwortung. Dieser exklusive Kurs deckt Compliance-Anforderungen im Umgang mit KI auf.

Der Prozess sieht so aus:

  1. Test-Datensatz erstellen: Sie definieren einen Satz von «Golden Questions» – typische Anfragen, die Ihr System beantworten muss.
  2. Referenz-Antworten definieren: Für jede Frage definieren Sie eine «Muster-Antwort» (Reference Output) und (falls Sie RAG nutzen) die «Muster-Quellen», die gefunden werden sollten.
  3. Automatisierter Testlauf: Das Framework spielt alle Fragen an das KI-Modell (z.B. «GPT-4o») und speichert die generierten Antworten.
  4. Automatische Bewertung (Evaluation): Der schwierigste Teil. Wie bewertet man die Qualität?
    • Metriken: Das Framework berechnet Scores (z.B. zwischen 0 und 1) für verschiedene Kriterien: Correctness (faktische Korrektheit), Completeness (Vollständigkeit), Relevancy (Relevanz der Quelle), Prägnanz etc.
    • LLM-as-a-Judge: Oft wird hier ein Trick angewendet. Man nutzt ein anderes, starkes LLM (z.B. Claude 3 Opus) als «Richter» (Judge). Man gibt ihm die Muster-Antwort, die generierte Antwort und ein Bewertungskriterium (z.B. «Bewerte die faktische Korrektheit von 0 bis 1») und lässt es den Score vergeben.
  5. Vergleich: Sie führen denselben Test mit dem neuen Modell (z.B. «GPT-5») durch und vergleichen die Scores. Sind die Scores für «Correctness» im Durchschnitt von 0.95 auf 0.80 gefallen? Dann ist das neue Modell eine Regression und darf nicht freigegeben werden.
Swiss AI Impact Report 2025

Swiss AI Impact Report 2025

Empfehlungen zur erfolgreichen KI-Einführung

Laden Sie den Swiss AI Impact Report 2025 herunter und entdecken Sie, wie KI die Zukunft von Schweizer Unternehmen prägt.

Praxis-Beispiel: Evaluation-Frameworks

Diese Funktionalität ist entscheidend für die Professionalisierung von KI-Entwicklung (LLMOps).

Mit einem solchen Framework werden Qualitätsentscheidungen datengetrieben. Sie können bei jedem Code-Check-in oder Modellwechsel automatisiert einen Evaluations-Lauf starten und die Freigabe von einer Verbesserung (oder zumindest keiner Verschlechterung) der Scores abhängig machen.

KI-Beratung für Unternehmen

Strategien und Lösungen

KI-Beratung für KMU

Von der Strategie bis zur Umsetzung: Unsere KI-Beratung unterstützt Ihr Unternehmen mit passgenauen AI-Lösungen.

FAQ KI Updates

Kann ich dem «LLM-as-a-Judge» vertrauen?
Es ist erstaunlich robust, aber nicht unfehlbar. Die Ergebnisse müssen mit Stichproben und menschlicher Bewertung validiert werden. Es ist jedoch die einzige skalierbare Methode, um Hunderte von Antworten schnell zu bewerten.

Ist das Erstellen des Test-Datensatzes nicht sehr aufwändig?
Ja, das ist es. Aber es ist die wertvollste Investition, die Sie in die Qualität Ihrer KI-Anwendung tätigen können. Ein guter Test-Datensatz mit 50-100 qualitativ hochwertigen Fragen und Referenzantworten ist oft wertvoller als Tausende schwache Testfälle.

Gehört Evaluation nicht zur Entwicklung (Dev) statt zur Infrastruktur (Ops)?
Es ist beides. Entwickler nutzen es während der Entwicklung, um ihre Prompts zu verbessern. Die Infrastruktur nutzt es im Betrieb (Ops), um die Qualität laufend zu überwachen und Regressionen bei Modell-Updates zu verhindern (CI/CD).

DAS KÖNNTE SIE AUCH INTERESSIEREN

Data protection and cybersecurity concept with businessman holding hologram icon of secure personal information, digital privacy policy, and confidential identity management
Symbolbild KI Transparenz
Symbolbild automatisierte ingestion Pipelines
Symbolbild KI Wissen ohne zu Halluzinieren
Marius Högger Portrait
Der Experte

Marius Högger

Marius Högger vereint als AI Engineer und AI Consultant bei bbv umfassendes Fachwissen in Künstlicher Intelligenz mit einem ausgeprägten Blick für innovative Geschäftspotenziale. Im KI-Team von bbv entwickelt er fortschrittliche KI-Applikationen und integriert Unternehmensdaten gezielt in KI-Modelle, um Kunden wertvolle Erkenntnisse und nachhaltige Effizienzsteigerungen zu ermöglichen.

Unser Wissen im Abo

Attention!

Sorry, so far we got only content in English for this section.

Achtung!

Entschuldigung, bisher haben wir für diesen Abschnitt nur deutschsprachige Inhalte.