Blogserie «Anforderungen an moderne KI-Infrastruktur» – Teil 4

So nutzt KI Ihr internes Wissen – ohne Halluzinationen

Dieser Beitrag ist Teil unserer achtteiligen Serie zu den wichtigsten Anforderungen an eine zukunftssichere KI-Infrastruktur. Nachdem wir in Teil 2 den LLM-Gateway als strategischen Enabler vorgestellt und in Teil 3 gezeigt haben, wie zentrale Steuerung die Kosten beherrschbar macht, widmen wir uns nun einem weiteren kritischen Baustein: dem Zugriff der KI auf Ihr internes Wissen.

Sie fragen das KI-Modell nach Ihrer internen Compliance-Richtlinie, und es antwortet: «Als grosses Sprachmodell habe ich keinen Zugriff auf Ihre internen Dokumente.» Oder schlimmer: Es erfindet (halluziniert) eine Antwort. Damit KI echten Mehrwert schafft, muss sie auf Ihre Unternehmensdaten zugreifen können – und zwar zur Laufzeit.

Large Language Models (LLMs) wie GPT-4o sind auf Basis des öffentlichen Internets trainiert. Sie wissen viel über Weltgeschichte, aber nichts über Ihre Produkt-Dokumentation, Ihre internen HR-Prozesse oder die spezifischen Policies Ihres Unternehmens.

Dieses «Wissens-Defizit» ist die grösste Hürde für den produktiven Einsatz von KI. Ohne den richtigen Kontext können LLMs keine unternehmensspezifischen Aufgaben lösen. Der Lösungsansatz, um dieses Problem zu beheben, heisst RAG (Retrieval-Augmented Generation). RAG ist eine Kernkomponente jeder modernen KI-Infrastruktur.

Das Problem: Halluzinationen und Wissenslücken

Wenn ein LLM keine Antwort auf eine spezifische Frage hat (z.B. «Wie hoch ist die Spesenpauschale für Dienstreisen in Deutschland?»), tut es das, wofür es trainiert wurde: Es generiert die wahrscheinlichste nächste Wortfolge. Das Ergebnis ist eine «Halluzination» – eine Antwort, die plausibel klingt, aber frei erfunden ist.

Swiss AI Impact Report 2025

Swiss AI Impact Report 2025

Keine Halluzination. Nur Fakten.

Laden Sie den Swiss AI Impact Report 2025 herunter und entdecken Sie, wie KI die Zukunft von Schweizer Unternehmen prägt.

Die Lösung: RAG – Wissen zur Laufzeit bereitstellen

RAG ist ein eleganter Prozess, der dem LLM das nötige Wissen genau in dem Moment gibt, in dem es gebraucht wird. Anstatt das Modell neu zu trainieren (was extrem teuer ist), «füttert» man es zur Laufzeit mit relevanten Informationen.

Der Prozess funktioniert vereinfacht so:

  1. Frage des Nutzers: «Wie hoch ist die Spesenpauschale für Deutschland?»
  2. Schritt 1 (Retrieval): Die KI-Infrastruktur nimmt die Frage und durchsucht zuerst eine Vektordatenbank nach relevanten internen Dokumenten. (z.B. findet sie einen Abschnitt aus dem HR-Handbuch: «Spesen Deutschland: 80 EUR/Tag»).
  3. Schritt 2 (Augmentation): Die Infrastruktur baut einen neuen, erweiterten Prompt für das LLM. Dieser enthält die Original-Frage und den gefundenen Text-Abschnitt als Kontext.
  4. Schritt 3 (Generation): Das LLM wird angewiesen: «Beantworte die folgende Frage: ‹Wie hoch ist die Spesenpauschale für Deutschland?› Nutze dafür ausschliesslich den folgenden Kontext: ‹Spesen Deutschland: 80 EUR/Tag›».
  5. Antwort der KI: «Die Spesenpauschale für Deutschland beträgt 80 EUR pro Tag.»

Durch RAG wird das LLM «geerdet». Es muss nicht mehr raten oder halluzinieren, sondern nutzt die Fakten, die ihm die Infrastruktur bereitgestellt hat.

Das RAG-System als Infrastruktur-Komponente

Damit dieser Prozess für alle Use Cases im Unternehmen funktioniert, muss das RAG-System zentraler Bestandteil des KI-Infrastruktur-Blueprints (Teil 1) sein.

Herzstück des RAG-Systems ist die Vektordatenbank (Vector Database). Sie speichert keine Dokumente als Text, sondern als «Embeddings» – mathematische Repräsentationen der semantischen Bedeutung von Textabschnitten.

Indem Sie ein zentrales RAG-System aufbauen, schaffen Sie eine «Single Source of Truth» für das KI-Wissen, die von allen Anwendungen, die über das zentrale LLM-Gateway (Teil 2) laufen, genutzt werden kann.

KI-Beratung für Unternehmen

Strategien und Lösungen

KI-Beratung für KMU

Von der Strategie bis zur Umsetzung: Unsere KI-Beratung unterstützt Ihr Unternehmen mit passgenauen AI-Lösungen.

FAQ KI Zugriff auf Wissen

Löst RAG das Halluzinationsproblem komplett?
Es reduziert es drastisch. Es kann aber immer noch vorkommen, dass das LLM die bereitgestellten Fakten ignoriert oder falsch interpretiert. Um dies zu verhindern, braucht es zusätzlich «Guardrails» (Schutzplanken), die wir in Teil 8 dieser Serie besprechen.

Ist RAG dasselbe wie «Fine-Tuning»?
Nein. Beim Fine-Tuning wird das Modell selbst trainiert und angepasst, oft um einen bestimmten Stil oder ein Verhalten zu lernen. Bei RAG wird dem Modell externes Wissen zur Laufzeit als Kontext mitgegeben. RAG ist für Faktenwissen (wie interne Dokumente) fast immer die bessere, flexiblere und günstigere Methode.

Was ist ein «Embedding» und brauche ich dafür ein Modell?
Ja. Um Text in einen Vektor (Embedding) umzuwandeln, braucht man ein «Embedding-Modell». Dieses Modell ist viel kleiner und günstiger im Betrieb als ein grosses Chat-Modell. Es ist darauf spezialisiert, die semantische Bedeutung von Text zu «verstehen» und in eine Zahlenreihe (Vektor) zu übersetzen.

DAS KÖNNTE SIE AUCH INTERESSIEREN

Data protection and cybersecurity concept with businessman holding hologram icon of secure personal information, digital privacy policy, and confidential identity management
Symbolbild KI Transparenz
Update Text Written on Speech Bubble
Symbolbild automatisierte ingestion Pipelines
Marius Högger Portrait
Der Experte

Marius Högger

Marius Högger vereint als AI Engineer und AI Consultant bei bbv umfassendes Fachwissen in Künstlicher Intelligenz mit einem ausgeprägten Blick für innovative Geschäftspotenziale. Im KI-Team von bbv entwickelt er fortschrittliche KI-Applikationen und integriert Unternehmensdaten gezielt in KI-Modelle, um Kunden wertvolle Erkenntnisse und nachhaltige Effizienzsteigerungen zu ermöglichen.

Unser Wissen im Abo

Attention!

Sorry, so far we got only content in English for this section.

Achtung!

Entschuldigung, bisher haben wir für diesen Abschnitt nur deutschsprachige Inhalte.