Blogserie «Anforderungen an moderne KI-Infrastruktur» – Teil 5

Die tickende Zeitbombe: Veraltete KI-Wissensbasen

Dieser Beitrag ist Teil unserer achtteiligen Serie über die zentralen Anforderungen an eine moderne KI-Infrastruktur. Nachdem wir in Teil 4 gezeigt haben, wie RAG (Retrieval-Augmented Generation) Halluzinationen verhindert und KI mit echtem Unternehmenswissen versorgt, geht es nun um die oft unterschätzte Frage: Wie bleibt dieses Wissen aktuell?

Sie haben ein brillantes RAG-System implementiert, wie in Teil 4 beschrieben. Ihre KI kann nun alle internen Dokumente lesen. Doch was passiert, wenn Ihr Unternehmen die Spesenregelung morgen von 80 EUR auf 90 EUR anpasst? Aktualisieren Sie Ihre KI-Wissensbasis nicht sofort, liefert sie gefährliche Fehlinformationen.

Der Aufbau einer Vektordatenbank läuft oft als einmaliges Projekt ab: Sie sammeln alle relevanten Dokumente, verarbeiten sie (chunking) und laden sie in die Datenbank. Doch genau hier liegt die grösste Schwachstelle von RAG-Systemen: Unternehmenswissen ist nicht statisch. Dokumente ändern sich täglich. Es gibt neue Versionen, Ergänzungen, und Löschungen.

Das Problem: Veraltete Daten sind schlimmer als keine Daten

Eine KI, die auf veralteten Daten operiert, ist ein Compliance- und Qualitätsrisiko.

Ein einmaliger Import reicht nicht aus. Sie benötigen einen kontinuierlichen, automatisierten Prozess, um die Vektordatenbank mit Ihren Quelldaten (z.B. SharePoint, Confluence, Filesystem) synchron zu halten.

Die Lösung: Automatisierte Ingestion-Pipelines

Die Lösung ist eine automatisierte Ingestion-Pipeline. Dies ist eine Kernkomponente Ihrer KI-Infrastruktur (Teil 1), die als «Dateningenieur» im Hintergrund arbeitet.

Diese Pipeline ist ein Workflow, der permanent oder in regelmässigen Abständen läuft und folgende Schritte automatisiert:

  1. Connectoren & Änderungserkennung: Die Pipeline verbindet sich mit den Datenquellen (z.B. SharePoint). Sie erkennt Änderungen entweder durch «Polling» (regelmässiges Nachfragen: «Gibt es was Neues?») oder «Webhooks» (SharePoint sendet eine Nachricht: «Hey, Dokument X wurde geändert!»).
  2. Verarbeitung: Das geänderte Dokument wird geholt. Text wird extrahiert, Metadaten (wie Autor, Datum) werden ausgelesen, und der Text wird in kleine Abschnitte («Chunks») zerteilt.
  3. Embedding: Jeder «Chunk» wird durch ein Embedding-Modell geschickt, um einen Vektor zu erzeugen.
  4. Datenbank-Update: Die neuen Vektoren werden in die Vektordatenbank geladen. (Wichtig: Alte Vektoren des Dokuments müssen dabei überschrieben oder gelöscht werden).
  5. Orchestrierung: Der gesamte Prozess wird von einem Tool überwacht, das Fehler (Retries), Scheduling und Logging übernimmt.
3D-Bild zu Generative AI

Exklusiv für CEOs und GL: Sichern Sie Ihre Compliance und minimieren Sie KI-Risiken

Compliance-Falle KI? Als CEO oder GL-Mitglied tragen Sie die Verantwortung. Dieser exklusive Kurs deckt Compliance-Anforderungen im Umgang mit KI auf.

Praxis-Beispiel: Pipeline-Orchestrierung

Diese Pipelines sind Standard im modernen Data Engineering. Sie müssen das Rad nicht neu erfinden.

Der Aufbau einer automatisierten Ingestion-Pipeline ist der Schritt, der ein RAG-System von einem «Proof of Concept» in ein robustes, vertrauenswürdiges Unternehmens-Tool verwandelt.

KI-Beratung für Unternehmen

Strategien und Lösungen

KI-Beratung für KMU

Von der Strategie bis zur Umsetzung: Unsere KI-Beratung unterstützt Ihr Unternehmen mit passgenauen AI-Lösungen.

FAQ Veraltete KI-Wissensbasen

Was passiert, wenn Sie ein Dokument löschen?
Ein gutes Pipeline-Design muss das «Löschen» explizit behandeln. Die Pipeline muss erkennen, dass ein Dokument in der Quelle (z.B. SharePoint) nicht mehr existiert, und muss dann einen Befehl an die Vektordatenbank senden, alle mit diesem Dokument verbundenen Vektoren ebenfalls zu löschen. Dies ist für die Compliance (z.B. DSGVO) unerlässlich.

Wie oft sollte eine solche Pipeline laufen?
Das hängt von der «Frische» Ihrer Daten ab. Für ein Wiki (z.B. Confluence) ist eine Aktualisierung alle paar Stunden oder einmal pro Nacht oft ausreichend. Bei kritischen, sich schnell ändernden Daten kann auch eine (nahezu) Echtzeit-Synchronisation per Webhook nötig sein.

Was ist «Chunking» und warum ist es wichtig?
«Chunking» ist das Zerteilen von langen Dokumenten (z.B. ein 100-seitiges PDF) in kleine, semantisch zusammenhängende Textabschnitte (z.B. 500 Wörter pro Chunk). Dies ist nötig, weil die Vektorsuche mit kleineren Abschnitten besser funktioniert und die LLMs nur eine begrenzte Menge an Kontext (Context Window) auf einmal verarbeiten können.

DAS KÖNNTE SIE AUCH INTERESSIEREN

Data protection and cybersecurity concept with businessman holding hologram icon of secure personal information, digital privacy policy, and confidential identity management
Symbolbild KI Transparenz
Update Text Written on Speech Bubble
Symbolbild KI Wissen ohne zu Halluzinieren
Marius Högger Portrait
Der Experte

Marius Högger

Marius Högger vereint als AI Engineer und AI Consultant bei bbv umfassendes Fachwissen in Künstlicher Intelligenz mit einem ausgeprägten Blick für innovative Geschäftspotenziale. Im KI-Team von bbv entwickelt er fortschrittliche KI-Applikationen und integriert Unternehmensdaten gezielt in KI-Modelle, um Kunden wertvolle Erkenntnisse und nachhaltige Effizienzsteigerungen zu ermöglichen.

Unser Wissen im Abo

Attention!

Sorry, so far we got only content in English for this section.

Achtung!

Entschuldigung, bisher haben wir für diesen Abschnitt nur deutschsprachige Inhalte.