Sie haben ein brillantes RAG-System implementiert, wie in Teil 4 beschrieben. Ihre KI kann nun alle internen Dokumente lesen. Doch was passiert, wenn Ihr Unternehmen die Spesenregelung morgen von 80 EUR auf 90 EUR anpasst? Aktualisieren Sie Ihre KI-Wissensbasis nicht sofort, liefert sie gefährliche Fehlinformationen.
Der Aufbau einer Vektordatenbank läuft oft als einmaliges Projekt ab: Sie sammeln alle relevanten Dokumente, verarbeiten sie (chunking) und laden sie in die Datenbank. Doch genau hier liegt die grösste Schwachstelle von RAG-Systemen: Unternehmenswissen ist nicht statisch. Dokumente ändern sich täglich. Es gibt neue Versionen, Ergänzungen, und Löschungen.
Das Problem: Veraltete Daten sind schlimmer als keine Daten
Eine KI, die auf veralteten Daten operiert, ist ein Compliance- und Qualitätsrisiko.
- Qualitätsverlust: Die KI gibt falsche, veraltete Antworten. Mitarbeitende verlieren das Vertrauen in das System.
- Compliance-Risiken: Was passiert, wenn Sie ein Dokument löschen (z. B. aus Datenschutzgründen), die Informationen in der Vektordatenbank aber weiterhin bestehen bleiben? Dann gibt die KI Daten preis, die Sie eigentlich längst hätten entfernen müssen.
Ein einmaliger Import reicht nicht aus. Sie benötigen einen kontinuierlichen, automatisierten Prozess, um die Vektordatenbank mit Ihren Quelldaten (z.B. SharePoint, Confluence, Filesystem) synchron zu halten.
Die Lösung: Automatisierte Ingestion-Pipelines
Die Lösung ist eine automatisierte Ingestion-Pipeline. Dies ist eine Kernkomponente Ihrer KI-Infrastruktur (Teil 1), die als «Dateningenieur» im Hintergrund arbeitet.
Diese Pipeline ist ein Workflow, der permanent oder in regelmässigen Abständen läuft und folgende Schritte automatisiert:
- Connectoren & Änderungserkennung: Die Pipeline verbindet sich mit den Datenquellen (z.B. SharePoint). Sie erkennt Änderungen entweder durch «Polling» (regelmässiges Nachfragen: «Gibt es was Neues?») oder «Webhooks» (SharePoint sendet eine Nachricht: «Hey, Dokument X wurde geändert!»).
- Verarbeitung: Das geänderte Dokument wird geholt. Text wird extrahiert, Metadaten (wie Autor, Datum) werden ausgelesen, und der Text wird in kleine Abschnitte («Chunks») zerteilt.
- Embedding: Jeder «Chunk» wird durch ein Embedding-Modell geschickt, um einen Vektor zu erzeugen.
- Datenbank-Update: Die neuen Vektoren werden in die Vektordatenbank geladen. (Wichtig: Alte Vektoren des Dokuments müssen dabei überschrieben oder gelöscht werden).
- Orchestrierung: Der gesamte Prozess wird von einem Tool überwacht, das Fehler (Retries), Scheduling und Logging übernimmt.

Exklusiv für CEOs und GL: Sichern Sie Ihre Compliance und minimieren Sie KI-Risiken
Compliance-Falle KI? Als CEO oder GL-Mitglied tragen Sie die Verantwortung. Dieser exklusive Kurs deckt Compliance-Anforderungen im Umgang mit KI auf.
Praxis-Beispiel: Pipeline-Orchestrierung
Diese Pipelines sind Standard im modernen Data Engineering. Sie müssen das Rad nicht neu erfinden.
- Workflow-Orchestrierung: Tools wie Dagster (von uns empfohlen und genutzt), Airflow oder Prefect sind darauf spezialisiert, solche Daten-Workflows zu bauen, zu planen und zu überwachen.
- Cloud-Native: Alternativ können Sie auch Cloud-Dienste wie AWS Step Functions oder Azure Data Factory nutzen, um diese Prozesse abzubilden.
- Custom Scripts: Für einfache Anwendungsfälle können Sie auch ein Python-Script einsetzen und es per Cronjob oder Scheduler ausführen.
Der Aufbau einer automatisierten Ingestion-Pipeline ist der Schritt, der ein RAG-System von einem «Proof of Concept» in ein robustes, vertrauenswürdiges Unternehmens-Tool verwandelt.

Strategien und Lösungen
KI-Beratung für KMU
Von der Strategie bis zur Umsetzung: Unsere KI-Beratung unterstützt Ihr Unternehmen mit passgenauen AI-Lösungen.
FAQ Veraltete KI-Wissensbasen
Was passiert, wenn Sie ein Dokument löschen?
Ein gutes Pipeline-Design muss das «Löschen» explizit behandeln. Die Pipeline muss erkennen, dass ein Dokument in der Quelle (z.B. SharePoint) nicht mehr existiert, und muss dann einen Befehl an die Vektordatenbank senden, alle mit diesem Dokument verbundenen Vektoren ebenfalls zu löschen. Dies ist für die Compliance (z.B. DSGVO) unerlässlich.
Wie oft sollte eine solche Pipeline laufen?
Das hängt von der «Frische» Ihrer Daten ab. Für ein Wiki (z.B. Confluence) ist eine Aktualisierung alle paar Stunden oder einmal pro Nacht oft ausreichend. Bei kritischen, sich schnell ändernden Daten kann auch eine (nahezu) Echtzeit-Synchronisation per Webhook nötig sein.
Was ist «Chunking» und warum ist es wichtig?
«Chunking» ist das Zerteilen von langen Dokumenten (z.B. ein 100-seitiges PDF) in kleine, semantisch zusammenhängende Textabschnitte (z.B. 500 Wörter pro Chunk). Dies ist nötig, weil die Vektorsuche mit kleineren Abschnitten besser funktioniert und die LLMs nur eine begrenzte Menge an Kontext (Context Window) auf einmal verarbeiten können.
DAS KÖNNTE SIE AUCH INTERESSIEREN
Das letzte Bollwerk – Datenschutz & PII-Schutz in der KI
Transparenz – was passiert im Inneren des KI-Agenten?
Schluss mit dem «Blindflug» bei KI-Updates
So nutzt KI Ihr internes Wissen – ohne Halluzinationen
