Die Kosten für generative KI sind dynamisch und token-basiert. Jeder zusätzliche Satz im Kontext, jede komplexere Anfrage treibt die Rechnung in die Höhe. Ohne zentrale Steuerung droht die Kostenexplosion. Führungskräfte müssen jetzt Mechanismen für planbare KI-Budgets etablieren.
Die Einführung von KI-Anwendungen bringt eine neue, unberechenbare Kostenart mit sich. Anders als bei traditioneller Softwarelizenzierung zahlen Sie «per Nutzung», genauer gesagt, «per Token». Dieses Modell birgt erhebliche finanzielle Risiken:
- Token-Verbrauch schwankt: Komplexe Anfragen oder der Einsatz von RAG (Retrieval-Augmented Generation) erhöhen die Token-Zahl pro Anfrage massiv.
- Kostenexplosion: Ein erfolgreicher interner Bot, der von vielen Mitarbeitern intensiv genutzt wird, kann unvorhergesehene Kosten im fünf- oder sechsstelligen Bereich verursachen.
- Missbrauch (Abuse): Wenn KI-Systeme externen Kunden (z.B. als Support-Bot) angeboten werden, können böswillige Akteure das System mit Anfragen fluten, und Sie bezahlen die Rechnung.
Für ein Unternehmen ist es nicht tragbar, nicht zu wissen, welche Kosten am Monatsende anfallen. Es braucht harte Limits und ein zentrales Monitoring.

Strategien und Lösungen
KI-Beratung für KMU
Von der Strategie bis zur Umsetzung: Unsere KI-Beratung unterstützt Ihr Unternehmen mit passgenauen AI-Lösungen.
Die Lösung: Der LLM-Gateway als «Wasserzähler»
Die gute Nachricht: Die Lösung für dieses Problem ist dieselbe Komponente, die wir bereits für die strategische Unabhängigkeit benötigen. Der LLM-Gateway, wie in Teil 2 zur Vermeidung von Vendor Lock-in beschrieben, ist der zentrale «Check-in» für alle KI-Anfragen.
Da jede Anfrage durch diesen zentralen Punkt fliessen muss, kann der Gateway als präziser «Wasserzähler» (oder besser: Token-Zähler) fungieren. Ein LLM-Gateway, der für Kostenkontrolle konfiguriert ist, übernimmt folgende Aufgaben:
- Metering (Messen): Er zählt mit, wie viele Tokens (Input und Output) von welchem Use Case, welchem Team oder sogar welchem einzelnen Benutzer verbraucht wurden.
- Budgets & Quoten (Limits): Sie können harte Limits definieren. Zum Beispiel: «Das Marketing-Team darf diesen Monat maximal CHF 500 für gpt-4o ausgeben.» oder «Der externe Support-Bot darf maximal 1.000 Anfragen pro Stunde verarbeiten (Rate Limiting).»
- Enforcement (Durchsetzung): Ist das Budget erreicht, blockiert der Gateway weitere Anfragen an das teure Modell, bevor die Kosten entstehen. Die Anfrage wird nicht mehr an Google oder OpenAI weitergeleitet.
- Routing (Steuerung): Der Gateway kann Anfragen intelligent steuern. Wenn das Budget für das teure «thinking-large»-Modell aufgebraucht ist, leitet er Anfragen automatisch auf ein günstigeres, wenn auch weniger performantes «thinking-small»-Modell um.
Praxis-Beispiel: Frameworks für die Kostenkontrolle
Sie müssen diese Funktionalität nicht von Grund auf neu erfinden. Etablierte Gateway-Lösungen bieten diese Features «out-of-the-box».
- LiteLLM: Ein populäres Open-Source-Gateway, das explizit Funktionen für «Budgets» und «User-Management» bereitstellt. Sie können pro API-Key ein Budget (z.B. in USD) und ein Zeitfenster festlegen.
- Portkey / Helicone: Diese Plattformen bieten erweiterte Analyse-Dashboards, mit denen Sie die Kosten pro Modell und Team visualisieren und optimieren können.
Durch die Zentralisierung über einen Gateway, wie in unserem KI-Infrastruktur-Blueprint vorgesehen, wird die Kostenkontrolle zu einer administrativen Aufgabe und ist kein undurchschaubares Risiko mehr.

Exklusiv für CEOs und GL: Sichern Sie Ihre Compliance und minimieren Sie KI-Risiken
Compliance-Falle KI? Als CEO oder GL-Mitglied tragen Sie die Verantwortung. Dieser exklusive Kurs deckt Compliance-Anforderungen im Umgang mit KI auf.
FAQ KI Infrastruktur
Reicht es nicht, die Budgets direkt beim Anbieter (z.B. Azure) einzustellen?
Das ist ein Anfang, aber nicht ausreichend. Die Budgets beim Anbieter sind oft nicht granular genug (z.B. nicht pro Endnutzer oder Team). Vor allem aber können Sie nicht intelligent reagieren. Ein Gateway kann bei Erreichen des Limits auf ein günstigeres Modell umschalten (Fallback) – ein reines Anbieter-Limit schaltet einfach nur ab.
Wie integriert sich das mit Active Directory oder Benutzergruppen?
Moderne LLM-Gateways bieten Mechanismen zur Benutzerauthentifizierung. Sie können API-Keys an Teams oder Abteilungen (z.B. via Active Directory-Gruppen) vergeben und die Budgets an diese Keys knüpfen. So wird eine verursachergerechte Abrechnung und Limitierung möglich.
Was ist wichtiger: Vendor Lock-in (Teil 2) oder Kostenkontrolle (Teil 3)?
Beides sind Funktionen derselben Infrastruktur-Komponente. Strategisch ist die Vermeidung des Vendor Lock-in (Teil 2) wichtiger. Finanziell ist die sofortige Kostenkontrolle (Teil 3) für das Management oft der dringendere Schmerzpunkt. Ein guter Gateway löst beides gleichzeitig.
DAS KÖNNTE SIE AUCH INTERESSIEREN
Das letzte Bollwerk – Datenschutz & PII-Schutz in der KI
Transparenz – was passiert im Inneren des KI-Agenten?
Schluss mit dem «Blindflug» bei KI-Updates
Die tickende Zeitbombe: Veraltete KI-Wissensbasen
