Die Ergebnisse sind beeindruckend: Der Bot beantwortet Fragen auf Basis interner Dokumente, Richtlinien, Verträge oder Wissensdatenbanken – schnell, kontextbezogen und in natürlicher Sprache.
Doch genau hier entsteht eine zentrale Frage, die oft zu spät gestellt wird:
Wenn der Chatbot alles weiß – darf er dann auch jedem alles sagen?
Datensouveränität und Zugriffskontrolle in KI-Chatbots:
Wer darf eigentlich was wissen?
Viele Unternehmen experimentieren aktuell mit KI-Chatbots auf Basis von Retrieval-Augmented Generation (RAG).
Das Missverständnis: „Der Bot hat Zugriff – also passt das schon“
In vielen Projekten wird der Fokus zunächst auf Modellqualität, Suchgenauigkeit und Antwortformat gelegt.
Die Architektur sieht vereinfacht so aus:
- Nutzer stellt eine Frage
- Das System durchsucht interne Dokumente
- Relevante Inhalte werden an ein Sprachmodell übergeben
- Das Modell generiert eine Antwort
Technisch funktioniert das gut. Sicherheitstechnisch kann es problematisch sein. Denn ohne zusätzliche Mechanismen gilt oft implizit: Jeder Nutzer bekommt Zugriff auf alles, was im Retrieval-System liegt. Das ist in der Praxis nicht immer akzeptabel.
Typische Risikoszenarien
- HR-Dokumente und personenbezogene Daten
Ein Mitarbeiter fragt: „Welche Gehaltsbänder gelten aktuell im Unternehmen?“
Wenn das System ungeschützt auf interne HR-Dokumente zugreifen kann, besteht die Gefahr, dass sensible Informationen offengelegt werden.
- Strategische Dokumente
Ein Vertriebsmitarbeiter fragt nach Roadmap-Details, die nur für das Management gedacht sind.
- Mandantenfähigkeit
In beratenden oder regulierten Branchen (z. B. Steuerberatung, Recht, Healthcare) darf ein Mandant niemals Informationen eines anderen Mandanten sehen.
Ein falsch konfiguriertes RAG-System kann hier ungewollt Daten vermischen.
Datensouveränität bedeutet mehr als „Server in Europa“
Oft wird Datensouveränität rein infrastrukturell verstanden:
- Hosting in der EU
- On-Premise statt Cloud
- DSGVO-konforme Verarbeitung
Das ist wichtig – aber nicht ausreichend.
Echte Datensouveränität bedeutet auch:
- Granulare Zugriffskontrolle auf Dokumentebene
- Transparenz darüber, welche Daten wann verwendet werden
- Nachvollziehbarkeit von Antworten
- Technische Durchsetzung von Berechtigungen
Gerade bei KI-Systemen verschiebt sich die Herausforderung:
Nicht der direkte Dokumentenzugriff ist das Risiko – sondern das indirekte Offenlegen über generierte Antworten.
Zugriffskontrolle im RAG-Kontext: Was sich ändert
Klassische Systeme prüfen Zugriffsrechte, bevor ein Dokument angezeigt wird.
Ein RAG-System funktioniert anders:
- Es sucht automatisch nach relevanten Dokumenten
- Es extrahiert Inhalte
- Es verdichtet diese in einer neuen, generierten Antwort
Das bedeutet: Die Zugriffskontrolle muss vor dem Retrieval greifen – nicht erst bei der Anzeige.
Technische Ansätze
- Rollenbasierte Zugriffskontrolle (RBAC)
Jeder Nutzer erhält eine Rolle:
- HR
- Vertrieb
- Management
- Externer Partner
Beim Retrieval werden nur Dokumente berücksichtigt, die der Rolle entsprechen.
- Dokument-Level Security
Jedes Dokument erhält Metadaten:
- Sichtbarkeit
- Abteilung
- Mandant
Diese Metadaten werden beim Suchprozess aktiv gefiltert.
- Security-Trimming im Retrieval
Suchergebnisse werden bereits im Retrieval-Layer gefiltert, bevor sie an das Sprachmodell übergeben werden.
Das Modell „sieht“ also nur, was der Nutzer sehen darf.
Warum das besonders bei KI-Systemen kritisch ist
Ein klassisches System zeigt Dokumente. Ein KI-System erzeugt neue Inhalte.
Wenn sensible Informationen einmal ins Kontextfenster des Modells gelangen, können sie:
- paraphrasiert,
- zusammengefasst,
- indirekt referenziert oder
- rekonstruiert werden.
Selbst wenn die ursprüngliche Quelle nicht angezeigt wird, kann Information durch die Antwort nach außen gelangen.
Das macht Zugriffskontrolle in KI-Systemen zu einem Architekturthema – nicht zu einem Feature.
Governance, Monitoring und Nachvollziehbarkeit
Neben technischer Zugriffskontrolle braucht es:
- Logging der Retrieval-Quellen
- Auditierbarkeit von Antworten
- Monitoring ungewöhnlicher Abfragemuster
- Rate Limiting gegen systematisches „Abfragen“ sensibler Inhalte
Denn ein Angreifer muss nicht alles auf einmal bekommen. Viele kleine, harmlose Antworten können zusammengesetzt ein sensibles Gesamtbild ergeben.
Fazit: Ein Chatbot ist kein Feature – sondern ein Zugriffskanal
Ein interner KI-Chatbot ist kein isoliertes Tool. Er ist ein neuer Zugangskanal zu Unternehmenswissen.
Deshalb sollte bei RAG-Projekten nicht nur gefragt werden:
- Wie gut sind die Antworten?
- Wie schnell ist das System?
- Wie hoch ist die Trefferquote?
Sondern vor allem: Wer darf welche Informationen in welcher Form über diesen Kanal erhalten?
Unternehmen, die Zugriffskontrolle und Datensouveränität von Anfang an architektonisch mitdenken, schaffen Vertrauen – bei Mitarbeitenden, Kunden und Compliance-Verantwortlichen.
Und genau dieses Vertrauen wird langfristig darüber entscheiden, ob KI-Systeme im Unternehmen akzeptiert und produktiv genutzt werden.
Weitere Neuigkeiten