Datensouveränität und Zugriffskontrolle in KI-Chatbots:

Wer darf eigentlich was wissen?

Viele Unternehmen experimentieren aktuell mit KI-Chatbots auf Basis von Retrieval-Augmented Generation (RAG).

Die Ergebnisse sind beeindruckend: Der Bot beantwortet Fragen auf Basis interner Dokumente, Richtlinien, Verträge oder Wissensdatenbanken – schnell, kontextbezogen und in natürlicher Sprache.
Doch genau hier entsteht eine zentrale Frage, die oft zu spät gestellt wird:
Wenn der Chatbot alles weiß – darf er dann auch jedem alles sagen?

Das Missverständnis: „Der Bot hat Zugriff – also passt das schon“

In vielen Projekten wird der Fokus zunächst auf Modellqualität, Suchgenauigkeit und Antwortformat gelegt.
Die Architektur sieht vereinfacht so aus:

  1. Nutzer stellt eine Frage
  2. Das System durchsucht interne Dokumente
  3. Relevante Inhalte werden an ein Sprachmodell übergeben
  4. Das Modell generiert eine Antwort

Technisch funktioniert das gut. Sicherheitstechnisch kann es problematisch sein. Denn ohne zusätzliche Mechanismen gilt oft implizit: Jeder Nutzer bekommt Zugriff auf alles, was im Retrieval-System liegt. Das ist in der Praxis nicht immer akzeptabel.

Typische Risikoszenarien

  1. HR-Dokumente und personenbezogene Daten

Ein Mitarbeiter fragt: „Welche Gehaltsbänder gelten aktuell im Unternehmen?“
Wenn das System ungeschützt auf interne HR-Dokumente zugreifen kann, besteht die Gefahr, dass sensible Informationen offengelegt werden.

  1. Strategische Dokumente

Ein Vertriebsmitarbeiter fragt nach Roadmap-Details, die nur für das Management gedacht sind.

  1. Mandantenfähigkeit

In beratenden oder regulierten Branchen (z. B. Steuerberatung, Recht, Healthcare) darf ein Mandant niemals Informationen eines anderen Mandanten sehen.
Ein falsch konfiguriertes RAG-System kann hier ungewollt Daten vermischen.

Datensouveränität bedeutet mehr als „Server in Europa“

Oft wird Datensouveränität rein infrastrukturell verstanden:

  • Hosting in der EU
  • On-Premise statt Cloud
  • DSGVO-konforme Verarbeitung

Das ist wichtig – aber nicht ausreichend.
Echte Datensouveränität bedeutet auch:

  • Granulare Zugriffskontrolle auf Dokumentebene
  • Transparenz darüber, welche Daten wann verwendet werden
  • Nachvollziehbarkeit von Antworten
  • Technische Durchsetzung von Berechtigungen

Gerade bei KI-Systemen verschiebt sich die Herausforderung:
Nicht der direkte Dokumentenzugriff ist das Risiko – sondern das indirekte Offenlegen über generierte Antworten.

Zugriffskontrolle im RAG-Kontext: Was sich ändert

Klassische Systeme prüfen Zugriffsrechte, bevor ein Dokument angezeigt wird.
Ein RAG-System funktioniert anders:

  • Es sucht automatisch nach relevanten Dokumenten
  • Es extrahiert Inhalte
  • Es verdichtet diese in einer neuen, generierten Antwort

Das bedeutet: Die Zugriffskontrolle muss vor dem Retrieval greifen – nicht erst bei der Anzeige.

Technische Ansätze

  1. Rollenbasierte Zugriffskontrolle (RBAC)

Jeder Nutzer erhält eine Rolle:

  • HR
  • Vertrieb
  • Management
  • Externer Partner

Beim Retrieval werden nur Dokumente berücksichtigt, die der Rolle entsprechen.

  1. Dokument-Level Security

Jedes Dokument erhält Metadaten:

  • Sichtbarkeit
  • Abteilung
  • Mandant

Diese Metadaten werden beim Suchprozess aktiv gefiltert.

  1. Security-Trimming im Retrieval

Suchergebnisse werden bereits im Retrieval-Layer gefiltert, bevor sie an das Sprachmodell übergeben werden.
Das Modell „sieht“ also nur, was der Nutzer sehen darf.

Warum das besonders bei KI-Systemen kritisch ist

Ein klassisches System zeigt Dokumente. Ein KI-System erzeugt neue Inhalte.
Wenn sensible Informationen einmal ins Kontextfenster des Modells gelangen, können sie:

  • paraphrasiert,
  • zusammengefasst,
  • indirekt referenziert oder
  • rekonstruiert werden.

Selbst wenn die ursprüngliche Quelle nicht angezeigt wird, kann Information durch die Antwort nach außen gelangen.
Das macht Zugriffskontrolle in KI-Systemen zu einem Architekturthema – nicht zu einem Feature.

Governance, Monitoring und Nachvollziehbarkeit

Neben technischer Zugriffskontrolle braucht es:

  • Logging der Retrieval-Quellen
  • Auditierbarkeit von Antworten
  • Monitoring ungewöhnlicher Abfragemuster
  • Rate Limiting gegen systematisches „Abfragen“ sensibler Inhalte

Denn ein Angreifer muss nicht alles auf einmal bekommen. Viele kleine, harmlose Antworten können zusammengesetzt ein sensibles Gesamtbild ergeben.

Fazit: Ein Chatbot ist kein Feature – sondern ein Zugriffskanal

Ein interner KI-Chatbot ist kein isoliertes Tool. Er ist ein neuer Zugangskanal zu Unternehmenswissen.
Deshalb sollte bei RAG-Projekten nicht nur gefragt werden:

  • Wie gut sind die Antworten?
  • Wie schnell ist das System?
  • Wie hoch ist die Trefferquote?

Sondern vor allem: Wer darf welche Informationen in welcher Form über diesen Kanal erhalten?
Unternehmen, die Zugriffskontrolle und Datensouveränität von Anfang an architektonisch mitdenken, schaffen Vertrauen – bei Mitarbeitenden, Kunden und Compliance-Verantwortlichen.
Und genau dieses Vertrauen wird langfristig darüber entscheiden, ob KI-Systeme im Unternehmen akzeptiert und produktiv genutzt werden.

 

Jetzt teilen: