Datenschutz & KI im Einklang – wie du Risiken erkennst und sicher agierst

3. Juni 2025

KI bringt Innovation – aber auch neue Gefahren. Erfahre, wie du Generative KI sicher nutzt, ohne Datenschutz und Vertrauen zu gefährden.

„Ups … das ist nicht meine Konversation!“

Am 20. März 2023 mussten Nutzer:innen von ChatGPT feststellen, dass in ihrer Chat‑Historie plötzlich Gesprächstitel anderer Personen erschienen. OpenAI deaktivierte den Dienst kurzfristig und machte schließlich einen Redis‑Bug als Ursache für die Preisgabe persönlicher Informationen verantwortlich.1 2 3
Der Vorfall zeigt exemplarisch, wie schnell vertrauliche Daten entweichen können.

Wenn Trainingsdaten zur Gefahr für deine Daten werden

Generative KI wird mit riesigen Datenmengen gefüttert, die häufig per Web‑Scraping gewonnen werden. Darunter befinden sich – beabsichtigt oder nicht – personenbezogene oder urheberrechtlich geschützte Inhalte. Ein prominentes Beispiel: Die laufende Klage von Getty Images gegen Stability AI. Im Kern steht der Vorwurf, das Bildmodell Stable Diffusion sei mit Millionen urheberrechtlich geschützter Fotos trainiert worden, was sich unter anderem an im Output sichtbaren Getty‑Wasserzeichen ablesen lasse.4

Wo persönliche Daten im Modell landen können

Schon 2020 belegte eine Studie von Carlini et al., dass GPT‑2 teils personenbezogene Informationen wie Namen oder Telefonnummern wortgleich ausgeben kann, sofern diese in den Trainingsdaten enthalten waren.5 Das Gefahrenpotenzial steigt mit der Modellgröße sowie der Menge ungefilterter Inputdaten.

Datenlecks in der KI – so entweichen vertrauliche Infos.

Ein Datenleck ist die durch einen Softwarefehler oder eine böswillige Aktion verursachte Offenlegung vertraulicher Daten.

Angriffsvektor 1 – Versehentliche Ausgabe:
Prompt‑Injection oder simple Nachfragen können dazu führen, dass das Modell versehentlich Inhalte aus den Trainingsdaten preisgibt.

Angriffsvektor 2 – Rekonstruktion:
Forschende zeigen Methoden, mit denen sich Daten (z. B. Patientendiagnosen) aus einem feinjustierten LLM rekonstruieren lassen, auch wenn sie nicht direkt ausgegeben werden.

Angriffsvektor 3 – Infrastruktur‑Bugs:
Der eingangs erwähnte Redis‑Bug ist ein Beispiel dafür, dass auch die Betriebsumgebung eines KI‑Dienstes zum Risiko wird.

Zwischen DSGVO und EU AI Act: Was jetzt für KI zählt

Seit Juli 2024 ist der EU Artificial Intelligence Act (AI Act) verabschiedet und wird stufenweise anwendbar (edpb.europa.eu). Für Hochrisiko‑Systeme – darunter fallen viele GenAI‑Anwendungen mit personenbezogenen Daten – schreibt er strenge Anforderungen an Daten‑Governance, Transparenz und Sicherheits‑Engineering vor. Parallel bleibt die DSGVO mit ihren Prinzipien „Privacy by Design“ und „Purpose Limitation“ voll gültig.

Diese 6 Schritte machen KI sicher: Praktische Tipps für Unternehmen

HandlungsfeldAnsatzQuick-WinDateninventur &
KlassifizierungSensible vs. öffentliche Daten klar kennzeichnen;
Trainings‑ und Promptdaten getrennt behandelnData‑Loss‑Prevention‑
Regeln für Copy‑&‑Paste in Prompt‑FensternAnonymisierung &
SynthetisierungPersonenbezug herausfiltern, bevor Daten in das Modell gelangenOff‑the‑shelf‑
Anonymizer als Pre‑Processing nutzenRetrieval Augmented
Generation (RAG)Firmenwissen bleibt in einer separaten, verschlüsselten Vektordatenbank statt im Modell selbstLangChain/LLamaIndex‑Blueprint mit ZugriffstokenFine‑Tuning unter Differential PrivacyRauschen bei Gradientenupdates reduziert MemorisationDP‑SGD‑Libraries wie OpacusRed‑Teaming &
Prompt‑Injection‑TestsAngriffe simulieren, Leaks nachstellen„Purple Team Day“ alle 3 MonateReaktion & ComplianceMelde‑ und Löschprozesse für KI‑Outputs etablieren; DPIA für Hochrisiko‑AppsOne‑Pager Incident‑Runbook

Fazit: KI ist kein Risiko – wenn du Datenschutz von Anfang an mitdenkst

Die Nutzung von GenAI ist kein Freifahrtschein, sie verlagert nur das Spannungsfeld zwischen Innovation und Datensicherheit. Unternehmen, die frühzeitig klare Daten‑Governance, technische Schutzmaßnahmen und regelmäßige Audits implementieren, können das Potenzial von KI ausschöpfen, ohne das Vertrauen ihrer Kund*innen zu verspielen.

Nutze das volle Potenzial von KI – aber sicher.

doubleSlash zeigt dir wie