EDSA: KI-Modelle können personenbezogene Daten enthalten

Neue EDSA-Stellungnahme (Opinion 28/2024) zur Verarbeitung personenbezogener Daten in KI-Modellen

Einleitung

Die rasante Entwicklung und Nutzung von Künstlicher Intelligenz (KI) werfen grundlegende Datenschutzfragen auf. Noch nicht einheitlich geklärt ist die Frage, ob KI-Modelle personenbezogene Daten verarbeiten. So hat zum Beispiel der Hamburgische Beauftragte für Datenschutz und Informationsfreiheit in seinem Diskussionspapier Large Languale Models und personenbezogene Daten die Auffassung vertreten, dass in Large Language Models (LLMs) aufgrund der Tokenisierung von Textfragmenten und des Fehlens von Identifiern zu einer gezielten und individuellen Zuordnung von Informationen keine personenbezogenen Daten gespeichert werden. Der Europäische Datenschutzausschuss (EDSA, englisch EDPB) geht diesbezüglich nicht von einer automatischen Anonymitat aus und hat nun in seiner Stellungnahme 28/2024 aktuelle Leitlinien für Datenschutzbehörden und Unternehmen veröffentlicht, um die datenschutzrechtlichen Herausforderungen in der Entwicklung und Nutzung von KI-Modellen zu adressieren.

Hintergrund

Der Europäische Datenschutzausschuss (EDSA/EDPB) ist eine unabhängige EU-Einrichtung, welche aus Vertretern der nationalen Datenschutzbehörden und dem Europäischen Datenschutzbeauftragten besteht. Er soll die die einheitliche Anwendung der Datenschutz-Grundverordnung (DSGVO) in der EU sicherstellen und die Zusammenarbeit zwischen den nationalen Datenschutzbehörden fördern.

Der Opinion 28/2024 zur Verarbeitung personenbezogener Daten in der Entwicklung und im Einsatz von KI-Modellen ist eine Anfrage der irischen Datenschutzaufsichtsbehörde im Rahmen von Art. 64 Abs. 2 DSGVO vorausgegangen. Nach dieser Bestimmung können Aufsichtsbehörden, bei Fragen von allgemeiner Bedeutung wie der Verarbeitung personenbezogener Daten in KI-Modellen eine Stellungnahme des EDPB einzuholen, um eine einheitliche Auslegung der DSGVO in allen Mitgliedstaaten sicherzustellen.

Wesentliche Kernaussagen der Opinion 28/2024

Anonymisierung: KI-Modelle, die mit personenbezogenen Daten trainiert wurden, können nicht automatisch als anonym gelten. Die Anonymisierung muss streng überprüft werden, indem der mögliche Rückschluss auf Einzelpersonen durch Angriffe (z. B. Membership-Inference-Attacken) ausgeschlossen wird. Unternehmen müssen umfassende technische Nachweise zur Anonymisierung erbringen.

Legitimes Interesse bei der Verarbeitung von Trainingsdaten im Rahmen der Entwicklung: Grundsätzlich kann die Verarbeitung von Trainingsdaten im Rahmen der Entwicklung des KI-Modells im legitimen Interesse des entwickelnden Unternehmens liegen. Sofern sich auf diese Rechtsgrundlage gestützt wird, muss eine dreistufige Prüfung vorgenommen und dokumentiert werden:

  • Das legitime Interesse muss identifiziert werden (z. B. Verbesserung der KI-Funktionalität)
  • Die Erforderlichkeit der Datenverarbeitung mit personenbezogenen Daten muss nachgewiesen sein. Es darf beispielsweise keine milderes Mittel vorliegen.
  • Die Rechte und Interesse des Verantwortlichen und der Betroffenen müssen sorgfältig abgewogen werden. Hierbei darf das Interesse der Betroffenen am Ausschluss der Verarbeitung nicht überwiegen.

Unrechtmäßige Datenverarbeitung: Daten, die ohne rechtliche Grundlage verarbeitet wurden, können nachträglich weitreichende Folgen haben, einschließlich der Unzulässigkeit des gesamten Modells. Datenschutzbehörden können Maßnahmen wie Löschung oder Nachbesserung des Modells anordnen.

Empfehlungen

Die Stellungnahme des EDPB bietet Orientierung für Unternehmen, die KI-Technologien entwickeln oder einsetzen. Unternehmen sollten die Leitlinien berücksichtigen, um rechtliche Risiken zu minimieren.

  • Unternehmen bzw. Entwickler von KI-Modellen sollten umfassende Nachweise über Anonymisierungsverfahren und datenschutzfreundliche Gestaltung (Privacy by Design) führen.
  • Vor der Entwicklung und Nutzung eines KI-Modells sollte eine Datenschutz-Folgenabschätzung (DSFA) durchgeführt werden.
  • Betroffene sollten klar und verständlich über die Verarbeitung ihrer Daten informiert werden.
  • Maßnahmen wie die Pseudonymisierung von Daten, die Filterung sensibler Daten sowie Opt-out-Möglichkeiten für Betroffene sollten priorisiert werden.

Foto von Claudio Schwarz auf Unsplash