Anonymisierung und Pseudonymisierung von Daten für Projekte des maschinellen Lernens

 

Die künstliche Intelligenz ist eine junge Disziplin. Doch mit 64 ist sie doch nicht so jung, wie manche vermuten würden. Viele haben vor dem aktuellen Hype deswegen von KI nicht gehört, weil sie ihre ersten Jahrzehnte überwiegend in Forschungslaboren verbracht hat. Da hat die KI zwar mehrere Familien von Algorithmen hervorgebracht – z. B. Suche, Logik und Wissensrepräsentation. Doch von wenigen Ausnahmen abgesehen, ermöglichten diese Algorithmen keine bahnbrechenden Anwendungen in der Praxis.

Zu ihrem großen Durchbruch hat der KI jene Algorithmenfamilie verholfen, die bis dahin von der Mehrzahl der KI-Experten stiefmütterlich behandelt wurde: Das maschinelle Lernen. ML ist stellte das Paradigma der KI auf den Kopf. Nicht Regeln, sondern Daten sollen das Verhalten der KI diktieren. Will man beispielsweise einen Lernalgorithmus einsetzen, um Wölfe und Huskys in Bildern zu erkennen, so bräuchte man die Unterscheidungsmerkmale von Wölfen und Huskys nicht in Regeln zu erfassen. Vielmehr analysiert der Lernalgorithmus eine Menge von Beispielbildern beider Hundefamilien. Der Algorithmus entwickelt im Laufe der Lernphase ein generalisiertes Modell. Mit diesem Modell kann eine App später neue, bis dato nicht gesehene Bilder von Wölfen und Huskys richtig klassifizieren.

Das maschinelle Lernen hat sich in vielen Bereichen bewährt: Von der Bilderkennung in der Radiologie über Spracherkennung bei Sprachassistenten bis zur vorausschauenden Wartung in der Industrie. Dennoch: Der Grundgedanke des maschinellen Lernens ist nicht neu. Er geht vielmehr auf die fünfziger Jahre zurück. Der Siegeszug des ML liegt in der zunehmenden Verfügbarkeit von Daten und der rasant gestiegenen Rechenleistung begründet. Daten sind also das Herzstück des maschinellen Lernens. Wenn wir von Daten sprechen, müssen wir die rechtlichen Rahmenbedingungen für ihre Nutzung betrachten. Insbesondere müssen wir klären, inwiefern Daten, die wir für das Trainieren von ML-Modellen nutzen, nicht nur für die Algorithmen, sondern auch aus datenschutzrechtlichen Gesichtspunkten relevant sind.

Unser Ausgangspunkt ist simpel: Aus rechtlicher Sicht muss man Daten besonders schützen und ihre Verarbeitung stark reglementieren, wenn sie personenbezogen sind. Jegliche Nutzung personenbezogener Daten unterliegt (neben weiteren rechtlichen Bestimmungen) der Datenschutzgrundverordnung. Entfernt man den Personenbezug aus den Daten, ist man also – aus rechtlicher Sicht – freier in den Nutzungsmöglichkeiten. Auch die Verschleierung des Personenbezugs dient datenschutzrechtlichen Erwägungen: Sie erhöht den Schutz der Daten, ohne aber den Anwender aus dem Korsett des Datenschutzrechts zu entlassen. Es stehen Ihnen als Entwickler zwei wichtige Werkzeuge zur Verfügung, um den Personenbezug zu verschleiern bzw. ganz zu entfernen: Sie können die Daten pseudonymisieren oder anonymisieren.

Die Pseudonymisierung schützt Daten, indem sie die Werte von direkten Identifikatoren (z. B. Name oder Ausweisnummer) durch Pseudonyme ersetzt. Diese Pseudonyme werden über ein geeignetes Verfahren aus dem ursprünglichen Wert generiert oder gar neu vergeben. Ein Pseudonym kann das gleiche Format wie der ursprüngliche Datentyp besitzen – z. B. ein Name wird durch einen Künstlernamen ersetzt. Ein Pseudonym kann aber auch in einem neuen Format vorliegen – z. B. die Ausweisnummer wird durch eine zufällige Zeichenfolge ersetzt. Dabei ist es wichtig, dass die Zuordnung eindeutig ist: Für zwei identische Eingabewerte muss das gleiche Pseudonym erzeugt werden. Manche Anwendungen sind auf eine umkehrbare Pseudonymisierung angewiesen. Eine Pseudonymisierung ist dann umkehrbar, wenn man aus dem Pseudonym – auch wenn mithilfe eines zusätzlichen Schlüssels – den ursprünglichen Datenwert ableiten kann.

Pseudonymisierung wird vorwiegend eingesetzt, um sensitive Daten bei der Verarbeitung vor neugierigen Blicken zu schützen. Die Pseudonymisierung macht es lediglich schwerer, Rückschlüsse auf den ursprünglichen Datenwert zu ziehen. Da pseudonymisierte Daten eine Re-Identifikation der betroffenen Person nicht ausschließen, unterliegen sie der DS-GVO. Will man die Ableitung des ursprünglichen Datenwerts aber technisch unmöglich machen, so müsste man auf die Anonymisierung zurückgreifen. Anonymisierte Daten können – technisch gesehen – nicht auf individualisierte Personen zurückgeführt werden. Sie entfallen deshalb nicht dem Datenschutzrecht. Man spricht von anonymen Daten, wenn die Identifizierbarkeit eines Individuums unter Berücksichtigung sämtlicher zur Verfügung stehenden Mittel »einen unverhältnismäßigen Aufwand an Zeit, Kosten und Arbeitskräften erfordern würde, sodass das Risiko einer Identifizierung de facto vernachlässigbar erschiene«.

In diesem Leitfaden präsentieren wir praktische Methoden und konkrete Beispiele für die Anonymisierung und Pseudonymisierung von Daten. Der Leitfaden richtet sich insbesondere an Entwickler, die mit Fragen der Anonymisierung und Pseudonymisierung kämpfen. Kapitel 2 fasst die wichtigsten technischen Methoden und Verfahren zur A&P von Daten zusammen. Kapitel 3 geht auf die Problematik der Speicherung von Geo-Bewegungsprofilen ein. Kapitel 4 stellt die Abarbeitung von Mobilitätsdaten vor, die Google im Kontext von COVID-19 erhoben hat. Kapitel 5 diskutiert Anwendungsbeispiele für das Prinzip der entkoppelten Pseudonyme – ein Prinzip, welches die Rückführung von Pseudonymen erschwert. Kapitel 6 erörtert das Konzept des föderierten Lernens und erklärt, wie effektives maschinelles Lernen auch lokal stattfinden kann. Kapitel 7 beschreibt die Datenschutzrisiken bei Medieninhalten und empfiehlt Gegenmaßnahmen. Kapitel 8 geht auf die Anonymisierung und Pseudonymisierung medizinischer Textdaten ein. Und Kapitel 9 präsentiert das Konzept der semantischen Anonymisierung.

Wir hoffen, dass dieser Leitfaden Ihnen bei der Wahl geeigneter Verfahren helfen kann!

 

Leitfaden kostenfrei herunterladen

 

Diese Seminare könnten Sie auch interessieren

 

Seminar Format Datum Aufsteigend sortieren Ort Verfügbar Preis

Digitale Transformation

Nachhaltiges Energiemanagement mit Daten

Workshop

24.10.24 Online
 

650 €

Digitale Transformation

Crashkurs IT-Fortgeschrittenen-Wissen

Workshop

21.10.24 Online
 

1.300 €

Digitale Transformation

Ausbildung zum KI Manager

Zertifikatslehrgang

10.10.24 Berlin + Online
 

6.200 €

Digitale Transformation

Digital Transformation Professional - Zertifikatslehrgang

Zertifikatslehrgang

09.10.24 Online
 

2.100 €

Digitale Transformation

Zertifizierter Augmented Reality (AR) Manager

Zertifikatslehrgang

01.10.24 Berlin + Online
 

2.900 €

Digitale Transformation

Manager für digitale Plattformen

Zertifikatslehrgang

25.09.24 Berlin
 

1.950 €

Digitale Transformation

IT-Projektmanagement Grundlagen

Zertifikatslehrgang

25.09.24 Berlin
 

1.900 €

Digitale Transformation

Komplexe Software-Investitionen ohne Reue

Workshop

19.09.24 Online
 

1.300 €

Digitale Transformation

KI im Marketing: Use Cases & Tools

Workshop

18.09.24 Online
 

1.300 €

Digitale Transformation

Ausbildung zum Deep Learning Specialist

Zertifikatslehrgang

17.09.24 online
 

6.200 €

Digitale Transformation

Ausbildung zum KI Manager

Zertifikatslehrgang

16.09.24 Berlin + Online
 

6.200 €

Digitale Transformation

Low-Code & No-Code: Entwicklung und Anwendung

Workshop

10.09.24 Online
 

650 €

Digitale Transformation

Ausbildung zum Chief Digital Officer (CDO)

Zertifikatslehrgang

05.09.24 Online
 

6.200 €

Digitale Transformation

IT-Kommunikation: Techniken für mehr Erfolg

Workshop

26.08.24 Online
 

650 €

Digitale Transformation

Ausbildung zum Data Scientist

Zertifikatslehrgang

19.08.24 Online
 

6.200 €

Digitale Transformation

Crashkurs Software-Know-how

Workshop

22.07.24 Online
 

1.300 €

Digitale Transformation

KI im Marketing: Use Cases & Tools

Workshop

11.07.24 Online
 

1.300 €

Digitale Transformation

Crashkurs IT-Fortgeschrittenen-Wissen

Workshop

04.07.24 Online
 

1.300 €

Digitale Transformation

Agiles Projektmanagement mit Scrum

Live-Online

28.06.24 Online
 

kostenfrei

Digitale Transformation

Zertifizierter OKR-Expert

Zertifikatslehrgang

26.06.24 Online
 

1.650 €

1

2

3