Anonymisierung und Pseudonymisierung von Daten für Projekte des maschinellen Lernens

 

Die künstliche Intelligenz ist eine junge Disziplin. Doch mit 64 ist sie doch nicht so jung, wie manche vermuten würden. Viele haben vor dem aktuellen Hype deswegen von KI nicht gehört, weil sie ihre ersten Jahrzehnte überwiegend in Forschungslaboren verbracht hat. Da hat die KI zwar mehrere Familien von Algorithmen hervorgebracht – z. B. Suche, Logik und Wissensrepräsentation. Doch von wenigen Ausnahmen abgesehen, ermöglichten diese Algorithmen keine bahnbrechenden Anwendungen in der Praxis.

Zu ihrem großen Durchbruch hat der KI jene Algorithmenfamilie verholfen, die bis dahin von der Mehrzahl der KI-Experten stiefmütterlich behandelt wurde: Das maschinelle Lernen. ML ist stellte das Paradigma der KI auf den Kopf. Nicht Regeln, sondern Daten sollen das Verhalten der KI diktieren. Will man beispielsweise einen Lernalgorithmus einsetzen, um Wölfe und Huskys in Bildern zu erkennen, so bräuchte man die Unterscheidungsmerkmale von Wölfen und Huskys nicht in Regeln zu erfassen. Vielmehr analysiert der Lernalgorithmus eine Menge von Beispielbildern beider Hundefamilien. Der Algorithmus entwickelt im Laufe der Lernphase ein generalisiertes Modell. Mit diesem Modell kann eine App später neue, bis dato nicht gesehene Bilder von Wölfen und Huskys richtig klassifizieren.

Das maschinelle Lernen hat sich in vielen Bereichen bewährt: Von der Bilderkennung in der Radiologie über Spracherkennung bei Sprachassistenten bis zur vorausschauenden Wartung in der Industrie. Dennoch: Der Grundgedanke des maschinellen Lernens ist nicht neu. Er geht vielmehr auf die fünfziger Jahre zurück. Der Siegeszug des ML liegt in der zunehmenden Verfügbarkeit von Daten und der rasant gestiegenen Rechenleistung begründet. Daten sind also das Herzstück des maschinellen Lernens. Wenn wir von Daten sprechen, müssen wir die rechtlichen Rahmenbedingungen für ihre Nutzung betrachten. Insbesondere müssen wir klären, inwiefern Daten, die wir für das Trainieren von ML-Modellen nutzen, nicht nur für die Algorithmen, sondern auch aus datenschutzrechtlichen Gesichtspunkten relevant sind.

Unser Ausgangspunkt ist simpel: Aus rechtlicher Sicht muss man Daten besonders schützen und ihre Verarbeitung stark reglementieren, wenn sie personenbezogen sind. Jegliche Nutzung personenbezogener Daten unterliegt (neben weiteren rechtlichen Bestimmungen) der Datenschutzgrundverordnung. Entfernt man den Personenbezug aus den Daten, ist man also – aus rechtlicher Sicht – freier in den Nutzungsmöglichkeiten. Auch die Verschleierung des Personenbezugs dient datenschutzrechtlichen Erwägungen: Sie erhöht den Schutz der Daten, ohne aber den Anwender aus dem Korsett des Datenschutzrechts zu entlassen. Es stehen Ihnen als Entwickler zwei wichtige Werkzeuge zur Verfügung, um den Personenbezug zu verschleiern bzw. ganz zu entfernen: Sie können die Daten pseudonymisieren oder anonymisieren.

Die Pseudonymisierung schützt Daten, indem sie die Werte von direkten Identifikatoren (z. B. Name oder Ausweisnummer) durch Pseudonyme ersetzt. Diese Pseudonyme werden über ein geeignetes Verfahren aus dem ursprünglichen Wert generiert oder gar neu vergeben. Ein Pseudonym kann das gleiche Format wie der ursprüngliche Datentyp besitzen – z. B. ein Name wird durch einen Künstlernamen ersetzt. Ein Pseudonym kann aber auch in einem neuen Format vorliegen – z. B. die Ausweisnummer wird durch eine zufällige Zeichenfolge ersetzt. Dabei ist es wichtig, dass die Zuordnung eindeutig ist: Für zwei identische Eingabewerte muss das gleiche Pseudonym erzeugt werden. Manche Anwendungen sind auf eine umkehrbare Pseudonymisierung angewiesen. Eine Pseudonymisierung ist dann umkehrbar, wenn man aus dem Pseudonym – auch wenn mithilfe eines zusätzlichen Schlüssels – den ursprünglichen Datenwert ableiten kann.

Pseudonymisierung wird vorwiegend eingesetzt, um sensitive Daten bei der Verarbeitung vor neugierigen Blicken zu schützen. Die Pseudonymisierung macht es lediglich schwerer, Rückschlüsse auf den ursprünglichen Datenwert zu ziehen. Da pseudonymisierte Daten eine Re-Identifikation der betroffenen Person nicht ausschließen, unterliegen sie der DS-GVO. Will man die Ableitung des ursprünglichen Datenwerts aber technisch unmöglich machen, so müsste man auf die Anonymisierung zurückgreifen. Anonymisierte Daten können – technisch gesehen – nicht auf individualisierte Personen zurückgeführt werden. Sie entfallen deshalb nicht dem Datenschutzrecht. Man spricht von anonymen Daten, wenn die Identifizierbarkeit eines Individuums unter Berücksichtigung sämtlicher zur Verfügung stehenden Mittel »einen unverhältnismäßigen Aufwand an Zeit, Kosten und Arbeitskräften erfordern würde, sodass das Risiko einer Identifizierung de facto vernachlässigbar erschiene«.

In diesem Leitfaden präsentieren wir praktische Methoden und konkrete Beispiele für die Anonymisierung und Pseudonymisierung von Daten. Der Leitfaden richtet sich insbesondere an Entwickler, die mit Fragen der Anonymisierung und Pseudonymisierung kämpfen. Kapitel 2 fasst die wichtigsten technischen Methoden und Verfahren zur A&P von Daten zusammen. Kapitel 3 geht auf die Problematik der Speicherung von Geo-Bewegungsprofilen ein. Kapitel 4 stellt die Abarbeitung von Mobilitätsdaten vor, die Google im Kontext von COVID-19 erhoben hat. Kapitel 5 diskutiert Anwendungsbeispiele für das Prinzip der entkoppelten Pseudonyme – ein Prinzip, welches die Rückführung von Pseudonymen erschwert. Kapitel 6 erörtert das Konzept des föderierten Lernens und erklärt, wie effektives maschinelles Lernen auch lokal stattfinden kann. Kapitel 7 beschreibt die Datenschutzrisiken bei Medieninhalten und empfiehlt Gegenmaßnahmen. Kapitel 8 geht auf die Anonymisierung und Pseudonymisierung medizinischer Textdaten ein. Und Kapitel 9 präsentiert das Konzept der semantischen Anonymisierung.

Wir hoffen, dass dieser Leitfaden Ihnen bei der Wahl geeigneter Verfahren helfen kann!

 

Leitfaden kostenfrei herunterladen

 

Diese Seminare könnten Sie auch interessieren

 

Seminar Format Datum Absteigend sortieren Ort Verfügbar Preis

Digitale Transformation

Anforderungsmanagement und Werkzeugunterstützung: Requirements Engineering (Teil 6)

Live-Online

03.04.24 Online
 

kostenfrei

Digitale Transformation

Crashkurs IT-Hintergrundwissen

Workshop

04.04.24 Online
 

1.300 €

Digitale Transformation

Klassisches vs. agiles vs. hybrides Projektmanagement

Live-Online

05.04.24 Online
 

kostenfrei

Digitale Transformation

Nachhaltiges Energiemanagement mit Daten

Workshop

10.04.24 Online
 

650 €

Digitale Transformation

(Testing) Skills – Schlüssel zur Agilen Qualität

Live-Online

10.04.24 Online
 

kostenfrei

Digitale Transformation

Crashkurs IT-Fortgeschrittenen-Wissen

Workshop

11.04.24 Online
 

1.300 €

Digitale Transformation

Typische Sicherheitsfehler bei der Nutzung von Windows-Infrastruktur

Live-Online

11.04.24 Online
 

kostenfrei

Digitale Transformation

Projektmanagement-Offices (PMO)

Live-Online

12.04.24 Online
 

kostenfrei

Digitale Transformation

Ausbildung zum Deep Learning Specialist

Zertifikatslehrgang

16.04.24 Online
 

6.200 €

Digitale Transformation

Crashkurs Software-Know-how

Workshop

17.04.24 Online
 

1.300 €

Digitale Transformation

Strategien mit MPM (Multiprojektmanagement) oder OKR (Objectives and Key Results) umsetzen

Live-Online

19.04.24 Online
 

kostenfrei

Digitale Transformation

Data Science mit Python

Workshop

22.04.24 Online
 

2.100 €

Digitale Transformation

Future Leadership Zertifikat

Zertifikatslehrgang

22.04.24 Online
 

1.300 €

Digitale Transformation

KI im Marketing: Use Cases & Tools

Workshop

23.04.24 Online
 

1.300 €

Digitale Transformation

Fremdpersonaleinsatz bei (agilen) IT-Projekten

Workshop

26.04.24 Online
 

650 €

Digitale Transformation

UX Strategie 2024: Nutzerzentrierung in Unternehmen verankern

Live-Online

26.04.24 Online
 

kostenfrei

Digitale Transformation

New Learning – Personalentwicklung in der digitalen Transformation

Live-Online

30.04.24 Online
 

kostenfrei

Digitale Transformation

Crashkurs IT-Hintergrundwissen

Workshop

02.05.24 Online
 

1.300 €

Digitale Transformation

Cybersecurity: C-Level in der rechtlichen Verantwortung

Live-Online

03.05.24 Online
 

kostenfrei

Digitale Transformation

Zertifizierter Augmented Reality (AR) Manager

Zertifikatslehrgang

07.05.24 Berlin + Online
 

2.900 €

1

2

3