Wie synthetische tabellarische Daten einheitlich und umfänglich evaluiert werden können
Synthetische Daten sind auf dem Vormarsch – das zeigt auch der rasante Anstieg der Suchanfragen auf Google nach «Synthetic Data». Sie versprechen Innovation ohne Datenschutzrisiken, eröffnen neue Wege in der Entwicklung von künstlicher Intelligenz (KI) und sollen den Zugriff auf sensible Informationen sicherer machen. Doch mit wachsender Nutzung stellt sich eine zentrale Frage: Wie gut sind diese künstlich erzeugten Daten eigentlich? Und: Wie kann ihre Qualität zuverlässig bewertet werden? Genau hier setzt die Bachelorarbeit von Computational and Data Science-Absolvent Flavio Dunlop-Pfister an.
Doch was genau sind synthetische Daten eigentlich?
Kurz gesagt: Synthetische Daten sind künstlich generierte Datensätze, die reale Daten repräsentieren, ohne auf originalen Dateninstanzen zu basieren. Ziel ist es, statistische Eigenschaften und strukturelle Merkmale der realen Daten zu approximieren, um sie als funktionale Substitute in analytischen oder maschinellen Lernprozessen zu verwenden – bei gleichzeitig reduziertem Risiko für Datenschutzverletzungen.
Brad Pitt und synthetische Daten: Ein Gedankenexperiment
Betrachten wir das Konzept von synthetischen Daten anhand eines Beispiels aus Hollywood: Der Schauspieler Brad Pitt spielt in diesem Gedankenspiel die Rolle des realen Datensatzes. Es gibt ihn genau einmal, er ist teuer, schwer zu bekommen und man möchte ihn nicht bei jedem Stunt unnötigen Risiken aussetzen. Vielleicht ist bereits erkennbar, auf was ich hinaus will. Reale Daten sind wie Brad Pitt: Die Beschaffung ist teuer und die vorhandenen sensiblen Daten möchte man vor einem Verlust schützen
Was tun?
Als Regisseur:in setzt man auf Stunt-Doubles, um Stars zu schützen, insofern man nicht Tom Cruise selbst engagieren kann. Diese Doubles ähneln dem Original so sehr wie möglich – optisch, in der Bewegung, im Auftreten – ohne selbst der Star zu sein. Wenn ein Stunt schiefgeht, ist das Original geschützt.
Genauso funktionieren synthetische Daten: Sie treten an die Stelle der echten Daten, schützen deren Identität, ermöglichen Analysen und Modelltrainings – und im Idealfall merkt niemand den Unterschied.
Die Bewertung der Qualität eines Stunt-Doubles liegt auf der Hand. Aussehen, Bewegung und die Fähigkeit, den Star nicht zu verletzten (ok, das ist sehr weit hergeholt) sind einfach sichtbar. Aber wie bewältigt man diese Aufgabe bei synthetischen Daten?
Qualität und Datenschutz – wie gut ist «gut genug»?
In der Praxis gibt es viele Methoden, synthetische tabellarische Daten zu generieren – von klassischen Modellen bis hin zu modernen generativen KI-Ansätzen wie GANs. Doch wie gut die erzeugten Daten tatsächlich sind, wird oft sehr unterschiedlich bewertet.
Eine ausführliche Literaturanalyse zeigte in meiner Bachelorarbeit, dass es keine einheitliche Evaluationsmethode gibt. Die meisten Forschenden verwenden ähnliche Konzepte, setzen sie aber nicht konsistent um. Das macht Vergleiche schwierig, oft sogar unmöglich.
Und noch etwas fiel auf: Die Datenschutz-Funktion synthetischer Daten wird zwar häufig versprochen, aber selten tatsächlich überprüft. Das wäre, als würde man ein Stunt-Double engagieren, ohne zu wissen, dass es den Star wirklich schützen kann. Auch dieser Gedanke mag weit hergeholt sein – wäre aber eine Schlagzeile wert, falls das Stunt-Double Brad Pitt verletzt. Mit Sicherheit vermeiden Regisseur:innen diese Schlagzeige genauso gerne, wie Unternehmen die News, dass sensible Kund:innendaten geleakt wurden.
Das Evaluations-Framework
In Flavios Bachelorarbeit wurde genau diese Lücke adressiert und ein Framework zur umfassenden Evaluation synthetischer Daten entwickelt. Ziel war es, bestehende Verfahren zu standardisieren, vergleichbar zu machen und um eine fundierte Privacy-Komponente zu erweitern.
Das Framework bewertet synthetische Daten mit drei unterschiedlichen Verfahren:
- Statistischer Test: Klassische statistische Tests untersuchen, wie nah die synthetischen Daten an den Originaldaten sind. Eingesetzt wird die Jensen-Shannon-Distanz, die Wasserstein-Distanz und paarweise Korrelationen.
- ML-Efficacy: Mithilfe von Machine Learning Tasks wird getestet, ob ein Modell, das auf synthetischen Daten trainiert wurde, auf echten Daten gut performt. So lässt sich abschätzen, ob die Daten „funktional“ ähnlich sind. (Oder: Ob das Stuntdouble nicht nur gleich aussieht, sondern auch gleich springt.)
- Privacy Risk: Mit sogenannten Membership Inference Attacken (MIA) wird überprüft, wie leicht sich Rückschlüsse auf einzelne reale Datenpunkte ziehen lassen. Das zeigt, ob die synthetischen Daten aus Versehen doch zu viel verraten – und damit ihre eigentliche Aufgabe verfehlen.
Die statistischen Tests und die ML-Efficacy tragen zur Bewertung der Utility (Nutzbarkeit) bei. In anderen Worten: Gut ist die Qualität der synthetischen Daten.
Was kam dabei raus?
Die Ergebnisse zeigen, dass besonders die Kombination aus ML-Efficacy und MIA hilfreich ist, um Qualitätsmängel zu identifizieren. Die statistischen Tests hingegen konnten nicht komplett überzeugen und trugen oft keinen erklärenden Mehrwert zur Bewertung bei, da sie sehr konstant nahe am perfekten Ergebnis lagen, auch wenn die anderen Komponenten deutliche Mängel in den synthetischen Daten aufzeigten.
Und was bringt mir das?
Wenn du synthetische Daten verwendest, entwickelst oder evaluierst, hilft dir dieses Framework, fundierte Aussagen zur Qualität und Datenschutzleistung zu treffen und verschiedene Modelle wirklich vergleichbar zu machen. Zur Nutzung steht ein benutzerfreundliches GUI zur Verfügung:
Das vollständige Framework inklusive Installations-Anleitung findest du hier auf GitHub: https://github.com/flaviodunlop/synthData-Evaluation
Unbegrenzte Karrieremöglichkeiten in Informatik, Data Science und Computersimulation?
Jetzt zum Studium Computational and Data Science anmelden!
Geschrieben von Flavio Dunlop-Pfister, Computational and Data Science Absolvent.