Refine
Year of publication
- 2021 (2) (remove)
Document Type
- Conference Proceeding (1)
- Master's Thesis (1)
Language
- German (2)
Has Fulltext
- yes (2)
Is part of the Bibliography
- no (2)
Keywords
- Datenschutz (2) (remove)
In der medizinischen Forschung nimmt die Bedeutung, langfristigen Zugriff auf hochqualitative medizinische Daten zu erhalten, stetig zu. Aus wissenschaftlicher, ethischer und besonders auch aus rechtlicher Sicht darf die Privatheit betroffener Individuen dabei nicht verletzt werden.
In dieser Masterarbeit wurde ein synthetischer Datensatz erzeugt, der sowohl auf die Kriterien einer guten Datenqualität als auch das Offenlegungsrisiko geprüft wurde. Im Rahmen einer Literaturrecherche wurden zunächst Methoden zur Erzeugung synthetischer Daten, Evaluierungstechniken zur Prüfung der Datenqualität synthetischer Daten und Anonymisierungstechniken ermittelt und zusammengetragen. Mit einem Teildatensatz des MIMIC-III-Datensatzes wurde anschließend mit dem Tool DataSynthesizer ein neuer Datensatz synthetisiert.
Die beiden Datensätze wurden mittels Kolmogorov-Smirnow-Test, Kullback-Leibler-Divergenz und der Paarweisen-Korrelations-Differenz verglichen. Für die kategorischen Attribute konnte eine deutliche Übereinstimmung in der Werteverteilung nachgewiesen werden. Für die numerischen Attribute waren in den Verteilungen Unterschiede, welche mit Fehlwerten im ursprünglichen Datensatz assoziiert wurden.
Für die Prüfung der Privatheit der Daten wurde für unterschiedliche Szenarien für den ursprunggebenden Datensatz eine höhere k-Anonymität und für den synthetischen Datensatz eine höhere l-Diversity ermittelt.
Zudem wurden in beiden Datensätzen übereinstimmende Objekte ermittelt. Für eine vorab aus dem realen Datensatz erstellte Kontrollgruppe wurde ein mehr als zwei Mal höheres Relatives Risiko und eine 2,9-fach höhere Chance (Odds-Ratio) ermittelt, ein identisches Objekt zu identifizieren, als für den synthetischen Datensatz.
Die Forderungen, auch nicht personenbezogene Daten besser zu schützen, nehmen zu. Dies gilt auch für die Landwirtschaft. Landwirte fordern selbstbewusst „Meine Daten gehören mir“ und wollen für die Bereitstellung ihrer Betriebsdaten angemessen entlohnt werden. Es spricht aber einiges dafür, dass die meisten der erhobenen Daten kaum einen ökonomischen Wert aufweisen. In diesem Artikel wird systematisch untersucht, welche Arten von Daten es gibt und welchen Marktwert sie vermutlich haben. Da Daten digitale Güter sind, gelten für sie dieselben Besonderheiten wie für sonstigen digitalen Content, wie einfache Kopier- und Veränderbarkeit. Die Analyse kommt zu dem Schluss, dass die meisten Daten in der Landwirtschaft vermutlich nur einen geringen Wert aufweisen, der eine Vermarktung, aber auch einen aufwendigen juristischen Schutz nicht rechtfertigt. Erst durch Datenaggregation und geschickte Auswertung dieser Rohdaten werden quasi in einer Veredelungsstufe nützliche Informationen erzeugt. Vermutlich wäre es aber am besten, möglichst viele Daten öffentlich zugänglich zu halten, sodass Werte durch innovative Geschäftsmodelle geschaffen werden, die auf diesen öffentlichen Daten aufbauen.