Volltext-Downloads (blau) und Frontdoor-Views (grau)
The search result changed since you submitted your search request. Documents might be displayed in a different sort order.
  • search hit 27 of 430
Back to Result List

Methoden und Werkzeuge zur privatheitsbewahrenden Synthese medizinischer Forschungsdaten

  • In der medizinischen Forschung nimmt die Bedeutung, langfristigen Zugriff auf hochqualitative medizinische Daten zu erhalten, stetig zu. Aus wissenschaftlicher, ethischer und besonders auch aus rechtlicher Sicht darf die Privatheit betroffener Individuen dabei nicht verletzt werden. In dieser Masterarbeit wurde ein synthetischer Datensatz erzeugt, der sowohl auf die Kriterien einer guten Datenqualität als auch das Offenlegungsrisiko geprüft wurde. Im Rahmen einer Literaturrecherche wurden zunächst Methoden zur Erzeugung synthetischer Daten, Evaluierungstechniken zur Prüfung der Datenqualität synthetischer Daten und Anonymisierungstechniken ermittelt und zusammengetragen. Mit einem Teildatensatz des MIMIC-III-Datensatzes wurde anschließend mit dem Tool DataSynthesizer ein neuer Datensatz synthetisiert. Die beiden Datensätze wurden mittels Kolmogorov-Smirnow-Test, Kullback-Leibler-Divergenz und der Paarweisen-Korrelations-Differenz verglichen. Für die kategorischen Attribute konnte eine deutliche Übereinstimmung in der Werteverteilung nachgewiesen werden. Für die numerischen Attribute waren in den Verteilungen Unterschiede, welche mit Fehlwerten im ursprünglichen Datensatz assoziiert wurden. Für die Prüfung der Privatheit der Daten wurde für unterschiedliche Szenarien für den ursprunggebenden Datensatz eine höhere k-Anonymität und für den synthetischen Datensatz eine höhere l-Diversity ermittelt. Zudem wurden in beiden Datensätzen übereinstimmende Objekte ermittelt. Für eine vorab aus dem realen Datensatz erstellte Kontrollgruppe wurde ein mehr als zwei Mal höheres Relatives Risiko und eine 2,9-fach höhere Chance (Odds-Ratio) ermittelt, ein identisches Objekt zu identifizieren, als für den synthetischen Datensatz.
  • In medical research, the importance of obtaining long-term access to high-quality medical data is constantly increasing. From a scientific, ethical, and especially from a legal point of view, the privacy of the individuals concerned must not be violated. In this master thesis, a synthetic data set was generated, which was tested for both, the criteria of good data quality and the disclosure risk. A literature review was conducted to first identify and compile methods for generating synthetic data, evaluation techniques for testing the data quality of synthetic data, and anonymization techniques. A subset of the MIMIC III dataset was then used to synthesize a new dataset using the DataSynthesizer tool. The two datasets were compared using Kolmogorov-Smirnov test, Kullback-Leibler divergence, and pairwise correlation difference. For the categorical attributes, significant agreement in the distribution of values was demonstrated. For the numeric attributes, differences in the distributions were found, which were associated with spurious values in the original data set. For testing the privacy of the data, a higher k-anonymity was found for the original dataset and a higher l-diversity for the synthetic dataset for different scenarios. In addition, matching objects were determined in both datasets. In comparison to the synthesized dataset, a more than two times higher relative risk and a 2.9 times higher chance (odds ratio) of identifying an identical object were determined for a previously separated control group from the real dataset.

Download full text files

Export metadata

Additional Services

Search Google Scholar

Statistics

frontdoor_oas
Metadaten
Author:Christin Schober
URN:urn:nbn:de:bsz:960-opus4-22090
DOI:https://doi.org/10.25968/opus-2209
Advisor:Oliver J. BottORCiDGND, Matthias KatzensteinerORCiD
Document Type:Master's Thesis
Language:German
Year of Completion:2021
Publishing Institution:Hochschule Hannover
Granting Institution:Hochschule Hannover, Fakultät III - Medien, Information und Design
Date of final exam:2021/11/17
Release Date:2022/02/28
Tag:MIMIC III; Privatheitsbewahrung
GND Keyword:Forschungsdaten; Medizin; Datenschutz; Synthetische Daten; Datenqualität
Page Number:122
Link to catalogue:1797856111
Institutes:Fakultät III - Medien, Information und Design
DDC classes:020 Bibliotheks- und Informationswissenschaft
610 Medizin, Gesundheit
Licence (German):License LogoCreative Commons - CC BY - Namensnennung 4.0 International