Refine
Document Type
- Article (1)
- Book (1)
- Master's Thesis (1)
Has Fulltext
- yes (3)
Is part of the Bibliography
- no (3)
Keywords
- Datenqualität (3) (remove)
Institute
- Fakultät III - Medien, Information und Design (3) (remove)
Monitoring of clinical trials is a fundamental process required by regulatory agencies. It assures the compliance of a center to the required regulations and the trial protocol. Traditionally, monitoring teams relied on extensive on-site visits and source data verification. However, this is costly, and the outcome is limited. Thus, central statistical monitoring (CSM) is an additional approach recently embraced by the International Council for Harmonisation (ICH) to detect problematic or erroneous data by using visualizations and statistical control measures. Existing implementations have been primarily focused on detecting inlier and outlier data. Other approaches include principal component analysis and distribution of the data. Here we focus on the utilization of comparisons of centers to the Grand mean for different model types and assumptions for common data types, such as binomial, ordinal, and continuous response variables. We implement the usage of multiple comparisons of single centers to the Grand mean of all centers. This approach is also available for various non-normal data types that are abundant in clinical trials. Further, using confidence intervals, an assessment of equivalence to the Grand mean can be applied. In a Monte Carlo simulation study, the applied statistical approaches have been investigated for their ability to control type I error and the assessment of their respective power for balanced and unbalanced designs which are common in registry data and clinical trials. Data from the German Multiple Sclerosis Registry (GMSR) including proportions of missing data, adverse events and disease severity scores were used to verify the results on Real-World-Data (RWD).
In der medizinischen Forschung nimmt die Bedeutung, langfristigen Zugriff auf hochqualitative medizinische Daten zu erhalten, stetig zu. Aus wissenschaftlicher, ethischer und besonders auch aus rechtlicher Sicht darf die Privatheit betroffener Individuen dabei nicht verletzt werden.
In dieser Masterarbeit wurde ein synthetischer Datensatz erzeugt, der sowohl auf die Kriterien einer guten Datenqualität als auch das Offenlegungsrisiko geprüft wurde. Im Rahmen einer Literaturrecherche wurden zunächst Methoden zur Erzeugung synthetischer Daten, Evaluierungstechniken zur Prüfung der Datenqualität synthetischer Daten und Anonymisierungstechniken ermittelt und zusammengetragen. Mit einem Teildatensatz des MIMIC-III-Datensatzes wurde anschließend mit dem Tool DataSynthesizer ein neuer Datensatz synthetisiert.
Die beiden Datensätze wurden mittels Kolmogorov-Smirnow-Test, Kullback-Leibler-Divergenz und der Paarweisen-Korrelations-Differenz verglichen. Für die kategorischen Attribute konnte eine deutliche Übereinstimmung in der Werteverteilung nachgewiesen werden. Für die numerischen Attribute waren in den Verteilungen Unterschiede, welche mit Fehlwerten im ursprünglichen Datensatz assoziiert wurden.
Für die Prüfung der Privatheit der Daten wurde für unterschiedliche Szenarien für den ursprunggebenden Datensatz eine höhere k-Anonymität und für den synthetischen Datensatz eine höhere l-Diversity ermittelt.
Zudem wurden in beiden Datensätzen übereinstimmende Objekte ermittelt. Für eine vorab aus dem realen Datensatz erstellte Kontrollgruppe wurde ein mehr als zwei Mal höheres Relatives Risiko und eine 2,9-fach höhere Chance (Odds-Ratio) ermittelt, ein identisches Objekt zu identifizieren, als für den synthetischen Datensatz.
Das Forschungscluster Smart Data Analytics stellt in dem vorliegenden Band seine Forschung aus den Jahren 2019 und 2020 vor. In der ersten Hälfte des Bandes geben 20 Kurzporträts von laufenden oder kürzlich abgeschlossenen Projekten einen Überblick über die Forschungsthemen im Cluster. Enthalten in den Kurzporträts ist eine vollständige, kommentierte Liste der wissenschaftlichen Veröffentlichungen aus den Jahren 2019 und 2020. In der zweiten Hälfte dieses Bandes geben vier längere Beiträge exemplarisch einen tieferen Einblick in die Forschung des Clusters und behandeln Themen wie Fehlererkennung in Datenbanken, Analyse und Visualisierung von Sicherheitsvorfällen in Netzwerken, Wissensmodellierung und Datenintegration in der Medizin, sowie die Frage ob ein Computerprogramm Urheber eines Kunstwerkes im Sinne des Urheberrechts sein kann.