Refine
Document Type
- Article (1)
- Bachelor Thesis (1)
- Book (1)
- Conference Proceeding (1)
- Master's Thesis (1)
Has Fulltext
- yes (5)
Is part of the Bibliography
- no (5)
Keywords
- Datenqualität (5) (remove)
Das Forschungscluster Smart Data Analytics stellt in dem vorliegenden Band seine Forschung aus den Jahren 2019 und 2020 vor. In der ersten Hälfte des Bandes geben 20 Kurzporträts von laufenden oder kürzlich abgeschlossenen Projekten einen Überblick über die Forschungsthemen im Cluster. Enthalten in den Kurzporträts ist eine vollständige, kommentierte Liste der wissenschaftlichen Veröffentlichungen aus den Jahren 2019 und 2020. In der zweiten Hälfte dieses Bandes geben vier längere Beiträge exemplarisch einen tieferen Einblick in die Forschung des Clusters und behandeln Themen wie Fehlererkennung in Datenbanken, Analyse und Visualisierung von Sicherheitsvorfällen in Netzwerken, Wissensmodellierung und Datenintegration in der Medizin, sowie die Frage ob ein Computerprogramm Urheber eines Kunstwerkes im Sinne des Urheberrechts sein kann.
Die Forderungen, auch nicht personenbezogene Daten besser zu schützen, nehmen zu. Dies gilt auch für die Landwirtschaft. Landwirte fordern selbstbewusst „Meine Daten gehören mir“ und wollen für die Bereitstellung ihrer Betriebsdaten angemessen entlohnt werden. Es spricht aber einiges dafür, dass die meisten der erhobenen Daten kaum einen ökonomischen Wert aufweisen. In diesem Artikel wird systematisch untersucht, welche Arten von Daten es gibt und welchen Marktwert sie vermutlich haben. Da Daten digitale Güter sind, gelten für sie dieselben Besonderheiten wie für sonstigen digitalen Content, wie einfache Kopier- und Veränderbarkeit. Die Analyse kommt zu dem Schluss, dass die meisten Daten in der Landwirtschaft vermutlich nur einen geringen Wert aufweisen, der eine Vermarktung, aber auch einen aufwendigen juristischen Schutz nicht rechtfertigt. Erst durch Datenaggregation und geschickte Auswertung dieser Rohdaten werden quasi in einer Veredelungsstufe nützliche Informationen erzeugt. Vermutlich wäre es aber am besten, möglichst viele Daten öffentlich zugänglich zu halten, sodass Werte durch innovative Geschäftsmodelle geschaffen werden, die auf diesen öffentlichen Daten aufbauen.
In der medizinischen Forschung nimmt die Bedeutung, langfristigen Zugriff auf hochqualitative medizinische Daten zu erhalten, stetig zu. Aus wissenschaftlicher, ethischer und besonders auch aus rechtlicher Sicht darf die Privatheit betroffener Individuen dabei nicht verletzt werden.
In dieser Masterarbeit wurde ein synthetischer Datensatz erzeugt, der sowohl auf die Kriterien einer guten Datenqualität als auch das Offenlegungsrisiko geprüft wurde. Im Rahmen einer Literaturrecherche wurden zunächst Methoden zur Erzeugung synthetischer Daten, Evaluierungstechniken zur Prüfung der Datenqualität synthetischer Daten und Anonymisierungstechniken ermittelt und zusammengetragen. Mit einem Teildatensatz des MIMIC-III-Datensatzes wurde anschließend mit dem Tool DataSynthesizer ein neuer Datensatz synthetisiert.
Die beiden Datensätze wurden mittels Kolmogorov-Smirnow-Test, Kullback-Leibler-Divergenz und der Paarweisen-Korrelations-Differenz verglichen. Für die kategorischen Attribute konnte eine deutliche Übereinstimmung in der Werteverteilung nachgewiesen werden. Für die numerischen Attribute waren in den Verteilungen Unterschiede, welche mit Fehlwerten im ursprünglichen Datensatz assoziiert wurden.
Für die Prüfung der Privatheit der Daten wurde für unterschiedliche Szenarien für den ursprunggebenden Datensatz eine höhere k-Anonymität und für den synthetischen Datensatz eine höhere l-Diversity ermittelt.
Zudem wurden in beiden Datensätzen übereinstimmende Objekte ermittelt. Für eine vorab aus dem realen Datensatz erstellte Kontrollgruppe wurde ein mehr als zwei Mal höheres Relatives Risiko und eine 2,9-fach höhere Chance (Odds-Ratio) ermittelt, ein identisches Objekt zu identifizieren, als für den synthetischen Datensatz.
Daten sind für jedes Unternehmen die treibende Kraft und die konsistenteste Quelle für qualifizierte Entscheidungsprozesse. Für die optimale Nutzung der vorliegenden Daten über alle Geschäftsbereiche hinweg wird das Datenmanagement benötigt, jedoch bringt dessen Einführung große Herausforderungen mit sich. Wird es nicht eingeführt bzw. umgesetzt hat dies Folgen für das Unternehmen wie z. B. Wettbewerbsnachteile und hohe Kosten. Ziel dieser Bachelorarbeit ist es von Datenmanagement, den Nutzen aufzuzeigen, die Herausforderungen zu identifizieren und Lösungsansätze zu untersuchen bzw. eigene zu entwickeln. Das Ergebnis ist eine Untersuchung und ein Vergleich des Nutzens, der Herausforderungen sowie der Lösungsansätze im Datenmanagement, zwischen Literatur und einem Anwendungsfall.
Monitoring of clinical trials is a fundamental process required by regulatory agencies. It assures the compliance of a center to the required regulations and the trial protocol. Traditionally, monitoring teams relied on extensive on-site visits and source data verification. However, this is costly, and the outcome is limited. Thus, central statistical monitoring (CSM) is an additional approach recently embraced by the International Council for Harmonisation (ICH) to detect problematic or erroneous data by using visualizations and statistical control measures. Existing implementations have been primarily focused on detecting inlier and outlier data. Other approaches include principal component analysis and distribution of the data. Here we focus on the utilization of comparisons of centers to the Grand mean for different model types and assumptions for common data types, such as binomial, ordinal, and continuous response variables. We implement the usage of multiple comparisons of single centers to the Grand mean of all centers. This approach is also available for various non-normal data types that are abundant in clinical trials. Further, using confidence intervals, an assessment of equivalence to the Grand mean can be applied. In a Monte Carlo simulation study, the applied statistical approaches have been investigated for their ability to control type I error and the assessment of their respective power for balanced and unbalanced designs which are common in registry data and clinical trials. Data from the German Multiple Sclerosis Registry (GMSR) including proportions of missing data, adverse events and disease severity scores were used to verify the results on Real-World-Data (RWD).