Refine
Document Type
- Bachelor Thesis (1)
- Book (1)
- Conference Proceeding (1)
- Master's Thesis (1)
Language
- German (4) (remove)
Has Fulltext
- yes (4) (remove)
Is part of the Bibliography
- no (4)
Keywords
- Datenqualität (4) (remove)
Daten sind für jedes Unternehmen die treibende Kraft und die konsistenteste Quelle für qualifizierte Entscheidungsprozesse. Für die optimale Nutzung der vorliegenden Daten über alle Geschäftsbereiche hinweg wird das Datenmanagement benötigt, jedoch bringt dessen Einführung große Herausforderungen mit sich. Wird es nicht eingeführt bzw. umgesetzt hat dies Folgen für das Unternehmen wie z. B. Wettbewerbsnachteile und hohe Kosten. Ziel dieser Bachelorarbeit ist es von Datenmanagement, den Nutzen aufzuzeigen, die Herausforderungen zu identifizieren und Lösungsansätze zu untersuchen bzw. eigene zu entwickeln. Das Ergebnis ist eine Untersuchung und ein Vergleich des Nutzens, der Herausforderungen sowie der Lösungsansätze im Datenmanagement, zwischen Literatur und einem Anwendungsfall.
Die Forderungen, auch nicht personenbezogene Daten besser zu schützen, nehmen zu. Dies gilt auch für die Landwirtschaft. Landwirte fordern selbstbewusst „Meine Daten gehören mir“ und wollen für die Bereitstellung ihrer Betriebsdaten angemessen entlohnt werden. Es spricht aber einiges dafür, dass die meisten der erhobenen Daten kaum einen ökonomischen Wert aufweisen. In diesem Artikel wird systematisch untersucht, welche Arten von Daten es gibt und welchen Marktwert sie vermutlich haben. Da Daten digitale Güter sind, gelten für sie dieselben Besonderheiten wie für sonstigen digitalen Content, wie einfache Kopier- und Veränderbarkeit. Die Analyse kommt zu dem Schluss, dass die meisten Daten in der Landwirtschaft vermutlich nur einen geringen Wert aufweisen, der eine Vermarktung, aber auch einen aufwendigen juristischen Schutz nicht rechtfertigt. Erst durch Datenaggregation und geschickte Auswertung dieser Rohdaten werden quasi in einer Veredelungsstufe nützliche Informationen erzeugt. Vermutlich wäre es aber am besten, möglichst viele Daten öffentlich zugänglich zu halten, sodass Werte durch innovative Geschäftsmodelle geschaffen werden, die auf diesen öffentlichen Daten aufbauen.
In der medizinischen Forschung nimmt die Bedeutung, langfristigen Zugriff auf hochqualitative medizinische Daten zu erhalten, stetig zu. Aus wissenschaftlicher, ethischer und besonders auch aus rechtlicher Sicht darf die Privatheit betroffener Individuen dabei nicht verletzt werden.
In dieser Masterarbeit wurde ein synthetischer Datensatz erzeugt, der sowohl auf die Kriterien einer guten Datenqualität als auch das Offenlegungsrisiko geprüft wurde. Im Rahmen einer Literaturrecherche wurden zunächst Methoden zur Erzeugung synthetischer Daten, Evaluierungstechniken zur Prüfung der Datenqualität synthetischer Daten und Anonymisierungstechniken ermittelt und zusammengetragen. Mit einem Teildatensatz des MIMIC-III-Datensatzes wurde anschließend mit dem Tool DataSynthesizer ein neuer Datensatz synthetisiert.
Die beiden Datensätze wurden mittels Kolmogorov-Smirnow-Test, Kullback-Leibler-Divergenz und der Paarweisen-Korrelations-Differenz verglichen. Für die kategorischen Attribute konnte eine deutliche Übereinstimmung in der Werteverteilung nachgewiesen werden. Für die numerischen Attribute waren in den Verteilungen Unterschiede, welche mit Fehlwerten im ursprünglichen Datensatz assoziiert wurden.
Für die Prüfung der Privatheit der Daten wurde für unterschiedliche Szenarien für den ursprunggebenden Datensatz eine höhere k-Anonymität und für den synthetischen Datensatz eine höhere l-Diversity ermittelt.
Zudem wurden in beiden Datensätzen übereinstimmende Objekte ermittelt. Für eine vorab aus dem realen Datensatz erstellte Kontrollgruppe wurde ein mehr als zwei Mal höheres Relatives Risiko und eine 2,9-fach höhere Chance (Odds-Ratio) ermittelt, ein identisches Objekt zu identifizieren, als für den synthetischen Datensatz.
Das Forschungscluster Smart Data Analytics stellt in dem vorliegenden Band seine Forschung aus den Jahren 2019 und 2020 vor. In der ersten Hälfte des Bandes geben 20 Kurzporträts von laufenden oder kürzlich abgeschlossenen Projekten einen Überblick über die Forschungsthemen im Cluster. Enthalten in den Kurzporträts ist eine vollständige, kommentierte Liste der wissenschaftlichen Veröffentlichungen aus den Jahren 2019 und 2020. In der zweiten Hälfte dieses Bandes geben vier längere Beiträge exemplarisch einen tieferen Einblick in die Forschung des Clusters und behandeln Themen wie Fehlererkennung in Datenbanken, Analyse und Visualisierung von Sicherheitsvorfällen in Netzwerken, Wissensmodellierung und Datenintegration in der Medizin, sowie die Frage ob ein Computerprogramm Urheber eines Kunstwerkes im Sinne des Urheberrechts sein kann.