Refine
Document Type
- Bachelor Thesis (3)
- Master's Thesis (3)
- Article (1)
- Part of a Book (1)
- Conference Proceeding (1)
Has Fulltext
- yes (9)
Is part of the Bibliography
- no (9)
Keywords
- Maschinelles Lernen (9) (remove)
Using openEHR Archetypes for Automated Extraction of Numerical Information from Clinical Narratives
(2019)
Up to 80% of medical information is documented by unstructured data such as clinical reports written in natural language. Such data is called unstructured because the information it contains cannot be retrieved automatically as straightforward as from structured data. However, we assume that the use of this flexible kind of documentation will remain a substantial part of a patient’s medical record, so that clinical information systems have to deal appropriately with this type of information description. On the other hand, there are efforts to achieve semantic interoperability between clinical application systems through information modelling concepts like HL7 FHIR or openEHR. Considering this, we propose an approach to transform unstructured documented information into openEHR archetypes. Furthermore, we aim to support the field of clinical text mining by recognizing and publishing the connections between openEHR archetypes and heterogeneous phrasings. We have evaluated our method by extracting the values to three openEHR archetypes from unstructured documents in English and German language.
Library of Congress Subject Headings (LCSH) are popular for indexing library records. We studied the possibility of assigning LCSH automatically by training classifiers for terms used frequently in a large collection of abstracts of the literature on hand and by extracting headings from those abstracts. The resulting classifiers reach an acceptable level of precision, but fail in terms of recall partly because we could only train classifiers for a small number of LCSH. Extraction, i.e., the matching of headings in the text, produces better recall but extremely low precision. We found that combining both methods leads to a significant improvement of recall and a slight improvement of F1 score with only a small decrease in precision.
Die Arbeit untersucht die Anwendung von maschinellem Lernen zur Erkennung von Aktivitäten von Schiffen anhand von AIS-Signalen. Das Automatic Identification System (AIS) wird von Schiffen genutzt, um Informationen über ihren Status in regelmäßigen Intervallen zu übertragen. Auf Basis der Daten wurden mithilfe von Machine Learning-Algorithmen aus der Gruppe der überwachten Klassifikationsalgorithmen Modelle gelernt, die in der Lage sind zu erkennen, welcher Aktivität ein Schiff zu einem Zeitpunkt nachgeht.
Da das erfolgreiche Lernen eines Modells von einer sorgfältigen Datenvorbereitung abhängt, wurden verschiedene Verfahren zur Datenvorbereitung verwendet. Anschließend wurden verschiedene Algorithmen eingesetzt, darunter der Random Forest und k-NN, um Modelle zu lernen.
Die Ergebnisse zeigen, dass die Aktivitäten mit einer Genauigkeit von bis zu 99% erkannt werden konnten, wenn in der Datenvorbereitung geeignete Verfahren gewählt wurden.
Im ländlichen Raum können Mobilitätsbedarfe schwer über den öffentlichen Personennahverkehr gedeckt werden. Wie diese Bedarfslücke über den Einsatz kombinierter Transportkonzepte von Personen und Gütern reduziert werden kann, wird prototypisch über eine agentenbasierte Simulationsanwendung in der Simulationssoftware AnyLogic untersucht. Reale Mobilitätsdaten werden dabei jedoch nicht berücksichtigt.
Das Ziel der vorliegenden Arbeit ist die Verbesserung der Datengrundlage des Prototypen mit Hilfe von Machine Learning. Unter Verwendung des Forschungsansatzes Design Science Research wurden ML-Modelle entlang des CRISP-DM Frameworks entwickelt. Diese verarbeiten die zur Verfügung stehenden Mobilitätsdaten und können nach deren Integration in den Prototypen zur Parametrierung genutzt werden. Im Zuge der Arbeit werden dazu geeignete Parameter identifiziert, die Mobilitätsdaten beschafft und umfangreich für das Modelltraining in H2O Driverless AI transformiert. Das beste ML-Modell wird in den Prototypen integriert und es werden notwendige Anpassungen vorgenommen, um die Parametrierung zu ermöglichen. Die anschließende Evaluation der Simulationsanwendung zeigt eine datenbasierte und realitätsgetreuere Simulation des simultanen und kombinierten Transports von Personen und Gütern.
Pathologists need to identify abnormal changes in tissue. With the developing digitalization, the used tissue slides are stored digitally. This enables pathologists to annotate the region of interest with the support of software tools. PathoLearn is a web-based learning platform explicitly developed for the teacher-student scenario, where the goal is that students learn to identify potential abnormal changes. Artificial intelligence (AI) and machine learning (ML) have become very important in medicine. Many health sectors already utilize AI and ML. This will only increase in the future, also in the field of pathology. Therefore, it is important to teach students the fundamentals and concepts of AI and ML early in their studies. Additionally, creating and training AI generally requires knowledge of programming and technical details. This thesis evaluates how this boundary can be overcome by comparing existing end-to-end AI platforms and teaching tools for AI. It was shown that a visual programming editor offers a fitting abstraction for creating neural networks without programming. This was extended with real-time collaboration to enable students to work in groups. Additionally, an automatic training feature was implemented, removing the necessity to know technical details about training neural networks.
Die Prävention und Erkennung von Cyber-Angriffen ist eine Herausforderung von hoher Bedeutung, da die Digitalisierung nahezu aller Lebensbereiche immer weiter voranschreitet. Im Forschungssektor der sogenannten Intrusion Detection wird fortlaufend untersucht, inwiefern sich Machine Learning (ML) zur Erkennung von Angriffen eignet. Während ML-Algorithmen bei Anwendungsfällen wie Produktempfehlungen oder Spam-Filtern erfolgreich in Produktion eingesetzt werden können, gestaltet sich die Anwendung in der Intrusion Detection schwieriger.
In sogenannten signatur-basierten IDS-Systemen werden Regelwerke eingesetzt, um Angriffe im Netzwerkverkehr zur Laufzeit zu erkennen. Die Erstellung und Verwaltung dieser IDS-Regeln erfolgt normalerweise manuell und erfordert eine hohe Domänenexpertise. Diese Masterthesis liefert einen Forschungsbeitrag, da diese IDS-Regeln erstmals automatisiert unter der Verwendung von Machine Learning erzeugt werden. Die für diesen Zweck entwickelte Toolchain verwendet Entscheidungsbaum-Algorithmen zur Regelerzeugung aus Trainingsdaten. Des Weiteren werden die Regeln für den Einsatz in einem signatur-basierten IDS-System in das Format von Suricata konvertiert.
Die Evaluierung der erzeugten Regeln hat gezeigt, dass in einer Vielzahl von Experimenten hohe Erkennungsraten und wenige Fehlalarme möglich sind. Allerdings basieren die betroffenen Regelwerke zum Teil auf unterkomplexen Zusammenhängen in den zugrundeliegenden Trainingsdaten. Darüber hinaus verfügen die Regelwerke über eine eingeschränkte Generalisierungsfähigkeit. Für ein finales Urteil wäre es notwendig und empfehlenswert, zusätzliche Forschungskapazitäten für die Erstellung repräsentativer IDS-Datensätze aufzuwenden.
Legal documents often have a complex layout with many different headings, headers and footers, side notes, etc. For the further processing, it is important to extract these individual components correctly from a legally binding document, for example a signed PDF. A common approach to do so is to classify each (text) region of a page using its geometric and textual features. This approach works well, when the training and test data have a similar structure and when the documents of a collection to be analyzed have a rather uniform layout. We show that the use of global page properties can improve the accuracy of text element classification: we first classify each page into one of three layout types. After that, we can train a classifier for each of the three page types and thereby improve the accuracy on a manually annotated collection of 70 legal documents consisting of 20,938 text elements. When we split by page type, we achieve an improvement from 0.95 to 0.98 for single-column pages with left marginalia and from 0.95 to 0.96 for double-column pages. We developed our own feature-based method for page layout detection, which we benchmark against a standard implementation of a CNN image classifier. The approach presented here is based on corpus of freely available German contracts and general terms and conditions.
Both the corpus and all manual annotations are made freely available. The method is language agnostic.
Insbesondere aufgrund der Zugehörigkeit zum sehr aktuellen und viel betrachteten Thema Machine Learning ist die genetische Programmierung mit ihren vielseitigen Anwendungsmöglichkeiten ein sehr interessantes Gebiet. Wie in allen Forschungsschwerpunkten gibt es auch hier viele Ansätze die standardmäßige Vorgehensweise weiter zu verbessern – einer dieser Ansätze ist die Verwendung von Subroutinen. Diese könnten in diesem Kontext auch als Methoden, Funktionen oder ähnliches bezeichnet werden und bedeuten, dass vom Algorithmus neben dem eigentlichen Programm auch wiederverwendbare Folgen von Anweisungen entwickelt werden, die über einen Bezeichner an beliebigen Stellen verwendet werden können. Hierfür gibt es bereits diverse Konzepte, die in Tests sehr gute Ergebnisse erzielt haben und eine Verbesserung gegenüber der standardmäßigen genetischen Programmierung ohne Subroutinen erreichen konnten. Diese Tests fanden allerdings immer in sehr spezialisierten Testumgebungen statt. Besonders interessant sind allerdings solche Systeme zur genetischen Programmierung, die (theoretisch) beliebige Probleme lösen kann, da sie für eine Vielzahl von Problemstellungen verwendet werden können.
Das Ziel dieser Arbeit ist es, zu untersuchen, ob und inwiefern die Verwendung von Subroutinen auch in einem solchen allgemeinen System zur genetischen Programmierung, das theoretisch dazu in der Lage ist, beliebige Probleme zu lösen, möglich und sinnvoll ist.
AlphaGo’s victory against Lee Sedol in the game of Go has been a milestone in artificial intelligence. After this success, the team behind the program further refined the architecture and applied it to many other games such as chess or shogi. In the following thesis, we try to apply the theory behind AlphaGo and its successor AlphaZero to the game of Abalone. Due to limitations in computational resources, we could not replicate the same exceptional performance.