Refine
Year of publication
- 2019 (2) (remove)
Document Type
- Bachelor Thesis (1)
- Conference Proceeding (1)
Has Fulltext
- yes (2)
Is part of the Bibliography
- no (2)
Keywords
- Computerlinguistik (2) (remove)
Institute
Lemmatization is a central task in many NLP applications. Despite this importance, the number of (freely) available and easy to use tools for German is very limited. To fill this gap, we developed a simple lemmatizer that can be trained on any lemmatized corpus. For a full form word the tagger tries to find the sequence of morphemes that is most likely to generate that word. From this sequence of tags we can easily derive the stem, the lemma and the part of speech (PoS) of the word. We show (i) that the quality of this approach is comparable to state of the art methods and (ii) that we can improve the results of Part-of-Speech (PoS) tagging when we include the morphological analysis of each word.
Die Reproduzierbarkeit von Studien ist wichtig, um ihre Ergebnisse prüfen zu können. Auch bei Forschung, die auf frühere Ergebnisse aufbaut, wird zuweilen ein Zugang zu den alten Daten oder dem Source Code benötigt. Diese Arbeit analysiert Studien aus der Computerlinguistik hinsichtlich ihrer Reproduzierbarkeit. Zunächst werden die Begrifflichkeiten zu diesem speziellen Gebiet definiert und im folgenden Schritt wird ein Datensatz erstellt, in dem ausgewählte Open-Access-Studien aus dem Jahre 2018 auf der Basis zuvor festgelegter Kriterien bewertet werden. Diese sind unter anderem die Zugänglichkeit des benutzten Materials, der angewendeten Methoden und der Ergebnisse. Neben den Kriterien werden auch Hypothesen zu diesem Datensatz aufgestellt. Schließlich werden die Ergebnisse visualisiert und hinsichtlich besagter Hypothesen interpretiert. Basierend auf der resultierenden Auswertung sind die meisten Studien reproduzierbar. Im Ausblick werden mögliche Weiterführungen und Erweiterungen dieser Untersuchung erläutert.