Refine
Document Type
- Bachelor Thesis (1)
- Conference Proceeding (1)
Has Fulltext
- yes (2)
Is part of the Bibliography
- no (2) (remove)
Keywords
- PDF <Dateiformat> (2) (remove)
Institute
In the present paper we sketch an automated procedure to compare different versions of a contract. The contract texts used for this purpose are structurally differently composed PDF files that are converted into structured XML files by identifying and classifying text boxes. A classifier trained on manually annotated contracts achieves an accuracy of 87% on this task. We align contract versions and classify aligned text fragments into different similarity classes that enhance the manual comparison of changes in document versions. The main challenges are to deal with OCR errors and different layout of identical or similar texts. We demonstrate the procedure using some freely available contracts from the City of Hamburg written in German. The methods, however, are language agnostic and can be applied to other contracts as well.
Diese Arbeit dokumentiert die Konzeption und den Aufbau des institutionellen Repositoriums DORIS des Bundesamtes für Strahlenschutz. Sie beschreibt neben der Entstehung des Projektes und der Auswahl der Repositoriumssoftware insbesondere die Vorgehensweise der Bibliothek des Amtes bei der Entwicklung des Systems und erläutert die dabei vorgenommenen Anpassungen sowie die getroffenen Entscheidungen. Darüber hinaus kombiniert die Arbeit Grundlagen zum Thema "institutionelle Repositorien" mit einer Übersicht von Open-Source-Softwarelösungen und einem detaillierten Einblick in das vom Amt verwendete Produkt DSpace. Weiterhin betrachtet sie das Portable-Document-Format unter den Aspekten Langzeitarchivierung und Barrierefreiheit und bietet einen kurzen Einblick in die Aufgaben und Organisation des Bundesamtes.