020 Bibliotheks- und Informationswissenschaft
Refine
Year of publication
- 2019 (17) (remove)
Document Type
- Conference Proceeding (6)
- Bachelor Thesis (5)
- Article (2)
- Part of a Book (2)
- Report (2)
Has Fulltext
- yes (17)
Is part of the Bibliography
- no (17)
Keywords
- Wissenschaftliche Bibliothek (4)
- Computerlinguistik (2)
- Contract Analysis (2)
- Digitalisierung (2)
- Open Access (2)
- AR-Browser (1)
- Agilität (1)
- Agilität <Management> (1)
- Arbeitsmarkt (1)
- Augmented Reality (1)
Institute
The NOA project collects and stores images from open access publications and makes them findable and reusable. During the project a focus group workshop was held to determine whether the development is addressing researchers’ needs. This took place before the second half of the project so that the results could be considered for further development since addressing users’ needs is a big part of the project. The focus was to find out what content and functionality they expect from image repositories.
In a first step, participants were asked to fill out a survey about their images use. Secondly, they tested different use cases on the live system. The first finding is that users have a need for finding scholarly images but it is not a routine task and they often do not know any image repositories. This is another reason for repositories to become more open and reach users by integrating with other content providers. The second finding is that users paid attention to image licenses but struggled to find and interpret them while also being unsure how to cite images. In general, there is a high demand for reusing scholarly images but the existing infrastructure has room to improve.
Eine durch die Digitalisierung veränderte und auf Open Science ausgerichtete Wissenschaftspraxis benötigt angepasste Infrastrukturen und Services. Daraus ergeben sich verschiedene neue oder veränderte Aktionsfelder für wissenschaftliche Bibliotheken und Infrastruktureinrichtungen. Zu nennen sind zum Beispiel die nicht-textuellen Materialien wie Forschungsdaten, AV-Medien oder Software und die Umsetzung der FAIR-Prinzipien. Hinzu kommen neue Aufgaben im Bereich der Forschungsinformationen, zum Beispiel in der Unterstützung institutioneller Forschungsinformationssysteme, die Gestaltung von Open Access, die Unterstützung kollaborativen wissenschaftlichen Arbeitens sowie die Schaffung von offenen Infrastrukturen. In diesem Artikel werden diese Felder kurz vorgestellt und sich daraus abzeichnende Anforderungen an das bibliothekarische Berufsbild skizziert.
Die Digitalisierung der Geisteswissenschaften eröffnet Wissenschaftlerinnen und Wissenschaftlern unter anderem neue Möglichkeiten des kollaborativen Arbeitens, des offenen Publizierens oder der direkten und öffentlichkeitswirksamen Wissenskommunikation. Auch die Literaturrecherche als ein Grundpfeiler wissenschaftlichen Arbeitens erfährt schon seit Jahren einen stetigen Wandel. Bibliotheken befinden sich als Anbieter von Literatur, Medien und Rechercheinstrumenten in einem Spannungsfeld: Die Kerntätigkeitsbereiche der Erwerbung sowie der Vermittlung von Informationskompetenz unterliegen auch aufgrund der zunehmenden Digitalisierung veränderten Rahmenbedingungen, die meistens außerhalb der Reichweite der lokalen Bibliothek liegen. Diese Bedingungen beeinflussen sowohl die Tätigkeiten des Bibliothekspersonals als auch die Informationsversorgung der Bibliothekskundinnen und -kunden stark.
In diesem Artikel soll mit Bezug auf eine Universitätsbibliothek mittlerer Größe und mit Blick auf eine ihrer wichtigsten Zielgruppen, nämlich die der Studierenden, dargestellt werden, wie sich im Zuge der zunehmenden Digitalisierung Fragen der Erwerbungspolitik und unterschiedliche Wege der Literaturrecherche auf das wissenschaftliche Arbeiten auswirken. Ein besonderes
Augenmerk gilt dabei dem Bestandsaufbau im Fachreferat Germanistik im Gefüge der an der Universität zu versorgenden Fächer. An der Schnittstelle zu Forschung, Lehre und Studium sind es die Fachreferentinnen und Fachreferenten der Bibliothek, die sowohl die Rahmenbedingungen als auch die verschiedenen Möglichkeiten der Literaturrecherche proaktiv vermitteln müssen.
We present a simple method to find topics in user reviews that accompany ratings for products or services. Standard topic analysis will perform sub-optimal on such data since the word distributions in the documents are not only determined by the topics but by the sentiment as well. We reduce the influence of the sentiment on the topic selection by adding two explicit topics, representing positive and negative sentiment. We evaluate the proposed method on a set of over 15,000 hospital reviews. We show that the proposed method, Latent Semantic Analysis with explicit word features, finds topics with a much smaller bias for sentiments than other similar methods.
Using openEHR Archetypes for Automated Extraction of Numerical Information from Clinical Narratives
(2019)
Up to 80% of medical information is documented by unstructured data such as clinical reports written in natural language. Such data is called unstructured because the information it contains cannot be retrieved automatically as straightforward as from structured data. However, we assume that the use of this flexible kind of documentation will remain a substantial part of a patient’s medical record, so that clinical information systems have to deal appropriately with this type of information description. On the other hand, there are efforts to achieve semantic interoperability between clinical application systems through information modelling concepts like HL7 FHIR or openEHR. Considering this, we propose an approach to transform unstructured documented information into openEHR archetypes. Furthermore, we aim to support the field of clinical text mining by recognizing and publishing the connections between openEHR archetypes and heterogeneous phrasings. We have evaluated our method by extracting the values to three openEHR archetypes from unstructured documents in English and German language.
Die allgemeine Digitalisierung und besonders die IT Branche in Hannover, stellen Arbeitgeber_innen und Arbeitnehmer_innen vor große Herausforderungen. Berufsbezeichnungen im IT Sektor zeichnen sich im Gegensatz zu klassischen Berufsfeldern nicht dadurch aus, dass sie vereinheitlicht sind. Unterschiedlichste Berufsbezeichnungen verlangen oftmals identische Kompetenzen. Die Kompetenzen und Fähigkeiten der Arbeitnehmer_innen stehen ebenso immer mehr im Fokus der Arbeitgeber_innen, wie die Bereitschaft der permanenten Weiterbildung.
Zielgebend der vorliegenden Abschlussarbeit ist eine Datenbasis für ein kompetenzbasiertes IT Tool zu liefern, welches den Anspruch hat, die bereits beschriebenen Herausforderungen zu analysieren und zu klassifizieren. Zunächst ist daher eine Klassifikation, der auf dem hannoverschen Jobmarkt gesuchten IT Kompetenzen, zu erstellen. Vorbereitend wird eine Marktanalyse angefertigt, die sowohl Jobsuchmaschinen auf ihre Kompetenzorientierung als auch IT Kompetenzklassifikationen untersucht. Die erstellte Klassifikation bildet anschließend die Grundlage für das Kompetenzmatching zwischen Klassifikation und den Kompetenzen, die hannoversche IT Studierende erlernen, um zu verdeutlichen, in welchen Kompetenzen Weiterbildungsbedarf besteht. Die entstandene Datenbasis wird in einer MySQL Datenbank präsentiert, um eine möglichst flexible Verwendung und Weiterentwicklung des Datenbestands zu ermöglichen.
Lemmatization is a central task in many NLP applications. Despite this importance, the number of (freely) available and easy to use tools for German is very limited. To fill this gap, we developed a simple lemmatizer that can be trained on any lemmatized corpus. For a full form word the tagger tries to find the sequence of morphemes that is most likely to generate that word. From this sequence of tags we can easily derive the stem, the lemma and the part of speech (PoS) of the word. We show (i) that the quality of this approach is comparable to state of the art methods and (ii) that we can improve the results of Part-of-Speech (PoS) tagging when we include the morphological analysis of each word.
Die Reproduzierbarkeit von Studien ist wichtig, um ihre Ergebnisse prüfen zu können. Auch bei Forschung, die auf frühere Ergebnisse aufbaut, wird zuweilen ein Zugang zu den alten Daten oder dem Source Code benötigt. Diese Arbeit analysiert Studien aus der Computerlinguistik hinsichtlich ihrer Reproduzierbarkeit. Zunächst werden die Begrifflichkeiten zu diesem speziellen Gebiet definiert und im folgenden Schritt wird ein Datensatz erstellt, in dem ausgewählte Open-Access-Studien aus dem Jahre 2018 auf der Basis zuvor festgelegter Kriterien bewertet werden. Diese sind unter anderem die Zugänglichkeit des benutzten Materials, der angewendeten Methoden und der Ergebnisse. Neben den Kriterien werden auch Hypothesen zu diesem Datensatz aufgestellt. Schließlich werden die Ergebnisse visualisiert und hinsichtlich besagter Hypothesen interpretiert. Basierend auf der resultierenden Auswertung sind die meisten Studien reproduzierbar. Im Ausblick werden mögliche Weiterführungen und Erweiterungen dieser Untersuchung erläutert.
In the present paper we sketch an automated procedure to compare different versions of a contract. The contract texts used for this purpose are structurally differently composed PDF files that are converted into structured XML files by identifying and classifying text boxes. A classifier trained on manually annotated contracts achieves an accuracy of 87% on this task. We align contract versions and classify aligned text fragments into different similarity classes that enhance the manual comparison of changes in document versions. The main challenges are to deal with OCR errors and different layout of identical or similar texts. We demonstrate the procedure using some freely available contracts from the City of Hamburg written in German. The methods, however, are language agnostic and can be applied to other contracts as well.
Das wissenschaftliche Publikationswesen befindet sich in einem Transformationsprozess, weg von der Bezahlung des lesenden Zugriffs durch den Kauf von Lizenzen durch Bibliotheken, hin zu der Vergütung der Verlagsleistungen durch Publikationsgebühren. Ziel ist der freie Zugang zu Forschungsergebnissen in wissenschaftlichen Publikationen und den dazugehörigen Forschungsdaten. Dieser freie Zugang zu wissenschaftlicher Literatur wird weltweit, unter dem Begriff Open Access gefördert und vorangebracht. Veränderungen in der Wissenschaft bedeuten auch immer Änderungen in den Arbeitsabläufen und im Aufgabenbereich wissenschaftlicher Bibliotheken. Diese Arbeit beschäftigt sich mit der Fragestellung, welche Angebote medizinische Fachbibliotheken in Deutschland, Österreich und der Schweiz den Wissenschaftlern ihrer Institution im Bereich des Open Access Publizierens bieten. Aufbauend auf den Ergebnissen einer Webseitenanalyse, werden Handlungsempfehlungen für die Ärztliche Zentralbibliothek im Universitätsklinikum Hamburg-Eppendorf für den Aufbau von Publikationsdiensten, insbesondere für Open Access, erstellt.
Concreteness of words has been studied extensively in psycholinguistic literature. A number of datasets have been created with average values for perceived concreteness of words. We show that we can train a regression model on these data, using word embeddings and morphological features, that can predict these concreteness values with high accuracy. We evaluate the model on 7 publicly available datasets. Only for a few small subsets of these datasets prediction of concreteness values are found in the literature. Our results clearly outperform the reported results for these datasets.
For the analysis of contract texts, validated model texts, such as model clauses, can be used to identify used contract clauses. This paper investigates how the similarity between titles of model clauses and headings extracted from contracts can be computed, and which similarity measure is most suitable for this. For the calculation of the similarities between title pairs we tested various variants of string similarity and token based similarity. We also compare two additional semantic similarity measures based on word embeddings using pre-trained embeddings and word embeddings trained on contract texts. The identification of the model clause title can be used as a starting point for the mapping of clauses found in contracts to verified clauses.
Bibliotheken sind Lernorte. Der interne Organisationsaufbau von Bibliotheken weist hingegen bisher wenige Strukturen einer Lernenden Organisation auf. Um die Bereitstellung von Medien und Informationen für Bibliotheksnutzer aufrechtzuerhalten und stetig an deren Bedürfnissen auszurichten (z. B. im Kontext der fortschreitenden Digitalisierung), bedarf es eines gut ausgebildeten Bibliothekspersonals. Klassische Fortbildungskonzepte gehören ebenso dazu, wie der kontinuierliche, persönliche Lernprozess eines jeden Bibliotheksmitarbeiters. Die Methode „Working Out Loud“ kann eingesetzt werden, um diese persönlichen Fähigkeiten auszubauen und eine agile Arbeitsweise anzuregen. Daher wird überprüft, inwiefern Working Out Loud die Lernende Organisation unterstützen kann. Zunächst wird die Methode Working Out Loud und deren Anwendung bei Unternehmen vorgestellt. Dann werden die Kennzeichen von Lernenden Organisationen definiert und auf Bibliotheken angewandt. Angeschlossen wird eine Betrachtung des zwölf Wochenprogramms von Working Out Loud und deren Potential zur Unterstützung der Lernenden Bibliothek. Working Out Loud vermittelt Bibliotheksmitarbeitern durch gezielte Übungen eine offenere Arbeitseinstellung, die sie mit ihren Kollegen innerhalb und außerhalb der Bibliothek zu teilen lernen.
Content-Gestaltung und Einsatzmöglichkeiten von Augmented Reality in Öffentlichen Bibliotheken
(2019)
Augmented Reality (AR), die Erweiterung der Realität durch computergenerierte Zusatzobjekte, kommt bisher hauptsächlich in Wissenschaftlichen Bibliotheken (WB) zum Einsatz. Diese Arbeit beschäftigt sich deshalb mit den Einsatzmöglichkeiten von AR in Öffentlichen Bibliotheken (ÖB). Betrachtet wird dabei die Realisierung von AR über eigenständig gestalteten Content mittels Anbietern im Internet und dazugehörigen Browser-Apps. Dies stellt eine kostengünstige und barrierefreie Alternative zur Programmierung von Apps dar. Dafür wird zunächst ein theoretischer Überblick gegeben, indem AR definiert wird und die technischen Grundlagen, wie Trackingverfahren und Interfaces, erläutert werden. Darauf folgen, zur Un-termauerung der Diskrepanz zwischen WB und ÖB, Beispiele für umgesetzte Projekte aus beiden Sparten. Anschließend wird auf die allgemeinen Einsatzgebiete und Potenziale von AR sowie die Aufgaben von ÖBs eingegangen. Die daraus abgeleiteten Einsatzmöglichkeiten von AR für Öffentliche Bibliotheken, Navigation und Orientierung, Bestandserweiterung, Veranstaltungen, Öffentlichkeitsarbeit/Marketing/Werbung sowie Informationskompetenz, werden erläutert. Zur Content-Gestaltung werden zunächst Grundvoraussetzungen genannt und die Funktionsweise der AR-Anbieter im Internet erklärt. Im Anschluss werden die Anbieter Blippar, HP Reveal, Layar, ROAR, Wikitude und Zappar, auf Grundlage eines zuvor erstellten Kriterienkatalogs, hinsichtlich ihres Funktionsumfangs verglichen. Im Ergebnis zeigt sich, dass sich die Anbieter zwar alle ähneln, bezüglich spezieller Funktionen und Kosten aber unterscheiden. Am besten schneidet dabei Zappar ab. Ergänzend werden danach die verschiedenen Arten von Content näher betrachtet. Zur Veranschaulichung der leichten Realisierbarkeit von AR werden zwei praktische Beispiele umgesetzt. Zum Abschluss werden Grenzen und Probleme, auch aus rechtlicher Perspektive, betrachtet. Diese schränken die Content-Gestaltung und die Einsatzmöglichkeiten nur wenig ein, womit die Content-Gestaltung von AR für den Einsatz in ÖBs sehr gut geeignet ist.