020 Bibliotheks- und Informationswissenschaft
Refine
Year of publication
- 2013 (12) (remove)
Document Type
- Bachelor Thesis (4)
- Conference Proceeding (3)
- Article (1)
- Book (1)
- Doctoral Thesis (1)
- Master's Thesis (1)
- Working Paper (1)
Has Fulltext
- yes (12)
Is part of the Bibliography
- no (12)
Keywords
- Bibliothek (3)
- Archiv (2)
- Linked Data (2)
- Metadaten (2)
- Semantik (2)
- Text Mining (2)
- 3D models (1)
- 3D-Modelle (1)
- Automatic Speech Recognition (ASR) (1)
- Automatische Spracherkennung (1)
Institute
Das Buch ist sowohl eine Einführung in die Themen Linked Data, Open Data und Open Linked Data als es auch den konkreten Bezug auf Bibliotheken behandelt. Hierzu werden konkrete Anwendungsprojekte beschrieben. Der Band wendet sich dabei sowohl an Personen aus der Bibliothekspraxis als auch an Personen aus dem Bibliotheksmanagement, die noch nicht mit dem Thema vertraut sind.
This paper describes the approach of the Hochschule Hannover to the SemEval 2013 Task Evaluating Phrasal Semantics. In order to compare a single word with a two word phrase we compute various distributional similarities, among which a new similarity measure, based on Jensen-Shannon Divergence with a correction for frequency effects. The classification is done by a support vector machine that uses all similarities as features. The approach turned out to be the most successful one in the task.
Digitale 3D-Modelle der Architektur – z.B. Modelle von Gebäuden, Inneneinrichtungsgegenständen und Bauteilen – haben innerhalb der letzten fünf Jahrzehnte sowohl die analogen, auf Papier basierenden Zeichnungen als auch die physischen Modelle aus ihrer planungs-, ausführungs- und dokumentationsunterstützenden Rolle verdrängt. Als Herausforderungen bei der Integration von 3D-Modellen in digitale Bibliotheken und Archive sind zunächst die meist nur rudimentäre Annotation mit Metadaten seitens der Autoren und die nur implizit in den Modellen vorhandenen
Informationen zu nennen. Aus diesen Defiziten resultiert ein aktuell starkes Interesse an inhaltsbasierter Erschließung durch vernetzte Nutzergruppen oder durch automatisierte Verfahren, die z.B. aufgrund von Form- oder Strukturmerkmalen eine automatische Kategorisierung von 3D-Modellen anhand gegebener Schemata ermöglichen. Die teilweise automatische Erkennung von objektinhärenter Semantik vergrößert die Menge an diskreten und semantisch unterscheidbaren Einheiten. Darüber hinaus sind digitale 3D-Modelle zumeist hierarchisch aufgebaut; sie enthalten weitere komplexe Modelle, die wiederum in sich geschachtelt sein können und in einzelnen Fällen einen eigenständigen Nachweis als 3D-Modell wünschenswert machen. 3D-Modelle als Content im World Wide Web können sowohl untereinander als auch mit anderen textuellen wie nichttextuellen Objekten verknüpft werden, also Teil von aggregierten Dokumenten sein. Eine weitere Notwendigkeit ist die Vernetzung mit inhaltlich relevanten Ereignissen, Orten, Begriffen, Personen oder realen Objekten sowie die explizite Beschreibung der Relationen zwischen dem Modell selbst und diesen Entitäten seines spezifischen Kontextes. Die Aggregationen bzw. der Modellkontext sowie die inhärenten Entitäten erfordern Instrumente der Organisation, um dem Benutzer bei der Suche nach Informationen einen Mehrwert zu bieten, insbesondere dann, wenn textbasiert nach Informationen zum Modell und zu dessen Kontext gesucht wird. In der vorliegenden Arbeit wird ein Metadatenmodell zur gezielten Strukturierung von Information entwickelt, welche aus 3D-Architekturmodellen gewonnen wird. Mittels dieser Strukturierung kann das Modell mit weiterer Information vernetzt werden. Die Anwendung etablierter Ontologien sowie der Einsatz von URIs machen die Informationen nicht nur explizit, sondern beinhalten auch eine semantische Information über die Relation selbst, sodass eine Interoperabilität zu anderen verfügbaren Daten im Sinne der Grundprinzipien des Linked-Data-Ansatzes gewährleistet wird. Diese Herangehensweise hat im Gegensatz zu einem Ansatz, der Metadaten als Records auffasst, das Potenzial, Relationen zu jeglichen modellrelevanten Entitäten im Suchraum herzustellen und zugleich diese Relationen für weitere wissensbildende Prozesse verfügbar zu machen.
We compare the effect of different segmentation strategies for passage retrieval of user generated internet video. We consider retrieval of passages for rather abstract and complex queries that go beyond finding a certain object or constellation of objects in the visual channel. Hence the retrieval methods have to rely heavily on the recognized speech. Passage retrieval has mainly been studied to improve document retrieval and to enable question answering. In these domains best results were obtained using passages defined by the paragraph structure of the source documents or by using arbitrary overlapping passages. For the retrieval of relevant passages in a video no author defined paragraph structure is available. We compare retrieval results from 5 different types of segments: segments defined by shot boundaries, prosodic segments, fixed length segments, a sliding window and semantically coherent segments based on speech transcripts. We evaluated the methods on the corpus of the MediaEval 2011 Rich Speech Retrieval task. Our main conclusions are (1) that fixed length and coherent segments are clearly superior to segments based on speaker turns or shot boundaries; (2) that the retrieval results highly depend on the right choice for the segment length; and (3) that results using the segmentation into semantically coherent parts depend much less on the segment length. Especially, the quality of fixed length and sliding window segmentation drops fast when the segment length increases, while quality of the semantically coherent segments is much more stable. Thus, if coherent segments are defined, longer segments can be used and consequently fewer segments have to be considered at retrieval time.
Regional knowledge map is a tool recently demanded by some actors in an institutional level to help regional policy and innovation in a territory. Besides, knowledge maps facilitate the interaction between the actors of a territory and the collective learning. This paper reports the work in progress of a research project which objective is to define a methodology to efficiently design territorial knowledge maps, by extracting information of big volumes of data contained in diverse sources of information related to a region. Knowledge maps facilitate management of the intellectual capital in organisations. This paper investigates the value to apply this tool to a territorial region to manage the structures, infrastructures and the resources to enable regional innovation and regional development. Their design involves the identification of information sources that are required to find which knowledge is located in a territory, which actors are involved in innovation, and which is the context to develop this innovation (structures, infrastructures, resources and social capital). This paper summarizes the theoretical background and framework for the design of a methodology for the construction of knowledge maps, and gives an overview of the main challenges for the design of regional knowledge maps.
Regional Innovation Systems describe the relations between actors, structures and infrastructures in a region in order to stimulate innovation and regional development. For these systems the collection and organization of information is crucial. In the present paper we investigate the possibilities to extract information from websites of companies. First we describe regional innovation systems and the information types that are necessary to create them. Then we discuss the possibilities of text mining and keyword extraction techniques to extract this information from company websites. Finally, we describe a small scale experiment in which keywords related to economic sectors and commodities are extracted from the websites of over 200 companies. This experiment shows what the main challenges are for information extraction from websites for regional innovation systems.
Automatische Spracherkennungssysteme (Automatic Speech Recognition - ASR) können derzeit nicht alle Wörter korrekt erkennen und daher noch keine guten Transkriptionen erstellen. Die Qualität der automatischen Spracherkennung wird von vielen Faktoren beeinflusst. Einer davon ist das Vokabular. Je vielfältiger und komplexer die Themen, desto größer die Anzahl der fachspezifischen Wörter ist, die erkannt werden müssen, desto schwieriger ist die Erkennungsaufgabe und desto schlechter sind die Transkriptionsergebnisse. Die Sprachmodelle von automatischen Spracherkennungssystemen müssen durch Training angepasst werden, damit sie auch bei Gebieten mit speziellem Vokabular gute Resultate erzielen können. In dieser Arbeit wird untersucht, ob der prozentuale Anteil der korrekt erkannten Wörter durch Training des Sprachmodells der automatischen Spracherkennung mit fachspezifischer Terminologie wirksam gesteigert werden kann. Anhand von Ergebnissen der durchgeführten Experimente wird dargelegt, welche Anzahl und Art von Daten benötigt wird, um den Prozentsatz der falsch erkannten Wörter zu senken. Die Ergebnisse der Domänen-Adaption bilden die Basis für den anschließenden Vergleich des fachspezifischen Vokabulars in Vorlesungsvideos und wissenschaftlichen Publikationen, um die Unterschiede hinsichtlich der verwendeten Fachsprache aufzuzeigen. Grundlage und Ausgangspunkt für die gesamte Untersuchung stellt die Erkennung der Fachterminologie und ihre Unterscheidung von der Allgemeinsprache dar.
Mitarbeiterzeitschriften nehmen in der internen Kommunikation von Unternehmen und Non-Profit-Organisationen über 100 Jahre eine zentrale Rolle ein und verlieren auch durch Einzug der Sozialen Medien nicht an Bedeutung. Seit 2007 befinden sich die Mitarbeiterzeitschriften der Arbeitsstelle für innerbetriebliche Kommunikation an der Hochschule Hannover. Das Mitarbeiterzeitschriftenarchiv besteht aus über 750 Zeitschriftentiteln, die bisher öffentlich nicht verzeichnet sind. Im theoretischen Teil der vorliegenden Bachelorarbeit verdeutlichen die geschichtlichen, funktionalen, inhaltlichen Darstellungen der Publikationsform wie wichtig diese für die berufliche Praxis sowie für die sozialwissenschaftliche und linguistische Forschung sind. Mittels eines Fragebogens lässt sich das Bestandsmanagement beispielhaft an einigen deutschen Bibliotheken und Archiven darstellen. Anhand einer Bestandsanalyse und einer fach- und bibliotheksspezifischen Bestandsbewertung des Mitarbeiterzeitschriftenarchivs der Hochschule Hannover leiten sich bestands- und ressourcentechnische Handlungsempfehlungen für die Bibliothek der Hochschule Hannover ab und zeigen eine Möglichkeit wie das Mitarbeiterzeitschriftenarchiv zukünftig weitergeführt wird. Zum Schluss der Bachelorarbeit kommen u.a. die Urheberrechtsproblematik bei der Digitalisierung sowie Vorschläge zur Anbindung an eine Virtuelle Forschungsumgebung als auch die digitale Abgabe der Mitarbeiterzeitschrift zur Sprache.
Metadaten für das digitale Archiv des Niedersächsischen Landesamts für Denkmalpflege : ein Konzept
(2013)
Das Niedersächsische Landesamt für Denkmalpflege (NLD) ist die zentrale Fachbehörde für den Denkmalschutz in Niedersachsen. Ihre Funktionen sind im Niedersächsischen Denkmalschutzgesetz festgelegt. Sie führt das Verzeichnis der Kulturdenkmale in Niedersachsen und ist zentrale Archivstelle. Die Archivbestände der beiden fachlichen Bereiche Archäologie und Bau- und Kunstdenkmalpflege sollen im Fachinformationssystem ADABweb digital erschlossen werden, so dass sie mit den Objektdaten verknüpft werden können. Das Metadatenschema für die Archivalien soll sich an relevanten Standards orientieren und mit diesen weitgehend interoperabel sein. Zugleich sind die besonderen Informationsbedürfnisse der Denkmalpflege zu berücksichtigen.
Distributional semantics tries to characterize the meaning of words by the contexts in which they occur. Similarity of words hence can be derived from the similarity of contexts. Contexts of a word are usually vectors of words appearing near to that word in a corpus. It was observed in previous research that similarity measures for the context vectors of two words depend on the frequency of these words. In the present paper we investigate this dependency in more detail for one similarity measure, the Jensen-Shannon divergence. We give an empirical model of this dependency and propose the deviation of the observed Jensen-Shannon divergence from the divergence expected on the basis of the frequencies of the words as an alternative similarity measure. We show that this new similarity measure is superior to both the Jensen-Shannon divergence and the cosine similarity in a task, in which pairs of words, taken from Wordnet, have to be classified as being synonyms or not.