Refine
Document Type
- Conference Proceeding (7)
- Report (6)
- Working Paper (6)
- Article (1)
Has Fulltext
- yes (20)
Is part of the Bibliography
- no (20)
Keywords
- Herbarium (20) (remove)
Die Forschung am Herbarbeleg ist in der Botanik und der Taxonomie einem Wandel ausgesetzt. Zunehmend werden in Herbarien digitale Kopien verwendet, die neue Auswertungs- und Analysemethoden ermöglichen. Die Entwicklung technischer und wirtschaftlicher Verfahren zur Herbarbeleg-Digitalisierung ist Gegenstand des Forschungsschwerpunkts Herbar Digital der Hochschule Hannover. Das Ziel von Herbar Digital ist es, das System der Virtualisierung von Herbarbelegen und deren Verwaltung so zu automatisieren, dass die Kosten von 20 US-$ auf 2 US-$ reduziert werden. Betrachtet man die Herbarbeleg-Digitalisierung als ein zu planendes 5-Jahres-Investitionsprojekt, dann sind unterschiedliche Szenarien und deren wirtschaftlichen Auswirkungen denkbar. In dem vorliegenden Arbeitspapier werden drei Szenarien entwickelt und soweit operationalisiert, dass sowohl Aussagen einer technischen Investitionsplanung als auch einer wirtschaftlichen Investitionsplanung über den Planungshorizont von 5 Jahren abgeleitet werden. In technischer Hinsicht werden die Produktion, Logistik (inkl. IT) sowie das Personal geplant. Die wirtschaftlichen Aussagen beziehen sich auf Standort- und Betriebsmittelkosten, IT- und Logistikkosten, Personalkosten sowie sonstige Kosten. Um den Projekterfolg sicherzustellen, sind beide Planungsbereiche in einem Konzept für das Investitionscontrolling integriert. Als Ergebnis von Szenario 1 ergeben sich bei einer Produktionsmenge von 1 Mio. digitalen Belegen Ausgaben in Höhe von 2,05 € pro Digitalisat. Das Szenario 1 ist als generelles Forschungsergebnis von Herbar Digital zu verstehen und liefert entsprechend eine Referenzlösung für alle Objekte im Kontext einer musealen Herbarbeleg-Digitalisierung. Bei einer Produktion von 5 Mio. Digitalisaten in Szenario 2 wird von einer Kooperation der Herbarien in Berlin und einem ausländischen Partner mit halben Lohnniveau ausgegangen. Es reduzieren sich die zahlungswirksamen Kosten auf 1,21 € pro Digitalisat. Das Ergebnis aus Szenario 2 bleibt auch in Szenario 3 konstant, worin unter Einbezug eines weiteren inländischen Kooperationspartners 10 Mio. digitale Herbarbelege hergestellt werden. Vermutlich ergeben sich unter den technischen Bedingungen keine weiteren Kostendegressionseffekte.
Die vorliegende Arbeit ermittelt die Ist-Kosten für den Prozess der Herbarbeleg Digitalisierung im Botanischen Garten/ Botanischen Museum in Berlin-Dahlem. Dabei werden die Kosten durch drei verschiedene Vorgehensweisen aufgezeigt. Die erste Vorgehensweise ermittelt die Kosten für die Digitalisierung anhand der Gesamtaufwendungen im Botanischen Garten/ Botanischen Museum. In dieser Betrachtung werden die Kosten abgegrenzt, die nur der Digitalisierung zuzuordnen sind. Eine weitere Methode erfasst alle Einzelkosten die für die Digitalisierung von Herbarbelegen anfallen und stellt abschließend die Gesamtkosten für die Digitalisierung dar. Als weitere Vorgehensweise zur Kostenbestimmung wurde eine Projektbetrachtung gewählt. In dieser sind die Digitalisierungskosten anhand eines durchgeführten Projektes im Botanischen Garten/ Botanischen Museum veranschaulicht.
An der Fachhochschule Hannover wurde Mitte 2007 das Projekt "Herbar-Digital" gestartet. In dem Forschungsprojekt "Herbar-Digital" sollen aus 3,5 Millionen Papierbögen (Herbarbelege) des Botanischen Museums Berlin möglichst alle Objekte erkannt werden und separat verarbeitbar sein. Bei den Objekten handelt es sich um Barcodes, Tüten, Stempel, Farbtabellen, Elemente aus dem Pflanzenbereich sowie Hand- und Druckschriften. Es soll unter Zuhilfenahme des ADA-BOOST-Algorithmus vom Verfasser eine Objekterkennung realisiert werden, die folgende Eigenschaften aufweist: Position der zu erkennenden Objekte im Bild variabel, auch dreidimensionale - und konturschwache Objekte müssen erkannt werden, gleiche Objekte unterschiedlicher Form müssen erkennbar sein, das System muss lernfähig sein.
Das Forschungsprojekt „Herbar Digital” startete 2007 mit dem Ziel der Digitalisierung des Bestands von mehr als 3,5 Millionen getrockneter Pflanzen bzw. Pflanzenteile auf Papierbögen (Herbarbelege) des Botanischen Museums Berlin. Die Aufgabe des Autors ist die Analyse der hochaufgelösten Bilder mit 10400 Zeilen und 7500 Spalten. Die Herbarbelege können außerdem unterschiedliche Objekte enthalten wie Umschläge mit zusätzlichen Pflanzenteilen, gedruckte oder handgeschriebene Etiketten, Farbtabellen, Maßstäbe, Stempel, Barcodes, farbige „Typus-Etiketten“ und handschriftliche Anmerkungen direkt auf dem Beleg. Die schriftlichen Anmerkungen, insbesondere in Handschrift, sind von besonderem Interesse. Kommerzielle OCR-Software kann oftmals Schrift in komplexen Umgebungen nicht lokalisieren, wie sie häufig auf den Herbarbelegen vorliegt, auf denen Schrift zwischen Blättern, Wurzeln und anderen Objekten angeordnet ist. Im folgenden wird eine Methode vorgestellt, die es ermöglicht, Schriftpassagen im Bild automatisch zu finden.
Das vorliegende Forschungspapier dokumentiert die Geschäftsprozesse des Botanischen Gartens/ Botanischen Museums in Berlin-Dahlem, die im Zusam-menhang mit der Digitalisierung von Herbarbelegen stehen. Eine beteiligte Organisationseinheit im Botanischen Garten/ Botanischen Mu-seum ist die Abteilung I C Herbar, das für die Verwaltung und Lagerung der Herbarbelege zuständig ist. Die Abteilung III B Biodiversitätsinformatik bearbei-tet die digitalisierten Herbarbelege weiter. Die zahlreich identifizierten Geschäftsprozesse werden zunächst in einem Wertschöpfungskettendiagramm als Einstiegs- und Überblicksmodell verdichtet. Anschließend werden die Geschäftsprozesse im Einzelnen beschrieben und mit ARIS, d. h. zusätzlich durch Software- Unterstützung, modelliert, um eine späte-re Optimierung hinsichtlich Abläufe und Kosten zu ermöglichen.
Der vorliegende Artikel analysiert sowohl das in der Entwicklung stehende Projekt, die Digitalisierung von Herbarbelegen, als auch den dafür vorhandenen Markt. Bei der Produktanalyse wird das Kernprodukt in die 3 Einzelprodukte gegliedert und diese in Funktion und Zusammensetzung näher erklärt. Besonderen Wert wird hier auf die bisher angefallenen Entwicklungskosten gelegt, da sie die Basis für die Kalkulation der Umsatzanalyse bilden. Die Marktanalyse besteht aus einer genauen Analyse des deutschen Marktes sowie einer gröberen des europäischen- und des Weltmarktes. Die anschließend durchge-führte Umsatzanalyse basiert auf den Daten aus der Produktanalyse und der recherchierten Märkten. Ziel hiervon ist es, erste Vorstellungen eines möglichen Umsatzes auf dem deutschen, europäischen und weltweiten Markt zu erstellen.
Toward a service-based workflow for automated information extraction from herbarium specimens
(2018)
Over the past years, herbarium collections worldwide have started to digitize millions of specimens on an industrial scale. Although the imaging costs are steadily falling, capturing the accompanying label information is still predominantly done manually and develops into the principal cost factor. In order to streamline the process of capturing herbarium specimen metadata, we specified a formal extensible workflow integrating a wide range of automated specimen image analysis services. We implemented the workflow on the basis of OpenRefine together with a plugin for handling service calls and responses. The evolving system presently covers the generation of optical character recognition (OCR) from specimen images, the identification of regions of interest in images and the extraction of meaningful information items from OCR. These implementations were developed as part of the Deutsche Forschungsgemeinschaft funded a standardised and optimised process for data acquisition from digital images of herbarium specimens (StanDAP-Herb) Project.
Die vorliegende Arbeit untersucht den möglichen Einsatz kommerzieller Software im Projekt Herbar Digital. Dabei werden zwei Kategorien unterschieden: OCR-Software und Barcodesoftware. Von der ersten Kategorie gibt es eine Vielzahl käuflicher Programme auf dem Markt sowie auch einige kostenlose Freewareprogramme. Die Qualität ist jedoch sehr unterschiedlich, insbesondere fallen die Freewareprogramme stark ab. Es kristallisieren sich vier hochqualitative Programme heraus, die genau untersucht werden. Von diesen eignen sich zwei für das Projekt, wobei Omnipage 16 der Vorzug gegeben wird. In der Kategorie der Barcodesoftware fiel die Wahl auf QS-Barcode 4.0, da sich OCR-Programme für das Lesen von Barcodes als ungeeignet erwiesen. Die anfängliche Erkennungsrate von 90% konnte durch eigene Verfahren zur Bildvorverarbeitung auf 100% gesteigert werden.
The methods developed in the research project "Herbar Digital" are to help plant taxonomists to master the great amount of material of about 3.5 million dried plants on paper sheets belonging to the Botanic Museum Berlin in Germany. Frequently the collector of the plant is unknown. So a procedure had to be developed in order to determine the writer of the handwriting on the sheet. In the present work the static character is transformed into a dynamic form. This is done with the model of an inert ball which is rolled through the written character. During this off-line writer recognition, different mathematical procedures are used such as the reproduction of the write line of individual characters by Legendre polynomials. When only one character is used, a recognition rate of about 40% is obtained. By combining multiple characters, the recognition rate rises considerably and reaches 98.7% with 13 characters and 93 writers (chosen randomly from the international IAM-database [3]). Another approach tries to identify the writer by handwritten words. The word is cut out and transformed into a 6-dimensional time series and compared e.g. by means of DTW-methods. A global statistical approach using the whole handwritten sentences results in a similar recognition rate of more than 98%. By combining the methods, a recognition rate of 99.5% is achieved.
The research project "Herbar Digital" was started in 2007 with the aim to digitize 3.5 million dried plants on paper sheets belonging to the Botanic Museum Berlin in Germany. Frequently the collector of the plant is unknown, so a procedure had to be developed in order to determine the writer of the handwriting on the sheet. In the present work the static character was transformed into a dynamic form. This was done with the model of an inert ball which was rolled along the written character. During this off-line writer recognition, different mathematical procedures were used such as the reproduction of the write line of individual characters by Legendre polynomials. When only one character was used, a recognition rate of about 40% was obtained. By combining multiple characters, the recognition rate rose considerably and reached 98.7% with 13 characters and 93 writers (chosen randomly from the international IAM-database [3]). A global statistical approach using the whole handwritten text resulted in a similar recognition rate. By combining local and global methods, a recognition rate of 99.5% was achieved.