Refine
Year of publication
- 2009 (5) (remove)
Document Type
- Conference Proceeding (5) (remove)
Has Fulltext
- yes (5)
Is part of the Bibliography
- no (5)
Keywords
- Angewandte Botanik (5)
- Digitalisierung (5)
- Erkennungssoftware (5)
- Gepresste Pflanzen (5)
- Herbar Digital (5)
- Herbarium (5)
- OCR (5)
- Recognition software (5)
- Virtualisierung (5)
Institute
- Fakultät I - Elektro- und Informationstechnik (5) (remove)
Das Forschungsprojekt „Herbar Digital” [JKS00] startete 2007 mit dem Ziel der Digitalisierung des Bestands von mehr als 3,5 Millionen getrockneter Pflanzen bzw. Pflanzenteile auf Papierbögen (Herbarbelege) des Botanischen Museums Berlin. Da gelegentlich der Sammler der Pflanze unbekannt ist, wurde in der vorliegenden Arbeit ein Verfahren entwickelt, um aus kursiv geschriebenen Buchstaben deren Schreiber zu bestimmen. Dazu muss der statische Buchstabe in eine dynamische Form gebracht werden. Dies geschieht mit dem Modell einer trägen Kugel, die durch den Schriftzug rollt. Bei dieser Offline-Schreibererkennung werden verschiedene Verfahren wie die Nachbildung der Schreiblinie einzelner Buchstaben durch z.B. Legendre-Polynome verwendet. Bei Verwendung nur eines Buchstabens der Schreiber wird eine Erkennungsrate von durchschnittlich 40% erreicht. Durch Kombination von mehreren Buchstaben steigt die Erkennungsrate stark an und beträgt bei 13 Buchstaben und 93 Schreibern einer internationalen Datenbank 98,6%.
An der Fachhochschule Hannover wurde Mitte 2007 das Projekt "Herbar-Digital" gestartet. In dem Forschungsprojekt "Herbar-Digital" sollen aus 3,5 Millionen Papierbögen (Herbarbelege) des Botanischen Museums Berlin möglichst alle Objekte erkannt werden und separat verarbeitbar sein. Bei den Objekten handelt es sich um Barcodes, Tüten, Stempel, Farbtabellen, Elemente aus dem Pflanzenbereich sowie Hand- und Druckschriften. Es soll unter Zuhilfenahme des ADA-BOOST-Algorithmus vom Verfasser eine Objekterkennung realisiert werden, die folgende Eigenschaften aufweist: Position der zu erkennenden Objekte im Bild variabel, auch dreidimensionale - und konturschwache Objekte müssen erkannt werden, gleiche Objekte unterschiedlicher Form müssen erkennbar sein, das System muss lernfähig sein.
Das Forschungsprojekt „Herbar Digital” startete 2007 mit dem Ziel der Digitalisierung des Bestands von mehr als 3,5 Millionen getrockneter Pflanzen bzw. Pflanzenteile auf Papierbögen (Herbarbelege) des Botanischen Museums Berlin. Die Aufgabe des Autors ist die Analyse der hochaufgelösten Bilder mit 10400 Zeilen und 7500 Spalten. Die Herbarbelege können außerdem unterschiedliche Objekte enthalten wie Umschläge mit zusätzlichen Pflanzenteilen, gedruckte oder handgeschriebene Etiketten, Farbtabellen, Maßstäbe, Stempel, Barcodes, farbige „Typus-Etiketten“ und handschriftliche Anmerkungen direkt auf dem Beleg. Die schriftlichen Anmerkungen, insbesondere in Handschrift, sind von besonderem Interesse. Kommerzielle OCR-Software kann oftmals Schrift in komplexen Umgebungen nicht lokalisieren, wie sie häufig auf den Herbarbelegen vorliegt, auf denen Schrift zwischen Blättern, Wurzeln und anderen Objekten angeordnet ist. Im folgenden wird eine Methode vorgestellt, die es ermöglicht, Schriftpassagen im Bild automatisch zu finden.
The methods developed in the research project "Herbar Digital" are to help plant taxonomists to master the great amount of material of about 3.5 million dried plants on paper sheets belonging to the Botanic Museum Berlin in Germany. Frequently the collector of the plant is unknown. So a procedure had to be developed in order to determine the writer of the handwriting on the sheet. In the present work the static character is transformed into a dynamic form. This is done with the model of an inert ball which is rolled through the written character. During this off-line writer recognition, different mathematical procedures are used such as the reproduction of the write line of individual characters by Legendre polynomials. When only one character is used, a recognition rate of about 40% is obtained. By combining multiple characters, the recognition rate rises considerably and reaches 98.7% with 13 characters and 93 writers (chosen randomly from the international IAM-database [3]). Another approach tries to identify the writer by handwritten words. The word is cut out and transformed into a 6-dimensional time series and compared e.g. by means of DTW-methods. A global statistical approach using the whole handwritten sentences results in a similar recognition rate of more than 98%. By combining the methods, a recognition rate of 99.5% is achieved.
The research project "Herbar Digital" was started in 2007 with the aim to digitize 3.5 million dried plants on paper sheets belonging to the Botanic Museum Berlin in Germany. Frequently the collector of the plant is unknown, so a procedure had to be developed in order to determine the writer of the handwriting on the sheet. In the present work the static character was transformed into a dynamic form. This was done with the model of an inert ball which was rolled along the written character. During this off-line writer recognition, different mathematical procedures were used such as the reproduction of the write line of individual characters by Legendre polynomials. When only one character was used, a recognition rate of about 40% was obtained. By combining multiple characters, the recognition rate rose considerably and reached 98.7% with 13 characters and 93 writers (chosen randomly from the international IAM-database [3]). A global statistical approach using the whole handwritten text resulted in a similar recognition rate. By combining local and global methods, a recognition rate of 99.5% was achieved.