Am 07.12.20 um 19:52 schrieb Ernst, Volkmar:
Liebe Kitodo-Community,
wir testen derzeit Software für OCR & Transkriptionen, deren Implementierung in unseren zukünftigen Digitalisierungsworkflow mit Hilfe von kitodo.pro und letztlich deren Präsentation in kitodo.pre.
- Bisher gibt es kein softwarebasiertes OCR bzw. Transkriptions-Verfahren in der AdK für Archivalien, wir testen deshalb derzeit tesseract, transkribus und (vermutlich bald) abby.
- Anders als in Bibliotheken wird unser Digitalisierungs-Output jedoch wesentlich geringer sein, wir rechnen mit 3000-5000 Seiten pro Jahr, die für OCR/Transkriptionen in Frage kommen.
- Vermutlich auch anders als in den meisten Bibliotheken werden in der AdK vor allem Handschriften, unterschiedliche Frakturschriften sowie existierende Transkriptionen (Word-Dateien…) basisbildend sein.
- „Transkribus“ scheint für das, was wir vorhaben und generieren– automatisierbare Frakturschrift/Handschrifterkennung, manuelle Transkription, GUI für die Bearbeitung, ALTO/TEI-Export – zunächst ganz gut geeignet zu sein.
- Gibt es Erfahrungen von Ihrer Seite mit der Software, die Sie mit uns teilen könnten bzw. würden?
- Da wir im Workflow Anforderungen der Editionswissenschaften (z.B. Textauszeichnung,) berücksichtigen wollen, möchten wir TEI gegenüber ALTO zumindest in bestimmten Projekten im Workflow vorziehen.
- Gibt es in der Community bereits einen TEI-basierten Workflow für kitodo.pro + kitodo.pre?
Lieber Herr Ernst,
mir ist leider bisher kein Workflow bekannt, der TEI erzeugt,
auch wenn der Wunsch nach diesem Format schon vor ein paar Jahren
formuliert wurde
(https://github.com/UB-Mannheim/ocr-fileformat/issues/12, noch
offen). Vielleicht lässt sich diese (überschaubare) Lücke im
Rahmen der Implementierungsprojekte von OCR-D schließen. Die
starten im neuen Jahr (das Bewilligungsverfahren bei der DFG läuft
noch).
Mit Tesseract (mit oder ohne OCR-D) lassen sich gute Volltexte
für Frakturschriften erzielen. Geeignete Modelle gibt es bei uns
(Einstieg hier: https://github.com/tesseract-ocr/tesstrain/wiki).
Tesseract hat auf selbst zwei Frakturmodelle (frk und Fraktur),
die aber leider nur bedingt geeignet sind, da beide bekannte
Schwächen beispielsweise mit ch- und ck-Ligaturen aufweisen.
Auch für Calamari gibt es gute Frakturmodelle: https://ocr-d.de/en/models, https://github.com/chreul/19th-century-fraktur-OCR.
ABBYY erkennt Fraktur, aber mit etwas schlechterer Erkennungsrate als unsere Modelle (zumindest in unseren Tests). Es berechnet dafür – ebenso wie Transkribus – Seitenpreise. Typisch für ABBYY und Transkribus ist auch, dass die Volltexte beispielsweise das historische lange "s" als normales rundes "s" ausgeben, während Tesseract und Calamari es als langes s ausgeben.
Für das Transkribieren und für die Erkennung von Handschrift ist
momentan wahrscheinlich Transkribus am verbreitesten. Transkribus
verwendet neuerdings eine freie Softwarekomponente für die
Erkennung: https://github.com/jpuigcerver/PyLaia. PyLaia lässt
sich auch unabhängig von Transkribus verwenden.
Zum Transkribieren haben wir gute Erfahrungen mit Aletheia
gemacht: https://www.primaresearch.org/tools/Aletheia (leider nur
für Windows). Interessant ist eventuell auch eScriptorium
(https://gitlab.inria.fr/scripta/escriptorium), das wir uns auch
noch anschauen möchten.
Viele Grüße
Stefan Weil
--
Stefan Weil Abteilungsleiter Digitale Bibliotheksdienste Universität Mannheim Universitätsbibliothek Schloss Schneckenhof West | 68131 Mannheim Tel: +49 621 181-2946 (UB), +49 6203 9569378 (Homeoffice) Fax: +49 621 181-2960 E-Mail: stefan.weil@bib.uni-mannheim.de Web: https://www.bib.uni-mannheim.de/