Am 07.12.20 um 19:52 schrieb Ernst, Volkmar:

Liebe Kitodo-Community,

wir testen derzeit Software für OCR & Transkriptionen, deren Implementierung in unseren zukünftigen Digitalisierungsworkflow mit Hilfe von kitodo.pro und letztlich deren Präsentation in kitodo.pre.

Bisher gibt es kein softwarebasiertes OCR bzw. Transkriptions-Verfahren in der AdK für Archivalien, wir testen deshalb derzeit tesseract, transkribus und (vermutlich bald) abby.

Anders als in Bibliotheken wird unser Digitalisierungs-Output jedoch wesentlich geringer sein, wir rechnen mit 3000-5000 Seiten pro Jahr, die für OCR/Transkriptionen in Frage kommen.

Vermutlich auch anders als in den meisten Bibliotheken werden in der AdK vor allem Handschriften, unterschiedliche Frakturschriften sowie existierende Transkriptionen (Word-Dateien…) basisbildend sein.

„Transkribus“ scheint für das, was wir vorhaben und generieren– automatisierbare Frakturschrift/Handschrifterkennung, manuelle Transkription, GUI für die Bearbeitung, ALTO/TEI-Export – zunächst ganz gut geeignet zu sein.

Gibt es Erfahrungen von Ihrer Seite mit der Software, die Sie mit uns teilen könnten bzw. würden?

Da wir im Workflow Anforderungen der Editionswissenschaften (z.B. Textauszeichnung,) berücksichtigen wollen, möchten wir TEI gegenüber ALTO zumindest in bestimmten Projekten im Workflow vorziehen.

Gibt es in der Community bereits einen TEI-basierten Workflow für kitodo.pro + kitodo.pre?

Lieber Herr Ernst,

mir ist leider bisher kein Workflow bekannt, der TEI erzeugt, auch wenn der Wunsch nach diesem Format schon vor ein paar Jahren formuliert wurde (https://github.com/UB-Mannheim/ocr-fileformat/issues/12, noch offen). Vielleicht lässt sich diese (überschaubare) Lücke im Rahmen der Implementierungsprojekte von OCR-D schließen. Die starten im neuen Jahr (das Bewilligungsverfahren bei der DFG läuft noch).

Mit Tesseract (mit oder ohne OCR-D) lassen sich gute Volltexte für Frakturschriften erzielen. Geeignete Modelle gibt es bei uns (Einstieg hier: https://github.com/tesseract-ocr/tesstrain/wiki). Tesseract hat auf selbst zwei Frakturmodelle (frk und Fraktur), die aber leider nur bedingt geeignet sind, da beide bekannte Schwächen beispielsweise mit ch- und ck-Ligaturen aufweisen.

Auch für Calamari gibt es gute Frakturmodelle: https://ocr-d.de/en/models, https://github.com/chreul/19th-century-fraktur-OCR.

ABBYY erkennt Fraktur, aber mit etwas schlechterer Erkennungsrate als unsere Modelle (zumindest in unseren Tests). Es berechnet dafür – ebenso wie Transkribus – Seitenpreise. Typisch für ABBYY und Transkribus ist auch, dass die Volltexte beispielsweise das historische lange "s" als normales rundes "s" ausgeben, während Tesseract und Calamari es als langes s ausgeben.

Für das Transkribieren und für die Erkennung von Handschrift ist momentan wahrscheinlich Transkribus am verbreitesten. Transkribus verwendet neuerdings eine freie Softwarekomponente für die Erkennung: https://github.com/jpuigcerver/PyLaia. PyLaia lässt sich auch unabhängig von Transkribus verwenden.

Zum Transkribieren haben wir gute Erfahrungen mit Aletheia gemacht: https://www.primaresearch.org/tools/Aletheia (leider nur für Windows). Interessant ist eventuell auch eScriptorium (https://gitlab.inria.fr/scripta/escriptorium), das wir uns auch noch anschauen möchten.

Viele Grüße

Stefan Weil

--

Stefan Weil
Abteilungsleiter Digitale Bibliotheksdienste 

Universität Mannheim
Universitätsbibliothek

Schloss Schneckenhof West | 68131 Mannheim
 
Tel: +49 621 181-2946 (UB), +49 6203 9569378 (Homeoffice)
Fax: +49 621 181-2960
E-Mail: stefan.weil@bib.uni-mannheim.de
Web: https://www.bib.uni-mannheim.de/