Am 07.12.20 um 19:52 schrieb Ernst, Volkmar:

Liebe Kitodo-Community,

wir testen derzeit Software für OCR & Transkriptionen, deren Implementierung in unseren zukünftigen Digitalisierungsworkflow mit Hilfe von kitodo.pro und letztlich deren Präsentation in kitodo.pre.


Lieber Herr Ernst,

mir ist leider bisher kein Workflow bekannt, der TEI erzeugt, auch wenn der Wunsch nach diesem Format schon vor ein paar Jahren formuliert wurde (https://github.com/UB-Mannheim/ocr-fileformat/issues/12, noch offen). Vielleicht lässt sich diese (überschaubare) Lücke im Rahmen der Implementierungsprojekte von OCR-D schließen. Die starten im neuen Jahr (das Bewilligungsverfahren bei der DFG läuft noch).

Mit Tesseract (mit oder ohne OCR-D) lassen sich gute Volltexte für Frakturschriften erzielen. Geeignete Modelle gibt es bei uns (Einstieg hier: https://github.com/tesseract-ocr/tesstrain/wiki). Tesseract hat auf selbst zwei Frakturmodelle (frk und Fraktur), die aber leider nur bedingt geeignet sind, da beide bekannte Schwächen beispielsweise mit ch- und ck-Ligaturen aufweisen.

Auch für Calamari gibt es gute Frakturmodelle: https://ocr-d.de/en/models, https://github.com/chreul/19th-century-fraktur-OCR.

ABBYY erkennt Fraktur, aber mit etwas schlechterer Erkennungsrate als unsere Modelle (zumindest in unseren Tests). Es berechnet dafür – ebenso wie Transkribus – Seitenpreise. Typisch für ABBYY und Transkribus ist auch, dass die Volltexte beispielsweise das historische lange "s" als normales rundes "s" ausgeben, während Tesseract und Calamari es als langes s ausgeben.

Für das Transkribieren und für die Erkennung von Handschrift ist momentan wahrscheinlich Transkribus am verbreitesten. Transkribus verwendet neuerdings eine freie Softwarekomponente für die Erkennung: https://github.com/jpuigcerver/PyLaia. PyLaia lässt sich auch unabhängig von Transkribus verwenden.

Zum Transkribieren haben wir gute Erfahrungen mit Aletheia gemacht: https://www.primaresearch.org/tools/Aletheia (leider nur für Windows). Interessant ist eventuell auch eScriptorium (https://gitlab.inria.fr/scripta/escriptorium), das wir uns auch noch anschauen möchten.

Viele Grüße

Stefan Weil

--

Stefan Weil
Abteilungsleiter Digitale Bibliotheksdienste 

Universität Mannheim
Universitätsbibliothek

Schloss Schneckenhof West | 68131 Mannheim
 
Tel: +49 621 181-2946 (UB), +49 6203 9569378 (Homeoffice)
Fax: +49 621 181-2960
E-Mail: stefan.weil@bib.uni-mannheim.de
Web: https://www.bib.uni-mannheim.de/