Re: [Kitodo] Transkriptionssoftware + TEI in kitodo.production und .presentation

8 Dec 2020

Am 07.12.20 um 19:52 schrieb Ernst, Volkmar:
...
  Liebe Kitodo-Community,
 wir testen derzeit Software für OCR & Transkriptionen, deren
 Implementierung in unseren zukünftigen Digitalisierungsworkflow mit
 Hilfe von kitodo.pro und letztlich deren Präsentation in kitodo.pre.
   * Bisher gibt es_kein_ softwarebasiertes OCR bzw.
     Transkriptions-Verfahren in der AdK für Archivalien, wir testen
     deshalb derzeit tesseract, transkribus und (vermutlich bald) abby.
       o Anders als in Bibliotheken wird unser Digitalisierungs-Output
         jedoch wesentlich geringer sein, wir rechnen mit 3000-5000
         Seiten pro Jahr, die für OCR/Transkriptionen in Frage kommen.
       o Vermutlich auch anders als in den meisten Bibliotheken werden
         in der AdK vor allem Handschriften, unterschiedliche
         Frakturschriften sowie existierende Transkriptionen
         (Word-Dateien…) basisbildend sein.
       o „Transkribus“ scheint für das, was wir vorhaben und
         generieren– automatisierbare
         Frakturschrift/Handschrifterkennung, manuelle Transkription,
         GUI für die Bearbeitung, ALTO/TEI-Export – zunächst ganz gut
         geeignet zu sein.
           + Gibt es Erfahrungen von Ihrer Seite mit der Software, die
             Sie mit uns teilen könnten bzw. würden?
   * Da wir im Workflow Anforderungen der Editionswissenschaften (z.B.
     Textauszeichnung,) berücksichtigen wollen, möchten wir TEI
     gegenüber ALTO zumindest in bestimmten Projekten im Workflow
     vorziehen.
       o Gibt es in der Community bereits einen TEI-basierten Workflow
         für kitodo.pro + kitodo.pre?
 
Lieber Herr Ernst,
mir ist leider bisher kein Workflow bekannt, der TEI erzeugt, auch wenn
der Wunsch nach diesem Format schon vor ein paar Jahren formuliert wurde
(https://github.com/UB-Mannheim/ocr-fileformat/issues/12, noch offen).
Vielleicht lässt sich diese (überschaubare) Lücke im Rahmen der
Implementierungsprojekte von OCR-D schließen. Die starten im neuen Jahr
(das Bewilligungsverfahren bei der DFG läuft noch).
Mit Tesseract (mit oder ohne OCR-D) lassen sich gute Volltexte für
Frakturschriften erzielen. Geeignete Modelle gibt es bei uns (Einstieg
hier: https://github.com/tesseract-ocr/tesstrain/wiki). Tesseract hat
auf selbst zwei Frakturmodelle (frk und Fraktur), die aber leider nur
bedingt geeignet sind, da beide bekannte Schwächen beispielsweise mit
ch- und ck-Ligaturen aufweisen.
Auch für Calamari gibt es gute Frakturmodelle:
https://ocr-d.de/en/models,
https://github.com/chreul/19th-century-fraktur-OCR.
ABBYY erkennt Fraktur, aber mit etwas schlechterer Erkennungsrate als
unsere Modelle (zumindest in unseren Tests). Es berechnet dafür – ebenso
wie Transkribus – Seitenpreise. Typisch für ABBYY und Transkribus ist
auch, dass die Volltexte beispielsweise das historische lange "s" als
normales rundes "s" ausgeben, während Tesseract und Calamari es als
langes s ausgeben.
Für das Transkribieren und für die Erkennung von Handschrift ist
momentan wahrscheinlich Transkribus am verbreitesten. Transkribus
verwendet neuerdings eine freie Softwarekomponente für die Erkennung:
https://github.com/jpuigcerver/PyLaia. PyLaia lässt sich auch unabhängig
von Transkribus verwenden.
Zum Transkribieren haben wir gute Erfahrungen mit Aletheia gemacht:
https://www.primaresearch.org/tools/Aletheia (leider nur für Windows).
Interessant ist eventuell auch eScriptorium
(https://gitlab.inria.fr/scripta/escriptorium), das wir uns auch noch
anschauen möchten.
Viele Grüße
Stefan Weil
--
Stefan Weil
Abteilungsleiter Digitale Bibliotheksdienste
Universität Mannheim
Universitätsbibliothek
Schloss Schneckenhof West | 68131 Mannheim
Tel: +49 621 181-2946 (UB), +49 6203 9569378 (Homeoffice)
Fax: +49 621 181-2960
E-Mail: stefan.weil(a)bib.uni-mannheim.de
Web: https://www.bib.uni-mannheim.de/

2026

2025

2024

2023

2022

2021

2020

2019

2018

2017

2016

Re: [Kitodo] Transkriptionssoftware + TEI in kitodo.production und .presentation