Am 07.12.20 um 19:52 schrieb Ernst, Volkmar:
Liebe Kitodo-Community,
wir testen derzeit Software für OCR & Transkriptionen, deren
Implementierung in unseren zukünftigen Digitalisierungsworkflow mit
Hilfe von kitodo.pro und letztlich deren Präsentation in kitodo.pre.
* Bisher gibt es_kein_ softwarebasiertes OCR bzw.
Transkriptions-Verfahren in der AdK für Archivalien, wir testen
deshalb derzeit tesseract, transkribus und (vermutlich bald) abby.
o Anders als in Bibliotheken wird unser Digitalisierungs-Output
jedoch wesentlich geringer sein, wir rechnen mit 3000-5000
Seiten pro Jahr, die für OCR/Transkriptionen in Frage kommen.
o Vermutlich auch anders als in den meisten Bibliotheken werden
in der AdK vor allem Handschriften, unterschiedliche
Frakturschriften sowie existierende Transkriptionen
(Word-Dateien…) basisbildend sein.
o „Transkribus“ scheint für das, was wir vorhaben und
generieren– automatisierbare
Frakturschrift/Handschrifterkennung, manuelle Transkription,
GUI für die Bearbeitung, ALTO/TEI-Export – zunächst ganz gut
geeignet zu sein.
+ Gibt es Erfahrungen von Ihrer Seite mit der Software, die
Sie mit uns teilen könnten bzw. würden?
* Da wir im Workflow Anforderungen der Editionswissenschaften (z.B.
Textauszeichnung,) berücksichtigen wollen, möchten wir TEI
gegenüber ALTO zumindest in bestimmten Projekten im Workflow
vorziehen.
o Gibt es in der Community bereits einen TEI-basierten Workflow
für kitodo.pro + kitodo.pre?
Lieber Herr Ernst,
mir ist leider bisher kein Workflow bekannt, der TEI erzeugt, auch wenn
der Wunsch nach diesem Format schon vor ein paar Jahren formuliert wurde
(
https://github.com/UB-Mannheim/ocr-fileformat/issues/12, noch offen).
Vielleicht lässt sich diese (überschaubare) Lücke im Rahmen der
Implementierungsprojekte von OCR-D schließen. Die starten im neuen Jahr
(das Bewilligungsverfahren bei der DFG läuft noch).
Mit Tesseract (mit oder ohne OCR-D) lassen sich gute Volltexte für
Frakturschriften erzielen. Geeignete Modelle gibt es bei uns (Einstieg
hier:
https://github.com/tesseract-ocr/tesstrain/wiki). Tesseract hat
auf selbst zwei Frakturmodelle (frk und Fraktur), die aber leider nur
bedingt geeignet sind, da beide bekannte Schwächen beispielsweise mit
ch- und ck-Ligaturen aufweisen.
Auch für Calamari gibt es gute Frakturmodelle:
https://ocr-d.de/en/models,
https://github.com/chreul/19th-century-fraktur-OCR.
ABBYY erkennt Fraktur, aber mit etwas schlechterer Erkennungsrate als
unsere Modelle (zumindest in unseren Tests). Es berechnet dafür – ebenso
wie Transkribus – Seitenpreise. Typisch für ABBYY und Transkribus ist
auch, dass die Volltexte beispielsweise das historische lange "s" als
normales rundes "s" ausgeben, während Tesseract und Calamari es als
langes s ausgeben.
Für das Transkribieren und für die Erkennung von Handschrift ist
momentan wahrscheinlich Transkribus am verbreitesten. Transkribus
verwendet neuerdings eine freie Softwarekomponente für die Erkennung:
https://github.com/jpuigcerver/PyLaia. PyLaia lässt sich auch unabhängig
von Transkribus verwenden.
Zum Transkribieren haben wir gute Erfahrungen mit Aletheia gemacht:
https://www.primaresearch.org/tools/Aletheia (leider nur für Windows).
Interessant ist eventuell auch eScriptorium
(
https://gitlab.inria.fr/scripta/escriptorium), das wir uns auch noch
anschauen möchten.
Viele Grüße
Stefan Weil
--
Stefan Weil
Abteilungsleiter Digitale Bibliotheksdienste
Universität Mannheim
Universitätsbibliothek
Schloss Schneckenhof West | 68131 Mannheim
Tel: +49 621 181-2946 (UB), +49 6203 9569378 (Homeoffice)
Fax: +49 621 181-2960
E-Mail: stefan.weil(a)bib.uni-mannheim.de
Web:
https://www.bib.uni-mannheim.de/