Liebe Kolleg*innen,
zumindest zur Frage der TEI-Generierung kann ich beitragen, dass der Kollege Kay-Michael
Würzner eine Konversion von METS/MODS nach TEI entwickelt hat, die wir aktuell an der SLUB
im Zusammenspiel mit Kitodo testen und perspektivisch als festen Bestandteil in unsere
Workflows integrieren wollen. Die Konversion basiert auf den von Kitodo erzeugten
METS/MODS-Dateien, extrahiert daraus Struktur- und Metadaten und berücksichtigt auch
vorhandene ALTO-Volltexte.
Die Konversion findet sich auf GitHub:
https://github.com/slub/mets-mods2tei
Viele Grüße
Sebastian Meyer
Von: kitodo-community-bounces(a)kitodo.org <kitodo-community-bounces(a)kitodo.org> Im
Auftrag von Stefan Weil
Gesendet: Dienstag, 8. Dezember 2020 18:50
An: kitodo-community(a)kitodo.org; Ernst, Volkmar <ernst(a)adk.de>
Betreff: Re: [Kitodo] Transkriptionssoftware + TEI in kitodo.production und
.presentation
Am 07.12.20 um 19:52 schrieb Ernst, Volkmar:
Liebe Kitodo-Community,
wir testen derzeit Software für OCR & Transkriptionen, deren Implementierung in
unseren zukünftigen Digitalisierungsworkflow mit Hilfe von kitodo.pro und letztlich deren
Präsentation in kitodo.pre.
* Bisher gibt es kein softwarebasiertes OCR bzw. Transkriptions-Verfahren in der AdK
für Archivalien, wir testen deshalb derzeit tesseract, transkribus und (vermutlich bald)
abby.
* Anders als in Bibliotheken wird unser Digitalisierungs-Output jedoch wesentlich
geringer sein, wir rechnen mit 3000-5000 Seiten pro Jahr, die für OCR/Transkriptionen in
Frage kommen.
* Vermutlich auch anders als in den meisten Bibliotheken werden in der AdK vor
allem Handschriften, unterschiedliche Frakturschriften sowie existierende Transkriptionen
(Word-Dateien…) basisbildend sein.
* „Transkribus“ scheint für das, was wir vorhaben und generieren– automatisierbare
Frakturschrift/Handschrifterkennung, manuelle Transkription, GUI für die Bearbeitung,
ALTO/TEI-Export – zunächst ganz gut geeignet zu sein.
* Gibt es Erfahrungen von Ihrer Seite mit der Software, die Sie mit uns teilen
könnten bzw. würden?
* Da wir im Workflow Anforderungen der Editionswissenschaften (z.B. Textauszeichnung,)
berücksichtigen wollen, möchten wir TEI gegenüber ALTO zumindest in bestimmten Projekten
im Workflow vorziehen.
* Gibt es in der Community bereits einen TEI-basierten Workflow für kitodo.pro +
kitodo.pre?
Lieber Herr Ernst,
mir ist leider bisher kein Workflow bekannt, der TEI erzeugt, auch wenn der Wunsch nach
diesem Format schon vor ein paar Jahren formuliert wurde
(
https://github.com/UB-Mannheim/ocr-fileformat/issues/12, noch offen). Vielleicht lässt
sich diese (überschaubare) Lücke im Rahmen der Implementierungsprojekte von OCR-D
schließen. Die starten im neuen Jahr (das Bewilligungsverfahren bei der DFG läuft noch).
Mit Tesseract (mit oder ohne OCR-D) lassen sich gute Volltexte für Frakturschriften
erzielen. Geeignete Modelle gibt es bei uns (Einstieg hier:
https://github.com/tesseract-ocr/tesstrain/wiki). Tesseract hat auf selbst zwei
Frakturmodelle (frk und Fraktur), die aber leider nur bedingt geeignet sind, da beide
bekannte Schwächen beispielsweise mit ch- und ck-Ligaturen aufweisen.
Auch für Calamari gibt es gute Frakturmodelle:
https://ocr-d.de/en/models,
https://github.com/chreul/19th-century-fraktur-OCR.
ABBYY erkennt Fraktur, aber mit etwas schlechterer Erkennungsrate als unsere Modelle
(zumindest in unseren Tests). Es berechnet dafür – ebenso wie Transkribus – Seitenpreise.
Typisch für ABBYY und Transkribus ist auch, dass die Volltexte beispielsweise das
historische lange "s" als normales rundes "s" ausgeben, während
Tesseract und Calamari es als langes s ausgeben.
Für das Transkribieren und für die Erkennung von Handschrift ist momentan wahrscheinlich
Transkribus am verbreitesten. Transkribus verwendet neuerdings eine freie
Softwarekomponente für die Erkennung:
https://github.com/jpuigcerver/PyLaia. PyLaia lässt
sich auch unabhängig von Transkribus verwenden.
Zum Transkribieren haben wir gute Erfahrungen mit Aletheia gemacht:
https://www.primaresearch.org/tools/Aletheia (leider nur für Windows). Interessant ist
eventuell auch eScriptorium (
https://gitlab.inria.fr/scripta/escriptorium), das wir uns
auch noch anschauen möchten.
Viele Grüße
Stefan Weil
--
Stefan Weil
Abteilungsleiter Digitale Bibliotheksdienste
Universität Mannheim
Universitätsbibliothek
Schloss Schneckenhof West | 68131 Mannheim
Tel: +49 621 181-2946 (UB), +49 6203 9569378 (Homeoffice)
Fax: +49 621 181-2960
E-Mail: stefan.weil@bib.uni-mannheim.de<mailto:stefan.weil@bib.uni-mannheim.de>
Web:
https://www.bib.uni-mannheim.de/