Lieber Herr Ernst,
wir verwenden bei einigen Projekten Transkribus zum Transkribieren und
zur Post-Correction von ALTO.
In einer angepassten Version, die für lokale Arbeiten komplett Offline
und ohne vorherige Anmeldung bei Transkribus funktioniert
(
).
Der Vorteil für Transkribus ist, dass es Plattformunabhängig ist - der
Nachteil ist im Handling der Exportformate, insbesondere mit ALTO und PAGE.
Hier ist Transkribus leider etwas veraltet, d.h. es kann z.B. aktuell
bei ALTO von Haus aus nur mit Version 2 umgehen.
Zu den Versionsständen bei TEI kann ich leider keine Aussagen machen.
Liebe Grüße
Am 08.12.20 um 18:50 schrieb Stefan Weil:
Am 07.12.20 um 19:52 schrieb Ernst, Volkmar:
Liebe Kitodo-Community,
wir testen derzeit Software für OCR & Transkriptionen, deren
Implementierung in unseren zukünftigen Digitalisierungsworkflow mit
Hilfe von kitodo.pro und letztlich deren Präsentation in kitodo.pre.
* Bisher gibt es_kein_ softwarebasiertes OCR bzw.
Transkriptions-Verfahren in der AdK für Archivalien, wir testen
deshalb derzeit tesseract, transkribus und (vermutlich bald) abby.
o Anders als in Bibliotheken wird unser Digitalisierungs-Output
jedoch wesentlich geringer sein, wir rechnen mit 3000-5000
Seiten pro Jahr, die für OCR/Transkriptionen in Frage kommen.
o Vermutlich auch anders als in den meisten Bibliotheken werden
in der AdK vor allem Handschriften, unterschiedliche
Frakturschriften sowie existierende Transkriptionen
(Word-Dateien…) basisbildend sein.
o „Transkribus“ scheint für das, was wir vorhaben und
generieren– automatisierbare
Frakturschrift/Handschrifterkennung, manuelle Transkription,
GUI für die Bearbeitung, ALTO/TEI-Export – zunächst ganz gut
geeignet zu sein.
+ Gibt es Erfahrungen von Ihrer Seite mit der Software, die
Sie mit uns teilen könnten bzw. würden?
* Da wir im Workflow Anforderungen der Editionswissenschaften (z.B.
Textauszeichnung,) berücksichtigen wollen, möchten wir TEI
gegenüber ALTO zumindest in bestimmten Projekten im Workflow
vorziehen.
o Gibt es in der Community bereits einen TEI-basierten Workflow
für kitodo.pro + kitodo.pre?
Lieber Herr Ernst,
mir ist leider bisher kein Workflow bekannt, der TEI erzeugt, auch
wenn der Wunsch nach diesem Format schon vor ein paar Jahren
formuliert wurde
(
https://github.com/UB-Mannheim/ocr-fileformat/issues/12, noch offen).
Vielleicht lässt sich diese (überschaubare) Lücke im Rahmen der
Implementierungsprojekte von OCR-D schließen. Die starten im neuen
Jahr (das Bewilligungsverfahren bei der DFG läuft noch).
Mit Tesseract (mit oder ohne OCR-D) lassen sich gute Volltexte für
Frakturschriften erzielen. Geeignete Modelle gibt es bei uns (Einstieg
hier:
https://github.com/tesseract-ocr/tesstrain/wiki). Tesseract hat
auf selbst zwei Frakturmodelle (frk und Fraktur), die aber leider nur
bedingt geeignet sind, da beide bekannte Schwächen beispielsweise mit
ch- und ck-Ligaturen aufweisen.
Auch für Calamari gibt es gute Frakturmodelle:
https://ocr-d.de/en/models,
https://github.com/chreul/19th-century-fraktur-OCR.
ABBYY erkennt Fraktur, aber mit etwas schlechterer Erkennungsrate als
unsere Modelle (zumindest in unseren Tests). Es berechnet dafür –
ebenso wie Transkribus – Seitenpreise. Typisch für ABBYY und
Transkribus ist auch, dass die Volltexte beispielsweise das
historische lange "s" als normales rundes "s" ausgeben, während
Tesseract und Calamari es als langes s ausgeben.
Für das Transkribieren und für die Erkennung von Handschrift ist
momentan wahrscheinlich Transkribus am verbreitesten. Transkribus
verwendet neuerdings eine freie Softwarekomponente für die Erkennung:
https://github.com/jpuigcerver/PyLaia. PyLaia lässt sich auch
unabhängig von Transkribus verwenden.
Zum Transkribieren haben wir gute Erfahrungen mit Aletheia gemacht:
https://www.primaresearch.org/tools/Aletheia (leider nur für Windows).
Interessant ist eventuell auch eScriptorium
(
https://gitlab.inria.fr/scripta/escriptorium), das wir uns auch noch
anschauen möchten.
Viele Grüße
Stefan Weil
--
Stefan Weil
Abteilungsleiter Digitale Bibliotheksdienste
Universität Mannheim
Universitätsbibliothek
Schloss Schneckenhof West | 68131 Mannheim
Tel: +49 621 181-2946 (UB), +49 6203 9569378 (Homeoffice)
Fax: +49 621 181-2960
E-Mail:stefan.weil@bib.uni-mannheim.de
Web:https://www.bib.uni-mannheim.de/
_______________________________________________
Kitodo-Community mailing list
Kitodo-Community(a)kitodo.org
https://maillist.slub-dresden.de/cgi-bin/mailman/listinfo/kitodo-community
--
Uwe Hartwig
Anwendungsentwickler IT / Digitale Dienste
Universitäts- und Landesbibliothek Sachsen-Anhalt
August-Bebel-Straße 13
D - 06108 Halle (Saale)
Fon: + 49 345 55 22 183
Mail: uwe.hartwig(a)bibliothek.uni-halle.de