This repository contains 26 pages of ground truth from the collection "Charlottenburger Amtsschrifttum" (1879–1919), which can be used for training or validation of OCR models.
Fraktur
German
Long s (ſ), German Mark (ℳ), double oblique hyphen (⸗), fractions.
The transcription rules are based on the OCR-D transcription guidelines Level 2. Since the data is also used for generating synthetic ground truth data, no normalization was performed.
Run the download_image.sh
script in the Transcription folder to download the corresponding images.
The transcriptions refer to digitised material available at Zentrale Landesbibliothek Berlin (ZLB)
- Bericht über die Verwaltung und den Stand der Gemeindeangelegenheiten der Stadt Charlottenburg: https://digital.zlb.de/viewer/oai?verb=GetRecord&metadataPrefix=mets&identifier=16318741
- Übersicht über die Gemeinde-Verwaltung in Charlottenburg: https://digital.zlb.de/viewer/oai?verb=GetRecord&metadataPrefix=mets&identifier=16318473
- Tages-Ordnungen sowie Vorlagen und Mittheilungen für die Stadtverordneten-Versammlung zu Charlottenburg für das Kalenderjahr ...: https://digital.zlb.de/viewer/oai?verb=GetRecord&metadataPrefix=mets&identifier=34015140
- Amtliche Berichte über die Verhandlungen der Charlottenburger Stadtverordneten-Versammlung in den öffentlichen Sitzungen: https://digital.zlb.de/viewer/oai?verb=GetRecord&metadataPrefix=mets&identifier=16046633
- Vorlagen für die Stadtverordneten-Versammlung zu Charlottenburg: https://digital.zlb.de/viewer/oai?verb=GetRecord&metadataPrefix=mets&identifier=34015163
Further details regarding ground truth and and training workflows can be found in the Wiki.