Detail publikace
Brno Mobile OCR Dataset
Hradiš Michal, Ing., Ph.D. (UPGM FIT VUT)
Kodym Oldřich, Ing., Ph.D. (UPGM FIT VUT)
OCR, CTC, mobilní, datová sada
Představujeme brněnský mobilní OCR dataset (B-MOD) pro rozpoznávání textu z obrazů s nízkou kvalitou pořízených ručními mobilními zařízeními. Zatímco rozpoznávání textu ve vysoce kvalitních naskenovaných dokumentů je již poměrně prozkoumávaná oblast, kde je k dispozici mnoho komerčních nástrojů a existují velké datové sady textu, žádné existující datové sady nemohou být použity pro vývoj a testování metod rozpoznávání textu odolných vůči nerovnoměrnému osvětlení, rozmazání obrazu, silnému zašumění, vestavěné redukci šumu, ostření, kompresi a dalším artefaktům přítomných na mnoha fotografiích z mobilních zařízení.
Tento soubor obsahuje 2 113 unikátních stránek z náhodných vědeckých článků, které byly fotografovány několika lidmi pomocí 23 různých mobilních zařízení. Výsledných 19 728 fotografií různé vizuální kvality je doprovázeno přesnými pozicemi a textovými anotacemi 500 000 řádků textu. Dále poskytujeme metodiku hodnocení, včetně vyhodnocovacího serveru a testovací sady s neveřejnými anotacemi.
Poskytujeme první výsledky rozpoznávání textu postaveného na konvoluční a rekurentní neuronové síti trénované s chybovou funkcí Connectionist Temporal Classification. Výsledky dosahujíí 2 %, 23 % a 73 % chyb na úrovni slov na jednoduchých, středních a těžkých částech datové sady, což potvrzuje, že soubor dat je náročný.
Prezentovaný soubor dat umožní budoucí vývoj a vyhodnocení analýzy dokumentů pro obrazy nízké kvality. Je primárně určen pro rozpoznávání textu na úrovni řádků a může být dále použit pro lokalizaci řádků, analýzu rozložení, obnovu obrazu a binarizaci textu.
@INPROCEEDINGS{FITPUB11983, author = "Martin Ki\v{s}\v{s} and Michal Hradi\v{s} and Old\v{r}ich Kodym", title = "Brno Mobile OCR Dataset", pages = "1352--1357", booktitle = "Proceedings of the International Conference on Document Analysis and Recognition, ICDAR", year = 2020, location = "Sydney, AU", publisher = "Institute of Electrical and Electronics Engineers", ISBN = "978-1-7281-3015-6", doi = "10.1109/ICDAR.2019.00218", language = "english", url = "https://www.fit.vut.cz/research/publication/11983" }