Detail publikace

Testing of Various Approaches for Semiautomatic Parish Records Word Standardization

HŘÍBEK David, ROZMAN Jaroslav a ZBOŘIL František. Testing of Various Approaches for Semiautomatic Parish Records Word Standardization. In: JIST: Joint International Semantic Technology Conference. Communications in Computer and Information Science, roč. 1157. Hangzhou: Springer International Publishing, 2019, s. 21-33. ISBN 978-981-1534-11-9. ISSN 1865-0929.
Název česky
Testování různých přístupů pro poloautomatickou standardizaci slov v matričních záznamech
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Hříbek David, Ing. (FIT VUT)
Rozman Jaroslav, Ing., Ph.D. (UITS FIT VUT)
Zbořil František, doc. Ing., Ph.D. (UITS FIT VUT)
Abstrakt

Článek popisuje metody shlukování slov z přepsaných matriočních záznamů. Shlukování je zde důležité, neboť transliterované záznamy především ze 17. a 18. století mají spoustu různých variant a aby bylo umožněno vyhledávání a další práce se záznamy, je potřeba jejich rozřazení do skupin - standardizace. 
Prvním krokem standardizace je předzpracování, potom porovnání slov a nakonec samotné rozřazení. Nejdůležitějším krokem je zde porovnání slov, zde jsme tesovali různé metody - Levenstheinovu vzdálenost, Q-gram, Jaro-Winkler a pak také metody pro fonetické kódování jako je Soundex nebo Double-Metaphone. Testování bylo automatické s postupnou změnou parametrů, z testů jsme vypočítali metriku F-measure a vynesli ji do grafů pro všechny testované typy slov a různé varianty algoritmů.

Rok
2019
Strany
21-33
Časopis
Communications in Computer and Information Science, roč. 1157, č. 1157, ISSN 1865-0929
Sborník
JIST: Joint International Semantic Technology Conference
Řada
Communications in Computer and Information Science
Konference
JIST2019: The 9th Joint International Semantic Technology Conference, Hangzhou, China, CN
ISBN
978-981-1534-11-9
Vydavatel
Springer International Publishing
Místo
Hangzhou, CN
DOI
UT WoS
000679332100003
EID Scopus
BibTeX
@INPROCEEDINGS{FITPUB12047,
   author = "David H\v{r}\'{i}bek and Jaroslav Rozman and Franti\v{s}ek Zbo\v{r}il",
   title = "Testing of Various Approaches for Semiautomatic Parish Records Word Standardization",
   pages = "21--33",
   booktitle = "JIST: Joint International Semantic Technology Conference",
   series = "Communications in Computer and Information Science",
   journal = "Communications in Computer and Information Science",
   volume = 1157,
   number = 1157,
   year = 2019,
   location = "Hangzhou, CN",
   publisher = "Springer International Publishing",
   ISBN = "978-981-1534-11-9",
   ISSN = "1865-0929",
   doi = "10.1007/978-981-15-3412-6\_3",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/12047"
}
Nahoru