Detail projektu
CPK - Využití sémantických technologií pro zpřístupnění kulturního dědictví prostřednictvím Centrálního portálu knihoven
Období řešení: 1. 3. 2016 – 31. 12. 2020
Typ projektu: grant
Kód: DG16P02R006
Agentura: Ministerstvo kultury ČR

portál knihoven, sémantické technologie, full textové indexování, odstranění
duplicity bibliografických záznamů,
Primárním cílem projektu je vybudovat Centrální portál českých knihoven (CPK),
který poběží na adrese http://www.knihovny.cz/. CPK bude integrovat informační
zdroje různého charakteru - zejména databáze popisující nebo obsahující informace
o našem kulturním dědictví nebo plné texty, které jsou jeho součástí. Pro
plnohodnotné využití těchto informací je nutné je uživateli přehledně zpřístupnit
s co největším využitím znalosti syntaktické a sémantické struktury
zpřístupňovaných informací. Zásadní problém v oblasti tematického zpřístupnění
dokumentů představuje absence potřebných metadat. U většiny katalogizačních
záznamů pořízených v rámci retrospektivní konverze katalogů českých knihoven
(tedy u záznamů vzniklých v minulosti nejprve v podobě knižního lístku a o
několik desítek nebo i stovek let později přepsaných do databáze) chybí věcný
popis a s ohledem na jejich množství je jeho doplnění formou manuální
rekatalogizace a obsahové analýzy s knihou v ruce nereálné. Řada knih z fondů
knihoven (již více než 110 tis. svazků monografií a stovky periodik) však již
disponuje i plnými texty - zejména díky projektu Národní digitální knihovna, na
jehož řešení se MZK podílela. Počet dokumentů vybavených plnými texty postupně
narůstá, každým rokem lze očekávat digitalizaci dalších desítek tisíc svazků,
z nichž téměř polovina je digitalizována přímo v MZK. Ačkoli je značná část
digitalizovaných dokumentů chráněna autorským právem a nesmí být zpřístupňována
mimo budovu knihovny, je možné tyto texty prohledávat a využít je ke zlepšení
způsobu zpřístupnění digitalizované části kulturního dědictví. Nabízí se jejich
využití pro vyhledávání a zpřístupnění s využitím metod vycházející z technologií
sémantické anotace textu a nejmodernějších metod tzv. hloubkového učení (deep
learning) z existujících dat. Vzhledem k tomu, že se jedná o automatizovené,
nikoli manuální zpracování, mělo by být u velkých objemů dat reálné. Součástí
Řada zpřístupňovaných databází bude přitom hrát specifickou roli - budou
propojovat informace získané z jiných databází nebo je významným způsobem
obohatí. Takto bude využita například databáze národních autorit Národní knihovny
ČR, na jejímž budování se podílí řada českých knihoven včetně MZK.
Dytrych Jaroslav, Ing., Ph.D. (UPGM)
Otrusina Lubomír, Ing. (UPGM)
Škoda Petr, RNDr.
2019
- Software pro doplňování informací o původcích dokumentů a dalších metadat na základě analýzy plných textů dokumentů, software, 2019
Autoři: OTRUSINA, L.; SMRŽ, P.
2018
- Softwarové nástroje pro poloautomatické provazování katalogizačních záznamů s databází národních autorit a relevantními národními zdroji LOD (Linked Open Data), software, 2018
Autoři: OTRUSINA, L.; SMRŽ, P.
2017
- Systém pro sémantické obohacování plných textů o vazbu na jmenné autority, software, 2017
Autoři: OTRUSINA, L.; SMRŽ, P.
2016
- Automatický klasifikátor pro Centrální portál knihoven, software, 2016
Autoři: SMRŽ, P.; KURÁK, O.; OTRUSINA, L.