Detail práce
Extrakce informací z biomedicínských textů
V poslední době bylo vynaloženo velké úsilí k tomu, aby byly biomedicínské znalosti, typicky uložené v podobě vědeckých článků, snadněji přístupné a bylo možné je efektivně sdílet. Ve skutečnosti ale nestrukturovaná podstata těchto textů způsobuje velké obtíže při použití technik pro získávání a vyvozování znalostí. Anotování entit nesoucích jistou sémantickou informaci v textu je prvním krokem k vytvoření znalosti analyzovatelné počítačem. V této práci nejdříve studujeme metody pro automatickou extrakci informací z textů přirozeného jazyka. Dále zhodnotíme hlavní výhody a nevýhody současných systémů pro extrakci informací a na základě těchto znalostí se rozhodneme přijmout přístup strojového učení pro automatické získávání exktrakčních vzorů při našich experimentech. Bohužel, techniky strojového učení často vyžadují obrovské množství trénovacích dat, která může být velmi pracné získat. Abychom dokázali čelit tomuto nepříjemnému problému, prozkoumáme koncept tzv. bootstrapping techniky. Nakonec ukážeme, že během našich experimentů metody strojového učení pracovaly dostatečně dobře a dokonce podstatně lépe než základní metody. Navíc v úloze využívající techniky bootstrapping se podařilo významně snížit množství dat potřebných pro trénování extrakčního systému.
extrakce informací, strojové učení, zpracování přirozeného jazyka
Hanáček Petr, doc. Dr. Ing. (UITS FIT VUT), člen
Herout Adam, prof. Ing., Ph.D. (UPGM FIT VUT), člen
Orság Filip, Ing., Ph.D. (UITS FIT VUT), člen
Peringer Petr, Dr. Ing. (UITS FIT VUT), člen
Racek Stanislav, doc. Ing., CSc. (ZČU v Plzni), člen
@mastersthesis{FITMT6981, author = "Petr Knoth", type = "Diplomov\'{a} pr\'{a}ce", title = "Extrakce informac\'{i} z biomedic\'{i}nsk\'{y}ch text\r{u}", school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}", year = 2008, location = "Brno, CZ", language = "czech", url = "https://www.fit.vut.cz/study/thesis/6981/" }