Extrakce informací z biomedicínských textů

Název anglicky

Information Extraction from Biomedical Texts

Jazyk práce

český

Abstrakt

V poslední době bylo vynaloženo velké úsilí k tomu, aby byly biomedicínské znalosti, typicky uložené v podobě vědeckých článků, snadněji přístupné a bylo možné je efektivně sdílet. Ve skutečnosti ale nestrukturovaná podstata těchto textů způsobuje velké obtíže při použití technik pro získávání a vyvozování znalostí. Anotování entit nesoucích jistou sémantickou informaci v textu je prvním krokem k vytvoření znalosti analyzovatelné počítačem. V této práci nejdříve studujeme metody pro automatickou extrakci informací z textů přirozeného jazyka. Dále zhodnotíme hlavní výhody a nevýhody současných systémů pro extrakci informací a na základě těchto znalostí se rozhodneme přijmout přístup strojového učení pro automatické získávání exktrakčních vzorů při našich experimentech. Bohužel, techniky strojového učení často vyžadují obrovské množství trénovacích dat, která může být velmi pracné získat. Abychom dokázali čelit tomuto nepříjemnému problému, prozkoumáme koncept tzv. bootstrapping techniky. Nakonec ukážeme, že během našich experimentů metody strojového učení pracovaly dostatečně dobře a dokonce podstatně lépe než základní metody. Navíc v úloze využívající techniky bootstrapping se podařilo významně snížit množství dat potřebných pro trénování extrakčního systému.

Klíčová slova

extrakce informací, strojové učení, zpracování přirozeného jazyka

Ústav

Ústav počítačové grafiky a multimédií FIT VUT v Brně

Studijní program

Informační technologie, obor Inteligentní systémy

Soubory

Text práce 672 kB

Stav

obhájeno, hodnocení A

Obhajoba

16. června 2008

Oponent

Burget Radek, doc. Ing., Ph.D.

Komise

Češka Milan, prof. RNDr., CSc. (UITS FIT VUT), předseda
Hanáček Petr, doc. Dr. Ing. (UITS FIT VUT), člen
Herout Adam, prof. Ing., Ph.D. (UPGM FIT VUT), člen
Orság Filip, Ing., Ph.D. (UITS FIT VUT), člen
Peringer Petr, Dr. Ing. (UITS FIT VUT), člen
Racek Stanislav, doc. Ing., CSc. (ZČU v Plzni), člen

Citace

KNOTH, Petr. Extrakce informací z biomedicínských textů. Brno, 2008. Diplomová práce. Vysoké učení technické v Brně, Fakulta informačních technologií. 2008-06-16. Vedoucí práce Smrž Pavel. Dostupné z: https://www.fit.vut.cz/study/thesis/6981/

BibTeX

@mastersthesis{FITMT6981,
    author = "Petr Knoth",
    type = "Diplomov\'{a} pr\'{a}ce",
    title = "Extrakce informac\'{i} z biomedic\'{i}nsk\'{y}ch text\r{u}",
    school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}",
    year = 2008,
    location = "Brno, CZ",
    language = "czech",
    url = "https://www.fit.vut.cz/study/thesis/6981/"
}