Téma disertační práce

Adresovanie obmedzení veľkých jazykových modelov

Ak. rok 2025/2026

Školitel: Gregor Michal, doc. Ing., Ph.D.

Programy:
Informační technologie (DIT) - kombinované studium
Information Technology (DIT-EN) - kombinované studium

Veľké jazykové modely (LLM) predstavujú silný nástroj uplatniteľný v škále rôznych aplikácií a v súčasnosti sú z viacerých dôvodov aj hlavnou hnacou silou pokroku v oblasti umelej inteligencie (AI) – napr. vďaka tomu, že pomáhajú do systémov AI inkorporovať širokú škálu všeobecných poznatkov o svete, dokážu sa riadiť inštrukciami v prirodzenom jazyku, vďaka schopnosti učiť sa v rámci kontextu vedia realizovať veľa úloh vo few-shot režime, na základe malého počtu príkladov a sú schopné integrovať aj ďalšie modality (napr. obraz a audio).

Napriek bezprecedentným výsledkom trpia LLM aj obmedzeniami, ktoré v súčasnosti v mnohých doménach bránia ich širšiemu a bezpečnému používaniu. Ide napr. o tendenciu generovať odpovede, ktoré nemajú oporu v tréningovom korpuse ani vo vstupnom kontexte (halucinácie), obmedzenú schopnosť realizovať viackrokové uvažovanie a plánovanie, ale aj ťažkosti spojené s integráciou iných dátových modalít, napr. obmedzenú schopnosť rozpoznávať jemné vizuálne koncepty. LLM majú tiež pri získavaní nových poznatkov a zručností omnoho nižšiu vzorkovú účinnosť než ľudia, čo často predstavuje výzvu – najmä pri jazykoch s nízkym množstvom zdrojov.

Cieľom výskumu je preskúmať takéto obmedzenia a – po zameraní sa na jedno alebo dve z nich – navrhnúť stratégie na ich zmiernenie. Také stratégie môžu zahŕňať napr.:

  • Rozvíjanie schopnosti uvažovať napr. rozvíjaním paradigmy boostrapping-u uvažovania, úpravou paradigmy učenia, tréningom na menej tradičných úlohách (napr. z reinforcement learning domény) a pod.;
  • Nové, účinnejšie samoopravné mechanizmy či samohodnotiace pipeline-y;
  • Zlepšenie multimodálnych vlastností modelov napr. schopnosti rozpoznávať jemné vizuálne koncepty;
  • Znižovanie miery halucinácií napr. návrhom nových techník tréningu a dolaďovania, návrhom nových typov LLM pipeline-ov a pod.;
  • Mechanizmy na uvažovanie v rámci tréningu, podporujúce schopnosť lepšie si kontextualizovať obsah (napr. porozumenie, že text je myslený ironicky, má nižšiu kvalitu, obsahuje nepravdivé informácie a pod.);
  • Paradigma aktívneho tréningu, kde model počas učenia realizuje uvažovanie a destiláciu, aby vzorkovo efektívnejšie získaval nové poznatky a zručnosti;

Aplikačnou doménou môže byť napr. podpora overovania faktov a boja proti dezinformáciám, kde sú mnohé z obmedzení kritické – existuje však aj rad ďalších možností.

Súvisiace publikácie:

  • Srba, I., Pecher, B., Tomlein, M., Moro, R., Stefancova, E., Simko, J. and Bielikova, M., 2022, July. Monant medical misinformation dataset: Mapping articles to fact-checked claims. In Proceedings of the 45th International ACM SIGIR Conference on Research and Development in Information Retrieval (pp. 2949-2959). https://dl.acm.org/doi/10.1145/3477495.3531726
  • Pikuliak, M., Srba, I., Moro, R., Hromadka, T., Smolen, T., Melisek, M., Vykopal, I., Simko, J., Podrouzek, J. and Bielikova, M., 2023. Multilingual Previously Fact-Checked Claim Retrieval. https://arxiv.org/abs/2305.07991

Výskum bude doktorand vykonávať v rámci Kempelenovho inštitútu inteligentných technológií (KInIT, https://kinit.sk) v Bratislave v spolupráci s priemyselnými partnermi alebo výskumníkmi zo svetovo uznávaných výskumných skupín v rámci medzinárodných výskumných grantov. Predpokladá sa kombinovaná (externá) forma štúdia a pracovný pomer na plný úväzok v KInIT.

Nahoru