Detail předmětu
Ukládání a příprava dat
UPA Ak. rok 2023/2024 zimní semestr 5 kreditů
Předmět se zaměřuje na moderní databázové systémy jako typické zdroje dat pro získávání znalostí a dále na přípravu dat k získávání znalostí. Jedná se o rozšířené relační (objektově-relační, s podporou pro práci s XML a JSON dokumenty), prostorové a NoSQL databázové systémy. Vysvětlený je odpovídající databázový model, způsob práce s daty a některé metody indexace dat. V kontextu výkladu základních kroků procesu získávání znalostí z dat je věnována pozornost popisným charakteristikám dat a vizualizačním technikám používaným k pochopení dat a jejich vlastností. Dále jsou vysvětleny přístupy řešení typických úloh předzpracování dat pro získávání znalostí, jako je čištění, integrace, transformace, redukce apod. Rovněž jsou prezentovány přístupy k extrakci informace z webu pro účely získávání znalostí, charakterizovány nejčastěji používané jazyky a systémy pro získávání znalostí z dat a je uvedeno několik reálných případových studií.
Garant předmětu
Koordinátor předmětu
Jazyk výuky
Zakončení
Rozsah
- 26 hod. přednášky
- 6 hod. seminář
- 6 hod. pc laboratoře
- 14 hod. projekty
Bodové hodnocení
- 56 bodů závěrečná zkouška (písemná část)
- 20 bodů půlsemestrální test (písemná část)
- 24 bodů projekty
Zajišťuje ústav
Přednášející
Burgetová Ivana, Ing., Ph.D. (UIFS)
Kolář Dušan, doc. Dr. Ing. (UIFS)
Rychlý Marek, RNDr., Ph.D. (UIFS)
Cvičící
Burgetová Ivana, Ing., Ph.D. (UIFS)
Rychlý Marek, RNDr., Ph.D. (UIFS)
Cíle předmětu
Cílem předmětu je vysvětlit historický vývoj databázových technologií, motivaci získávání znalostí z dat a základní kroky procesu získávání znalostí, vysvětlit podstatu, vlastnosti a použití rozšířených relačních a NoSQL databází jako zdrojů dat pro získávání znalostí a vysvětlit přístupy a metody používané pro pochopení dat a přípravu dat pro získávání znalostí.
Studenti budou schopni ukládat a manipulovat data ve vhodných databázových systémech, zkoumat vlastnosti dat a připravit je pro následné modelování v rámci získávání znalostí.
- Student lépe zvládne práci s daty v různých situacích.
- Student se zdokonalí v řešení malých projektů v malém týmu.
Proč je předmět vyučován
Předmět si klade za cíl ukázat, jak na složitá data kolem nás, jak je uložit, jak se v nich orientovat, získat z nich užitečné charakteristiky a připravit je pro extrakci skrytých informací/znalostí aplikací metod strojového učení a jiných pokročilých metod analýzy.
Požadované prerekvizitní znalosti a dovednosti
- Základy relačních databází a jazyka SQL.
- Objektově orientované paradigma.
- Základy jazyka XML.
- Základy výpočetní geometrie.
- Základy statistiky a pravděpodobnosti.
Osnova přednášek
- Úvod do předmětu, objektový přístup v databázích.
- NoSQL databáze I - úvod do NoSQL, CAP teorém a BASE, databáze klíč-hodnota a způsob uložení dat, rozdělení (partitioning) a distribuce dat.
- NoSQL databáze II - modely dat v NoSQL databázích (sloupcové, dokumentové a grafové databáze), dotazování a agregace dat, NewSQL databáze.
- Příprava dat - porozumění datům: popisné charakteristiky, vizualizační techniky, korelační analýza.
- Příprava dat - předzpracování I: čištění dat, integrace.
- Příprava dat - předzpracování II: redukce dat a řešení nevyváženosti dat, transformace dat, další úlohy předzpracování.
- Půlsemestrální zkouška.
- Extrakce dat z webu (web scraping).
- Sémantický web a propojená data.
- Jazyky a systémy pro získávání znalostí z dat, reálné případové studie.
- Podpora pro práci s XML a JSON dokumenty v databázích.
- Prostorové databáze.
- Indexování vícedimenzionálních dat.
Osnova seminářů
- Objekty a dokumenty v databázích
- NoSQL databáze
- Získávání znalostí z dat - příprava dat
Osnova počítačových cvičení
- Objekty a dokumenty v databázích
- NoSQL databáze
- Získávání znalostí z dat - příprava dat
Osnova ostatní - projekty, práce
Vytvoření aplikace pro zpracování rozsáhlých strukturovaných i nestrukturovaných dat, které zahrnuje, mimo jiné, získání a načtení dat, jejich přípravou pro další využití (např. pro získávání znalostí z databází) a tvorbu popisných charakteristik pro zvolená data.
Průběžná kontrola studia
- Půlsemestrální písemná zkouška, neexistuje náhradní/opravný termín, omluvené neúčasti řeší zástupce garanta.
- Vypracování a odevzdání výsledků projektu v předepsaných termínech, omluvené neúčasti řeší cvičící.
- Závěrečná zkouška, kde je pro získání bodů ze zkoušky nutné zkoušku vypracovat tak, aby byla hodnocena nejméně 20 body (v opačném případě bude zkouška hodnocena 0 body). Omluvenou neúčast řeší zástupce garanta.
Podmínky zápočtu
Student musí během semestru získat alespoň 20 bodů ze 44 možných.
Pokud bude odhaleno plagiátorství nebo nedovolená spolupráce na projektech, či u půlsemestrální zkoušky, zápočet nebude udělen a dále bude zváženo zahájení disciplinárního řízení.
Zařazení předmětu ve studijních plánech