Kodutöö
Tähtaeg: 20.03.2018 kell 23:59.
I osa
(21 punkti) Lahenda praktikumis alustatud andmete veebist kraapimise ülesanded.
II osa
Järgmises praktikumis kasutame peakomponentanalüüsi, seetõttu seisneb kodutöö II osa peakomponentanalüüsiga tutvumises.
(2 punkti) Vaata videot PCA 1: curse of dimensionality
- Selgita, mida tähendab, et andmestiku tegelik dimensionaalsus võib olla väiksem kui tunnuste arv andmestikus. Too kaks näidet.
(1 punkt) Vaata videot PCA 3: direction of greatest variance
- Miks valitakse esimese peakomponendi suund kõige suurema varieeruvuse kriteeriumi järgi?
(1 punkt) Vaata Stanfordi masinõppe kursuse videot Principal Component Analysis Problem Formulation
- Selgita, mis on peakomponentanalüüsi ja lineaarse regressiooni vahe. Milline videodest meeldis Sulle kõige rohkem?
Lisaks võid uurida Explained Visually: Principal Component Analysis
Projekti teema otsimine (5 boonuspunkti)
Mõtle välja enda projekti teema. Kirjuta väga lühike ülevaade, milles projekt seisneb, kust andmed saad jne. Juhul, kui tegu on paaristööga, siis ka kaasüliõpilase nimi. Projekti juhendi leiad siit. See “boonusülesanne” jääb üles projekti teemade fikseerimise tähtajani (4. aprill).
Enda valitud projekti teema tuleb kirja panna siia ja vajalik lühiülevaade saada koos II osa vastustega.
Mida on vaja esitada?
- I osa kohta tuleb esitada nii andmeanalüüsi raport (html või pdf formaadis) kui ka selle lähtekood .Rmd failina.
- II osa vastused tuleb kirjutada meili sisusse või esitada tekstifailina.
Lahendused saata meili peale: taavi.unt@ut.ee