Statistiline andmeteadus ja visualiseerimine MTMS.01.100     Praktikumid     Projektid

Kodutöö

Tähtaeg: 22.03.2016 kell 23:59.

I osa

(21 punkti) Lahenda praktikumis alustatud andmete veebist kraapimise ülesanded.

II osa

Järgmises praktikumis kasutame peakomponentanalüüsi, seetõttu seisneb kodutöö II osa peakomponentanalüüsiga tutvumises.

(2 punkti) Vaata videot PCA 1: curse of dimensionality

  • Selgita, mida tähendab, et andmestiku tegelik dimensionaalsus võib olla väiksem kui tunnuste arv andmestikus. Too kaks näidet.

(1 punkt) Vaata videot PCA 3: direction of greatest variance

  • Kuidas valitakse esimese peakomponendi suund (st millise kriteeriumi järgi valitakse esimene peakomponent)?

(1 punkt) Vaata Stanfordi masinõppe kursuse videot Principal Component Analysis Problem Formulation

  • Mida uut said siit videost teada lisaks eelnevale kahele? Kumb meeldis rohkem?

Lisaks võid uurida Explained Visually: Principal Component Analysis

Projekti teema otsimine (5 boonuspunkti)

Mõtle välja enda projekti teema. Kirjuta väga lühike ülevaade, milles projekt seisneb, kust andmed saad jne. Juhul, kui tegu on paaristööga, siis ka kaasüliõpilase nimi. Projekti juhendi leiad siit. See “boonusülesanne” jääb üles projekti esitamise tähtajani.

Mida on vaja esitada?

  • I osa kohta tuleb esitada nii andmeanalüüsi raport (html või pdf formaadis) kui ka selle lähtekood .Rmd failina.
  • II osa vastused tuleb kirjutada meili sisusse või esitada tekstifailina.
  • Enda valitud projekti teema tuleb kirja panna siia ja vajalikud lühiülevaade saada koos II osa vastustega.

Lahendused saata meili peale: markgimbutas@gmail.com