Statistiline andmeteadus ja visualiseerimine MTMS.01.100     Praktikumid     Projektid

Kodutöö

Tähtaeg: 23.03.2015 23:59 GMT

I osa

(21 punkti) Lahenda praktikumis alustatud andmete veebist kraapimise ülesanded.

II osa

Järgmises praktikumis kasutame peakomponentanalüüsi, seetõttu seisneb kodutöö II osa peakomponentanalüüsiga tutvumises.

(2 punkti) Vaata videot PCA 1: curse of dimensionality

  • Selgita, mida tähendab, et andmestiku tegelik dimensionaalsus võib olla väiksem kui tunnuste arv andmestikus. Too kaks näidet.

(1 punkt) Vaata videot PCA 3: direction of greatest variance

  • Kuidas valitakse esimese peakomponendi suund (st millise kriteeriumi järgi valitakse esimene peakomponent)?

(1 punkt) Vaata Stanfordi masinõppe kursuse videot Principal Component Analysis Problem Formulation

  • Mida uut said siit videost teada lisaks eelnevale kahele? Kumb meeldis rohkem?

Lisaks võid uurida Explained Visually: Principal Component Analysis

(1 boonuspunkt) Kirjuta, kui palju aega kulus osa I ja II peale. Mida arvad ülesannetest (kasulikkus, huvitavus)?

Mida on vaja esitada?

  • I osa kohta tuleb esitada nii andmeanalüüsi raport (html või pdf formaadis) kui ka selle lähtekood .Rmd failina.
  • II osa vastused tuleb kirjutada meili sisusse või esitada tekstifailina.

Lahendused saata meili peale: andmeteadus@gmail.com