I osa

(1 punkt) Vaata Stanfordi Statistical Learning kursuse videot hierarhilise klasterdamise kohta

Nimeta vähemalt kaks aspekti, mida jälgida kahe klastri kauguse defineerimisel.

(1 punkt) Vaata Johns Hopkinsi videot logistilise regressiooni kohta

Nimeta üks põhjus, miks lineaarne regressioon ei ole mõistlik valik binaarse y-tunnuse modelleerimiseks?

(2 punkti) Joonista R-is logistiliste kõverate \[y = \frac{e^{\beta_0 + \beta_1 x}}{1 + e^{\beta_0 + \beta_1 x}}\] graafikud:

# sinu kood

Selgita, millist mõju omab \(\beta_0\) ja millist \(\beta_1\) muutmine.

Nimeta jutuks olnud teadusartikli põhitulemus.

II osa

(10 punkti) Lahenda praktikumis alustatud käsitsi kirjutatud numbrite ülesanded.

I osa vastused tuleb kirjutada meili sisusse või esitada tekstifailina.
II ja III osa kohta tuleb esitada nii andmeanalüüsi raport (html või pdf formaadis) kui ka selle lähtekood .Rmd failina.
Lisaks võiksid mainida, kui palju aega kulus I, II ja III osa peale. Mida arvad ülesannetest?

Lahendused saata meili peale: taavi.unt@ut.ee