Statistiline andmeteadus ja visualiseerimine MTMS.01.100     Praktikumid     Projektid

Kuidas avastada pettust?

Sissejuhatus

Markus “Märul” Veekahuri isa on politseinik, ema on politseinik, mõlemad vanaemad on politseinikud ja õde on politseinik. Algul vaadati viltuselt Markuse soovile ülikooli statistikat õppima minna, kuid pärast kahte kuud vaikimist vahetati telefoni teel esimene “tere” ning lepiti uuesti ära.

Kuid nagu elus ikka, ei kuku käbi kännust kaugele. Markus läks tööle Politsei- ja Piirivalveametisse ning tema igapäevatööks sai pettuste tuvastamine, kasutades statistilisi meetodeid. Tema ametirelvaks on Benfordi seadus.

Benfordi seadus (sageli nimetatud kui esimese numbri seadus) kirjeldab arvu esimese numbri sagedust. Paljudes reaalsetes andmetes esineb number 1 esinumbrina umbes 30% juhtudest ning iga järgneva numbri sagedus kahaneb monotoonselt.

alt text

Empiiriliselt on näidatud, et Benfordi seadus kehtib näiteks aktsiahindade, jõgede pikkuse, riikide rahvaarvu andmetel. Järgneval joonisel on toodud kaks näidet Benfordi seaduse kehtimisest.

Markuse ametivennad on järeldanud Benfordi seadusest kõrvalekaldumisest, et Kreeka on võltsinud makromajanduslikke näitajaid või et Iraani valimised olid ebaausad. Benfordi seadusest saad täpsemalt lugeda Vikipeediast.

Selles kodutöös on sinu ülesandeks uurida:

  • kas Benfordi seaduse põhjal võib väita, et FIE-d võltsivad maksunäitajaid,
  • kas Benfordi seaduse põhjal võib väita, et 2013. aasta kohaliku omavalitsuse volikogu valimistel toimus pettus.

Kuna ülesannetes on vaja teha ggplot2 abil jooniseid, soovitame esmalt vaadata ära osa III videod ggplot2 kohta.

Maksude andmestik

Loe sisse Maksu- ja Tolliameti maksude andmestik ja tutvu andmetega. Andmestikus on järgnevad tunnused:

  • registrikood: juriidilise isiku registrikood
  • nimi: juriidilise isiku nimi
  • liik: kas tegemist on äriühingu, MTÜ, FIE vms
  • kaibemaksukohustlane: kas juriidiline isik on käibemaksukohustlane
  • maakond: millises maakonnas on juriidiline isik registreeritud
  • riiklikud_maksud: käibemaks, tollimaks jne
  • toojoumaksud_ja_maksed: sotsiaalmaks, töötuskindlustusmakse jne

Ülesanne 1 (2 punkti)

Tee 3 joonist, mis iseloomustavad hästi seda andmestikku. Iga joonise juurde kirjuta üks lause, mida see joonis sinu arvates näitab.

# sinu kood

Ülesanne 2 (2 punkti)

Kontrolli visuaalselt Benfordi seaduse kehtimist tunnustel riiklikud_maksud ja toojoumaksud_ja_maksed. Selleks tekita esinumbrite histogramm. Nulliga võrduvad väärtused jäta kõrvale. Tee vastav joonis ka FIE-de, äriühingute jne lõikes (vt tunnus liik).

Näpunäide: esimest numbrit aitab eralda näiteks funktsioon substr.

# sinu kood

Kommenteeri tulemusi.

Kas sellest võib järeldada, et FIE-d jahmerdavad maksudega?

2013 KOV valimiste hääletustulemuste andmestik

Loe sisse andmestik ja tutvu andmetega. Andmestikus on järgnevad tunnused:

  • id: kandidaadi ID
  • KOV
  • maakond
  • nimekiri - partei või valimisliit, kuhu kandidaat kuulub
  • partei - kas Keskerakond, Reformierakond, IRL, SDE või Muu
  • nr - kandidaadi number
  • haali - kandidaadi poolt saadud koguhäälte arv (st paberhääled + ehääled)
  • ehaali - kandidaadi poolt saadud e-häälte arv

Ülesanne 3 (2 punkti)

Tee 3 joonist, mis iseloomustavad hästi seda andmestikku. Iga joonise juurde kirjuta üks lause, mida see joonis sinu arvates näitab.

# sinu kood

Ülesanne 4 (2 punkti)

Kontrolli visuaalselt Benfordi seaduse kehtimist:

  • e-häälte arvul,
  • paberhäälte arvul,
  • koguhäälte arvul.

Seejärel tee eelnevad joonised ka erakondade kaupa. Kommenteeri tulemusi.

# sinu kood

Ülesanne 5 (3 punkti)

Tee järgnevale joonisele võimalikult sarnane.

Näpunäited:

  • Log-skaala kasutamiseks uuri järgmisi ggplot2 näiteid.
  • Legendi peitmiseks uuri järgmisi ggplot2 näiteid. (märksõnaks on legend.position)
  • Et muuta värvid vastavaks erakonna sümboolikaga, kasuta värve “#00983A, #FFDE00, #009FE3, #82368C, #E30613” (vastavalt KESK, REF, IRL, Muu, SDE värvid.)
  • Värvide muutmiseks uuri järgmisi ggplot2 näiteid.
  • Käsuga facet_wrap tükkideks jagatud joonistel on võimalik lubada erinevatele tükkidele erineva ulatusega skaalasid. Selleks uuri näiteid.

Boonusülesanne 1 (2 punkti)

Lisa hallid mummud taustale. Tulemus peaks olema selline: