Statistiline andmeteadus ja visualiseerimine MTMS.01.100     Praktikumid     Projektid

Kuidas avastada pettust?

Kuidas avastada pettust?

Sissejuhatus

Markus “Märul” Veekahuri isa on politseinik, ema on politseinik, mõlemad vanaemad on politseinikud ja õde on politseinik. Algul vaadati viltuselt Markuse soovile ülikooli statistikat õppima minna, kuid pärast kahte kuud vaikimist vahetati telefoni teel esimene “tere” ning lepiti uuesti ära.

Kuid nagu elus ikka, ei kuku käbi kännust kaugele. Markus läks tööle Politsei- ja Piirivalveametisse ning tema igapäevatööks sai pettuste tuvastamine, kasutades statistilisi meetodeid. Tema ametirelvaks on Benfordi seadus.

Benfordi seadus (sageli nimetatud kui esimese numbri seadus) kirjeldab arvu esimese numbri sagedust. Paljudes reaalsetes andmetes esineb number 1 esinumbrina umbes 30% juhtudest ning iga järgneva numbri sagedus kahaneb monotoonselt.

Empiiriliselt on näidatud, et Benfordi seadus kehtib näiteks aktsiahindade, jõgede pikkuse, riikide rahvaarvu andmetel. Järgneval joonisel on toodud kaks näidet Benfordi seaduse kehtimisest.

Markuse ametivennad on järeldanud Benfordi seadusest kõrvalekaldumisest, et Kreeka on võltsinud makromajanduslikke näitajaid või et Iraani valimised olid ebaausad. Benfordi seadusest saad täpsemalt lugeda Vikipeediast.

Selles kodutöös on sinu ülesandeks uurida:

  • kas Benfordi seaduse põhjal võib väita, et FIE-d on võltsinud maksunäitajaid,
  • kas Benfordi seaduse põhjal võib väita, et 2017. aasta kohaliku omavalitsuse volikogu valimistel toimus pettus.

Kuna ülesannetes on vaja teha ggplot2 abil jooniseid, soovitame esmalt vaadata ära osa III videod ggplot2 kohta.

Maksude andmestik

Loe sisse Maksu- ja Tolliameti 2014. aasta maksude andmestik ja tutvu andmetega. Andmestikus on järgnevad tunnused:

  • registrikood: juriidilise isiku registrikood
  • nimi: juriidilise isiku nimi
  • liik: kas tegemist on äriühingu, MTÜ, FIE vms
  • kaibemaksukohuslane: kas juriidiline isik on käibemaksukohuslane
  • maakond: millises maakonnas on juriidiline isik registreeritud
  • riiklikud_maksud: käibemaks, tollimaks jne
  • toojoumaksud_ja_maksed: sotsiaalmaks, töötuskindlustusmakse jne

Ülesanne 1 (2 punkti)

Tee 3 joonist, mis iseloomustavad hästi seda andmestikku. Iga joonise juurde kirjuta üks lause, mida see joonis sinu arvates näitab.

# sinu kood

Ülesanne 2 (2 punkti)

Kontrolli visuaalselt Benfordi seaduse kehtimist tunnustel riiklikud_maksud ja toojoumaksud_ja_maksed. Selleks tekita esinumbrite histogramm. Nulliga võrduvad väärtused jäta kõrvale. Tee vastav joonis ka FIE-de, äriühingute jne lõikes (vt tunnus liik).

Näpunäide: esimest numbrit aitab eraldada näiteks funktsioon substr.

# sinu kood

Kommenteeri tulemusi.

Kas sellest võib järeldada, et FIE-d jahmerdavad maksudega?

2017 KOV valimiste hääletustulemuste andmestik

Loe sisse andmestik ja tutvu andmetega. Andmestikus on järgnevad tunnused:

  • nimi - kandidaadi nimi
  • nr - kandidaadi number
  • Maakond
  • Omavalitsus
  • Kood - omavalitsuse kood
  • nimekiri - partei või valimisliit, kuhu kandidaat kuulub
  • paberhaali - kandidaadi poolt saadud paberhäälte arv
  • ehaali - kandidaadi poolt saadud e-häälte arv
  • valitud - kas kandidaat osutus valituks (true) või mitte (false)

Ülesanne 3 (2 punkti)

  • Esmalt tee juurde tunnus, mis näitab kandidaadile antud koguhäälte arvu (paberhäälte ja e-häälte summa).
  • Seejärel tekita tunnus, mille väärtusteks on Eesti Keskerakond, Eesti Reformierakond, Sotsiaaldemokraatlik Erakond, Erakond Isamaa ja Res Publica Liit, Eesti Konservatiivne Rahvaerakond ja Muu, st väiksemad erakonnad ja valimisliidud on ühte gruppi kokku võetud.
  • Tee 3 joonist, mis iseloomustavad hästi seda andmestikku. Iga joonise juurde kirjuta üks lause, mida see joonis sinu arvates näitab.
# sinu kood

Ülesanne 4 (2 punkti)

Kontrolli visuaalselt Benfordi seaduse kehtimist:

  • e-häälte arvul,
  • paberhäälte arvul,
  • koguhäälte arvul.

Seejärel tee eelnevad joonised ka erakondade kaupa. Kommenteeri tulemusi.

# sinu kood

Ülesanne 5 (3 punkti)

Tee järgnevale joonisele võimalikult sarnane.

Näpunäited:

  • Log-skaala kasutamiseks uuri järgmisi ggplot2 näiteid.
  • Legendi peitmiseks uuri järgmisi ggplot2 näiteid. (märksõnaks on legend.position)
  • Käsuga facet_wrap saab joonise jaotada tükkideks (Mõned näited.)
  • Et muuta värvid vastavaks erakonna sümboolikaga, kasuta värve “#00983A”, “#FFDE00”,“#E30613”, “#009FE3”,“#8B4513”, “#82368C” (vastavalt KESK, REF, SDE, IRL, EKRE, Muu).
  • Värvide muutmiseks uuri järgmisi ggplot2 näiteid.
  • Pööra tähelepanu n-ö akende pealkirjadele ja järjekorrale. Abiks võib olla funktsioon factor.

Boonusülesanne 1 (2 punkti)

Lisa hallid mummud taustale. Tulemus peaks olema selline: