Rauð flögg í gagnadrifnum kosningastefnum

Þýðandi: Hallberg Brynjar Guðmundsson

„Það eina sem við vitum er að við vitum ekkert. Sú viska er öllum æðst“ – Leo Tolstoy

Upphaflegur titill þessarar greinar var „Gagnadrifin greining á kosningum“. Ég ætlaði að notast við gögn frá Hagstofu Íslands til þess að fá betri mynd af kosningamynstri Íslendinga. Því miður, þá getur svona stutt grein ekki staðist þær vísindalegu kröfur sem tölfræði útreikningur krefst. Samstarfsfólk mitt við Háskólann stendur sig frábærlega þegar kemur að tölfræðirannsóknum og félagsvísindum. Undir engum kringumstæðum ætla ég að grafa undan þeirra starfi, en söfnun „stórra gagna“ og hvernig þeim er smogið inn í tölfræðimódel getur gefið upp ósanna mynd af hverju sem er.

      „Það eru til þrjár gerðir af lygum – lygi, helvítis lygi, og tölfræði“ –   Benjamin Disraeli

Nútíma tölfræði hefur verið hluti af menningarheimi okkar frá upphafi 20. aldar, á undan tölvustýrðum gagna módelum. Söfnun tölfræðilegra- og skráðra gagna hefur elt okkur í gegnum mannkynssöguna; aðallega sem bókhaldskerfi, stundum vegna fjárhagslegrar áhættu bókhalds. En það var ekki fyrr en margvíslegar endurbætur urðu á stærðfræðilegum grundvelli tölfræði á síðari hluta 20. aldar að hægt var að treysta tölfræðilegum niðurstöðum jafnvel örlítið.

Á þessari upplýsingaöld hefur framvinda hagnýtra stærðfræðinga, tölvunarfræðinga, efnafræðinga og verkfræðinga leitt til þess að við erum núna stödd á tímum tölvustuddar tölfræði; nógu nákvæm til að spá fyrir um náttúruhamfarir eins og jarðskjálfta, eldgos, jökulvirkni og fleira. Með því að móta stóra gagnaþróun með viðeigandi varúð hefur það haft áhrif á stefnur og bjargað ótal mannslífum. Heiðarleiki er grundvallaratriðið.

Línurit

Rúnað línurit

Með auknu innstreymi aðgengilegra gagna ásamt fjölmiðlaæðinu sem beinist að töfrum vélanáms þá ætti ekki að vera vandamál að safna gögnum frá hagstofunni. Gögnin gætu verið notuð sem tölfræðileg fyrirmynd líkans sem gæti spáð fyrir um niðurstöður kosninga. Myndi það virka?

 Svarið er já. Á sama hátt og þúsund apar við þúsund ritvélar geta skrifað metsölubók. Með öðrum orðum, að taka nokkrar tölur, vinna með þær í ótrúlega sveigjanlegum líkönum og enda síðan með tölu sem er „nálægt“ annarri tölu hefur ekkert sannleiksgildi.

„Tilgangur útreikninga er innsýn, ekki tölur.“ – Richard Hamming

Því miður er ómögulegt að fá innsýn í félagslega ferla án nægilegs skilnings á undanförnum breytum á líkani. Að framkvæma greiningu á kosningagögnum án menningarlegra upplýsinga hefur ekki mikið upp á sig. Á sama tíma má líta á það að vera algjörlega ótengdur félagslegum, siðferðilegum, og efnahagslegum túlkunum á gögnum hjálpi sérfræðingum að vera hlutlaus. Þessi grein er hugsuð frá seinni skilgreiningunni. Gögn sem eru notuð eru fengin frá opinberum stofnunum og flókið samhengi þeirra er vanrækt.

1. Hvaða þýðingu hafa kosningaúrslit fyrir tilkomu ljósvakans fyrir kosningarnar á næstu vikum? Enga

2. Hvaða tengsl hafa flokkslínur við fortíð sína? Er einhver söguleg þýðing?

3. Í ljósi breytinga á einsleitni íbúa, lestrarkunnáttu, sambandi ríkis og kirkju, er hægt að nota gögn um flokk X sem var kjörinn árið Y verið sannur mælikvarði um árangur flokks X í framtíðinni? Nei

Þetta þýðir samt ekki að það sé engin leið til þess að spá fyrir um niðurstöður. Ef hægt væri að kanna alla íbúa reglulega og félagslegi púlsinn í landi væri mældur nákvæmlega, þá yrði atkvæðagreiðslan að engu í sjálfu sér, þar sem það væri búið að birta niðurstöðurnar fyrir kosningar. Það eru fleiri vandamál sem koma upp þegar kemur að úrvinnslu tölfræðigagna. Rýnihópurinn getur verið of lítill og endurspeglar ekki skoðanir stærri hóps.

Ég er mikill talsmaður hins stafræna sviðs hugvísindana og trúi því að með hjálp sérfræðinga og með nægan tíma fyrir stafni sé hægt að tengja tölur og sögulega þróun saman og sjá hvernig þessi þróun birtist í kosningastraumum Íslendinga. Eins og hagfræðingur sem fylgist með fjármálakreppu ásamt þjóðarpúlsi lands (í gegnum fjölmiðla) og spáir síðan hvort að sitjandi ríkisstjórn gæti fallið í næstu kosningum eður ei.

Sem útlendingur á Íslandi, bæði menningarlega og vitsmunalega (stjórnmál eru ekki mitt svið, ég tala ekki um þau frjálslega, auk þess tala ég ekki Íslensku) þá hefði ég ekki getað greint gögn Hagstofunnar í takt við staðbundnar fréttir og greint kosninga strauma. Ég ætti meiri möguleika að synda í Fagradallsfjalli og koma til baka ómeiddur.

„Beisikk“ skífurit

Betra skífurit

Til þess að vita hvort tölfræðileg greining hafi farið úrskeiðis þá þarf að fylgjast með vísbendingunum. Hér koma nokkur dæmi:

Böku líkanið 

Líkan miðað við hlutföll, sem er ekki eðlileg leið til að hugsa um tölfræðigögn.

Áhyggjur af skala

Ekki algengt þegar kemur að kosninga gögnum. Samt þarf alltaf að aðgreina hvern ás og sjá hvort að línuleg eða önnur sambönd séu rökrétt.

Ef það passar „of“ vel

Þumalputtareglan er: Ef gögn passa fullkomlega í líkanið þá eru gögnin röng eða einhver er að ljúga um þau.

Sléttar kúrfur

Mjög algeng aðferð þar sem erfitt getur verið að lesa úr flóknum gögnum. En getur leitt til þess að fólk dragi rangar ályktanir af gögnunum.

Engin rökrétt fylgnigreining 

Þetta þýðir alltaf að ályktun orsaka hafi verið óyggjandi.

Fyrir fleiri yfirlit á tölfræðitöflum er hægt að kíkja á frábæru vefsíðuna data-to-viz.com

Stöplarit

Ég enda þennan pistill með því að boða til mannlegrar samkenndar. Það þarf samskipti til þess að fá raunverulega innsýn í tölfræði. Gagnavísindi geta ekki ein og sér komið í stað sérfræðiþekkingar né geta gagnavísindamenn búist við því að samstarfsfólk þeirra skilji „augljósar“ forsendur líkans. Á sama hátt geta sérfræðingar ekki heldur gert ráð fyrir hlutlausum spám. Sérhver tölfræði, hvert línurit, er málamiðlun milli algers sannleika, mannlegar túlkunar, stafrænnar mismununar og tölulegrar ónákvæmi. Munið bara:


„Flestir nota tölfræði eins og drukkinn maður notar ljósastaur; meira til stuðnings en lýsingar“-    Andrew Lang

Fyrir þau sem eru að leita að einföldu og réttu svari, skal ég svara „42“ og votta samúð mína.

Annars eðlisRohit Goswami