Tervetuloa seuraamaan psykologian pääsykoelukemistani ja oppimaan tai kertaamaan tilastotieteen perusteita. Tänään vuorossa ovat tilastolliset tunnusluvut, jotka tiivistän tähän muidenkin iloksi. Tekstin lähteenä on pääosin Nummenmaan, Holopaisen ja Pulkkisen Tilastollisten menetelmien perusteet (tuttavallisemmin Holopulkki).

Tilastollisia tunnuslukuja käytetään tiivistämään aineistosta saatavaa informaatiota. Tilastolliset tunnusluvut voidaan jakaa sijainti-, hajonta- ja muihin tunnuslukuihin. Sijaintiluvut kertovat arvojen jakauman sijainnista (kuvaajalla yleensä x-akselilla). Hajontaluvut kertovat siitä, kuinka laajasti arvot ovat jakaumassa levittäytyneet.

1. Sijaintiluvut

Keskiluvut

Keskiluvut kuvaavat aineiston tyypillistä suuruutta. Ne siis määrittävät jakauman sijaintia x-akselilla.

Aritmeettinen keskiarvo

Tämä kaikille kouluarvosanoista tuttu sijaintiluku ei liiemmin esittelyjä kaipaa. Se lasketaan jakamalla havaintoarvojen summa havaintoarvojen lukumäärä n:llä. Keskiarvo kertoo keskimääräisen arvon. Luokitellussa aineistossa keskiarvo voidaan laskea jakamalla luokkakeskusten summa luokkien lukumäärällä. Keskiarvon ongelma on, että se on herkkä poikkeaville arvoille. Kaikkien tunnuslukujen tulkinnassa kannattaa olla varovainen.

Luokitellusta aineistosta laskettu keskiarvo on aina likiarvo, koska ei voida tietää miten havaintoarvot luokan sisällä ovat jakautuneet.

Tulkinta: Keskimääräinen arvo, eli jos muuttujan arvot jaettaisiin tasan kunkin tilastoyksikön kesken, kullekin tilastoyksikölle tulisi keskiarvon verran muuttujaa.

Moodi (Mo)

Tulkinta: Moodi on aineiston yleisin arvo eli tyyppiarvo. Jos siis aineiston arvot ovat  1 9 3 3 8 7 7 7, niin moodi on 7. Jos moodi ja mediaani menee sekaisin, niin muista, että moodi on vähän niinkuin mood eli englannin kielen “mieleiala”. Jos kysyt edellä mainitulta aineistolta, millä mielellä hän on, vastaus on seistemän. Olipas hauskaa.

Moodi on ainoa keskiluku, jota voi mielekkäästi käyttää laatueroasteikolliselle muuttujalle. Laatueroasteikollisia muuttujia ei voi järjestää, joten niillä ei ole keskikohtaa, mutta yleisin arvo voi olla. Laatueroasteikollisia muuttujia on esim. sukupuoli tai jäätelömaku (tosin suklaa on aina ykkönen). Luokitellussa aineistossa moodi on luokka, jolla on suurin frekvenssi.

Moodeja voi olla useita. Jos aineistossa kaikkia lukuja on yhtä paljon, moodia ei voida määrittää.

Mediaani (Md)

Tulkinta: Mediaani tarkoittaa aineiston keskimmäistä arvoa, mikäli arvoja on pariton määrä. Se siis jakaa havaintoaineiston kahteen osaan.

Jos arvoja on parillinen määrä mediaani lasketaan kahden keskimmäisen arvon aritmeettisena keskiarvona.

Luokitellusta aineistosta mediaani arvioidaan luokkakohtaisten frekvenssien (eri havaintoarvojen lukumäärien) avulla: Jaa aineiston kokonaismäärä n kahdella, jotta löydät mediaanin sisältävän luokan. Vähennä puolitetusta kokonaismäärästä edeltävän luokan kumulatiivinen frekvenssi F ja jaa tämä tulos mediaaniluokan frekvenssillä. Lisää tähän summaan mediaaniluokan todellinen alaraja. Kerro vielä mediaaniluokan luokkavälillä ja tuloksena saat mediaanin. —> Käytännössä mediaani kannattaa kuitenkin määrittää alkuperäisestä luokittelemattomasta aineistosta, jos sellainen on saatavilla.

Mediaania ei kannata käyttää, jos aineisto on polarisoitunutta eli kaksinapaista eli aineisto jakautuu selvästi kahteen yhtä suureen havaintoarvojen frekvenssiin. Esim aineisto olisi 1 1 1 1 1 5 5 5 5 5. Mediaania ei voi käyttää, jos luokiteltu aineisto sisältää avoimia luokkia, eli luokkia, joiden toista luokkarajaa ei ole määritelty.

Muita sijaintilukuja

Fraktiilit

Fraktit jakavat aineiston eri suuruisiin osiin. Ne voidaan määrittää vähintään järjestysasteikollisille muuttujille. Mediaani on 50 % fraktiili.

Yleisimmät fraktiilit ovat kvartiilit. Alakvartiili Q1 on 25 % kvartiili ja yläkvartiili Q3 on 75 % kvartiili. Yhdessä mediaanin kanssa kvartiilit jakavat aineiston neljään yhtäsuureen osaan.

Desiilit jakavat aineistoa kymmenyksiin. D1 on 10 % fraktiili ja D9 90 % fraktiili.

2. Hajontaluvut

Variaatiosuhde v

Variaatiosuhde on ainoa laatueroasteikolliselle muuttujalle mielekäs hajontaluku. Se saadaan jakamalla moodiluokkaan kuulumattomien havaintojen määrä havaintojen kokonaismäärällä N, eli v=(N-fm)/N. Mitä enemmän havaintoja kuuluu moodiluokkaan, sitä pienempi variaatiosuhde on, koska tällöinhän havaintoarvot ovat enemmän toistensa kaltaisia.

Tulkinta: Variaatiosuhde on moodiluokkaan kuulumattomien frekvenssien suhteellinen osuus kokonaisfrekvenssistä.

Vaihteluväli, kvartiiliväli, vaihteluvälin pituus ja kvartiilipoikkeama

Vaihteluväli kertoo, kuinka laajalle aineisto on leviää, eli aineiston peittoa. Se ilmoitetaan sulkujen (tai hakasulkujen) sisällä näin (suurin arvo, pienin arvo). Sen pituus lasketaan suurimman ja pienimmän arvon erotuksena.

Kvartiiliväliksi sanotaan Q1 ja Q3 väliä eli (Q1, Q3). Kvartiilipoikkeama Q on taas Q3 ja Q1 erotus jaettuna kahdella.

kvartiilipoikkeaman kaava

Keskihajonta s

keskihajonnan kaava

Keskihajonnan kaava. Jos lasket keskihajontaa koko populaatiosta n-1 korvautuu pelkällä n:llä.

Tulkinta: Vähintään välimatka-asteikollisen muuttujan arvojen keskimääräistä jakautumista keskiarvon ympärillä kuvaillaan keskihajonnan käsitteellä.

Keskihajonta lasketaan laskemalla jokaisen havaintoarvon erotus keskiarvosta. Saadut arvot neliöidään, jotta positiiviset ja negatiiviset arvot eivät kumoa toisiaan. Luku jaetaan n:llä, tai jos hajonta lasketaan otoksesta eikä populaatiosta, n-1:llä. Tuloksesta otetaan neliöjuuri, jotta kumotaan neilöinnin vaikutus ja palautetaan muuttujat alkuperäiselle mitta-asteikolle.

Vakion lisääminen tai vähentäminen kaikista havaintoarvoista ei muuta keskihajonnan suuruutta (mutta keskiarvoa kylläkin). Tämän vuoksi laskemista voi sopivassa tilanteessa helpottaa vähentämällä havaintoarvoista jokin vakio.

Jos tilastollista testaamista ja estimointia haluaa syvällisemmin ymmärtää. Keskihajonnan kaavan johtaminen kannattaa myös miettiä ajatuksen kanssa. Monissa parametrisissä eli jakaumaan perustuvissa testeissä, kuten keskiarvotestit, testisuureissa esiintyy nimittäjänä kunkin jakauman keskihajonta keskivirheen muodossa (s/neliöjuuri(n)).

Varianssi sˆ2

Varianssi on keskihajonta toiseen potenssiin. Se ei noudata alkuperäisen muuttujan mitta-asteikkoa ja sen tulkinta on tämän vuoksi hankalaa. Kirja suosittelee käyttämään mieluummin keskihajontaa empiirisessä tutkimuksessa. Varianssista on kuulemma iloa lähinnä matemaattisten kaavojen johtamisessa.

Variaatiokerroin V

Suhdeasteikollisen muuttujan kuvailuun voi käyttää variaatiokerrointa. Se lasketaan standardoimalla keskihajonta keskiarvolla seuraavasti:

V=s/ka, jossa ka=keskiarvo ja s=keskihajonta

Tulkinta: Variaatiokerroin on jakauman suhteellinen hajonta. Se ilmoittaa monenko keskiarvon päässä muuttujan arvot keskimäärin ovat keskiarvosta. Sitä voidaan siis käyttää esimerkiksi kahden eri muuttujan vaihtelujen vertailuun. Huom! Variaatiokerroin ei kerro muuttujien välisestä riippuvuudesta, koska se ei kerro mitään aineiston sisäisestä arvojen jakautumisesta. Riippuvuutta tutkitaan korrelaatiokertoimella.

Variaatiokerroin esitetään usein prosentteina (V x 100%). Tällöin se kertoo, montako prosenttia muuttujan arvot keskimäärin poikkeavat keskiarvosta. Sitä käytetään vertailtaessa kahden muuttujan jakaumien hajontojen suuruutta.

Variaatiokerrointa ei voi käyttää muuttujalle, jonka keskiaravo on nolla. Myös lähellä nollaa olevat keskiarvot tekevät variaatiokertoimen käyttämisestä ongelmallista. Keskiarvon pieni muutos vaikuttaa tällöin voimakkaasti variaatiokertoimeen. Variaatiokertoimen käyttöä suositellaan ainoastaa suhdeasteikollisille muuttujille, koska välimatka-asteikollisen muuttujan variaatiokerroin voi olla negatiivinen. Negatiivisen variaatiokertoimen tulkinta ei ole mielekästä.

3. Vinous ja huipukkuus

Vinous g1

Vinous ja huipukkuus on määritettävissä vähintään välimatka-asteikollisille muuttujille. Vinous kertoo jakauman symmetrisyydestä. Symmetrisen jakauman vinous on 0. Negatiivinen vious tarkoittaa vasemmalle ja positiivinen oikealle vinoa.

Vinous voi vaikuttaa keskilukujen tulkintaan, joten se on hyvä ottaa huomioon aineistoja tarkasteltaessa. Esimerkiksi suomalaisten palkkojen jakauma on oikealle vino, koska joukossa on pienimäärä merkittävästi isompia palkkoja. Tämän vuoksi palkkatasoja vertailtaessa kannattaa tarkastella mediaania eikä keskipalkkaa. Vinossa jakaumassa mediaani kertoo enemmän tyypillisestä palkasta sillä sen molemmille puolille jää yhtä paljon palkansaajia. Sen sijaan keskiarvo on herkkä poikkeville arvoille, joten harvojen reilusti isommat palkat vetävät sitä suuremmaksi. Palkkajakaumassa pienin keskiluku on moodi, sitten mediaani ja suurin keskiarvo.

Huipukkuus g2

Huipukkuus kertoo jakauman huipun terävyydestä. Normaalijakaumaa noudattavan muuttujan huipukkuus on +3, mutta Excelissä on myös “normitettu” huipukkuus, jonka arvo on normaalijakaumassa 0.

 

Testaa osaamisesi

  1. Mitä variaatiosuhde kuvaa?
  2. Mitä keskilukua kannattaa käyttää kuvailtaessa oikealle vinoa jakaumaa? Miksi?
  3. Mitkä ovat variaatiokertoimen, varianssin, variaatiosuhteen ja keskihajonnan erot?