Tietojen arvioiminen

  1. Työn pohjaksi otetun teorian arvioiminen
  2. Empiirisen tiedonhankinnan arvioiminen
  3. Analyysin arvioiminen
  4. Teoreettisten tulosten arvioiminen
  5. Käytännön seurausten arvioiminen
  In English   En Español   Sisällystauluun

Tutkimuksen tulosten valmistuttua, mutta ennen niiden raportoimista, on tutkijan aihetta varata jonkin verran aikaa erityistä työvaihetta varten, jossa hän vielä tarkastelee työtään ja sen tuloksia. Tähän pitäisi tutkijalla nyt olla hyvä valmius, kun hän tuntee kohteen ja siihen liittyvät asiat entistä paremmin.

Tutkimushanketta arvioidaan ennen kaikkea siltä pohjalta, mihin hankkeella oli tarkoitus päästä. Toteavassa tutkimuksessa on siis arvioitava, saatiinko ne tiedot, mitä haettiin, ja ovatko tiedot luotettavia.

Mitä tietoja saatiin, on helposti nähtävissä. Hankalampi on kysymys, voiko näihin tietoihin luottaa - esimerkiksi mikä on se riski, että tieto onkin väärä, tai mikä on sen todennäköinen virhe.

Ohjaavan tutkimuksen loppuraportin arvioiminen on usein varsin yksinkertaista: kaikki asianosaiset lukevat raportissa tehdyt ehdotukset ja sitten ilmoittavat kelpaavatko ne heille vai ei. Tilanne on aivan erilainen toteavassa tutkimuksessa. Raportin yhteenvedon tutkiminen ei auta arvioimaan työn arvoa - siinä kaikki tulokset tavallisesti näyttävät varsin luotettavilta ja tarkoilta. Vain harvoin löytyy jokin toinen tietolähde, johon tutkimuksessa saatuja tietoja voisi verrata. Niinpä tavallisesti ainoa keino on tarkastella, miten tuloksiin on päästy. Tutkimuksen eräiden työvaiheiden arvioimisen metodiikkaa käsitellään jäljempänä kohdissa Työn pohjaksi otetun teorian arvioiminen, Empiirisen rekisteröimisen arvioiminen ja Analyysin arvioiminen.

Vasta sen jälkeen kun hankkeen prosessi on ylläkuvatulla tavalla todettu hyväksyttäväksi, on aika ottaa vakavasti tarkasteltavaksi sen raportissa ilmoitetut tulokset. Kaksi tavallisinta näkökulmaa tässä tarkastelussa ovat teoreettisten tulosten arvioiminen ja käytännön seurausten arvioiminen. Näissä arvioinneissa ei ole tarpeen paljoakaan välittää hankkeen alkuperäisistä tavoitteista - sattuuhan useinkin, että hanke saavuttaa enemmän (tai vähemmän) tuloksia kuin mitä aluksi suunniteltiin.

Työn pohjaksi otetun teorian arvioiminen

"Jos roskaa sisään, niin roskaa ulos." Toisin sanoen, tutkimus ei voi tuottaa järkeviä tuloksia jos järjenvastaisia tai ristiriitaisia teoreettisia malleja on käytetty perustana tutkittavaa ongelmaa tai tutkittavaa joukkoa määriteltäessä. Näinhän ei toki pitäisi koskaan päästä tapahtumaan, mutta ikävä kyllä on monesti niin, että tutkijalla on aluksi varsin hämärä käsitys tutkittavasta ongelmasta, ja vasta tutkimuksen tehtyään hän osaa arvostella kohteesta aiemmin tehtyjä teoreettisia malleja. Parempi toki tehdä se myöhäänkin kuin ei ollenkaan.

Oire mahdollisista heikkouksista työn pohjaksi otetussa teoriassa on siihen liittyvä suuri määrä anomalioita eli empiirisiä tapauksia, joita malli ei pysty selittämään tai jotka ovat suorastaan mallin vastaisia. Anomalioita voi löytyä niin aiemmista tutkimuksista kuin nyt arvioitavassa työssäkin.

Toinen epäilyttävä oire on, jos työn lopputulos tai sen soveltaminen uuteen aineistoon tuottaa yllätyksiä.

Useankin tieteen historiassa on silloin tällöin sattunut, että jokin keskeinen teoria on tullut korvatuksi uudella, ja se on silloin romuttanut myös kaikki ne tutkimukset, joissa on nojauduttu vanhaan teoriaan. Tuotteiden tutkimuksessa tällainen tapaus, tosin vähittäisenä, sattui 1800-luvulla, kun Baumgartenin teoria kauneudesta subjektiivisen havaitsemisen prosessina korvasi Platonin vanhan opin kauneudesta esineiden ominaisuutena. Tällaisia niin sanottuja tieteen vallankumouksia toki sattuu niin harvoin, ettei tutkijoiden voida odottaa ottavan niitä lukuun aineistoaan arvioidessaan.

Empiirisen tiedonhankinnan arvioiminen

Tutkimushankkeessa tietojen hankkiminen sisältää tavallisesti kolme eri työvaihetta, joista kutakin on arvioitava erikseen:

Tutkimuksen rajauksen arvioiminen

Aineiston rajaus tulee esille useaan otteeseen niin tutkimushankkeen työssä kuin siitä tehdyssä raportissakin. Tyypillisiä tällaisia kohtia ja tilanteita ovat:

Rajauksen arvioimisessa kaikkein tärkeintä on tarkistaa, että kaikki hankkeen kuluessa tehdyt aineiston rajaukset ovat yhteneväiset tai ainakin ristiriidattomat. Ellei näin ole, hankkeen perustana oleva looginen rakennelma on vaarassa romahtaa.

Rajauksesta voidaan tuskin koskaan sanoa, että se olisi "oikea" tai "väärä" - päinvastoin jokaisella tutkijalla täytyy olla vapaus valita työhönsä se rajaus, jonka hän katsoo hyödylliseksi tai kiinnostavaksi. Mielekäs arviointiperuste on sen sijaan rajauksen järkevyys. Niinpä, jos tutkimuksen tarkoituksena on hyödyttää joitakin ihmisiä, nämä voidaan usein nimetä perusjoukoksi.

Teoreettisessa perustutkimuksessa sen sijaan usein halutaan käyttää mahdollisimman avaraa rajausta. Tällöin perusjoukko esimerkiksi sisältää nykyisten kohteiden ohella myös kaikki aiemmat tapaukset, taikka perusjoukoksi määritellään "kaikki kyseiset kohteet" (koko maailmassa). Tällaiset kovin laajat rajaukset kuitenkin monesti johtavat vaikeuksiin otoksen tai näytteen muodostamisessa taikka tietojen rekisteröimisessä (ks. alempana) mistä koko tutkimuksen uskottavuus sitten saattaa kärsiä.

Näytteen arvioiminen

Näyte Näytteen edustavuus on empiirisen tutkimuksen yleinen Akilleen kantapää. Jos tutkimus on kohdistettu tutkijan valitsemaan näytteeseen jostakin perusjoukosta, ja tutkija haluaa sitten väittää tulosten pätevän myös perusjoukossa, tämän väitteen uskottavuutta on aihetta arvioida.

Tässä arvioinnissa on ennen kaikkea kysymys siitä, poikkeaako näyte perusjoukosta niiden kysymysten osalta, joihin tutkimus kohdistui. Jos tätä ei kyetä suoranaisesti selvittämään, voidaan käyttää hyväksi niitä tietoja, joita tutkijalla ehkä on siitä, missä muissa suhteissa näyte poikkeaa perusjoukosta. Usein voidaan esimerkiksi saada selville, poikkeaako jonkin alueen asukkaista poimitun näytteen ikäjakauma tai sukupuolijakauma alueen koko populaation vastaavasta jakaumasta, joka saadaan julkisista tilastoista. Tämän jälkeen on pohdittava, antavatko nämä poikkeamat aiheen epäillä poikkeamia myös tutkimuksessa tärkeissä asioissa.

Pohdiskelun avuksi saattaa olla hyödyllistä laskea kontingenssi tai korrelaatio tuollaisen populaatiosta poikkeavan tunnusluvun ja tutkimuksessa kiinnostavien muuttujien välillä. Jos korrelaatiota on, näytteen harhaisuus tulee luultavasti värittämään myös siitä saatuja tuloksia.

Toinen tapa harhan selville saamiseen on tutkia uusi, eri menetelmällä valittu näyte samasta perusjoukosta.

Otoksen arvioiminen

OtosJos tutkimus on kohdistettu asianmukaisesti poimittuun otokseen, harhaisuus ei voi aiheuttaa eroa perusjoukon ja otoksen tietojen välille. Hieman eroa voi sen sijaan tulla sattuman johdosta: otokseen voi sattumalta osua vinoutunut joukko, eli liian runsaasti yksilöitä perusjoukon jostakin osasta. Tämän sattuman vaikutus voidaan arvioida todennäköisyyslaskennan avulla, kahdellakin vaihtoehtoisella tavalla:

Luottamusväli. Nimitystä "virhemarginaali" usein käytetään, kun sanomalehdissä kerrotaan kyselyjen tuloksista. Huomattakoon, että lupaavasta nimestään huolimatta se tarkastelee vain otoksen poikkeamista perusjoukosta, aivan samoin kuin kaikki muutkin tilastollista merkitsevyyttä mittaavat menetelmät. Se siis ei ota kantaa tietoja kerättäessä sattuneisiin virheisiin taikka tutkimuskohteessa sen jälkeen tapahtuviin muutoksiin, esimerkiksi siihen, että ihmiset ehkä äänestävät vaaleissa eri tavalla kuin ovat kyselyssä sanoneet.

Kun otoksesta on mitattu tai laskettu jokin tunnusluku kuten keskiarvo tai prosenttiosuus, on tavallisesti mahdollista laskea luottamusväli eli se vaihteluväli, jossa tämä tunnusluku on perusjoukossa tietyllä tutkijan valitsemalla todennäköisyydellä. Jos todennäköisyydeksi valitaan 95 %, se tarkoittaa että on 5 % riski siitä, ettei perusjoukossa tunnusluku olekaan tällä välillä.

Yhden muuttujan tai keskiarvon virhemarginaali eli luottamusvälin puolikas on 5 % riskillä:

Muuttujan luottamusvälin kaava

jossa
s = perusjoukon keskihajonta
n = otoksen suuruus

Kaavakuva alla vasemmalla esittää erään muuttujan vaihtelua perusjoukossa P ja kahdessa otoksessa siitä. Tutkijaa kiinnostaa tämän muuttujan keskiarvo perusjoukossa. Olettaen, ettei tämän perusjoukon hajontakuvio kovin paljon poikkea normaalijakaumasta ja myös perusjoukon määrä on vähintään noin sata, voidaan laskea virhemarginaali (m) joka määrittää keskiarvon luottamusvälin päätepisteet eli pitää sisällään 95 % otoksien keskiarvoista. Otokset R1 ja R2 on piirretty kuvaamaan näitä äärimmäisiä otoksia, ja niiden ulkopuolelle siis jää vielä 5 % otoksista.

Kaksi otostaKaksi perusjoukkoa

Oikeanpuoleisessa kuviossa päättely kulkee vastakkaiseen suuntaan, mikä on tavallisempaa empiirisessä tutkimuksessa. Lähtökohtana on nyt vain yksi otos, ja tarkoitus olisi selvittää sen perusjoukon keskiarvo. Tämän luottamusväli voidaan laskea samalla kaavalla kuin yllä, joskin vaikeutena on, ettei perusjoukon keskihajontaa nyt tunneta. Sen sijaan voidaan kuitenkin ilman suurta virhettä panna otoksen keskihajonta.

Luottamusvälin laskukaava on hieman erilainen eri tunnusluvuille. Prosenttiosuuden luottamusvälin kaava on:

Prosenttiluvun

jossa
p = prosenttiosuus otoksessa, esimerkiksi se osuus asiakkaista, jotka ovat tyytyväisiä tuotteeseen,
n = otoksen suuruus

Molemmissa kaavoissa kerroin, tässä 1,96, riippuu halutusta riskistä, esimerkiksi 1 % riskille se on 2,58 ja 10 % riskille 1,64.

Tilastollisen merkitsevyyden laskeminen. Tämä pohjautuu samaan logiikkaan kuin luottamusväli, mutta erona on se, ettei riskiä pidetä vakiona. Sen sijaan tavoitteeksi otetaan nimenomaan arvioida, miten todennäköisesti otoksesta saadut tulokset pitävät paikkansa koko perusjoukossa. Tämän arvioimiseen käytetään yleensä tilastollisen testauksen metodiikkaa.

Tilastollinen testaaminen lähtee siitä, että otoksesta saadut mittaukset voidaan selittää kahdella vaihtoehtoisella tavalla:

Nyt on mahdollista laskea todennäköisyys sille, että pelkkä sattuma aiheuttaisi jonkin tietyn säännönmukaisuuden otokseen. Jos tämä todennäköisyys on hyvin pieni, esimerkiksi 0,1%, tutkija voi hyvällä syyllä hylätä nollahypoteesin ja hyväksyä tutkimushypoteesin eli uskoa, että hänen tuloksensa todella pätevät myös perusjoukossa. Tällöin sanotaan, että saadut tulokset ovat tilastollisesti merkitseviä.
Jos taas sattuman vaikutuksen todennäköisyys on suurehko, vaikkapa yli 5%, tutkijan ei ole syytä väittää, että hänen tuloksensa pätevät koko perusjoukkoon, vaan hänen on pakko todeta otoksesta saamansa tulokset tilastollisesti ei merkitseviksi.

Usein erotetaan neljä erilaista tulosten merkitsevyystasoa:

Tutkimusraporteissa ilmoitukset merkitsevyydestä monesti lyhennetään siten, että sen tunnusluvun perään, jota testissä on arvioitu, merkitään tähtiä:

Eri maissa on käytössä hieman erilaisia merkitsevyystasojen nimiä, joten varmempi on tutkimusraportissa todeta esim. että "tulos on merkitsevä 5 % tasolla", mikä tarkoittaa, että sen sattumalta syntymisen todennäköisyys on alle 5 %.

Merkitsevyys tarkoittaa samalla sitä riskiä, jolla tutkija tekee hankkeessaan ns. tyypin 1 erheen (hylkäämiserheen) eli virheellisesti hylkää nollahypoteesin ja hyväksyy tutkimushypoteesin, vaikka se todellisuudessa onkin paikkansapitämätön.

Tutkijan ei kannata asettaa merkitsevyyden tavoitetta tarpeettoman korkealle, sillä silloin taas on uhkaamassa ns. tyypin 2 erhe (hyväksymiserhe) jossa tutkija hyväksyy nollahypoteesin ja virheellisesti hylkää tutkimushypoteesin, vaikka se todellisuudessa onkin oikea.

Miten merkitsevään tulokseen tutkimuksessa pitäisi päästä? Sille on vaikea asettaa etukäteen tavoitetta, sillä käytännössä merkitsevyys määräytyy sen mukaan, millaista aineistoa tutkija pystyy saamaan kokoon. Ellei tulosten käyttötarkoitus muuta vaadi, tutkimusraportti usein katsotaan julkisuuteen kelvolliseksi, kunhan edes muutamissa kysymyksissä päästään 5 % merkitsevyyteen.

Tilastollinen testaaminen voi pelastaa tutkijan väittämästä virheellisesti, että jokin otoksesta saatu tulos on voimassa myös perusjoukossa, toisin sanoen se estää tutkijaa tekemästä yllä mainittua "tyypin 1" erhettä. Tosin testaamisenkin jälkeen tutkija saattaa tehdä "tyypin 2" erheen, jolloin hän siis aiheetta hylkää otoksesta saamansa tulokset; mutta käytännössä tyypin 2 erhe on harvoin turmiollinen. Siihen langennut tutkija (joka siis virheellisesti uskoo saaneensa vain ei-merkitseviä tuloksia) näet normaalisti jättää koko tutkimuksen raportoimatta, jolloin virheestä ei myöskään aiheudu sellaista vahinkoa kuin väärien tulosten julkaisemisesta eli tyypin 1 virheestä voisi seurata. Tämän johdosta tutkimuksissa yleensä käytetään enimmäkseen tyypin 1 erheen torjumiseen tähtääviä tilastollisia testejä.

Näinkin rajattuna tilastollisia testejä yhä on kiusallisen monta lajia, melkein jokainen tilastollinen tunnusluku näet vaatii erilaisen testin. Onneksi kaikkien periaate on sama: empiirisestä aineistosta tietyn kaavan mukaisesti laskettua tunnuslukua verrataan siihen arvoon, jonka tuo tunnusluku esimerkiksi 5 % todennäköisyydellä saa pelkän sattuman vaikutuksesta. Tämä arvo saadaan helposti käsikirjoista, joiden taulukoihin on valmiiksi laskettu käytännössä useimmin esiintyvät tunnuslukujen arvot.

Seuraavassa taulukossa on lueteltu muutamia eri tilanteisiin sopivia testejä. Se ei suinkaan sisällä kaikkia valinnassa huomioonotettavia näkökohtia, saati kaikkia mahdollisia testejä. Tutkijan olisi hyvä mahdollisuuksien mukaan neuvotella testin valinnasta ja soveltamisesta tilastomatemaatikon kanssa.

TESTATTAVA AINEISTO: SOVELIAS TESTI:
Jakaumat: khiin neliö -testi
Yhtä muuttujaa kuvaavat tunnusluvut (esim. keskiarvo): t-testi
Kahden tai
useamman
muuttujan
väliset yhteydet
Nominaaliasteikolla mitatut muuttujat: Cochranin Q-testi
Järjestysasteikolla mitatut muuttujat: Wilcoxonin testi
Korrelaatiot (aritmeettinen asteikko): t-testi
Ryhmien eroavuus: Varianssianalyysi

Jäljempänä on lyhyitä esittelyjä muutamista tavallisista tilastollisista testeistä. Tarkemmat laskukaavat ja taulukot löytyvät tilastotieteen käsikirjoista.

Tilastollinen testaaminen on oivallinen apuneuvo määrällisessä tutkimuksessa. Tutkijan ei silti pidä liioitella testin merkitystä. On muistettava, että testi ainoastaan selvittää, millä todennäköisyydellä otoksesta löydetty säännönmukaisuus on voimassa myös perusjoukossa. Mikä tuon perusjoukosta löydetyn säännönmukaisuuden merkitys sitten on tutkijan varsinaisen ongelman kannalta, sitä testi ei kerro.

Khiin neliö -testi

Khiin neliö -testillä (engl. Chi test) arvioidaan otoksen yksilöiden jakautumista luokkiin. Jos jakauma otoksessa on jollakin tavalla erikoinen, khiin neliö -testi ilmoittaa millä todennäköisyydellä tämä erikoisuus on voinut syntyä pelkän sattuman vaikuttaessa.

Testiä voidaan havainnollistaa seuraavan kuvitellun esimerkin avulla. Kromattujen vesijohtokalusteiden valmistaja halusi tietää, onko Saksan markkinoita varten aihetta valmistaa kullattuja kalusteita. Tässä tarkoituksessa hän oli lähettänyt kyselyn satunnaisesti valituille 150 saksalaiselle ja samoin 150 suomalaiselle. Kyselyyn vastasi näistä 200 henkilöä, ja vastaukset (T) jakautuivat seuraavasti:
. Kromattu on parempi Kullattu on parempi Yhteensä
Suomalaiset T = 50 T = 40 90
Saksalaiset T = 50 T = 60 110
Yhteensä 100 100 200


Tässä keksityssä esimerkissä siis enemmistö saksalaisista vastaajista piti kullattuja kalusteita parhaina, suomalaisista taas enemmistö oli kromattujen kannalla. Mutta onko tämä erotus voimassa myös kaikkien saksalaisten ja suomalaisten kohdalla, vai voisiko se olla vain sattuman aiheuttama, olihan vastaajia vain 200? Tällaisen sattuman todennäköisyys saadaan selville khiin neliö -testin avulla.

Testi aloitetaan tutkimalla, miten aineisto todennäköisimmin jakautuisi siinä tapauksessa, että luokkien välillä ei olisi hypoteesin mukaista eroa. Tätä hypoteettista jakaumaa nimitetään vertailujakaumaksi. Esimerkissämme vertailujakauma muodostuisi seuraavaksi (vertailujakauman luokkafrekvenssejä merkitään kirjaimella V):
. Kromattu on parempi Kullattu on parempi Yhteensä
Suomalaiset V = 45 V = 45 90
Saksalaiset V = 55 V = 55 110
Yhteensä 100 100 200

Nyt tarvitaan jokin tunnusluku sille, miten voimakkaasti todellinen jakauma poikkeaa vertailujakaumasta. Tunnuslukuna on khiin neliö. Sen laskukaava on seuraava:

Khiin neliö

Kaavassa kohtaan T sijoitetaan vuoron perään kukin otoksessa todetun jakauman luokkafrekvensseistä, ja kohtaan V vertailujakauman vastaavan luokan suuruus.
Esimerkissä khiin neliö saa seuraavan arvon:
Khiin neliö
= 0,56 + 0,56 + 0,45 + 0,45 = 2,02

Tämän jälkeen on harkittava, miten todennäköisesti otokseen olisi pelkästään sattumalta voinut tulla näin suuri poikkeama vertailujakaumasta.
Tällaisen sattuman todennäköisyys voidaan laskea, ja se on tutkijoiden käsikirjoihin jo valmiiksi laskettukin monille khiin neliön arvoille. Käsikirjojen taulukoista nähdään muun muassa todennäköisyys sille, että neliruutuisesta taulukosta eli nelikentästä laskettu khiin neliö pelkästään sattuman vaikutuksesta nousee arvoon 3,84. Tuo todennäköisyys on 5 %.

Kun kyselyssä khiin neliö ei noussut edes arvoon 3,84, on ilmeistä, että näin pienen arvon (2,02) pelkästään sattumalta syntymisen todennäköisyys on suurempikin kuin 5 %, eli toisin sanoen esimerkissä saadut tulokset ovat ei merkitseviä. Niiden perusteella ei voida väittää yhtään mitään saksalaisten ja suomalaisten mielipiteiden eroavaisuuksista. Testi siis osoitti yksinkertaisella tavalla, että kaksikin sataa henkilöä käsittävän kyselyn näennäisesti merkitsevät tulokset saattavat todellisuudessa olla merkityksettömiä.

Khiin neliöllä voidaan arvioida myös sellaisia aineistoja, jotka jakautuvat nelikenttää useampiin luokkiin. Silloin on kuitenkin huomattava, että mitä moniruutuisempi taulukko on, sitä useampia yhteenlaskettavia on khiin neliön laskukaavassa ja sitä suuremman arvon khiin neliö yleensä saa. Tämä on otettava huomioon silloin, kun khiin neliön saaman arvon merkitsevyyttä arvostellaan.
Asia hoidetaan seuraavalla tavalla. Ensin todetaan jakaumataulukon vaihtoehtojen lukumäärä. Sen mittaamiseen käytetään erityistä tunnuslukua, vapausastetta. Vapausaste eli vapaiden arvojen lukumäärä on yhtä kuin niiden taulukon ruutujen lukumäärä, joiden sisältö on vapaa muista riippumatta muuttumaan silloin, kun yksilöiden kokonaismäärä on muuttumaton.
Esimerkiksi sadan henkilön jakautumisesta kuuteen ikäryhmään tehdyn kuusiruutuisen taulukon vapausaste on 5, sillä viiden ruudun sisältö on vapaa muuttumaan itsenäisesti (kuudes ruutu näet määräytyy niiden perusteella).
2 x 2 -ruutuisen nelikentän vapausaste on edellistä pienempi, sillä jos yhdestä ruudusta siirtyisi yksilöitä mihin tahansa toiseen ruutuun, kaikkien muiden ruutujen sisällöt muuttuisivat sen seurauksena. Niillä ei ole itsenäistä vapautta muuttua. Vain yksi arvo on itsenäisesti vapaa muuttumaan, eli nelikentän vapausaste on 1.

Seuraavassa on eri kokoisten jakaumataulujen vapausasteita:
Taulun koko Vapausaste f
2 x 2 1
2 x 3 2
2 x 4 3
2 x 5 4
3 x 3 4
3 x 4 6


Seuraava taulukko ilmoittaa pienehköille jakaumatauluille ne arvot, joihin khiin neliö nousee pelkästään sattuman vaikutuksesta todennäköisyydellä 5 %, 1 % ja 0,1 %. Laajempia taulukoita on tilastotieteen käsikirjoissa.
Vapausaste Todennäköisyys
f 5 % 1 % 0,1 %
1 3,841 6,635 10,828
2 5,991 9,210 13,816
3 7,815 11,341 16,266
4 9,488 13,277 18,467
5 11,070 15,086 20,515
6 12,592 16,812 22,458

Khiin neliö -testi sopii lähes kaikenlaisten jakaumien tutkimiseen, kunhan jokaisessa vertailujakauman luokassa vain on vähintään viisi yksilöä.

Cochranin Q -testi

(Engl. Cochran Q test.) Testillä voidaan arvioida kahden nominaaliasteikolla (katso Tietojen rekisteröiminen) mitatun muuttujan yhteyttä, erityisesti silloin kun toinen muuttujista on dikotominen eli sillä on vain kaksi mahdollista arvoa.

Esimerkiksi voidaan ottaa tutkimus, jossa vertailtiin neljää erilaisten autonistuimien ja turvavöiden yhdistelmää. 12 koehenkilöä kokeili yhdistelmiä ja esitti niistä arvostelunsa asteikolla: "Turvavyö ei häiritse" = 0; Turvavyö häiritsee" = 1. (Esimerkki on Raimo Nikkasen tutkimuksesta Seat and seat-belt comfort in heavy commercial vehicles in Finland.) Koehenkilöiden A...L antamat arvioinnit ovat seuraavan taulukon riveillä 2...5, lisäksi on taulukkoon laskettu summat kullekin vaihtoehdolle (SV) ja henkilölle (SH) sekä molempien neliöt ja vielä neliöiden summat, joita tarvitaan testin laskukaavassa:
1 Koehenkilö: A B C D E F G H I J K L SV SV2
2 Turvavyö häiritsee istuinjärjestelyssä I: 1 1 1 1 1 1 1 0 0 1 0 0 8 64
3 Turvavyö häiritsee istuinjärjestelyssä II: 1 1 1 1 0 1 1 0 1 1 1 1 10 100
4 Turvavyö häiritsee istuinjärjestelyssä III: 0 0 1 1 0 1 1 0 0 1 0 0 5 25
5 Turvavyö häiritsee istuinjärjestelyssä IV: 0 1 1 1 0 1 1 0 1 1 1 1 9 81
6 Summat henkilöittäin = SH 2 3 4 4 1 4 4 0 2 4 2 2 Yht. S=32 Yht=270
7 Edellisen rivin neliöt = SH2 4 9 16 16 1 16 16 0 4 16 4 4 Yht=106 -


Taulukon luvuista lasketaan seuraavaksi tunnusluku Q, jonka laskukaava on alla:
Q
Kaavassa k = vaihtoehtojen lukumäärä (yllä = 4). Q:n arvo tulee sitä suuremmaksi, mitä selvempi on empiiristen muuttujien välinen yhteys. Pelkän sattuman vaikuttaessa se kohoaa samoihin arvoihin kuin khiin neliö, ks. taulukko, johon Q:n arvoa on seuraavaksi verrattava. Tämän tyyppisen taulukon vapausaste = k-1 eli esimerkissä =3.
Ylläolevassa esimerkissä Q:n arvoksi saatiin 7,63. Khiin neliön taulukosta ilmenee, että tulokset olisivat merkitseviä vasta vähintään khiin neliön arvolla 7,815. Testi täten osoitti, että tässä tutkimuksessa turvavyön eri vaihtoehdoilla oli jonkin verran eroa, mutta tämä ero ei kuitenkaan noussut aivan tilastollisesti merkitseväksi.

Wilcoxonin testi

Wilcoxonin testillä voidaan arvioida parittaisten mittausten merkitsevyyttä, erityisesti kun mittaukset on tehty järjestysasteikolla. Tällainen tilanne on esimerkiksi silloin, kun halutaan testata kumpi kahdesta tuotteesta enemmän miellyttää käyttäjiä, ja käyttäjät ovat antaneet molemmista tuotteista arvionsa sana-asteikolla (joka on luonteeltaan lähinnä järjestysasteikko).

Tutkimuksessa Seat and seat-belt comfort in heavy commercial vehicles in Finland Raimo Nikkanen vertaili kahta erilaista kuorma-auton istuinta. 12 koehenkilöä kokeili molempia istuimia ja arvioi niiden mukavuutta tavanomaisella 7-portaisella sana-asteikolla. Arvioinnit on merkitty seuraavan taulukon riveille 2 ja 3.
Taulukon rivi 5, erotusten itseisarvojen suuruusjärjestys tarkoittaa sitä, että pienin erotus (ottamatta etumerkkiä huomioon) saa tälle riville arvon 1, toiseksi pienin 2 jne. Ne tapaukset, joissa erotus=0, jätetään kokonaan huomiotta. -- Arvo 6,5 johtuu siitä, että järjestyksen kuudennelle ja seitsemännelle sijalle tulevat arvot olivat yhtä suuret (engl. tied) jolloin järjestysluvuksi otettiin 6:n ja 7:n keskiarvo.
Rivi 6, harvinaisemman etumerkin tapaukset tarkoittaa sitä, että riviltä 4 katsotaan, kumpaa etumerkkiä siellä on vähemmän. Tässä esimerkissä vähemmän oli negatiivisia erotuksia. Näistä tapauksista poimitaan riville 6 ainoastaan niiden järjestysluku riviltä 5. Esimerkissä se on = 3.
1 Koehenkilö: A B C D E F G H I J K L
2 Normaali istuin, arvio mukavuudesta: 3 5 5 6 5 5 3 5 4 5 3 3
3 Tärinänvaimennusistuin, arvio mukavuudesta: 2 3 2 2 2 2 2 3 3 2 2 4
4 Kahden ylläolevan erotus: 1 2 3 4 3 3 1 2 1 3 1 -1
5 Erotusten itseisarvojen suuruusjärjestys: 3 6,5 9,5 12 9,5 9,5 3 6,5 3 9,5 3 3
6 Harvinaisemman etumerkin tapaukset: - - - - - - - - - - - 3

Seuraavaksi lasketaan yhteen kaikki riville 6 kertyneet luvut (ilman etumerkkiä). Niiden summasta käytämme nimeä T. Summaksi tulee tässä T = 3.
Tämän jälkeen tarkastellaan käsikirjoista löytyvää Wilcoxonin taulukkoa, jossa N = havaintoparien lukumäärä (tässä 12) ja Tmax = arvo, jota muuttuja T ei saa ylittää, jotta tulokset olisivat merkitseviä 5 % tasolla. Alla on ote taulukosta.
N= 6 7 8 9 10 11 12 13 14 15 16 17 18
Tmax= 1 2 4 6 8 11 14 17 21 25 30 35 40


Tässä tapauksessa empiirinen arvo (3) jäi reilusti alle sallitun arvon (14) joten tulokset eivät voineet aiheutua sattumasta, vaan olivat merkitseviä. Tutkija saattoi tämän perusteella todeta, että tärinänvaimennusistuin arvioitiin merkitsevästi normaali-istuinta mukavammaksi.

t-testi

Sattuman vaikutus voi olla varsin kavala tilastollisissa tunnusluvuissa kuten keskiarvoissa ja korrelaatioissa. Niiden laskukaavat antavat ne aina näennäisesti yhtä täsmällisinä, vaikka pohjana oleva aineisto olisi kuinka hatara.

Neljä havaintoparia Asiaa havainnollistaa kuviteltu esimerkki (oikealla), jossa on koordinaatistoon merkitty neljästä satunnaisesti valitusta TAIK:n opiskelijasta saadut tiedot (punaiset pisteet).

Mitattujen kahden muuttujan välillä näyttää tässä olevan jonkin verran tilastollista yhteyttä, sillä opiskelijat ovat tässä otoksessa sitä painavampia, mitä kauemmin he ovat opiskelleet. Jos tämän tilastollisen yhteyden voimakkuutta halutaan kuvata, voidaan laskea näiden kahden muuttujan korrelaatio. Sen arvoksi tulee 0,956, mikä on korrelaatiolle melko korkea arvo.

Tässä tapauksessa ei kuitenkaan pidä panna paljon painoa korkealle korrelaatiolle, sillä otos on kovin pieni, vain neljä tapausta. On hyvin mahdollista, että aineistossa havaittu säännönmukaisuus on aiheutunut pelkästä sattumasta otosta valittaessa, vaikka muuttujilla ei olisi todellisuudessa koko perusjoukossa (eli kaikkien TAIK:n opiskelijain joukossa) mitään tekemistä toistensa kanssa. Tämä sattuma on sitä luultavampi, mitä pienempi otos on ollut. Tällaisen sattuman todennäköisyys voidaan helposti laskea, ja tilastoanalyysin käsikirjoihin se on jo valmiiksi laskettukin eri suuruisille otoksille.

Jos havaintoja on: ja niistä laskettu korrelaatio on vähintään:
4 paria 0,95 0.99
5 paria 0,88 0,96
7 paria 0,75 0,88
10 paria 0,63 0,77
20 paria 0,44 0,56
40 paria 0,31 0,40
100 paria 0,20 0,26
... ... niin korrelaatio on
melkein merkitsevä.
... niin korrelaatio on
merkitsevä.

Taulu osoittaa, että neljästä havaintojen parista laskettu korrelaatio 0,956 on tilastollisesti vain melkein merkitsevä, eli on lähes 5% todennäköisyys sille, että tällainen korrelaatio saadaan otoksesta vaikka perusjoukossa tällaista korrelaatiota ei ole.

Jos otos on pieni, tarvitaan siis todella korkea korrelaatio, ennen kuin se tulee tilastollisesti merkitseväksi. Suuremmissa otoksissa riittää alempikin korrelaatio. Tutkimuksen käyttötarkoituksesta sitten riippuu, miten korkea merkitsevyys tuloksilta vaaditaan. Merkitsevyyttä voidaan parantaa hankkimalla suurempi otos.

Ylläolevan taulukon käyttö on yksinkertainen esimerkki t-testistä. Korrelaatiokertoimen ohella t-testillä voidaan arvioida eräiden muiden tilastollisten tunnuslukujen, esimerkiksi keskiarvojen, merkitsevyyttä. Useimmissa tapauksissa tunnusluvun t-arvoa ei saada valmiina taulukosta, vaan se on laskettava määrätyn laskukaavan mukaan, joka valitettavasti on erilainen melkein jokaisen tunnusluvun kohdalla.

t-testillä voidaan myös arvioida kahdesta eri otoksesta saatujen tunnuslukujen eron merkitsevyyttä, eli miten luultavaa on, että vastaavat perusjoukot myös vastaavalla tavalla eroavat toisistaan. Testin periaate on aina sama, vaikka laskukaava hieman vaihtelee.
Kun t-testin laskukaava sisältää kerto- ja jakolaskuja, sitä on mielekästä soveltaa vain aritmeettisella asteikolla mitattuihin tuloksiin. Toinen vaatimus t-testin käytölle on se, että otoksen arvojen jakauma ei saa kovin suuresti poiketa normaalijakaumasta.

Varianssianalyysi

Varianssianalyysissa (engl. ANOVA, ANalysis Of VAriance) tarkastellaan vähintään kahta mittaustulosten ryhmää ja pyritään selvittämään, onko näiden ryhmien välillä tilastollisesti merkitsevää eroa. Ryhmien poikkeaminen toisistaan voidaan havaita siitä, että ryhmien välinen varianssi on suurempi kuin keskimääräinen ryhmän sisäinen varianssi.

Analyysi aloitetaan laskemalla kussakin tapausten ryhmässä tuon ryhmän sisäinen varianssi (within-group variance), ja näiden kaikkien varianssien keskiarvo.
Toisaalta lasketaan kunkin tapausten ryhmän keskiarvo, ja näiden keskiarvojen varianssi (between-groups variance).
Lopuksi tarkastellaan ns. F-lukua, joka on äsken mainittujen kahden luvun suhde eli
= (ryhmien keskiarvojen välinen varianssi) / (ryhmien sisäisten varianssien keskiarvo).
F-lukua verrataan taulukoihin, joihin on laskettu sattuman vaikutuksesta eri todennäköisyyksillä syntyviä F-lukuja. Jos tutkijan saama F on näitä lukuja suurempi, tutkittujen ryhmien välillä on kyseisen tilastollisen merkitsevyystason ero.

Empiirisen rekisteröimisen arvioiminen

Tutkijan työ ja tulokset perustuvat empiriasta saatuihin havaintoihin. Nämä ovat usein ulkonaisesti hyvinkin täsmällisen näköisiä väittämiä kuten: "86,3 % asiakkaista oli tyytyväisiä", "Auton paino oli 1550 kg". Kuitenkin näiden väittämien joukossa lähes aina on vääriä tai ainakin hieman virheellisiä tietoja, ja siksi tarvitaan jokin menetelmä empiiristen havaintojen luotettavuuden arvioimiseen.

Aikojen kuluessa tutkijat ovat tulkinneet sanoja "tosi" ja "virhe" eri tavoin, mutta olennaiseksi katsotaan nyt ainakin se, että väitteen tulee olla todellisuuden mukainen. Muinoin pidettiin ehkä tärkeänä myös sitä, onko väite sopusoinnussa esimerkiksi pyhien kirjoitusten tai arvovaltaisten mielipiteiden kanssa, mutta tämä katsotaan nykyisin eri asiaksi.

Väitteen arvioimisen vaikeus johtuu siitä, että väittämä kuuluu teorian maailmaan eikä siihen empiiriseen maailmaan josta väitteessä puhutaan. Näiden kahden maailman välisenä siteenä palvelevat teorian käsitteiden määritelmät, mutta valitettavasti ei aina ole mahdollista löytää täysin validia määritelmää eli siis sellaista, joka rekisteröisi tarkalleen sen asian, jota käsitteessä tarkoitetaan (eikä siis rekisteröisi jotakin toista, lähisukuista asiaa).
Validiteetin lisäksi on ongelmana reliabiliteetti eli toistettavuus. Empirian tutkijan käytettävissä olevissa parhaissakin mittaamisen tai muun rekisteröimisen järjestelyissä on aina virheen mahdollisuus. Toimenpiteen uusimisen avulla voidaan varmuutta tosin lisätä, mutta ei koskaan ehdottomaan varmuuteen asti. Tavallisesti tämän estää jo se, ettei kaikkia mahdollisia tapauksia voida päästä tutkimaan.

Näiden vaikeuksien johdosta tutkijat nykyisin yleensä katsovat, ettei faktuaalisissa eli reaalitieteissä ole mahdollista saavuttaa aivan täydellistä varmuutta minkään väittämän yhtäpitävyydestä empirian kanssa. Muototieteissä kuten matematiikassa sen sijaan voidaan esittää ehdottoman varmoja väittämiä; voidaan esimerkiksi todeta että kolmion kulmien summa on tasan 180 astetta -- mutta tällöin ei puhutakaan mistään empiirisestä kolmiosta. Jos todellinen kolmio mitattaisiin, kulmien summaksi tuskin koskaan tulisi tasan tuo luku.

Empiiristen mittausten tai rekisteröintien täydellisen varmuuden sijasta on siis tyydyttävä jollakin tavalla riittävään varmuuteen. Jotta taas voitaisiin arvostella mikä varmuus on riittävä, tarvitaan varmuudelle tai luotettavuudelle jonkinlainen mittari tai arviointiperuste. Tällaisia onkin yleisesti käytössä, ja ne ovat hieman erilaisia siitä riippuen, onko arvioitava aineisto kvantitatiivista vai kvalitatiivista:

1. Määriä koskevan aineiston eli mittausten luotettavuutta voidaan arvioida hajontalukujen avulla, katso lukua Määrien analysoiminen, sekä myös luvun Tietojen rekisteröiminen kohtaa Virheiden vähentäminen.

2. Laatuja sisältävän aineiston täsmällisyyden ja uskottavuuden arvioimiseksi tutkija voi esittää itselleen mm. seuraavia kysymyksiä:

Grönfors (s.177) katsoo, että laadullisen aineiston uskottavuus riippuu mm. seuraavista asioista:

Toisen käden aineisto, eli tiedot, jotka on saatu sanomalehtiuutisista, ilmoituksista tai yksityisistä asiakirjoista kuten kirjeistä, päiväkirjoista, tilauksista tai kuiteista, voidaan arvioida lähdekritiikin avulla, katso lukua Tiedon hakeminen teksteistä. Sen sijaan tutkijoiden yleisen käytännön mukaan viralliset tilastot sekä tieteellisissä sarjoissa julkaistut tutkimustulokset katsotaan luotettaviksi eikä niitä ole tapana tarkistaa.

Aineiston keräämisen etiikka. Jos keräämisen järjestämiseen tarvitaan tutkijoiden ohella muita ihmisiä, tai eläimiä, näiden tilanne ei saa muodostua liian epämiellyttäväksi. Asiaa käsitellään tarkemmin kohdassa Tutkimuksen etiikka.

Analyysin arvioiminen

Analyysin virheettömyyden arvioiminen on tärkeää erityisesti perustutkimuksessa, sillä siellä on vaikeata arvioida suoranaisesti tutkimushankkeen varsinaista tulosta eli uutta teoriaa. Sen sijaan kehittämishankkeissa monesti käy hyvin päinsä arvioida suoraan hankkeen käytännön tuloksia, ja vain milloin tästä ei saada selkeää arviota on aihetta tarkastella kehittämisessä tehtyjä analyyseja.

Analyysin virheettömyyttä voidaan arvostella esittämällä seuraavia kysymyksiä:

Teoreettisten tulosten arvioiminen

Teoreettiset tulokset, eli tutkimuksen hyödyllisyys sen oman tieteenalan kannalta, ovat tärkeitä etenkin toteavassa tutkimuksessa, ja jossakin määrin myös ohjaavassa tutkimuksessa. Hyödyllisyys teorian kehitykselle perustuu yleensä yhteen tai useampaan seuraavista:

  1. Teorian laajentuminen sellaiselle alueelle, josta tieteenalalla ei ennestään ole tarpeeksi tietoa, on ehkä tavallisin tutkimushankkeen anti. Nykyaikaisten tieteenalojen edistymisessä on useimmiten kysymys juuri tästä, ns. normaalitieteen kehityksestä.
  2. Teorian yhtenäisyyden paraneminen tarkoittaa sitä, että osoitetaan ennestään tunnettujen, erillisiksi luultujen ilmiöiden keskinäiset yhteydet tai ne yhdistävä yleinen sääntö. Tämä tapaus on harvinaisempi kuin edellinen, mutta saattaa paljonkin edistää tieteenalan kehitystä.
  3. Aikaisemman teorian virheen korjaaminen ei myöskään ole aivan jokapäiväinen tapaus millään tieteenalalla, ja milloin sellainen sattuu se varmasti herättää huomiota. Saattaapa joskus (aniharvoin) asiasta sukeutua perinpohjainenkin uudistus tieteenalan teoriaan, ns. tieteen vallankumous.

Nyt tutkijan kannattaa ensinnäkin panna merkille, ettei yksikään edellä mainituista tieteellisistä hyödyistä ole mahdollinen, ellei tutkimus varsin kiinteästi liity tieteenalalla aikaisemmin tehtyihin tutkimuksiin. Liittymisen aikaisempiin tutkimuksiin puolestaan turvaa se, että empiiriset kohteet ja käsitteet on määritelty eri hankkeissa mahdollisimman identtisesti. Toisin sanoen: jokaisen tutkijan pitäisi käyttää tieteenalalla aiemmin käytettyjä määritelmiä aina kun niitä on saatavissa, sen sijasta että hän laatisi omatekoisia uusia määritelmiä. Tällöin on raportin lukijan (ja raportin kirjoittajan itsensäkin) helppoa todeta ovatko raportissa esitetyt uudet tulokset yhteensopivia eli koherentteja alan aikaisemman teorian kanssa vai niiden kanssa ristiriidassa. Koherenssi ei toki ole itseisarvo sinänsä, vaan se ainoastaan kertoo, että tutkimus edustaa ylläolevan listan tyyppiä 1 tai 2, eli se joko laajentaa taikka yhtenäistää alan teoriaa.

Koherenssin puute eli ristiriita aikaisempien tutkimusten kanssa puolestaan indikoi virhettä joko aikaisemmissa töissä taikka uudessa tutkimuksessa. Tutkijan, joka huomaa joutuneensa tähän tilanteeseen, on tällöin aihetta moneen kertaan tarkistaa omat tuloksensa ja sitten varautua puolustamaan niitä ehkä ankaraakin arvostelua vastaan. Useimpien tieteenalojen vaikutusvaltaiset auktoriteetit näet yleensä arvostavat korkealle tieteenalalla ennestään sovelletun teorian siitä huolimatta, että he ehkä tietävät siinä piilevän joitakin heikkoja kohtia. Richard Milton on kirjassa Forbidden Science (1994) kertonut varsin vaikuttavia esimerkkejä tästä ilmiöstä, joka kylläkin perustuu ihmisen luonnollisiin psykososiaalisiin toimintamalleihin. Niitä ei tieteellisessä yhteisössä voida estää enempää kuin muuallakaan. Asiaa on selvitellyt myös Pierre Bourdieu kirjassa Homo Academicus (1988).

Vaikka tieteen historiasta löytyy muutamia ikäviä tapauksia, joissa rohkea hypoteesi (kuten Galilein) on väärin tuomittu, on jonkinlainen järjestely julkaistujen tutkimustulosten tarkastamiseksi välttämätön joka tieteenalalla. Tutkijoiden työn tehokkuuden kannalta on perin tärkeätä, että eri tutkijat voivat luottaa toistensa tekemään työhön; jos kaikki aiempien tutkijoiden saamat tulokset pitäisi yhä uudelleen tarkistaa, kaikki aika kuluisi siihen. Kaikkiin nykyaikaisiin tieteisiin kuuluukin kohtalaisen tehokas järjestelmä, joka huolehtii alalla saatujen ja julkaistujen tutkimustulosten arvioimisesta ja virheellisten tulosten karsimisesta. Siinä sovellettuja tyypillisiä menettelyjä ovat mm. seuraavat:

Useimmiten jonkin tietyn julkaistun tutkimustuloksen merkitys tieteenalalle kasvaa vähitellen, kun eri tutkijat tulevat soveltaneeksi sitä omissa tutkimushankkeissaan uusilla tavoilla ja uuden havaintoaineiston valossa, tai kun sitä onnistuneesti sovelletaan käytäntöön. Ellei näissä soveltamistilanteissa synny ongelmia, yhä suurempi osa tieteenalalla toimivista tutkijoista alkaa katsoa ko. tulokset tieteenalan "vakiintuneeksi teoriaksi". Saavutetaan siis konsensus eli yleinen hyväksyntä. Tätä yleistä käytäntöä on Karl Popper (Logic of scientific discovery, 111) kuvannut seuraavasti:

"Tiedettä ei rakenneta kalliopohjalle. Sen teoriain uskalias rakennelma pikemminkin muistuttaa suolle paalujen varaan pystytettävää, laajenevaa rakennusta. Paaluja ei voida perustaa mihinkään luonnolliseen tai 'annettuun' pohjaan; ja kun luovumme lyömästä paalujamme syvemmälle, emme tee sitä siksi, että olisimme nyt lujalla pohjalla, vaan yksinkertaisesti siksi, että arvelemme niiden nyt pystyvän kantamaan koko rakennelman, ainakin toistaiseksi." (Alkuteksti.)

Kuten ylläolevasta nähdään, kunkin tutkimushankkeen teoreettiset tulokset arvioidaan lopullisesti muiden kuin tutkijan itsensä toimesta. Tutkija puolestaan voi koettaa tehdä työnsä niin, että se aikanaan tulee tässä arvioinnissa menestymään.

Käytännön seurausten arvioiminen

Vaikka toteava tutkimus ei määritelmänsä mukaan teekään ehdotuksia tai toimia käytännön asioiden parantamiseksi siten kuin ohjaava tutkimus, se kuitenkin usein tähtää tietojen hankkimiseen jotakin käytännön tarkoitusta varten.

Tutkimushankkeen käytännön tuloksia arvioidaan normaalisti vertaamalla niitä hankkeen alkuperäisiin tavoitteisiin. Näiden lisäksi on hankkeen kuluessa saattanut tulla esiin muitakin, arvaamattomia alueita, joissa tuloksia voidaan ajatella sovellettavaksi. Joka tapauksessa raportin viimeinen luku on oikea paikka tutkijan arvioida hankkeen kaikkia mahdollisia hyötyjä (ja haittojakin, jos on). Hyötyjen suuren vaihtelevuuden vuoksi on vaikeata nimetä tälle työlle sopivaa metodia tai antaa muistilistoja, mutta joitakin ideoita sitä varten saattaa löytyä sivuilta Ehdotusten arvioiminen taikka Tulosten soveltamisen etiikka.

  In English   En Español   Sisällystauluun

3.8.2007.
Kommentit kirjoittajalle:

Alkuperäinen sijainti: http://www2.uiah.fi/projects/metodi