Määrien analysoiminen

  1. Erillisten muuttujien analysoiminen
  2. Muuttujien välisten suhteiden analysoiminen
  In English   En Español   Sisällysluettelosivulle

Jokainen tutkimushanke pyrkii poimimaan tutkimuskohteesta esiin hankkeen kysymyksenasettelussa määriteltyjä asioita. Jotta nämä asiat saataisiin mahdollisimman selvästi näkyviin tutkijan kokoamassa aineistossa ja sitten myös tuloksissa, olisi hyödyllistä jollakin tavalla vähentää aineistoon sisältyvää muuta, häiritsevää tietoutta. Siksi analyysin alkuvaiheena tehdään usein pari valmistelevaa toimenpidettä aineistolle:

Itse analyysissa tavoitteena yleensä on jonkin kiinnostavan rakenteen eli invarianssin löytäminen aineistosta. Tämä kuitenkin voi tuskin kohtaan tapahtua niin, että aineisto syötettäisiin tietokoneeseen ja kone sitten ilmoittaisi löytyneet rakenteet. Tietokoneet eivät ole tähän kyllin älykkäitä.

Tavallisempi menetelmä on se, että jo hankkeen alkuvaiheessa tutkijalla on ajatus siitä matemaattisen mallin muodosta, johon hän sitten yrittää sovitella aineiston. Tästä mallista myös saadaan hankkeessa mahdollisesti käytettävät hypoteesit, tai ainakin se alustava työhypoteesi, jota analyysin kuluessa sitten täsmennetään.

Tutkija toisin sanoen ensiksi järjestää aineiston mallin mukaiseen järjestykseen ja sitten arvioi, antaako malli nyt todenmukaisen kuvan aineistosta, vai onko vielä etsittävä toista, parempaa mallia.

Analyysin menetelmät täten määräytyvät tutkijan työnsä alussa valitseman mallin mukaan. Tärkein kysymys metodin valinnassa on, halutaanko analysoida erillisiä muuttujia vai kahden tai useamman muuttujan välisiä suhteita? Taikka kiinnostavatko muuttujat vain siksi, että niiden avulla voidaan luokitella tai lajitella tapauksia? Viimeksimainittuja menetelmiä käsitellään luvussa Luokittelu.

Toinen tärkeä kysymys koskee tutkimushankkeen lopullista päämäärää. Onko se tyypiltään "toteava", jolloin halutaan selvittää millainen tutkimuskohteen tila on (tai on ollut); vai halutaanko selvittää millainen kohteen pitäisi olla ja ehkä sitten myös vaikuttaa siihen. Viimeksimainittua "normatiivista" analyysin lajia käsitellään kohdassa Ohjaavan näkökulman lisääminen toteavaan analyysiin.

Erillisten muuttujien analysoiminen

Seuraavassa on lueteltu muutamia tilastoanalyysin menetelmiä, joilla analysoidaan muuttujan vaihtelua erillisenä eli ottamatta huomioon sen mahdollista kytkeytymistä muihin kohteesta ehkä mitattuihin muuttujiin. Ne on järjestetty sen mukaan, minkä tyyppisellä asteikolla muuttuja on mitattu.

- Laatueroasteikot Järjestysasteikot Välimatka-asteikot Suhdelukuasteikot
Käyttökelpoisia aineiston esitystapoja: - - - - - - - - - - luokitteleminen ; graafinen esittäminen - - - - - - - - - -
Käyttökelpoisia keskilukuja: - - - - - - - - - - moodi - - - - - - - - - -
- - - - - - - - - mediaani - - - - - - - -
- - - - - - aritmeettinen keskiarvo - - - -
Käyttökelpoisia hajontalukuja: - - - - - - - - - kvartiilipoikkeama - - - - - - - -
- - - - - - - - - - vaihteluväli - - - - - - - - - -
- - - - - - - - - keskihajonta - - - - - - -

Yhden muuttujan graafinen esittäminen

Histogrammi Yksinkertainen ja havainnollinen kuva muuttujan arvojen jakautumisesta saadaan merkitsemällä kukin arvo lukusuoralle pisteenä; jos arvoja on paljon, kuviota ehkä selventää, jos arvot ensin jaetaan luokkiin.
Arvojen luku kussakin luokassa eli frekvenssi voidaan sitten esittää pylväsdiagrammina eli histogrammina (kuva oik.):

Normaalijakauma Kyselytutkimuksissa (ja usein muutoinkin ihmisiä tutkittaessa) saatujen arvojen jakauma usein (mutta ei suinkaan aina) lähenee ns. Gaussin käyrää eli kellokäyrää (kuva vas).
Tästä jakaumasta käytetään nimeä normaalijakauma. Sille on ominaista, että enintään keskihajonnan etäisyydellä keskiarvosta (kuvassa: M) on aina 68,26 % tapauksista, ja enintään kahden keskihajonnan etäisyydellä on 95,44 % tapauksista.

PiirakkakuvioToisinaan halutaan korostaa ei niinkään muuttujan absoluuttisia arvoja vaan arvojen suhteellista eli prosenttista jakaumaa. Tähän sopiva esitystapa on ympyrädiagrammi (eli piirakkakuvio, oik.):

Keskiluvut

Useissa tapauksissa muuttujan arvojen vaihtelu on tutkimuksen kannalta mielenkiinnotonta, jopa haitallista. Vaihtelu voidaan helposti eliminoida tiivistämällä koko aineisto yhdeksi ainoaksi luvuksi, keskiluvuksi (engl. average), joka useimmiten on jokin seuraavista:

Moodi eli tyyppiarvo on se muuttujan arvo, joita on aineistossa eniten.

Mediaani on se muuttujan arvo, jota pienempiä ja suurempia arvoja on yhtä monta. Mediaani siis katkaisee suuruusjärjestykseen pannun aineiston kahteen yhtä lukuisaan osaan.
Mainittakoon tässä samalla, että ne muuttujan arvot, jotka katkaisevat suuruusjärjestykseen pannun jakauman neljään yhtä lukuisaan osaan, ovat nimeltään kvartiilit.

(Aritmeettinen) keskiarvo (engl. mean) on muuttujan arvojen summa jaettuna niiden lukumäärällä. Sen symbolina käytetään muuttujan symbolia, jonka yläpuolella on viiva, esimerkiksi muuttujan x keskiarvo on

Keskiarvo

Yleensä tutkija voi valita tunnusluvuksi yllä esitetyistä sen keskiluvun, joka luontevimmin kuvaa muuttujan tyypillistä arvoa. Aritmeettinen keskiarvo on suosituin, mutta se voi antaa väärän kuvan esimerkiksi aineistosta, johon kuuluu yksi suuresti muista poikkeava arvo. Samoin käy, jos jakauma on vino (engl. skewed), kuten kuvassa alla.

Vino jakauma Esimerkiksi kuvassa oikealla on luetteloitu ne minuuttimäärät, jotka eri koehenkilöt käyttivät erään tehtävän suorittamiseen. Nopeimmat selvisivät 5 minuutissa, mutta useimmat (=moodi) tekivät työn 7 minuutissa. Kuvaan on punaisella M-kirjaimella merkitty arvoista keskimmäinen, eli mediaani, joka on suuruudeltaan 11 minuuttia. Kun kuitenkin hitaimman koehenkilön suoritus kesti peräti 34 minuuttia, keskiarvo kohosi 11,98 minuuttiin, mikä ei tässä tapauksessa anna kovinkaan osuvaa kuvaa keskimääräisestä suorituksesta. Tästä havaitaankin, että vinoissa jakaumissa keskiluvun valitseminen vaatii harkintaa. Graafinen esitys on havainnollisempi.
Kuvan jakauma on positiivisesti vino, arvot näet siinä kasaantuvat asteikon pienempään päähän. Vinoudelle löytyy tarvittaessa myös tunnusluku.

Keskiluvun valinnassa on otettava huomioon muuttujan mittaamisessa käytetyn asteikon tyyppi (katso lukua Tietojen rekisteröiminen). Luokitus- eli laatueroasteikolla mitatun muuttujan arvojen keskiluvuksi soveltuu näet ainoastaan moodi, ja järjestysasteikolla ainoastaan joko moodi tai mediaani.

Jos keskiluku on laskettu otoksesta, on lopuksi muistettava myös testata sen tilastollinen merkitsevyys. Tähän sopiva testi on t-testi (selostetaan luvussa Tietojen arvioiminen).

Hajontaluvut

Keskiluvun ohella usein tarvitaan tunnuslukua, joka ilmoittaisi, miten laajalti aineisto hajaantuu keskiluvun molemmin puolin. Tämän tiedon antaa sopiva hajontaluku.

Keskihajonta

Jos kuitenkin keskihajonta lasketaan otoksesta, keskihajonnan symbolina käytetään kirjainta s, ja laskukaava on hieman erilainen:

Otoksen keskihajonta

Molemmissa kaavoissa n on arvojen lukumäärä ja kohtaan x sijoitetaan vuoronperään kukin muuttujan arvoista. Laskutoimitusta tuskin monikaan tutkija viitsii tehdä, sillä tarvittava algoritmi löytyy jo taskulaskimistakin.

Keskihajonnan neliö on nimeltään varianssi, ja myös sitä usein käytetään hajonnan kuvaamiseen ja etenkin sen tilastollisen merkitsevyyden analysoimiseen.

Jos hajontaluku on laskettu otoksesta, on lopuksi muistettava myös testata sen tilastollinen merkitsevyys. Tähän sopiva testi on t-testi (selostetaan luvussa Tietojen arvioiminen).

Muuttujien välisten suhteiden analysoiminen

Jos kaksi muuttujaa vaihtelee toisiaan jossakin määrin seuraten, sanomme että muuttujilla on kovariaatiota, yhteisvaihtelua, eli muuttujien välillä on assosiaatiota. Esimerkiksi ihmisten pituus ja paino ovat tilastollisesti assosioituneita: vaikka yhdenkään ihmisen paino ei johdu hänen pituudestaan eikä hänen pituutensa aiheudu painosta, niin kuitenkin tavallisesti pitkät ihmiset ovat painavampia kuin lyhyet. Toisaalta aineistossa yleensä on myös poikkeuksia, eli tilastollinen assosiaatio on luonteeltaan stokastinen.

Tilastotiede tarjoaa lukuisia menetelmiä kahden tai useamman muuttujan välisten assosiaatioiden paljastamiseen ja esittämiseen. Yksinkertaisimpia ovat aineiston taulukointi ja graafinen esittäminen. Assosiaation voimakkuutta voidaan myös mitata tunnusluvuin, joita ovat kontingenssi ja korrelaatio.

Jos aineistoa analysoimalla siinä on havaittu kahden muuttujan välinen yhteys, tutkija usein haluaisi tietää mistä empiirisen maailman vaikutustekijästä tämä yhteys aiheutuu. Hän toisin sanoen haluaa selittää tämän yhteyden. Tavallisia selittämisen tyyppejä luetellaan kohdassa Kuvaaminen ja selittäminen. Yleensä selityksessä siis ilmoitetaan tutkittavan ilmiön syy. Jos tästä ilmiöstä on tehty useita mittauksia, tavallisesti yksi mittausten sarja kohdistuu oletettuun syyhyn. Tästä sarjasta tutkijoilla on tapana käyttää nimeä selittäjä eli riippumaton muuttuja (independent variable). Lisäksi on tavallisesti mitattu myös oletettua seurausta, ja tätä sarjaa sanotaan selitettäväksi eli riippuvaksi muuttujaksi.

Huomattakoon, että mikään tilastoanalyysin menetelmä ei kykene osoittamaan assosiaation syytä, eipä edes sitä, kumpi muuttuja olisi syy ja kumpi seuraus. Onkin hyvä pitää mielessä, että kahden muuttujan välinen assosiaatio voi johtua peräti neljästä vaihtoehtoisesta syystä:

Tutkijan on itse valittava näistä jokin vaihtoehto. Mitkään tilastoanalyysin keinot eivät ulotu osoittamaan yhteyden selitystä. Se on tutkijan haettava omaksumastaan teoriasta tai pääteltävä talonpoikaisjärjellä.

Seuraavassa on lueteltu muutamia tilastoanalyysin menetelmiä, joilla selvitetään kahden tai useamman muuttujan välisiä yhteyksiä. Ne on järjestetty sen mukaan, mitä mittauksen asteikkolajia muuttujat lähinnä vastaavat.

Analyysin tavoite Laatuero-
asteikot
Järjestys-
asteikot
Välimatka-
asteikot
Suhde-
asteikot
Aineiston ja summittaisesti sen rakenteen esittely: Taulukointi ; graafinen esittäminen
Kahden muuttujan assosiaation voimakkuuden mittaaminen: Kontingenssikerroin
- Järjestyskorrelaatio
- - Tulomomenttikorrelaatio
Assosioivien muuttujien poimiminen useiden muuttujien joukosta: Parittaisten kontingenssien tai korrelaatioiden laskeminen kaikista muuttujista; Faktorianalyysi
Tilastollisen assosiaation pukeminen yhtälön muotoon: - - Regressioanalyysi

Taulukointi

Kahden tai hieman useammankin muuttujan yhteinen vaihtelu voidaan helposti esittää ristiintaulukoimalla (crosstabulation). Taulukon etuna on, että siihen mahtuu suurikin aineisto ja tarkat arvot säilyvät. Taulukko voi auttaa etsittäessä alustavasti aineistossa piileviä assosiaatioita muuttujien välillä, eli seuraako yhden muuttujan vaihtelu jollakin tavoin toisen muuttujan vaihtelua. Assosiaation tarkempi muoto on sitten haettava jollakin jäljempänä esitettävistä analyysimenetelmistä.

Taulukointiin vakiintuneita esitystapoja selostetaan sivulla Luokittelu.

Muuttujien graafinen esittäminen

Tuotteita ja esineitä kuvataan tutkimuksessa useinkin piirroksin, jotka jo sinänsä ovat eräänlaisia graafisia esityksiä.
Taloja Usein tutkija haluaa tuoda esille jonkin yleisen piirteen, jonka hän on löytänyt useissa tai kaikissa tutkituissa kohteissa. Tämä voidaan monesti esittää sijoittamalla päällekkäin useita piirroksia. Esimerkiksi kuvasta vasemmalla käy ilmi, että Härnösandin vanhoissa rakennuksissa toistuu sama leveyden ja korkeuden suhde (paksu vinoviiva, Sture Balgårdin tutkimuksesta).

Toisaalta on tilanteita, joissa kohteen ulkonäöllä ei ole väliä, ja tutkija haluaa vain näyttää graafisesti mittaustensa tulokset sekä eri muuttujien väliset yhteydet. Tällöin sopivimman graafisen esitystavan valintaan vaikuttavat muuttujien lukumäärä ja niiden asteikkotyypit, ja ovatko muuttujat jatkuvia.
Ennen muuta tutkijan on ratkaistava, mitä hän haluaa aineistostaan näyttää. Tietenkin on sallittua esittää vain tosia tietoja, mutta mitä niistä korostetaan, sen tutkija saa itse päättää.
Eräs ensimmäisistä kysymyksistä on, onko näytettävä erikseen jokainen havainto vai pikemminkin jokin sääntö, jota havainnot noudattavat.

Pisteitä koordinaatistossa Kaikki havainnot on mahdollista näyttää erillisinä pisteinä koordinaatistossa, jos muuttujia ei ole kahta enempää. Vielä kolmaskin muuttuja ehkä voidaan kuvata esittämällä piste eri väreillä tai symboleilla. Kuvassa oikealla muuttujan z kahta arvoa kuvaavat plusmerkki ja neliö.

Harvoin tutkijaa niinkään kiinnostavat yksittäiset arvoparit, vaan enemmänkin muuttujien vaihtelun säännönmukaisuus. Jo silmämääräinen tarkastelu paljastaa ylläolevassa kuvassa säännönmukaisuuksia, esimerkiksi muuttujan x kasvaessa muuttuja y näyttää lievästi kasvavan. Tällaisten yhteyksien tarkastelua voidaan sitten jatkaa jäljempänä esitettävillä tilastollisen analyysin menetelmillä, esimerkiksi laskemalla muuttujien väliset korrelaatiot.

Muuttujien vaihtelua voidaan korostaa siten, että yhtä tai molempia asteikkoja typistetään eli niistä leikataan pois epäkiinnostava osa, eli se osuus, joka ei sisällä arvoja. Jotta lukija varmasti huomaisi typistämisen, se on hyvä näyttää myös diagrammin pohjaviivastossa.

Histogrammi Jos suhdeasteikolla mitattu muuttuja vaihtelee erityisen laajoissa rajoissa, sille voidaan antaa logaritminen asteikko (esimerkkinä pylväsdiagrammi, vasemmalla).

Jos havaintoja ei ole liikaa, monesti sopiva esitystapa löytyy erilaisista diagrammeista. Edellä yhden muuttujan esittämiseen käytettyä pylväsdiagrammia voidaan soveltaa kolmen, jopa neljänkin muuttujan esittämiseen, jolloin avuksi voidaan ottaa pylväiden leveydet, niiden rasteroinnit, värit ja kolmiulotteisuus (kuva vas.). Pelkästään koristeellisuuden vuoksi ei pitäisi valita kolmiulotteista esitystapaa.

Käyrä voi soveltua arvoparien esittämiseen, kun muuttujat ovat jatkuvia ja kutakin x-arvoa vastaa vain yksi y-arvo.
Käyränä ei pitäisi esittää arvoja, jotka todellisuudessa eivät muodosta muuttujaa. Esimerkiksi jonkin esineen tai kohteen eri ominaisuudet eivät ole saman muuttujan arvoja. Useinhan kootaan ihmisten arvioita jostakin kohteesta esittämällä kyselylomakkeessa sana-asteikkoja esimerkiksi seuraavasti:
Arvioi oman työhuoneesi ominaisuuksia.
Merkitse yksi rasti kullekin riville
valoisa _ _ _ _ _ _ _ pimeä
meluisa _ _ _ _ _ _ _ hiljainen
puhdas _ _ _ _ _ _ _ likainen
suuri _ _ _ _ _ _ _ pieni

Muuttujista koottu profiili Tällöin jokainen adjektiivipari tuottaa oman erillisen muuttujan, joita ei pitäisi yhdistää yhdeksi "profiiliksi" siten kuin kuvassa (vasemmalla), kuten tosin tutkimusraporteissa toisinaan nähdään tehtävän.

Jos kuitenkin halutaan tuoda esiin, että muuttujat jollakin tavalla kuuluvat yhteen, ratkaisuna voisi olla vaikkapa pylväistä koottu diagrammiryhmä (oik.):
Erillisiä muuttujia Jos tutkija todella haluaa selvittää miten läheisesti eri adjektiivit mittaavat samaa asiaa, metodi tähän on faktorianalyysi.

Pylväsdiagrammin kuviointi usein valitaan niin, että se symbolisoi yhtä muuttujista. Esimerkiksi autojen myynnin määrää kuvaavat pylväät muodostetaan pinoamalla päällekkäin tai peräkkäin autojen kuvia. Tämä on asiallinen menettelytapa, mutta sensijaan pylväsdiagrammissa käytetyn symbolikuvion kokoa ei pitäisi varioida, sillä sen tulkinta olisi lukijalle vaikeaa (kuvaako myynnin määrää autokuvion pituus, pinta-ala vai sen näennäinen tilavuus?).

Kaikkia diagrammeja voidaan yhdistellä karttojen ja muiden topologisten esitysten kanssa. Esimerkiksi jonkin suureen vaihtelu maan eri lääneissä usein näytetään kartogrammina siten, että eri alueet täytetään erilaisin värein tai rasterein. Toinen tapa on "karttapiktogrammi", jossa kartalle on sijoiteltu pieniä ympyrä- tai pylväsdiagrammeja. Eri alueiden välisiä yhteyksiä taas usein kuvataan nuolilla, joiden vahvuus ilmoittaa yhteyksien määrän.

Kontingenssi ja korrelaatio

Kahden muuttujan välisen yhteyden voimakkuus voidaan taulukoinnin sekä graafisen esityksen ohella näyttää myös tunnusluvuilla. Tunnusluvun valinta riippuu siitä, minkä tyyppisillä asteikoilla muuttujat on mitattu (katso taulua edellä).

Näiden tunnuslukujen laskukaavoja ei esitetä tässä, sillä laskut ovat työläitä ja tutkija yleensä tekee ne tietokoneella.

(Tulomomentti)korrelaatio, josta käytetään lyhennettä r, kuvaa sitä, miten tarkoin kahden muuttujan välinen tilastollinen yhteys muistuttaa lineaarista riippuvuutta y = ax + b. Jos muuttujien arvot vastaavat yhtälöä aivan tarkoin, korrelaatiokertoimen arvoksi tulee tasan +1 tai -1. Jos sen sijaan r on lähellä nollaa, eli muuttujat eivät mainittavasti korreloi, se merkitsee sitä, että muuttujilla ei ole ainakaan lineaaria riippuvuutta toisistaan. - Korrelaatiokertoimen etumerkillä ei ole väliä, se näet tulee aina samaksi kuin yhtälön kertoimen a etumerkki.

Alla nähdään kolme erilaista aineistoa, joista jokaisessa on kahdesta muuttujasta kootut kahdeksan arvoparia. Jokaisesta aineistosta on myös laskettu siinä vallitseva korrelaatio noiden kahden muuttujan välillä. Ensimmäisessä aineistossa muuttujien välillä ei ole korrelaatiota ja kahdessa muussa korrelaatiot ovat 0,5 ja 1,0.

Vaikka korrelaatiot samoin kuin kontingenssikerroin sellaisenaan kuvaavat vain kahden muuttujan välistä yhteyttä, niitä sopii hyvin käyttää myös useita muuttujia käsittävän aineiston tarkasteluun. Tietokone laskee helposti suurestakin muuttujien joukosta kontingenssi- tai korrelaatiomatriisin, josta nähdään jokaisen mahdollisen muuttujaparin välinen korrelaatio. Tämän jälkeen voidaan sitten jatkaa eniten toisiinsa liittyvien muuttujien analysoimista muilla menetelmillä.

Korrelaatioanalyysin eräänä heikkoutena on, ettei se havaitse muuttujien välillä muita kuin lineaareja riippuvuuksia. Esimerkiksi toisen asteen riippuvuus muotoa y = ax2 jäisi siltä huomaamatta. Joitakin uudehkoja tilastoanalyysin tietokoneohjelmia on tosin tässä suhteessa parannettu. Joka tapauksessa tutkija voi aina yrittää hakea korrelaatiomatriisissa näkymättömiä muuttujien yhteyksiä seuraavilla tavoilla:

Jos joidenkin kahden muuttujan korrelaatio (tai kontingenssi) osoittautuu korkeaksi, tutkija voi jatkaa niiden tarkastelua esimerkiksi seuraavasti:

Jos korrelaatio on laskettu otoksesta, on lopuksi muistettava myös testata sen tilastollinen merkitsevyys. Tähän soveltuu t-testi (selostetaan luvussa Tietojen arvioiminen).

Regressioanalyysi

Monesti tutkijalla on syytä uskoa, että jokin tietty muuttuja riippuu kausaalisesti yhdestä tai useammasta muusta muuttujasta. Tämä uskomus voi perustua alan vakiintuneeseen teoriaan taikka tavalliseen arkikokemukseen asioiden syistä. Jos tutkija tällöin haluaa ilmaista algebrallisena yhtälönä sen riippuvuussuhteen, jonka mukaisesti seuraus eli selitettävä aineiston mukaan näyttää riippuvan syystä eli selittäjästä, tutkimusmetodiksi soveltuu regressioanalyysi.

RegressiosuoraKlassisessa regressioanalyysissa etsitään sitä ensimmäisen asteen yhtälöä, joka mahdollisimman hyvin kuvaa muuttujista saatuja empiirisiä havaintopareja. Esimerkiksi kuvassa oikealla neljä pistettä kuvaavat havaintoja, joista jokaisesta on mitattu kaksi muuttujaa. Suora esittää regressioanalyysin kautta saatua yhtälöä y = 8x + 45, joka poikkeaa mahdollisimman vähän näistä havainnoista, tarkemmin sanoen näiden poikkeamien neliöiden summa minimoituu. Tästä syystä regressioanalyysin algoritmia nimitetään "pienimmän neliösumman" menetelmäksi.

Kuva sisältää vain neljä havaintoa, mikä on aivan liian vähän uskottavan yhtälön aikaansaamiseksi, sillä havainnot ovat hyvin voineet syntyä pelkän sattuman vaikutuksesta ilman mitään muuttujien välistä riippuvuutta. Jos tarvitaan uskottavia eli "tilastollisesti merkitseviä" tuloksia, tarvitaan paljon enemmän havaintoja, ehkä noin 40 kerrottuna selittävien muuttujien lukumäärällä.

Regressioanalyysilla voidaan hakea myös yhtälöä, jossa selittäviä muuttujia on enemmän kuin yksi. Analyysi antaa parametreille ja vakiolle ne arvot, joilla yhtälö poikkeaa mahdollisimman vähän selitettävän yksittäisistä empiirisistä arvoista. Analyysin laskukaava siis antaa tulokseksi yhtälön

y = a1x1 + a2x2 + a3x3 + ... + b

jossa
y = selitettävä
x1 , x2 jne = selittäjiä
a1 , a2 jne = parametreja
b = vakio.

Jos nyt ylläolevaan yhtälöön sijoitetaan jonkin yksittäistapauksen arvot, yhtälöä on vielä täydennettävä jäännöstermillä j, joka siis sisältää sen yksittäistapausten vaihtelun, jota yhtälö ei kykene selittämään. Havaintojen yksittäistapaukset siis noudattavat kaavaa:

y = a1x1 + a2x2 + a3x3 + ... + b + j

Epäkohtana regressioanalyysin laskukaavassa on, että se pystyy käsittelemään vain ensimmäisen asteen riippuvuuksia eikä esimerkiksi sellaista tavallista yhtälön muotoa kuin y = ax2 + bx + c. Tämä vaikeus voidaan kiertää korvaamalla tilapäisesti epälineaari muuttuja sopivalla muunnoksellaan, kuten neliöllä, neliöjuurella, käänteisarvolla tai logaritmilla.

Jos aineistoa on paljon, mutta ei selkeää hypoteesia muuttujien välisistä suhteista, tutkijan on vaikeata alussa päättää, mitä muuttujia (x1, x2 jne) olisi otettava mukaan tulevaan yhtälöön. Tämän valinnan helpottamiseksi voi olla hyvä tehdä ensin muuttujista korrelaatiomatriisi. Toinen tapa on se, että annetaan analyysin algoritmin itsensä valita yhtälöön "parhaat" muuttujat, eli ne, jotka parhaiten selittävät riippuvan muuttujan vaihtelua, ja joita käyttäen yhtälön poikkeamat mitatuista arvoista jäävät mahdollisimman pieniksi.

Jos yksi muuttujista on aika, ja erityisesti kun siitä on käytettävissä tasaväliset mittaukset eli aikasarja, regressioanalyysin avulla on helppoa paljastaa siitä suoraviivainen kehityskulku eli trendi. Tätä voidaan sitten usein käyttää riippuvan muuttujan myöhemmän kehityksen ennustamiseen.

Klassisessa regressioanalyysissä on etsityssä yhtälössä vain yksi selitettävä muuttuja. Jos näitä näyttää olevan enemmän, sopiva analyysin menetelmä on kanoninen korrelaatio, jota ei tässä käsitellä.

Jos regressioanalyysi on tehty otoksesta, on lopuksi muistettava myös testata saadun yhtälön tilastollinen merkitsevyys. Tähän sopiva testi on t-testi (selostetaan luvussa Tietojen arvioiminen).

Faktorianalyysi

Kyselytutkimuksen yksittäiset kysymykset voidaan nähdä muuttujina, joiden arvoina ovat kysymyksiin saadut vastaukset. Kun eri kysymykset tavallisesti käsittelevät jossakin määrin samaa aihepiiriä, on tavallista, että ainakin muutamat näistä muuttujista korreloivat keskenään. Tällöin saattaa herätä ajatus, että näiden ehkä kymmenienkin tutkittujen muuttujien "takaa" voisi olla löydettävissä muutama harva piilevä eli latentti muuttuja eli faktori joka kuvastuu useassa alkuperäisessä muuttujassa. Koko aineisto tulisi täten helpommin ymmärrettäväksi sekä tiivistyisi murto-osaan alkuperäisestä. Faktorianalyysin avulla voidaan tällaisia piileviä muuttujia hakea.

Esimerkiksi tutkimuksessa Nuorten pukeutuminen Sinikka Ruohonen (2001) selvitteli kyselyn avulla vastaajien vapaa-ajan käyttöä. Ilmeni, että "samat nuoret käyvät sekä konserteissa, taidenäyttelyissä, teatterissa että kirjastossa, mutta eivät seuraa urheilukilpailuita eivätkä katsele televisiota" (s. 97). Ruohonen nimesi tämän latentin muuttujan "kulttuurifaktoriksi" ja siihen korreloivat lisäksi äidin ja isän koulutustaso sekä vaatteita ostaessa riippumattomuus muiden mielipiteistä.

Toisen Ruohosen löytämän faktorin nimeksi tuli "esteettis-sosiaalinen", ja se sisälsi vaatteiden valinnassa tärkeitä asioita: vaatteen tulee "lisätä viehätysvoimaani", "lisätä itseluottamustani", "tuoda esiin persoonallisuuttani", "herättää huomiota", "lisätä yhteenkuuluvuuden tunnettani" sekä "ilmaista aatteitani ja arvostuksiani". Jonkin verran näihin korreloivat myös luonnon säästäminen, vaatteiden tekeminen itse, ja ettei vaate ole eläimen turkki.

Kolmas piilomuuttuja eli "kulutusfaktori" sisälsi useita mittareita rahan käytöstä vaatteisiin, kosmetiikkaan ja koruihin, sekä positiiviset asenteet tyyliin, laatuun ja muotiin.

Piilevät muuttujat voidaan analyysissa hienosäätää, täsmentää (eli "rotatoida") sellaisiksi, että niiden korrelaatio tulee mahdollisimman korkeaksi alkuperäisten muuttujien kanssa. Lisäksi voidaan haettaville faktoreille vielä asettaa se ehto, että ne eivät saa ollenkaan korreloida keskenään eli graafisesti esitettyinä ne ovat ikäänkuin suorassa kulmassa toisiinsa nähden (=ortogonaalinen rotaatio). Tätä ehtoa on syytä käyttää säästellen, sillä se on omiaan entisestään etäännyttämään faktoreita empiriasta ja estää niitä saavuttamasta mahdollisimman korkeaa korrelaatiota alkuperäisiin muuttujiin.

Faktorianalyysin avulla on tutkittu niin tuotteita kuin tuotteiden ostajiakin. Tuotteista on pyritty löytämään niiden tärkeimmät ominaisuudet, jotta kutakin niistä voitaisiin muista riippumatta tutkia ja suunnitella. Asiakkaista taas on haluttu löytää sellaisia dimensioita, joiden mukaan asiakaskuntaa voitaisiin segmentoida ja sen jälkeen muodostaa kuhunkin tiettyyn segmenttiin tähtäävä tuotteen variantti. Esimerkiksi Taloustutkimus Oy:n käyttämä ns. Valuegraphics-analyysi perustuu siihen, että on etukäteen, faktorianalyysin avulla, tutkittu tuotteiden ostajien asenteita ja havaittu, että useimmat tuotekehityksen kannalta kiinnostavat asenteet kytkeytyvät kolmeen faktoriin:

Näitä kolmea faktoria voidaan tämän jälkeen käyttää asiakaskunnan ryhmittelemiseen.

Faktorianalyysia käyttävän tutkijan ongelmaksi usein tulee se, että faktoreita kyllä helposti löytyy tietokoneen avulla, mutta vaikeampi saattaa olla keksiä mikä olisi löydettyjen faktorien reaalinen merkitys ja niille sopiva nimi? Yllä mainitussa tutkimuksessa Ruohonen vältti tämän umpikujan siten, että hän jatkoi tutkimusta haastattelemalla niitä kyselyn vastaajia, jotka selvimmin edustivat kunkin kolmen esille saadun faktorin jompaakumpaa ääripäätä. Hän saattoi näin pyytää haastateltavia kertomaan tarkemmin elämäntyyleistään ja asenteistaan ja perustelemaan miksi heidän mielipiteensä tällä tavalla poikkesivat keskimääräisestä. Näin tutkija pystyi paremmin tulkitsemaan faktorien sisältöä.

On mahdollista jatkaa faktorianalyysia ryhmittelemällä kyselyn vastaajat (tai muut tutkitut empiiriset tapaukset) siten, että kuhunkin ryhmään tulevat ne tapaukset, jotka sijoittuvat lähelle jonkin faktorin ääripäätä; kahta faktoria soveltamalla näin saadaan neljä ryhmää. Tässä on kuitenkin sama heikkous kuin edellä jo mainittiin: näin syntyville ryhmille on usein vaikea antaa mitään järkevää empiiristä selitystä, eikä näitä ryhmiä usein ole mitenkään empiirisesti havaittavissakaan. Sitäpaitsi tapausten jakautuminen faktorille lähes aina noudattaa Gaussin normaalijakaumaa, jolloin suurin osa tapauksista sijoittuu faktorin keskivaiheille, eikä niistä synny mitään selvää ryhmitystä. Tätä tutkijan ansaa käsitellään myös sivulla Luokittelu.

  In English   En Español   Sisällysluettelosivulle

3.8.2007.
Kommentit kirjoittajalle:

Alkuperäinen sijainti: http://www2.uiah.fi/projects/metodi