Correlaties

Na de beschrijvende statistiek, is het berekenen van de correlaties een van de eerste stappen die je vrijwel altijd onderneemt bij het analyseren van je data. Je leert zo de data in je dataset kennen en krijgt een idee van de verbanden tussen de concepten die je hebt gemeten tijdens de informatieverzamelingsfase. Hier gaan we in op de Pearson correlatietoets.

Bij wetenschappelijk onderzoek ben je vaak geïnteresseerd in verbanden tussen bepaalde kenmerken. Verbanden zijn belangrijk, want als er een verband tussen verschillende concepten bestaat, betekent dat dat als je iets weet over één concept je ook informatie hebt over een ander concept dat mogelijk moeilijker te meten is.
In het dagelijkse leven leggen we ook verbanden: Iemand rijdt in een dure auto dus hij zal wel rijk zijn, of, iemand is slank dus hij zal wel veel sporten. We weten het niet zeker, de dure auto kan geleend zijn, maar we leggen deze verbanden om op basis van dingen die we kunnen waarnemen, aannames te doen over dingen die we niet zo eenvoudig kunnen waarnemen.

De sterkte van een verband

Met behulp van correlatie-toetsen kunnen we bepalen hoe sterk een verband tussen twee kenmerken is. Een correlatie kan een waarde krijgen van -1 tot +1. Wanneer er geen verband bestaat is de correlatie 0 en hoe dichter bij de 1 (of -1) hoe sterker het verband. Een positieve correlatie (rode lijn in Figuur 1) betekent dat hoe hoger de ene variabele is, hoe hoger de andere variabele, of andersom, hoe lager de ene variabele hoe lager de andere. Je vindt een negatieve correlatie (blauwe lijn) wanneer, als naarmate de waarde van de ene variabele hoger wordt, terwijl de andere lager wordt.

Figuur 1
Positieve, negatieve en geen correlatie

Pearson correlatie 1

Een correlatie kun je weergeven in een scatterplot. Het is niet helemaal zo dat de sterkte van het verband af te lezen is aan de steilheid van de correlatielijn. Een sterk verband heeft ook te maken met hoe dicht de punten (de proefpersonen in het onderzoek) nabij de gevonden correlatielijn liggen. In Figuur 2 zie je dat de punten perfect op één lijn liggen. De correlatie is dan ook r = 1.00. Als we de waarde van kenmerk x van een individu weten, dan kunnen we heel accuraat schatten wat de waarde van kenmerk y is.

Figuur 2
Pearson correlatie r = 1.00

Hoe meer punten er van de lijn afliggen of verder van de lijn verwijderd zijn hoe lager de correlatie. Immers, als we de waarde van kenmerk x weten van een individu, zijn we nu een stuk minder zeker over wat de waarde van het andere kenmerk is. In Figuur 3 liggen de punten al wat verder van de (correlatie)lijn, r = .748, maar je ziet nog steeds een vrij duidelijke stijgende lijn.

Figuur 3
Pearson correlatie r=.748

Geen causaliteit

In een correlatietoets wordt geen onderscheid gemaakt tussen een afhankelijke en onafhankelijke variabele; de variabelen zijn onderling verwisselbaar en er is geen sprake van causaliteit; als er een correlatie gevonden wordt kun je dus niet stellen dat het ene kenmerk het andere veroorzaakt. Er bestaat bijvoorbeeld een sterke correlatie tussen iemands lengte en zijn/haar schoenmaat. Dat wil zeggen dat als je iemands lengte weet je ook een redelijk accurate schatting kunt maken van zijn of haar schoenmaat, maar dat wil niet zeggen iemands schoenmaat zijn lengte veroorzaakt of andersom. Je kunt alleen concluderen dat de variabelen samen opgaan, of tegengesteld zijn aan elkaar.

Assumpties

Elke statistische toets is gebaseerd op een aantal aannames over de data waarop je de toets wil uitvoeren. Zo heeft de Pearson correlatietoets vier assumpties, namelijk:

  1. Dat beide variabelen continu zijn;
  2. Dat er een lineair verband bestaat tussen de variabelen;
  3. Dat de variabelen normaal verdeeld zijn;
  4. En dat de variabelen geen outliers hebben.
Zijn de variabelen continu (genoeg)?

Deze assumptie wordt niet getest, maar bij de keuze voor de correlatie-toets besteed je hier wel aandacht aan. Een continue variabele kan ieder getal aannemen en tussen twee getallen bestaat altijd een ander getal. Een ordinale variabele, gebaseerd op een 7-punts Likertschaal, voldoet in principe niet aan deze eisen. Toch zie je dat deze soms wel als een continue variabele ingezet. Dit omdat statistische analyses snel lastiger worden als je deze variabelen als gecategoriseerd beschouwt. Daarom stellen we hier grofweg dat een Pearson correlatie geschikt is voor continue variabelen of ordinale variabelen met een 7 puntsschaal of meer. Maar andere docenten kunnen hier een andere mening over hebben. Wanneer tenminste een van de variabelen in de correlatie-toets niet continue is maar nog wel ordinaal, dus er is wel sprake van een oplopende (of aflopende) volgorde in de variabele, kan beter gekozen worden voor de Spearman’s rank correlatie.

Bestaat er een lineair verband tussen de twee variabelen?

Voor een goede interpretatie van de Pearson correlatie is deze assumptie heel belangrijk. Hiertoe maak je een scatterplot waarin je de twee variabelen tegen elkaar uitzet.
Als de punten een niet-lineair verband laten zien, zoals in Figuur 4, zou je door middel van een correlatie-toets toch gewoon een lineair verband berekenen. De correlatie die je dan vindt geeft geen goed beeld van het werkelijke verband tussen de variabelen. Dan is het rapporteren van de Pearson’s correlatie niet echt zinvol want het zet de lezer op het verkeerder been.

Dat wil echter niet zeggen dat de variabelen niet bruikbaar zijn in lineaire analyses. Vaak kun je een transformatie van, een van, de variabelen toepassen. Of soms is het toevoegen van een extra term, bijvoorbeeld een kwadratische term, aan het model een oplossing.

Figuur 4
De correlatielijn geeft geen goede weergave van het werkelijke verband

Pearson correlatie 2

Normaliteit

De Pearson’s r test heeft ook als assumptie dat er bivariate normaliteit moet bestaan. Dit is echter lastig te testen en daarom kijken we meestal naar de verdeling van beide losse variabelen. Als ze beide normaal verdeeld zijn, mogen we concluderen dat er sprake is van bivariate normaliteit. Dit is een vrij stricte manier om bivariate normaliteit te bepalen. Met name als je een vrij grote sample size hebt (N > 30) maken we ons dan ook wat minder druk om normaliteit van de variabelen, omdat de analyses dan redelijk robuust zijn tegen afwijkingen van normaliteit (central limit theorem).
Als geconstateerd moet worden dat er geen sprake is van een normale verdeling van (een van de) variabelen kun je overwegen correlaties te berekenen met de Spearman’s rank test. Ook is transformatie van de variabele een optie. Als de correlatie-toets in jouw onderzoek met name bedoeld zijn om een eerste idee te krijgen van de onderlinge verbanden tussen de variabelen, zou ik vooralsnog niet voor een transformatie kiezen. Wel zou het zo kunnen zijn dat je bij de hoofdanalyses ook aanloopt tegen het feit dat de variabele(n) niet normaal verdeeld is (zijn), en dan zou transformatie mogelijk nog een goede keuze zijn.

Geen outliers

Deze laatste assumptie kun je testen door middel van het maken van een boxplot. SPSS laat in een boxplot de outliers zien als rondjes en sterretjes. De cases die rondjes zijn liggen 1.5 boxplot lengtes of meer van de boxplot af en de sterretjes zelfs drie lengtes of meer. Deze sterretjes zijn het meest zorgwekkend omdat ze de uitkomsten relatief sterk beïnvloeden en worden daarom extreme outliers genoemd. In de praktijk letten we met name op of er extreme outliers zijn.

Als je een extreme outlier vindt, bekijk je in de dataset naar de gegevens van deze case. Misschien heeft er een invoerfout plaatsgevonden en is de individu bijvoorbeeld niet 1968 jaar oud, maar is het geboortejaar ingevuld in plaats van de leeftijd. Hier zou je dan 52 van kunnen maken en de outlier is verdwenen. Maar het kan ook zijn dat deze casus échte extreme waarden bevat. Dan kun je besluiten om deze casus niet mee te nemen in de analyses. Maar als je vermoedt dat dergelijke extreme waarden gewoonweg voorkomen in de populatie, dan kan dat een reden zijn om te besluiten de outlier toch mee te nemen in de analyses. Je besluit dan dat de steekproef (inclusief outlier) een goed beeld zal geven van de werkelijke verdeling in de populatie.

Uitvoeren correlatietoets

Nadat de assumpties getest zijn ga je over op het uitvoeren van de Pearson correlatie-toets. Op ons youtube kanaal staat een video die je daarvoor kunt volgen. Je kunt daarbij twee variabelen tegen elkaar uitzetten, maar wanneer in het onderzoek meer variabelen centraal staan, kunnen deze gelijktijdig in de opdracht geplaatst worden. Dan worden er dus meerdere correlatietoetsen gelijktijdig uitgevoerd; Elke variabele wordt tegen elke andere variabele uitgezet.

Listwise of pairwise?

Net als bij veel andere analyses kunnen we aangeven of we de correlaties ‘listwise’ of ‘pairwise’ willen laten berekenen. Listwise betekent dat alleen respondenten die een geldige (niet-missende) waarde hebben voor alle variabelen die je gelijktijdig in de correlatie-opdracht hebt geplaatst worden meegenomen in de analyse. De sample size (N) is dan hetzelfde voor elke correlatie. Dit is handig wanneer je later een multivariabele toets, zoals een multiple regressie, wil uitvoeren waar deze zelfde variabelen allemaal in het model zijn opgenomen. Kies je pairwise, dan wordt elke respondent/case meegenomen in de correlatietoets die een geldige waarde heeft voor de twee variabelen die je tegen elkaar uitzet in de correlatie. Hier kan de sample size dus per correlatie verschillen.

Output

Afhankelijk van het aantal variabelen dat je gelijktijdig in de correlatietoets hebt meegenomen krijg je een kleine of grotere correlatiematrix als resultaat. Hierin staat de correlatie-coëfficiënt (r), de p-waarde die bij dit verband hoort en, als je voor pairwise correlaties hebt gekozen, de sample size voor de desbetreffende correlatie. Belangrijkste uitkomst is de correlatie-coëfficiënt, die aangeeft hoe sterk het verband is en ook of er sprake is van een negatief (-1 tot 0) of positief (0 tot 1) verband. Niet iedereen hanteert dezelfde interpretatie van de sterkte van het verband, en dit kan ook per vakgebied verschillen. Maar vaak wordt de indeling van Cohen[1] aangehouden:

Pearson correlatie 3

De p-waarde is in het geval van correlaties eigenlijk van ondergeschikt belang. Deze is namelijk erg afhankelijk van de grootte van je sample. Met een hele grote sample kunnen zelfs hele lage correlaties (bijvoorbeeld r < 0.1) significant worden, maar feit blijft dan nog steeds dat het een heel zwak verband is. Als je de waarde van het ene kenmerk weet, kun je nauwelijks een accurate inschatting maken van de waarde van het andere kenmerk. Dus, je noemt de p-waarde wel bij het rapporteren van de correlaties, maar de interpretatie is voornamelijk gebaseerd op de sterkte van het verband.

Rapporteren

Wanneer je verschillende Pearson correlaties hebt berekend, worden de resultaten daarvan vaak weergegeven in een correlatie-tabel. Het is niet aanbevolen, en wordt vaak zelfs door de opleiding afgekeurd, om de correlatie-matrix uit de output direct in het resultatenhoofdstuk te plaatsen. Deze is vaak erg groot en bevat veel onnodige informatie. Zo staat elke correlatie er tweemaal in vermeld, een keer in de hoek rechtsboven, en een keer in de hoek linksonder, gescheiden door een diagonale lijn met allemaal enen, die de correlaties van de variabelen met zichzelf weergeeft. Meestal kopieer ik de correlatiematrix uit de output dan ook naar excel. Ik haal de dubbele informatie weg en maak de tabel op, conform de voorbeeld tabellen in de APA gids[2]. Het uiteindelijke resultaat ziet er uit als in Tabel 1.

Pearson correlatie 4

Zoals je ziet worden correlaties, net zoals p-waarden, conform APA genoteerd zonder een getal vóór het decimaalteken. Dit omdat correlaties nooit hoger dan 1, of lager dan -1, kunnen zijn. We weten dan ook met zekerheid dat het getal voor het decimaalteken een 0 is. Hierdoor mag je kiezen: of twee of drie decimalen gebruiken. Wanneer je drie decimalen teveel vindt, kun je de correlaties dus ook noteren met twee decimalen. Vaak oogt de tabel dan wat rustiger.

Bespreken van de resultaten

In de tekst kun je de gevonden correlaties bespreken. Een voorbeeld zou zijn:

‘Met behulp van de Pearson correlatie vonden we een significant negatief verband tussen depressie-score en aantal uren slaap per nacht (r = -.414, p < .001), wat conform Cohen (1977) beschouwd kan worden als een medium sterk negatief verband. Naarmate men minder uren per nacht slaapt, rapporteert men meer depressieve symptomen.’

Let hierbij wel op te zorgen dat je niet suggereert dat dit verband causaal is. We weten, op basis van een correlatie-toets alleen maar dat deze twee kenmerken samen op lijken te gaan. We kunnen er niet uit opmaken of het een het gevolg is van het ander of dat beide aspecten vanwege andere, niet onderzochte, redenen samen opgaan.

============================================

Als je wil weten hoe je een correlatie-toets uitvoert in SPSS: Youtube correlaties

Vragen? Neem contact op via ons contactformulier

Referenties

[1] Cohen, J. (1977). Statistical power analysis for the behavioral sciences. Academic press.

[2] American Psychological Association. (2020). Publication manual of the American Psychological Association. The Official Guide to APA Style (7th ed). American Psychological Assocation.