De assumptie homoscedasticiteit
Homoscedasticiteit is een assumptie voor verschillende statistische analyses, zoals multiple regressie. Het is een moeilijk woord om uit te spreken en eigenlijk ook een van de moeilijkste assumpties om te controleren. Homoscedasticiteit heeft te maken met residuals, ook wel error terms genoemd. Om een beter begrip te krijgen begin ik dan ook met een uitleg over residuals.
Residuals
Als je een verband berekent tussen een variabele Y en een of meer variabelen X dan ga je op zoek naar de best passende, lineaire, lijn tussen alle cases. In een scatterplot tussen kun je zien welke combinatie van de y-variabele en x-variabele elke case in jouw dataset heeft. Stel dat variabele y het percentage goede antwoorden op een toets is en variabele x het aantal uren dat de student geslapen heeft. In een fictieve Figuur 1 kun je zien dat er studenten zijn die vrij goed scoren op de toets ook al hebben ze maar weinig uren geslapen (bijvoorbeeld rode cirkel). Maar over het algemeen zien we toch wel een trend dat hoe langer men geslapen heeft hoe beter men scoort op de toets (Groene lijn).
Figuur 1:
Scatterplot aantal uren geslapen uitgezet tegen tentamenresultaat
Geen perfecte schatting
Hoewel we hier een verband zien tussen het aantal uren slapen en tentamenresultaat, valt ook op dat niet elke student in de dataset perfect op de lijn ligt. Sterker nog, het grootste deel van de studenten ligt niet op de lijn. De groene lijn is de beste schatting van het (lineaire) verband tussen uren slapen en tentamenresultaat als we alleen maar kennis hebben over deze twee variabelen bij de studenten. Maar het is geen perfecte schatting. We kunnen niet zeggen dat we exact weten wat het tentamenresultaat gaat zijn, als we weten hoeveel uren de student de dag ervoor heeft geslapen. Dat is ook wel logisch, want er spelen vast nog een aantal andere factoren een rol, bijvoorbeeld hoe lang de student gestudeerd heeft. Als we al die factoren mee zouden nemen, zouden we waarschijnlijk een betere schatting kunnen maken van het tentamenresultaat. De cases zouden dichter tegen de regressielijn aan liggen, maar er zullen altijd individuele verschillen zijn die we niet kunnen verklaren met ons model.
Het verschil tussen het tentamenresultaat dat we voorspeld hebben in het model op basis van wat we weten van de student (de groene lijn) en het daadwerkelijke tentamenresultaat van de student noemen we de residuals.
Studenten die een hoger tentamenresultaat kregen dan voorspeld laten positieve residuals (blauwe lijnen). Studenten die lager scoorden dan verwacht hebben negatieve residuals (rode lijnen). Hoe verder de punt in de scatterplot van de regressie-lijn af ligt, des te minder goed hebben we het tentamenresultaat van de desbetreffende student voorspeld. Maar de studenten die heel dicht bij de lijn liggen hebben we wél vrij goed voorspeld met ons model.
Figuur 2
Weergave van de residuals in de scatterplot
Homoscedasticity (video will be translated to English soon)
Nu komen we bij de assumptie van homoscedasticiteit. Stel dat de studenten die weinig uren geslapen hebben allen dichter bij de regressielijn liggen dan de studenten die veel uren geslapen hebben (zoals in de fictieve Figuur 3). Dat betekent dat het regressiemodel dat we hebben opgesteld beter in staat is gebleken om de tentamenresultaten van studenten te verklaren die minder uren geslapen hebben dan van studenten die langer hebben geslapen. Deze zogenaamde ‘heteroscedasticiteit’ is ongewenst.
Figuur 3
Voorbeeld van een model waar de assumptie van homoscedasticiteit geschonden is
We willen juist dat het regressiemodel even goed in staat is om tentamenresultaten in de lagere als in de hogere regionen van slaapduur te verklaren. Dan pas kunnen we spreken van een model dat voldoet aan de voorwaarde van ‘homoscedasticiteit’. De rode en blauwe lijnen zouden dan ongeveer parallel aan de groene lijn moeten lopen.
Multivariabele analyses
In het vorige voorbeeld hadden we maar één variabele die tentamenresultaat verklaart. Dan kun je de residuals van de regressielijn goed zien in een scatterplot waarbij onafhankelijke variabele en afhankelijke variabele tegen elkaar zijn uitgezet. Maar als er meerdere predictoren zijn, dan wordt het lastiger. Om dit probleem op te lossen maken we dan een scatterplot waarbij we de residuals afzetten tegen de voorspelde waarde van de afhankelijke variabele.
Als we de regressie-analyse uitvoeren, kunnen we de residuals en ook de voorspelde waarden (expected values) voor het te testen model opslaan als extra variabelen. Met deze gestandaardiseerde residuals en de expected values kunnen we een scatterplot maken. Hoewel in Figuur 4 wel wat verschillen in varianties zijn gevonden zijn deze niet heel erg groot. In het algemeen worden kleine afwijkingen in variantie niet als een probleem beschouwd (Darlington & Hayes, 2017). Ik zou dan ook op basis van deze figuur constateren dat de assumptie van homoscedasticiteit niet is geschonden. Het regressiemodel lijkt even accuraat in staat om lage, middel en hoge toetsresultaten te voorspellen.
Figuur 4
Scatterplot tussen residuals en voorspelde waarden voor de afhankelijke variabele
Assumptie geschonden … wat nu?
Schending van de assumptie van homoscedasticiteit is niet van invloed op de grootte van de regressie-coëfficiënten in je model. De regressielijn is immers nog steeds het meest optimale lineaire verband tussen afhankelijke en onafhankelijke variabelen. De regressie-coëfficiënten in het model geven de helling van die lijn weer. Maar de standaard errors kunnen bij heteroscedasticiteit zowel een onderschatting én een overschatting van de werkelijke variabiliteit weergeven. Omdat de standaard error gebruikt wordt om het 95% betrouwbaarheidsinterval te berekenen, leidt dit eveneens tot te smalle of te brede 95% betrouwbaarheidsintervallen en te hoge of te lage p-waarden.
Als er sprake is van heteroscedasticiteit, zijn er mogelijkheden om beter te interpreteren uitkomsten te krijgen. Zo zou je geskewde variabelen in je model kunnen transformeren. Ook zou je een extra variabele kunnen toevoegen aan het model, waarvan je vermoedt dat deze een rol speelt. Tabachnick en Fidell (2014) stellen ook dat je een strengere grenswaarde voor significantie, bijvoorbeeld p < .025, kunt gebruiken.
Er kan ook gekozen worden een andere statistische analyse uit te voeren. Zo kan je, in plaats van een multiple regressie, een weighted least squares regressie uitvoeren of de RLM macro van Darlington en Hayes (2016) gebruiken. Met behulp van deze macro worden standaard errors berekend die robuuster zijn tegen schendingen van de homoscedasticiteitsassumptie.
Voor studenten
Als je een student bent vraag je je misschien af wat het beste is om te doen. De meeste opleidingen hebben je niet voorbereid op het gebruik van alternatieve analyses en als je geen extra factoren hebt meegenomen in je onderzoek, kun je ze ook niet toevoegen aan het regressiemodel. Vaak zal het voor de opleiding genoeg zijn dat je laat zien dat je je beseft dat de resultaten van je onderzoek mogelijk vertekend zijn als gevolg van de schending van de assumptie van homoscedasticiteit.
Je zegt dan bijvoorbeeld: ‘Wanneer de residuen uitgezet worden tegen de verwachte waarden voor tentamenresultaten (zie Figuur 3) valt op dat ons regressiemodel beter in staat is lagere tentamenresultaten te verklaren dan hogere tentamenresultaten. Mogelijk spelen er nog andere factoren een rol bij het behalen van tentamenresultaten die deze grotere variantie bij hogere tentamenresultaten kunnen verklaren. ’.
Je erkent hiermee dat je gezien hebt dat heteroscedasticiteit jouw conclusies mogelijk vertroebelt. Het kan ook zijn dat de opleiding vereist dat je verder gaat dan erkennen dat de resultaten mogelijk minder correct zijn. Ik zou dan adviseren een van de hierboven genoemde methoden toe te passen, waarbij het hanteren van een strengere grenswaarde voor significantie en het gebruik van de RLM macro naar mijn idee het gemakkelijkste toe te passen zijn.
Bronnen
Darlington, R. B., & Hayes, A. F. (2016). Regression analysis and linear models. New York, NY: Guilford.
Tabachnick, B. G., & Fidell, L. S. (2014). Using multivariate statistics . Harlow. Essex: Pearson Education Limited.
Hulp nodig?
Voor onze video over deze assumptie, kijk op onze Youtube video.
Hulp nodig bij het testen van de assumpties van jouw statistische analyse? Of wil je even sparren over de interpretatie van wat je hebt gevonden? Neem contact op via Contactformulier.
Leave A Comment