Veel statistische analyses die we gebruiken zijn gebaseerd op de assumptie van lineariteit; Er is een lineair verband tussen de afhankelijke en onafhankelijke variabele(n). De reden hiervoor is eigenlijk heel eenvoudig; als er een lineair verband bestaat kunnen we met één parameter het verband weergeven, want de helling van de (regressie) lijn is overal even groot. Als er geen lineair verband bestaat tussen de variabelen, dan zouden we meerdere parameters nodig hebben om het verband tussen twee variabelen weer te geven.
Lineair verband
Om een idee te krijgen of er sprake is van een lineair verband kunnen we het scatterplot tussen de variabelen inspecteren. In Figuur 1 zie je dat er een rechte lijn te trekken is door de scatterplot en dat deze lijn een goed idee geeft van het verband tussen beide variabelen. We kunnen hier dan ook zeggen dat er sprake is van een lineair verband; We kunnen met één correlatiecoëfficiënt het verband tussen beide variabelen uitdrukken.
Figuur 1
Lineair verband tussen variabele x1 en variabele x2
Niet-lineair verband
Maar stel dat de punten in het scatterplot niet zo’n duidelijke rechte lijn laten zien, zoals in Figuur 2. Als we nu een rechte lijn door de punten zouden proberen te trekken, geeft deze lijn geen goed beeld van de manier waarin de punten met elkaar samenhangen. In de lagere regionen van de x-variabele is namelijk een positief verband te zien (blauwe lijn). Hier zouden we dus een positieve correlatiecoëfficiënt verwachten. In de hogere regionen van de x-variabele lijkt er juist een negatief verband te bestaan (rode lijn), waar een negatieve correlatiecoëfficiënt bij hoort. Eén correlatiecoëfficiënt kan dit verband tussen de twee variabelen niet weergeven.
Figuur 2:
Niet lineair verband
In een dergelijke situatie geven de uitkomsten van lineaire analyses, zoals een correlatie- of regressiecoëfficiënt, het werkelijke verband tussen beide variabelen niet goed weer.
Testen voor lineariteit
Tot nu toe hebben we overgedramatiseerde figuren laten zien. In de praktijk kan het wat lastiger zijn om te bepalen of er sprake is van een lineair verband tussen twee variabelen. Als eerste kun je een scatterplot maken en op het oog bepalen of er een rechte lijn door de punten te trekken is, zoals in Figuur 3.
Figuur 3
Scatterplot tussen twee variabelen
We zien dat er een positief verband bestaat tussen de x- en y variabele. Maar wat ook opvalt is dat het lijkt of, naarmate x groter wordt, het verband met y steeds minder sterk wordt. Maar het zou ook kunnen dat er bij de hogere waarden van x relatief weinig cases zijn, waardoor die indruk gewekt wordt. Dus hoe kunnen we meer zekerheid krijgen over ons vermoeden?
Lineair verband?
Allereerst kunnen we een lineaire lijn trekken door de datapunten. Nu valt op dat de datapunten in zowel de lagere als de hogere regionen van de x alle onder de lijn liggen en in het middengebied liggen relatief veel stippen boven de lijn (Figuur 4). Als er een lineair verband zou bestaan, dan zou je mogen verwachten dat de datapunten overal ongeveer evenredig boven en onder de lijn zouden liggen. Dat dat hier niet het geval is geeft toch wel aan dat deze lineaire lijn geen goed beeld geeft van het verband tussen x en y.
Figuur 4
Lineair verband?
We hebben ook de optie om een ‘LOESS line’ te trekken en percentage points to fit tussen 60% en 90% te kiezen. Dan krijgen we een lijn die al beter bij de data lijkt te passen (Figuur 5). De lijn stijgt vrij sterk bij negatieve waarden van x, maar de sterkte van de stijging neemt af bij hogere waarden van x.
Figuur 5.
LOESS lines in scatterplot (% points to fit 90%)
Op basis van het feit dat er een niet-lineaire lijn gevonden is die beter bij de data lijkt te passen dan de lineaire lijn moeten we eigenlijk wel concluderen dat er geen sprake is van een lineair verband tussen x en y.
Curve estimation
Je zou ook, kijkend naar het scatterplot, kunnen beslissen om verschillende modellen te testen en dan te bepalen welk model het beste past bij de data. Op basis van de figuur hierboven zou ik een logaritmisch verband en een kwadratische verband willen testen.
In SPSS hoef je niet eerst kwadratische en logaritmische termen te berekenen en daarna drie regressieanalyses te draaien, maar met behulp van de curve estimation optie kun je dit alles gelijktijdig in beeld brengen. Je krijgt dan de resultaten van de drie modellen, die je kunt vergelijken. Er zijn nu verschillende parameters uit de outputs die je naast elkaar kunt leggen en vergelijken, namelijk de R2 en/of de sum of squares en de regressiecoëfficiënt(en). De resultaten staan vermeld in Tabel 1.
Tabel 1:
Resultaten drie modellen
Kijkend naar het eerste model zonder kwadratische of logaritmische term, zien we dat de regressiecoëfficiënt (b = 0.26, p < .001) aangeeft dat, als x met één unit stijgt y met 0.26 units stijgt. Het model verklaart 66% van de variantie van y. Een mooie significante bevinding, maar kijkend naar de andere resultaten zou het incorrect zijn om op basis van dit resultaat te kiezen voor het ‘normale’ regressie model. We weten immers uit de scatterplots dat de regressiecoëfficiënt hoger zou moeten zijn in de lagere regionen van x en lager voor de hogere waarden.
De resultaten van de regressie waarbij een getransformeerde variant van x (ln(x)) is gebruikt, dan zie we dat 81% van de variantie van y door dit model wordt verklaard. De SSerror (dat deel van de variantie in y dat niet is verklaard door het model) is afgenomen van 25 naar 14. En ook de variabele ln(x) is significant (b = 0.41, p < .001). Door in plaats van de variabele x de natuurlijke log daarvan in het model te plaatsen, hebben we dus een beter passend model gekregen.
Als laatste het model waarbij we uitgaan van een kwadratisch verband tussen x en y. Met dit model gaan we ervan uit dat het verband tussen x en y de vorm van een curve heeft met een maximum (of minimum). Met dit model wordt 77% van de variantie van y verklaard. De SSerror is lager dan die van het lineaire model maar hoger dan die van het logaritmische model. Ook zijn zowel de x-variabele als de kwadratische term significant.
Het best passend model
Van de drie modellen lijkt het logaritmische model dus het beste te zijn. Dat wordt bevestigd door de weergave van de drie modellen in één figuur (Figuur 6). De rode (logaritmische) lijn geeft de vorm van de data het beste weer. Op basis van de uitkomsten van deze exercitie constateren we dat het best passende model bij deze data een logaritmisch model is.
Figuur 6
Weergave van de drie geteste modellen
Belangrijk is ook altijd om inhoudelijk te bedenken of het gevonden verband sense maakt. In dit voorbeeld zijn het aantal reviews (x1000) over een product afgezet tegen het aantal verkochte producten. Je kunt je voorstellen dat naarmate er meer reviews zijn er meer producten verkocht worden, maar dat er ook een soort verzadiging zal optreden. Meer reviews overtuigen een potentiële koper tot het kopen van het product, maar het verschil tussen 2000 of 2100 reviews zal voor een potentiële koper minder uitmaken dan een verschil tussen 1 en 100 reviews. Dus in dit geval lijkt een logaritmisch verband logisch.
Een niet-lineair verband gevonden, wat nu?
Wanneer je tot de conclusie bent gekomen dat er sprake is van een niet-lineair verband tussen x en y, hoef je niet gelijk jouw plan om een lineaire (regressie) analyse uit te voeren in de prullenbak te gooien. Afhankelijk van wat het beste model is gebleken, kun je het lineaire model iets aanpassen. Mocht er sprake zijn van een kwadratisch verband, dan kun je naast x ook x2 opnemen in het model. Het model zou er dan als volgt uitzien:
Y = b0 + b1x + b2x2
In geval van ons voorbeeld zou ik ervoor kiezen om de onafhankelijke variabele x te transformeren naar zijn natuurlijke log en het volgende model te testen.
Y = b0 + b1lnx
Rapporteren.
In dit voorbeeld hebben we geconstateerd dat er een logaritmisch verband bestaat tussen de variabele x en de variabele y. Dit rapporteren we natuurlijk, zodat voor de lezer duidelijk is 1) dat je de assumptie van lineariteit hebt onderzocht, 2) wat je geconstateerd hebt en hoe dat ook inhoudelijk uit te leggen is, 3) welke maatregelen je hebt getroffen om toch goed interpreteerbare resultaten van jouw lineaire analyse te krijgen.
Een voorbeeld van hoe je dit kunt rapporteren is:
Bij visuele inspectie van de scatterplot werd een niet-lineair verband tussen x en y vermoed. Met behulp van curve estimation werden drie mogelijke verbanden vergeleken, het lineair verband, kwadratisch verband en logaritmisch verband. Hieruit bleek het logaritmische model het verloop van y bij verschillende waarden van x het beste te verklaren. Om die reden is de variabele x getransformeerd naar zijn natuurlijke log.
Mocht in jouw onderzoek gebleken zijn dat de assumptie van lineariteit niet geschonden is, dan kun je simpelweg stellen:
Op basis van visuele inspectie van het scatterplot tussen variabele x en variabele y kan geconstateerd worden dat de assumptie van lineariteit niet geschonden is.
Hulp nodig?
Hopelijk heb je iets aan deze uitleg gehad. In deze youtube-video staat beschreven hoe je controleert of er een lineair verband bestaat tussen de variabelen in jouw onderzoek. Als je graag eens samen naar de assumpties van jouw statistische analyses wilt kijken, dan kun je contact opnemen via info@dataaffinity.nl of via het Contactformulier.
Geef een reactie