zondag 1 december 2019

Een verbeterde autisme-maat: de 12 kernitems van de AQ


Laatst bijgewerkt: 4-12-2019 om 3.10


'Autisme' is een begrip waar tot nu toe weinig overeenstemming over bestaat. Iedereen lijkt zijn eigen betekenis te hanteren. Gelukkig kunnen we het meten, dat geeft enig houvast. Maar met de AQ-vragenlijst van Baron-Cohen, de meest gebruikte maat om 'autisme' in de bevolking te meten, bestaat nog wel een probleem.

Wat is het probleem? Laat ik eerst het sterke punt van de AQ noemen. De AQ maakt onderscheid tussen 'autisten' en 'niet-autisten'. Met 'autisten' bedoel ik mensen die door psychiaters als 'autist' gelabeld zijn. Met 'niet-autisten' bedoel ik mensen, waarbij dat (nog) niet gebeurd is.

Het onderscheid dat de AQ maakt tussen beide groepen, is dat 'autisten' in doorsnee hoger scoren dan de 'niet-autisten'. Dankzij de AQ hebben we een concreet iets, waarop 'autisten' verschillen van 'niet-autisten'.

Je kunt dus zeggen: de AQ is valide (bruikbaar), want die test is bedoeld 'autisme' te meten en dat doet ze ook.


Het zwakke punt van de AQ: de matige betrouwbaarheid

Nu het zwakke punt. Bij tests hebben we twee belangrijke punten: betrouwbaarheid en validiteit. Over de validiteit van de AQ hebben we het net gehad. De test lijkt redelijk valide om autisme in de bevolking ruwweg te meten. Maar hoe zit het met de betrouwbaarheid?

Met 'betrouwbaarheid' bedoelen we dat een test steeds hetzelfde moet opleveren. Je hebt een weegschaal. Je gaat erop staan, je gewicht is 80 kilo. Tenminste, dat zegt de weegschaal. Maar is je gewicht echt 80 kilo? Je twijfelt wat en je gaat opnieuw op de weegschaal staan. Nu wijst de weegschaal 82 kilo aan.

Wat denk je van die weegschaal? De ene keer dit gewicht, de andere keer een ander gewicht. We zeggen: de weegschaal is niet helemaal betrouwbaar. Soms wijst hij wat hoger aan, soms wat lager.

Een manier om dat probleem op te lossen, is herhaald meten. Je hebt geen betere weegschaal, je moet het doen met dit onbetrouwbare geval. Maar we zijn slim. We gaan 10 keer op de weegschaal staan en we noteren steeds de uitkomst. Daarna pakken we de rekenmachine en rekenen we het gemiddelde uit.

Eenmaal wegen met de weegschaal is misschien onbetrouwbaar, maar doordat we 10 keer meten, is ons gemiddelde een stuk betrouwbaarder. Wanneer we dus werken met onbetrouwbare metingen, moeten we heel vaak meten om toch een betrouwbaar resultaat te krijgen.

Laten we nu naar de AQ kijken. Die test is opgebouwd uit 50 items. De reden daarvoor is simpel: een enkel item is onbetrouwbaar, maar als je heel veel items gebruikt, is de totaalscore van al die items een stuk betrouwbaarder.

Dat klopt helemaal, maar bij die weegschaal was 10 keer wegen voldoende. Hoe zit dat bij de AQ? Hebben we die 50 items echt nodig voor een betrouwbaar resultaat of zijn dat er eigenlijk nog te weinig?

De betrouwbaarheid van een test kunnen we uitdrukken met 'coëfficiënt alfa': een getal tussen 0 en 1. Wanneer alle items vrijwel hetzelfde resultaat geven, hebben we aan weinig items voldoende en is alfa toch bijna 1. Maar wanneer de items totaal verschillende uitkomsten geven, hebben we heel veel items nodig en is alfa soms toch nog veel lager, dan we zouden willen.

We willen graag een alfa van boven de 0.90, maar de 50 items van de AQ leveren slechts een alfa van 0,73 (hier). De betrouwbaarheid van de AQ is dus het zwakke punt. We zouden graag een test voor autisme willen, die een stuk betrouwbaarder (nauwkeuriger) is. Met andere woorden: die opgebouwd is uit items die beter hetzelfde meten.


De 12 kernitems van de AQ

Om de betrouwbaarheid van de test te vergroten, staan twee wegen open. De ene manier is het aantal items van de AQ groter maken. De andere manier is om de slechte items uit de AQ te verwijderen en de goede items te bewaren. De laatste manier is natuurlijk een stuk sneller en slimmer, want extra items bedenken is lastig en mensen vinden het beantwoorden van veel vragen vermoeiend.

Wat zijn 'goede' items? Dat is simpel: items die hetzelfde resultaat opleveren, noemen we goed. In eerste instantie willen we slechts een betrouwbare maat. Om een betrouwbare maat te krijgen, hebben we items nodig die gelijk werken. Die een zelfde soort uitkomst leveren.

Het grote probleem van de AQ is dat het ene item iets totaal anders meet dan het andere item. De gemiddelde onderlinge correlatie tussen de items bedraagt 0,05. Een positieve correlatie is minimaal 0 en maximaal 1. Wat we dus vinden bij de items van de AQ is dat ze vrijwel volledig ongecorreleerd zijn. De items hebben amper een gemeenschappelijke component. Het is alsof de testconstructeur (Baron-Cohen) geen goed idee had van 'autisme', toen hij de items opstelde.

Gelukkig is er een oplossing. De Zweedse onderzoekers zijn nagegaan of er in de 50 items van de AQ items te vinden waren, die onderling wel goed samenhingen. Die duidelijk één bepaalde factor maten en niet een andere factor. In alle items vonden ze slechts één stel items die aan die twee eisen voldeed: de '12 kernitems' van de AQ.

Ik laat die items hier (nog een keer) volgen.
De 12 kern-items van de AQ (van meer naar iets minder discriminerend)
Item 13 -  * I would rather go to a library than a party
Item 22 -  * I find it hard to make new friends
Item 11 -  I find social situations easy
Item 47 -  I enjoy meeting new people
Item 32 -  I find it easy to do more than one thing at once
Item 10 -  I can easily keep track of several different people’s conversations
Item 44 -  I enjoy social occasions
Item 26 -  * I don’t know how to keep a conversation going
Item 38 -  I am good at social chit-chat
Item 46 -  * New situations make me anxious
Item 17 -  I enjoy social chit-chat
Item 34 -  I enjoy doing things spontaneously
De door de Zweedse onderzoekers gehanteerde scoring van de items liep van '1 = beslist eens' tot '4 = beslist oneens'. Items waarbij de scoring omgedraaid werd (in dat geval geldt dus: '1 = beslist oneens' en  '4 = beslist oneens'), zijn aangegeven met een '*'.

Van deze items weten we, dat dit de enige groep items uit de AQ is, die onderling goed samenhangt. Deze groep items meet één bepaalde factor en niet allerhande andere factoren. Maar verder weten we van deze 12 kernitems niets. We weten hun (alfa-)betrouwbaarheid niet en we weten niet of ze onderscheid maken tussen 'autisten' en 'niet-autisten', en als ze dat inderdaad doen, hoe goed ze dat doen. De Zweedse onderzoekers gaan op deze zaken verder niet in, hun aandacht is verder volledig gericht op de AQ.


De betrouwbaarheid van de 12 kernitems van de AQ

Vormen de 12 kernitems een alternatief voor de AQ? Om die vraag te beantwoorden, moeten we op twee punten duidelijkheid krijgen. Allereerst: zijn de kernitems betrouwbaar? Ten tweede: zijn ze valide, dat wil zeggen: maken ze goed onderscheid tussen 'autisten' en 'niet-autisten'? Eerst de eerste vraag.
 
De Zweedse onderzoekers vermelden niet de betrouwbaarheid van de kernitems. Ik vroeg me af: is het niet mogelijk de betrouwbaarheid af te leiden uit de gegevens die in het Zweedse onderzoek vermeld staan?

De onderzoekers vermelden in hun artikel dat ze op zoek waren naar een groep items waarvan de gemeenschappelijke factor meer dan 50% van de variantie in de itemscores verklaart. De 12 kernitems voldeden als enige groep items aan die eis. Dat betekent dat de kernitems gemiddeld ruim 0.70 correleren met de hoofdfactor.

Wanneer de kernitems echter gemiddeld 0.70 laden op de gemeenschappelijke factor, dan moeten ze onderling gemiddeld 0.50 correleren. Met andere woorden: de betrouwbaarheid van de afzonderlijke kernitems is 0.50.

De Spearman-Brown formule voor testverlenging levert dan de betrouwbaarheid van 12 items: 0.92. Een mooie waarde. Met andere woorden: de kernitems vormen een betrouwbare (en homogene) maat. Wanneer we 12 andere soortgelijke kernitems zouden formuleren, verwachten we een correlatie van 0.92 tussen de totaalscores van beide tests.

De 12 kernitems doen het daarmee qua betrouwbaarheid belangrijk beter dan de 50 items tellende AQ zelf, die slechts een betrouwbaarheid van 0.73 haalde. Het grote probleem van de AQ, items die alle kanten uitschieten, doet zich niet meer voor wanneer we de 12 kernitems gebruiken als verbeterde AQ.


De validiteit (discriminerend vermogen) van de 12 kernitems

Hoe zit het met de validiteit van de 12 kernitems om 'autisme' aan te tonen?  Wat is het vermogen van de kernitems om onderscheid te maken tussen 'autisten' en 'niet-autisten'? Het sterke punt van de AQ was dat die onderscheid maakt tussen 'autisten' en 'niet-autisten'. Wanneer de 12 kernitems wel betrouwbaar zijn, maar niet discrimineren, hebben we er weinig aan.

In beginsel kan het antwoord voor de kernitems op dit punt drie kanten uit. Ze kunnen het beter doen dan de overige items van de AQ. Ze kunnen het even goed doen als de overige items. En ze kunnen het slechter doen.

Valt op grond van het Zweedse onderzoek daar iets over te zeggen? Het artikel vermeldt de gemiddelde itemscores van de in het Zweeds vertaalde AQ voor de 'autisten' en de 'niet-autisten'. De niet-autisten scoren (omgerekend naar de  0/1-scoring van Baron-Cohen) gemiddeld 0.38 op de andere items, terwijl de autisten op deze items 0.50 scoren. De overige items realiseren dus gemiddeld een verschil van 0.17 per item tussen beide groepen.

Op de kernitems scoren de niet-autisten gemiddeld 0.27, maar de autisten 0.56. Een verschil van (afgerond) 0.30 per item. De kernitems maken daarmee per item bijna twee keer zoveel verschil als de overige items. Dat betekent dat de 12 kernitems het verschil tussen autisten en niet-autisten in verhouding belangrijk beter weergeven dan de overige items van de AQ.

Je kunt ook nog op een andere manier naar deze uitkomsten kijken. De AQ bestaat uit items waarop een autist in het ideale geval steeds een 1 zou scoren. In werkelijkheid komen de autisten echter gemiddeld maar tot 0.50. Tot halverwege de schaal. In het geval van de kernitems komen ze echter, met 0.56, voorbij het midden van de schaal.

Verder zouden niet-autisten laag moeten scoren op de items, maar in werkelijkheid scoren ze toch nog 0.38: een stukje onder het midden van de schaal. Ook op dit punt doen de kernitems het met 0.27 beter.

Een derde manier om naar het verschil te kijken, is de items op basis van hun verschil in te delen in twee groepen. Items die veel verschil maken, scoren net onder de 0.40. Items die geen verschil maken scoren natuurlijk 0.00. Wanneer je die schaal door midden deelt, krijg je twee groepen items. Items die niet of amper onderscheid maken (een verschil van 0.20 of minder) en items die wel duidelijk onderscheid maken (een verschil van meer dan 0.20).

In totaal 31 van de 50 AQ-items scoren in de eerste groep: deze items maken niet of weinig onderscheid. Er blijven dan 19 items over die wel duidelijk onderscheid maken. Alle 12 kernitems zitten in deze groep van 19. Buiten de kernitems zitten er in de AQ slechts 7 andere items die duidelijk onderscheid maken tussen beide groepen.

Conclusie: met de kernitems hebben we niet alleen een betrouwbare maat, maar ook een maat die goed onderscheid maakt tussen 'autisten' en 'niet-autisten'.
























Geen opmerkingen:

Een reactie posten