Laatst bijgewerkt: 27/3/2024 om 17.19
De vorige blogpost (het eerste deel van twee) over het boek The Authoritarian Personality (TAP), dat in 1950 verscheen, eindigde ik zo:
"De onderzoekers hebben zich door hun negatieve emoties over de lage betrouwbaarheid van PEC laten meeslepen, waardoor ze zich niet realiseerden dat ze via de E- en PEC-schaal tweemaal dezelfde factor hebben gemeten."
"Tot zover bevat mijn verhaal niets nieuws, want het voorgaande heb ik in andere bewoordingen eerder gerapporteerd op deze blog. Maar nu komen we bij de volgende poging bevestiging te krijgen voor de validiteit van de E-schaal door deze te correleren met de beroemde/beruchte F-schaal. Hier verandert mijn eerder gerapporteerde belangrijk."
Als de PEC-schaal de E-schaal niet kon
bevestigen, moesten ze dat op een andere manier proberen, dachten de
auteurs van TAP. Het overtuigend aantonen van de kronkel in de kop van
'fascisten' kon immers alleen lukken als een totaal andere maat
hetzelfde opleverde als de E-schaal. Men moest 'fascisme' tweemaal met
succes meten, voordat er een redelijk overtuigend verhaal zou ontstaan.
Men
zocht de oplossing in de constructie van de F-schaal. Die vragenlijst
was bedoeld de 'fascistische' persoonlijkheid bloot te leggen door te
vragen naar de diepere kenmerken daarvan.
Welke kenmerken? Deze (p. 255 e.v., TAP):
1. Conventionalisme (4 items) -- Rigid adherence to conventional, middle-class values.
2. Authoritarian Submission (7 items) -- Submissive, uncritical attitude toward idealized moral authorities of the ingroup.
3. Authoritarian Aggression (8 items) -- Aggression: Tendency to be on the lookout for, and to condemn, reject, and punish people who violate conventional values.
4. Anti-intraception (4 items) -- Opposition to the subjective, the imaginative, the tender—minded.
5. Superstition and Stereotypy (6 items) -- The belief in mystical determinants of the individual's fate; the disposition to think in rigid categories.
6. Power and "Toughness" (7 items) -- Preoccupation with the dominance-submission, strong-weak, leader-follower dimension; identification with power figures; overemphasis upon the conventionalized attributes of the ego; exaggerated assertion of strength and toughness.
7. Destructiveness and Cynicism (2 items) -- Generalized hostility, vilification of the human.
8. Projectivity (5 items) -- The disposition to believe that wild and dangerous things go on in the world; the projection outwards of unconscious emotional impulses.
9. Sex (3 items) -- Exaggerated concern with sexual "goings-on."
Het
probleem met deze lijst is dat dezelfde items geteld worden bij
meerdere kenmerken. (Items zijn ondergebracht in meerdere subschalen
tegelijk). Wie de hierboven vermelde aantallen optelt, komt uit op 46.
In werkelijkheid telde de F-schaal 30 items.
Ook 9 kenmerken van de fascistische persoonlijkheid denken te zien, maar vervolgens niet voor ieder kenmerk een aantal aparte items te genereren, komt ongelukkig over. Wanneer men dan vervolgens ook nog items voor meedere kenmerken tegelijk gaat gebruiken, wordt de lezer niet opgewekter.
De
resulterende F-schaal bleek behoorlijk betrouwbaar (0.90 gemiddeld, p.
258). De gemiddelde onderlinge correlatie tussen de items bedroeg
volgens 0.13 (p. 261) op een selecte steekproef. Via de formule voor
testverlenging vindt men dan een betrouwbaarheid van 0.82 voor 30 items
(met gestandaardiseerde varianties). Een waarde die dus goed kan
kloppen, rekening houdend met een afrondingsfout en de nogal
geselecteerde steekproef.
Naar we nu weten, had de
schaal echter twee belangrijke problemen. Allereerst werden de
veronderstelde subschalen niet teruggevonden in de data. De gemiddelde
correlatie tussen de items in een subschaal was niet hoger dan de
gemiddelde correlatie tussen de items van verschillende subschalen.
Ten
tweede kon de vragenlijst eenvoudig gefaket worden door systematisch
het hoge of het lage antwoord te kiezen. Alle items waren zo
geformuleerd, dat iemand die het er mee eens was, voortdurend hoog
scoorde, dus als 'fascist' antwoordde. Dit probleem staat ook bekend als
response-bias.
Dit laatste probleem gold echter niet voor de 5 PEC-items. Hier kwamen wel 'omgekeerde' items in voor. De hoge correlatie tussen E en PEC na correctie voor onbetrouwbaarheid had dit punt dus kunnen weerleggen.
De auteurs van TAP relativeerden het eerste probleem. De subschalen waren (bij nader inzien?) slechts bedoeld als hulpmiddel en waren verder niet echt van belang. (Waarom die indeling dan eerst wel uitgebreid behandelen?) Het ging erom dat alle items enigszins dezelfde factor maten. Dat resulteerde in een betrouwbare lijst en daar ging het om.
Ze rapporteren een correlatie van gemiddeld 0.73 tussen de E- en de F-schaal (p. 263). Maar de E-schaal was niet perfect betrouwbaar en de F-schaal ook niet. Om te weten in hoeverre beide schalen dus dezelfde factor meten, moet je corrigeren voor die dubbele onbetrouwbaarheid via de correctie voor attenuation.
In mijn eerdere weergaven van de gebeurtenissen dacht
ik dat de auteurs dit niet wisten en dit niet hadden gedaan. In een
voetnoot op pagina 264 van TAP blijkt echter, dat ze dit wel wisten en
wel hebben gedaan:
"8 The correlation coefficient which, theoretically, would result if two scales were perfectly reliable, i.e., if the average obtained r were corrected for attenuation, is about .9. This indicates a striking correspondence, though not a complete identity, of what is measured by the two scales."
In een voetnoot? Dit was belangrijke informatie, die de gevonden correlatie van 0.73 in een totaal ander daglicht zette. Waarom stond dit niet in de tekst?
Voetnoot 8 refereert aan de volgende passage in de tekst (p. 262-264, terwille van de leesbaarheid heb ik twee witregels tussengeplaatst):
"It is obvious, therefore, that if the reliabilities of the two scales were increased (which can be done by increasing the number of items within each) the correlation between E and F would be very high indeed.8
This is not to say, however, that E and F for all practical purposes measure the same thing.
A correlation of .775 means that about two-thirds of the subjects who score in the high quartile on the one scale, score in the high quartile on the other, and that there are practically no reversals, i.e., cases in which a subject is high on one scale but low on the other. If one wished to use the F scale alone in order to single out subjects who were practically certain to be highly ethnocentric, i.e., in the high quartile on the present E scale, it would be necessary for him to limit himself to those scoring at the very highest extreme on F, perhaps the top 10 percent."
De auteurs van TAP zien die correctie voor onbetrouwbaarheid als een soort theoretische exercitie, die ze liefst snel weer achter zich laten. Ja, als je oneindig veel items zou gebruiken, dan zou je natuurlijk een nog hogere correlatie vinden. Maar tja, dat hadden ze niet gedaan!
Vervolgens komen ze
met een correlatie van .775, die niet gevonden is. Ze redeneren dan dat
als je twee testen hebt, die precies hetzelfde meten, een onderlinge
correlatie van .775 eigenlijk nog te laag is om individueën betrouwbaar
te classificeren. Dat verhaal klopt wel, maar dan heb je het over de
betrouwbaarheid. Niet over dat, wat de test probeert te meten! De
validiteit.
In dit geval gaat het echter om de validiteit. Een
onbetrouwbare test kan nog steeds een valide maat zijn voor iets, maar
bevat slechts een klein beetje 'iets' en heel veel ruis. De items van de
F-schaal zijn een goed voorbeeld. In de geselecteerde steekproef hadden
ze een betrouwbaarheid van slechts 0.13. Ze bevatten weinig iets en
veel ruis. Maar als je 60 van die items hebt, levert dat een test met
een betrouwbaarheid van 0.90. Deze bevat dus veel iets en weinig ruis.
Met andere woorden: de auteurs van TAP waren op de hoogte met de correctie voor onbetrouwbaarheid, ze wisten ook hoe ze die moesten berekenen, maar ze snapten de functie niet. Een bekend probleem in de wiskunde en statistiek. Mensen leren sommen maken, leren formules te gebruiken, maar snappen niet, waartoe dat alles dient.
Programmas als SPSS maken dit tegenwoordig allemaal nog erger. Mensen generen vellen vol diepzinnige en geheimzinnige cijfers, snappen er in feite amper iets van en baseren daarop vervolgens hele onderzoeksrapporten met soms volstrekt wilde conclusies. Dat probleem speelde in 1950 dus ook al.
Met de hierboven geciteerde voetnoot 8 is
nog iets merkwaardigs. De auteurs vermelden
correlaties en betrouwbaarheden altijd in twee decimalen nauwkeurig. Maar
nu opeens in één decimaal. Waarom? Wie de moeite neemt de zaak na te
rekenen vindt
een voor onbetrouwbaarheid gecorrigeerde correlatie tussen de E-schaal
en de F-schaal van 0.86. Als je dat
afrondt op 1 decimaal nauwkeurig, krijg je 0.9. In werkelijkheid vonden
ze dus 0.86, maar waardeerden ze dat op tot 0.9. Dat leek
beter.
De voor onbetrouwbaarheid gecorrigeerde correlatie van 0.86 tussen de E-schaal en de F-schaal betekent dat E en F bij perfect betrouwbare maten ongeveer drie vierde (74 procent) van alle variantie gemeenschappelijk hebben. Ze meten dus niet volledig hetzelfde, maar wel in zeer hoge mate hetzelfde.
Dat ze niet
volledig hetzelfde meten, na correctie voor onbetrouwbaarheid, is in werkelijkheid alleen
maar positief. Anders zou je immers in feite
tweemaal precies dezelfde maat gehanteerd hebben. Nu is duidelijk dat het echt om twee verschillende maten gaat. Twee maten die in hoge mate dezelfde factor meten, maar op totaal verschillende manieren.
De auteurs van TAP deden in totaal drie poging de fascistische persoonlijkheid bloot te leggen. Ze hadden vertrouwen in de eerste poging en terecht. De E-schaal (Etnocentrisme-schaal) had betrouwbare subschalen en die subschalen correleerden onderling behoorlijk. Alle subschalen maten in hoge mate dezelfde factor.
Maar om redelijk zeker te zijn, dat ze hiermee inderdaad de 'fascistische' persoonlijkheid te pakken hadden, hadden ze bevestiging nodig van een tweede maat, bedoeld die persoonlijkheid aan te tonen.
De eerste poging tot bevestiging was de PEC-schaal en hoewel ze die terugbrachten tot ver onder het minimum gewenste aantal items, lukte die poging. Alleen de auteurs staarden zich zo blind op de veronderstelde slechte betrouwbaarheid, dat ze die niet meer wilden en durfden te berekenen. Dan zou de schande -- een bijna volstrekt onbetrouwbare maat -- publiek worden. Door die nalatigheid konden ze niet zien dat hun poging tot bevestiging desondanks volledig was geslaagd.
Omdat de eerste poging mislukt was, naar ze dachten, ondernamen de auteurs een tweede poging: de constructie van de F-schaal. Bedoeld de fascistische persoonlijkheid via kenmerken van de diepe persoonlijkheid bloot te leggen. Maar de correlatie tussen de E-schaal en de F-schaal bleek weer belangrijk lager dan men gehoopt had.
In dit geval berekenden ze
echter wel de correlatie tussen beide variabelen na de correctie voor
onbetrouwbaarheid te hebben uitgevoerd. Ze vonden een prachtige waarde,
die ze zelf nog wat opwaardeerden door af te ronden op 1 decimaal.
Maar
in werkelijkheid begrepen ze niet goed, wat ze precies gevonden hadden
Dit was toch een soort berekende waarde? De echte correlatie was
helemaal niet zo hoog, dachten ze, en daar ging het toch om.
Hoe moet je dit alles verklaren? Onderzoekers vinden twee keer goud, maar snappen niet, dat ze goud hebben gevonden.
Ik zit al meer dan 50 jaar in het empirisch sociaal-wetenschappelijke onderzoek. Als data-analist, als toekijker, als lezer van onderzoek, als docent en als onderzoeker. Tegenwoordig en ondertussen al heel lang, als onafhankelijk onderzoeker. Een groot goed!
Ik heb dit soort zaken al vele malen meegemaakt. Altijd ging het om mensen die hun onderzoeksvraag niet duidelijk hadden. Die met imponerende verhalen kwamen in plaats van met goed onderzoek. Om mensen die ingewikkelde technieken toepasten, maar niet de moeite wilden nemen om zich daarin echt te verdiepen.
Met andere woorden: het gaat om mensen die
genetisch als het ware niet geschikt zijn voor natuurwetenschappelijk
onderzoek. In termen van deze blog: het gaat om bevooroordeelde mensen.
Om 'sociale' mensen. Niet om nerds, met een vreemde passie hebben om te
willen begrijpen, hoe de wereld in elkaar steekt.
Ik denk dus
dat in ieder geval een aantal van de (voorin vermelde) auteurs van TAP
en mogelijk allemaal, behoorlijk hoog scoorden op dat, wat ze zelf
probeerden te meten. Dus op bevooroordeeldheid.
Wat zijn de aanwijzingen?
1. Eerst dat vreemde onderscheid maken tussen 'auteurs' en mensen die slechts een hoofdstuk mogen bijdragen.
2. Dan zo emotioneel reageren op een ten onrechte ingekorte vragenlijst, dat je de betrouwbaarheid niet meer berekent en niet meer wilt weten.
3. Vervolgens de 'correction for attenuation' uitrekenen, maar de waarde opwaarderen door die af te ronden op 1 decimaal.
4. Wel de 'correction for attenuation' uitrekenen en vermelden, maar niet snappen wat het resultaat precies betekent.
5.
Je onderzoek in een onvoorstelbaar dik boek presenteren, terwijl
uiteindelijk maar een klein deel van dat boek de informatie bevat, waar
het uiteindelijk om gaat.
6. Je vraagstelling niet goed duidelijk hebben en niet goed duidelijk maken.
7. Je methode niet goed duidelijk hebben, maken, en volgen.
We weten nu dat de auteurs van TAP driemaal bevooroordeeldheid gemeten hebben op verschillende manieren. Dat dat lukte, kwam niet doordat de auteurs zulke vreselijk goede onderzoekers waren. Dat kwam, doordat bevooroordeeldheid voortdurend zo algemeen aanwezig is, dat het bijna niet gemist kan worden, zodra je er gericht naar op zoek gaat.
Bevooroordeeldheid
is zelfs zo algemeen aanwezig, dat onderzoekers in de sociale
wetenschappen en de alfawetenschappen er vaak behoorlijk hoog op scoren.
Dat is enerzijds mijn persoonlijke waarneming, anderzijds is het ook
wat het soortenmodel suggereert. De auteurs van TAP waren op dit punt
helaas niet echt uitzonderlijk.
Voor de goede orde: ik denk
dat bevooroordeeldheid door de cultuur en tijdgeest waarin we leven,
inmiddels ook in bijvoorbeeld de klimaatwetenschap en andere
natuurwetenschappen vaak een probleem is geworden. Het is te
optimistisch om te denken dat het daar niet voorkomt.
Waar moet je dan aan denken? Men produceert in de klimaatwetenschap vaak prachtige verhalen over hoe het allemaal misschien toch heel erg mee zou kunnen vallen. Dat is 'mooi', maar er valt te voorzien dat het ijs op Groenland en Antartica niet heel erg onder de indruk zal zijn van al die 'mooie' verhalen.
Het raadsel van TAP is, als je het globaal stelt, dat er iets mis is met het boek. Voor Altemeyer was dat duidelijk: er was heel veel mis met dat boek. Met het werk van Altemeyer is ook wel eens iets mis, maar er is nooit fundamenteel iets mis. Wat is dan precies het verschil?
Ik denk dat Altemeyer het ooit verwoord heeft. Hij puzzelde graag. Deden de auteurs van TAP dat ook? Het lijkt me niet erg aannemelijk.
Het wezenlijke probleem van TAP
is dat de auteurs niet echt bezig waren een puzzel op te lossen. Het
boek was in de eerste plaats een middel om sociaal hogerop te komen, in
ieder geval voor een aantal van de voorin vermelde auteurs. Hun in
doorsnee te hoge mate van bevooroordeeldheid is, wat TAP tot een boek
maakt, waarin -- onderzoeksmatig gezien -- vreemde dingen gebeuren.
Geen opmerkingen:
Een reactie posten