Laatst bijgewerkt: 7-8-2020 om 1.00
Mijn vorige blogpost gaf drie voorbeelden van dingen zien, die er
niet zijn. Het eerste voorbeeld was het boek van Rutger Bregman: De meeste mensen deugen.
Het idee dat de meeste mensen deugen vinden we mooi en geloven we
graag. Zijn boek vliegt over de toonbank. De werkelijkheid is helaas een
stuk minder opwekkend.
Het tweede voorbeeld
was bedacht. Je begeleider wil een bepaald antwoord horen. Je weet of
zou kunnen weten, dat het antwoord niet helemaal klopt met de
werkelijkheid. Maar je wilt graag een positieve beoordeling, dus doe je
niet al te moeilijk.
Het derde voorbeeld was
uit het volle leven. Een medisch team weet het onmiddellijk helemaal
zeker. Dat moet het zijn. Een aantal maanden later blijkt het toch echt
iets totaal anders te zijn. De medische literatuur over diagnosticeren
en de problemen daarmee, staan vol met dit soort voorbeelden.
Hoe
kan het dat een heel medisch team maanden door holt in een richting,
waarvan je onmiddellijk had kunnen weten dat het de verkeerde was?
De conformiteits-experimenten van Solomon Asch
Het mechanisme voor wat er misgaat, is blootgelegd door Solomon Asch in 1956 (hier).
De titel van zijn verslag is: A Minority of One Against a Unanimous Majority. Een onderzoek dat in deze blog al vele malen eerder is aangehaald, maar nog nooit diepgaand is besproken. De reden daarvoor volgt hierna.
Asch heeft zijn onderzoek grondig aangepakt en uitgebreid beschreven.
Het verslag telt 70 bladzijden waarvan vele met een extra klein
lettertje, zodat er meer tekst op kon. Voordat je een beetje weet wat
erin staat, ben je een behoorlijke tijd verder.
Daar
komt nog iets bij. Asch moet zijn boodschap verkopen en die boodschap
was en is soms best heftig. Hij probeerde dus zijn boodschap zo te
brengen, dat de scherpe kantjes wat vermeden werden. Hij probeert het
positieve te benadrukken, zodra hij nogal verontrustende uitkomsten
vindt. Als lezer moet je dus voortdurend je best doen, te achterhalen
wat hij werkelijk heeft gevonden.
Het resultaat is dat iedereen wel een klein beetje weet of denkt te
weten, wat Asch heeft gevonden, maar dat vrijwel niemand zijn verslag
echt heeft doorgeworsteld. Iets dat gezien de lengte en
schrijfstijl ook niet snel valt te doen.
De grote vraag is
dus: wat heeft Asch precies gevonden? Wie verder leest, zal zien, dat
dat belangrijk anders is dan wat men doorgaans denkt en schrijft.
Althans als ik afga op de stukken waar Google naar verwijst bij 'Asch experiment'.
Vaak zien we dingen die er niet zijn
Het eerste resultaat van Asch. Wanneer proefpersonen een
eenvoudige beoordelingstaak krijgen, nadat ze eerst het eensluidende,
foute antwoord van een aantal andere mensen hebben gehoord, gaat het mis. Niet altijd
en niet bij iedereen in dezelfde mate, maar gemiddeld genomen toch wel erg vaak.
De taak die Asch hanteerde, is simpel. Je
moet een lijntje links vergelijken met drie lijntjes rechts (voor een plaatje zie hier:
het onderschrift klopt niet helemaal, Asch gebruikte de cijfers: 1, 2
en 3.). Eén van de
lijntjes rechts heeft dezelfde lengte als het lijntje links. De
proefpersoon moet het nummer van het juiste lijntje zeggen zodra hij aan
de beurt is. Hem is verteld dat het om een waarnemingsexperiment gaat
en dat het er slechts om gaat, wat hij ziet. Een verhaal dat
dus in zekere zin ook nog klopt. De proefleider noteert de
antwoorden die gegeven worden.
De afstand tussen de doellijn links en de
antwoorden rechts is altijd 40 inch (ongeveer een meter). In het klaslokaal
zitten de 8 studenten in 2 rijen van 4. De antwoorden worden gegeven in
de volgorde waarin men zit. De student die -- zonder dat hij dat weet -- getest wordt, zit 'toevallig'
altijd op de een na laatste (zevende) plaats.
Als mensen niet beïnvloed worden door
andere mensen, doen ze de taak bijna altijd goed. Slechts in
minder dan één procent (0,7) van de gevallen ging het mis. Op de honderd keer gaat het 99 keer goed.
Als mensen
echter eerst horen wat de andere mensen in de 'groep' antwoorden,
verandert het verhaal.
Zelfs als ze die mensen niet kennen, nooit eerder gezien hebben en het
niet om 'experts' gaat. De enige voorwaarde is dat de mensen in de
'groep' allemaal hetzelfde foute antwoord geven. De taak van Asch blijkt
nu opeens een zeer
moeilijke taak te zijn.
In totaal kregen de 123
proefpersonen die Asch gebruikte, ieder 12 'kritische' items voorgelegd (beoordelingen waarbij de overige
leden van de groep hetzelfde foute antwoord gaven). Dat geeft in totaal 1476
kritische oordelen. Hiervan gingen er 542 fout. Van iedere tien
kritische oordelen gingen er bijna vier (36,7%) fout.
Het
antwoord dat men zes keer hoort, voordat men zelf antwoord moet geven,
leidt ertoe dat men meer dan 50 keer
zoveel fouten maakt als anders. Een simpele taak die een mens normaal
bijna nooit fout doet, gaat nu opeens bijna de helft van de keren (4 van de 10 keer) fout.
De antwoorden
van de 'groep' hebben een dramatische uitwerking op wat de proefpersonen
zeggen te zien.
In normaal psychologisch
onderzoek wordt het effect van een behandeling (het verschil in
gemiddelde met de controlegroep) uitgedrukt in standaarddeviaties van de
controlegroep. Als je dat bij het onderzoek van Asch ook doet, wat vind
je dan?
De controlegroep had gemiddeld 0.08
foute antwoorden, de experimentele groep had gemiddeld 4.41 foute
antwoorden. Een verschil van 4.33. De standaarddeviatie van de
controlegroep is 0.36. Dat levert een effect op van 12.0
standaarddeviaties. In de psychologie geldt een verschil van 0.5
standaarddeviatie als groot. Het effect dat we vinden voor het onderzoek
van Asch is 24 keer zo groot. Het horen van de foute antwoorden levert
dus een onvoorstelbaar groot effect op.
Met andere woorden: hoe wij over de
wereld denken, laten we vaak niet bepalen door die wereld, maar door
het verhaal van andere mensen. Wat wij zeggen te zien, ontlenen we niet
aan onze ogen, maar aan de mensen om ons heen, die vertellen hoe het
volgens hen zit.
Als de taak moeilijker wordt, zien we nog vaker dingen die er niet zijn
Als bij een simpele taak het
effect al zo sterk is, dat we in bijna de helft van de gevallen dingen
zien die er niet zijn, wat gebeurt er dan als de taak moeilijker
is? Bij een taak die echt goed kijken en diep nadenken vereist?
Ook
met betrekking tot deze vraag levert het onderzoek van Asch informatie.
In totaal gebruikte hij 12 'kritische' items. In werkelijkheid waren
dit drie verschillende items, die ieder vier keer werden gebruikt in
de
totale 'test'. Hoewel deze drie items ogenschijnlijk vrij gelijk zijn,
bleek de moeilijkheid toch duidelijk te verschillen. Het gemakkelijkste
item leverde 28 procent fouten. Het 'middelste' item leverde
35 procent
fouten. Het moeilijkste item leverde 48 procent fouten.
Statistisch
gezien zegt dat strikt genomen nog niet alles. Het kan
immers zijn dat de verschillen per item voor de vier keer dat een item
werd
gebruikt, groot zijn. Om die mogelijkheid uit te sluiten heb ik de
correlatie berekend tussen het gemiddelde van ieder
item en het percentage fouten per afname. Dit levert een correlatie op
van
0.82 voor de 12 afnames. De item-moeilijkheid verklaart maar liefst 67
procent van de
totale variantie in deze uitkomsten. De moeilijkheid van de items bepaalt
voor twee derde hoe vaak een item bij een afname fout wordt gemaakt.
Voor de mensen die liever een klassieke significantietest willen, volgt die hier. Een
1-weg variantieanalyse (3 items met ieder 4 afnames) levert een
p-waarde van 0.007 op (bij een F van 8,9). Ook op die manier berekend,
gaat het dus om een (zeer) significant verschil tussen de drie items.
Het moeilijke item wordt belangrijk minder goed gemaakt dan
het makkelijkste.
Het
moeilijkste item leverde bijna twee (1.7) keer zoveel fouten als het
makkelijkste. Kennelijk is het dus zo dat als een taak iets lastiger
wordt, de kans op een fout antwoord snel groter wordt. Bij complexe
taken treedt
het probleem -- we zien iets, dat er niet is -- nog veel vaker op dan
bij eenvoudige taken.
De reactie op de 'groep' blijft hetzelfde
Asch verwachtte verder dat
naarmate de situatie langer duurt, mensen vaker zullen bezwijken voor de
druk van de groep. In dit geval was er natuurlijk niet sprake van een
echte groep en werd er door de mensen die aanwezig waren verder ook op
geen enkele manier druk uitgeoefend. Het enige wat men deed was bij sommige items allemaal hetzelfde onjuiste
antwoord geven. Maar naarmate de situatie langer duurt, zou je het
afwijken van de groep als het ware steeds meer beu kunnen worden en
daarom zou je tenslotte steeds vaker met de groep mee kunnen gaan.
Uit
de gegevens van Asch blijkt niets van een dergelijk effect. De eerste
helft van de 12 kritische items was volledig gelijk aan de tweede helft.
Zijn 123 proefpersonen scoorden op beide helften echter niet duidelijk
verschillend (t-toets, gepaarde waarnemingen). De eerste testhelft
leverde 35,23 procent foute antwoorden. De tweede helft 38,21 procent.
Onder invloed van de situatie veranderen mensen kennelijk niet in hun
manier van reageren op dit soort problemen.
Het onbekende resultaat van Asch: conformiteit varieert per persoon en is goed meetbaar
De
volgende vraag is natuurlijk: treden de fouten bij iedereen in dezelfde
mate op of gaat het vooral om bepaalde mensen? Asch vond dat ongeveer
een kwart (24%) van de mensen zich door de antwoorden van de groep nooit van
de wijs liet brengen. Een ander kwart volgde -- volgens hem -- voortdurend of bijna
voortdurend de groep. De overige mensen zaten tussen beide
uitersten in.
In totaal is dus ongeveer drie vierde van de bevolking
vatbaar voor het probleem, uitgaande van de simpele taak die Asch gebruikte. Bij een complexe taak
zal die drie vierde dus vermoedelijk snel oplopen naar 90% en mogelijk meer.
Is
het meegaan met de groep een kwestie van toeval of gaat het vooral om bepaalde mensen? Asch kon
laten zien dat toeval amper een rol speelt, het gaat steeds om dezelfde mensen. Sommige mensen zitten zo in elkaar
dat ze zich voortdurend automatisch conformeren aan het groepsstandpunt.
Anderen zitten zo in elkaar dat ze voortdurend gewoon hun taak blijven
doen en zich van het groepsstandpunt niets aantrekken. Weer anderen
zitten tussen beide uitersten in.
Daarbij ligt de verhouding tussen wel en niet meegaan met de groep voor iedere persoon
vast. Iedereen heeft dus een bepaald getal tussen 0 en 100 procent dat
aangeeft, hoe vaak
men de groep zal volgen.
De 12 kritische items die Asch
gebruikte, kan men opvatten als een test. Wat is de betrouwbaarheid van
die test? Uit de gegevens die Asch vermeldt in zijn verslag, kon ik de betrouwbaarheid berekenen. Zijn 'test' blijkt een
betrouwbaarheid (coëfficiënt alfa) van 0.89 te hebben.
Hij
vermeldt ook een tabel ('Table 10' op p. 20) op basis waarvan de
correlatie tussen de eerste helft en de tweede helft van de 12 kritische
items berekend kan worden. Dit levert 0.82 op. Na correctie via de
formule voor testverlenging levert dit voor de totale test 0.90 op. Dus
een vrijwel gelijke waarde als de eerder berekende
(alfa)betrouwbaarheid.
Tot
nu toe is niet algemeen bekend dat Asch een persoonsvariabele mat. Asch
heeft dit resultaat in zijn artikel wel nadrukkelijk vermeld, maar om een of
andere reden sloeg dit kennelijk niet echt aan bij zijn publiek. Een
merkwaardig verschijnsel waar ik in een volgende blogpost verder op in
hoop te gaan.
Asch vermeldt niet
een duidelijke waarde voor de betrouwbaarheid van zijn kritische items.
Hij vermeldt wel een waarde,
kennelijk voor iets als de correlatie tussen beide testhelften, maar
hanteert hierbij een nogal onbekende index (een 'Sheppard U', p. 20). Via
Google kon ik daar geen verdere informatie over vinden.
Bronnen op internet die het
onderzoek van Asch samenvatten, vermelden vaak niet dat hij een
persoonsvariabele vond, laat staan dat men iets over de betrouwbaarheid daarvan vermeldt.
Wat
betekent die hoge betrouwbaarheid? Betrouwbaarheid kun je op drie
verschillende manieren interpreteren. De empirische definitie van
(alfa-)betrouwbaarheid is de correlatie tussen de oude en de nieuwe
scores, wanneer je een andere even lange test met soortgelijke items
afneemt bij dezelfde personen. Bij het herhalen van de test met andere
items zou je dus opnieuw vrijwel dezelfde uitkomsten vinden.
De
tweede manier om betrouwbaarheid te interpreteren is uitgaan van de
theoretische definitie. Een betrouwbaarheid van 0.89 betekent dat 89%
van de variantie in de testscore veroorzaakt wordt door de eigenschap
die de test meet en dat slechts 11% toeval (ruis) is. Het wel of niet
meegaan met de groep wordt dus vrijwel volledig bepaald door de
persoonseigenschap die gemeten wordt.
Er
is echter nog een derde manier om naar die hoge betrouwbaarheid te
kijken. Deze manier gaat terug op de berekeningsformule. De hoge
betrouwbaarheid betekent dat de verschillen tussen de onderzochte mensen
groot moeten zijn. Anders zou je immers vooral ruis meten en zou je
betrouwbaarheid laag uitvallen.
Welke frequentieverdeling vindt Asch precies?
Klopt dat in
dit geval? Wat vond Asch precies op dit punt? Zijn verhaal op dit punt
is moeilijk te volgen en klopt niet helemaal (p. 11, onderaan). Hij
schrijft:
'The distribution of errors departs from the normal curve often obtained in psychological measurement, being more akin to a J curve. But it differs in a fundamental respect from the J curves of conformity reported by F. H. Allport and his students. Unlike the latter, the mode occurs not at a point determined by convention or by the pressure of a group, but rather at the truth value, that is to say, at the opposite extreme from the majority position.'
Hij vindt
helemaal geen J-curve (eerder een L-curve: een hoge toren met een lange staart). En is het inderdaad zo dat
de meest voorkomende waarde de 'truth value' is? Dat hangt er ook vanaf,
hoe breed je de kolommen van je frequentieverdeling maakt, lijkt me. Is het dan
inderdaad zo dat er helemaal geen normale verdeling
gevonden wordt?
De
vraag is eigenlijk: hoe moet je zijn uitkomsten handzaam weergeven? Ik ben zo vrij geweest zijn uitkomsten opnieuw samen te vatten.
Ik hanteer vier
categorieën (1, 2, 3 en 4) voor de frekwentieverdeling. In de eerste
categorie zitten alle mensen die de 12 items foutloos maakten. In de
tweede categorie zitten alle mensen met 1-4 fouten. In de derde met 5-8
fouten. In de vierde met 9-12 fouten.
Om
goed te begrijpen wat het effect is van de foute antwoorden die de
andere 'groepsleden' geven, moeten we
eerst naar de uitkomsten van de controlegroep kijken (waarin die foute
antwoorden dus niet gegeven werden). In
de eerste categorie zit 95%. In de tweede zit 5%. De overige twee
categorieën zijn leeg. Vrijwel iedereen zit bij de controlegroep dus in
de eerste categorie: men maakte 0 fouten. In de tweede categorie zit
bijna niemand.
Laten
we nu naar de resultaten van de experimentele groep kijken. In de
eerste categorie zit 24%. Dit zijn de mensen die geen enkel item fout
hadden. In de tweede categorie zit 33%. Deze mensen hadden maximaal vier
fouten. In de derde categorie zit 25% met maximaal 8 fouten. In de
vierde categorie zit de resterende 18%.
De
meeste mensen zitten dus in de tweede categorie. De eerste
en de derde categorie bevatten beide ongeveer een kwart van de mensen.
De laatste categorie bevat iets minder dan een vijfde.
Asch
vindt voor de verdeling van de experimentele groep een L-curve. Dat komt doordat de mensen die
fouten maken uitgespreid zijn over 12 categorieën. Alle mensen die geen
fouten hebben gemaakt, zitten samen gepropt in de 0-categorie, die
daardoor het hoogste is.
Maar als je de
uitkomsten verdeelt in vier categorieën die lopen van 0 fouten tot 8-12
fouten, dan zie je dat de tweede categorie de meeste mensen bevat. Verder
zie je dat de verdeling niet echt normaal is (in de midden hoog en aan
de kanten laag), maar meer lijkt op een rechte verdeling. Alle vier
categorieën komen ongeveer even vaak voor.
Wat
zouden we vinden, wanneer iedere proefpersoon via zuiver toeval zou
besluiten om wel of niet met de groep mee te gaan? Mijn
statistiekprogramma
levert via een binomiaalverdeling (12 keer trekken met een kans van
.367 op een fout) de uitkomsten voor 1000 gesimuleerde personen. De
frequentieverdeling laat
zien dat vrijwel iedereen dan in categorie 2 en 3 zou vallen. Categorie 1 en 4
zouden bijna volledig leeg zijn.
Het idee dat Asch in zijn artikel propageert, mensen zouden bij de kritische
items in een derde van de gevallen met de groep meegaan, klopt
dus niet helemaal. Je doet dan alsof iedereen op dit punt hetzelfde is.
Maar als dat zo was, zouden we in categorie 1 en 4 niemand vinden.
Het
horen van de zes foute antwoorden voordat men aan de beurt is, leidt er dus
toe dat de respondenten volledig verspreid worden over de vier
categorieën. De kritische items van Asch werken als een soort
sorteermachine. Mensen worden systematisch verdeeld over alle vier categorieën.
Daarbij weet de machine vrijwel feilloos in welke categorie iemand
thuis hoort, want toeval speelt bij het sorteren, gezien de hoge
betrouwbaarheid van de test, amper een rol.
Je zou het verhaal ook korter kunnen formuleren. Ik ga uit van het aantal fouten (0-12). De controlegroep van Asch heeft een standaarddeviatie van 0.36 fout. De spreiding in de uitkomsten is afgerond ongeveer nul. De experimentele groep, die te kampen had met foute antwoorden, had een standaarddeviatie van 3.84. Meer dan 10 keer zo groot. De spreiding in de experimentele groep is dus enorm.
Wat zou de spreiding zijn als alle mensen op dit punt gelijk zouden zijn? Wanneer iedereen op basis van zuiver toeval in 36,7% van de gevallen zou besluiten met de groep mee te gaan? De simulatie geeft voor de standaarddeviatie 1.69 fout. Door de systematische verschillen tussen mensen is de standaarddeviatie in werkelijkheid maar liefst 2,3 keer zo groot. Die grote verschillen tussen mensen op dit punt kunnen onmogelijk toeval zijn.
Conclusie
De ontdekking van Asch is dus niet dat mensen vaak met de groep meegaan,
want dat was al bekend voor zijn artikel verscheen. Zijn grote ontdekking is dat het zich conformeren aan het antwoord van de
'groep', vrijwel volledig bepaald wordt door een persoonseigenschap.
Het
vermogen om dingen te zien die
er niet zijn, is een persoonskenmerk dat nauwkeurig en betrouwbaar
gemeten kan worden. Verder is het een kenmerk waarop mensen --
merkwaardig genoeg -- extreem verschillen. Sommige mensen scoren
maximaal
(9-12 fouten), anderen scoren minimaal (0 fouten), ruim de helft zit
tussen beide uitersten in.
Maar
om welke eigenschap gaat het precies? Welke eigenschap bepaalt of je wel of
niet meegaat met de groep? Welke eigenschap bepaalt of je dingen zegt te
zien, die er niet zijn? Ik zou denken dat het om
bevooroordeeldheid moet gaan, maar is dat inderdaad zo?
Geen opmerkingen:
Een reactie posten