maandag 3 augustus 2020

De onbekende ontdekking van Asch: mensen zien dingen die er niet zijn, maar de een veel vaker dan de ander


Laatst bijgewerkt: 7-8-2020 om 1.00


Mijn vorige blogpost gaf drie voorbeelden van dingen zien, die er niet zijn. Het eerste voorbeeld was het boek van Rutger Bregman: De meeste mensen deugen. Het idee dat de meeste mensen deugen vinden we mooi en geloven we graag. Zijn boek vliegt over de toonbank. De werkelijkheid is helaas een stuk minder opwekkend.

Het tweede voorbeeld was bedacht. Je begeleider wil een bepaald antwoord horen. Je weet of zou kunnen weten, dat het antwoord niet helemaal klopt met de werkelijkheid. Maar je wilt graag een positieve beoordeling, dus doe je niet al te moeilijk.

Het derde voorbeeld was uit het volle leven. Een medisch team weet het onmiddellijk helemaal zeker. Dat moet het zijn. Een aantal maanden later blijkt het toch echt iets totaal anders te zijn. De medische literatuur over diagnosticeren en de problemen daarmee, staan vol met dit soort voorbeelden.

Hoe kan het dat een heel medisch team maanden door holt in een richting, waarvan je onmiddellijk had kunnen weten dat het de verkeerde was?


De conformiteits-experimenten van Solomon Asch

Het mechanisme voor wat er misgaat, is blootgelegd door Solomon Asch in 1956 (hier). De titel van zijn verslag is: A Minority of One Against a Unanimous Majority. Een onderzoek dat in deze blog al vele malen eerder is aangehaald, maar nog nooit diepgaand is besproken. De reden daarvoor volgt hierna.

Asch heeft zijn onderzoek grondig aangepakt en uitgebreid beschreven. Het verslag telt 70 bladzijden waarvan vele met een extra klein lettertje, zodat er meer tekst op kon. Voordat je een beetje weet wat erin staat, ben je een behoorlijke tijd verder.

Daar komt nog iets bij. Asch moet zijn boodschap verkopen en die boodschap was en is soms best heftig. Hij probeerde dus zijn boodschap zo te brengen, dat de scherpe kantjes wat vermeden werden. Hij probeert het positieve te benadrukken, zodra hij nogal verontrustende uitkomsten vindt. Als lezer moet je dus voortdurend je best doen, te achterhalen wat hij werkelijk heeft gevonden.

Het resultaat is dat iedereen wel een klein beetje weet of denkt te weten, wat Asch heeft gevonden, maar dat vrijwel niemand zijn verslag echt heeft doorgeworsteld. Iets dat gezien de lengte en schrijfstijl ook niet snel valt te doen.

De grote vraag is dus: wat heeft Asch precies gevonden?  Wie verder leest, zal zien, dat dat belangrijk anders is dan wat men doorgaans denkt en schrijft. Althans als ik afga op de stukken waar Google naar verwijst bij 'Asch experiment'.


Vaak zien we dingen die er niet zijn

Het eerste resultaat van Asch. Wanneer proefpersonen een eenvoudige beoordelingstaak krijgen, nadat ze eerst het eensluidende, foute antwoord van een aantal andere mensen hebben gehoord, gaat het mis. Niet altijd en niet bij iedereen in dezelfde mate, maar gemiddeld genomen toch wel erg vaak.

De taak die Asch hanteerde, is simpel. Je moet een lijntje links vergelijken met drie lijntjes rechts (voor een plaatje zie hier: het onderschrift klopt niet helemaal, Asch gebruikte de cijfers: 1, 2 en 3.). Eén van de lijntjes rechts heeft dezelfde lengte als het lijntje links. De proefpersoon moet het nummer van het juiste lijntje zeggen zodra hij aan de beurt is. Hem is verteld dat het om een waarnemingsexperiment gaat en dat het er slechts om gaat, wat hij ziet. Een verhaal dat dus in zekere zin ook nog klopt. De proefleider noteert de antwoorden die gegeven worden.

De afstand tussen de doellijn links en de antwoorden rechts is altijd 40 inch (ongeveer een meter). In het klaslokaal zitten de 8 studenten in 2 rijen van 4. De antwoorden worden gegeven in de volgorde waarin men zit. De student die -- zonder dat hij dat weet -- getest wordt, zit 'toevallig' altijd op de een na laatste (zevende) plaats.

Als mensen niet beïnvloed worden door andere mensen, doen ze de taak bijna altijd goed. Slechts in minder dan één procent (0,7) van de gevallen ging het mis. Op de honderd keer gaat het 99 keer goed.

Als mensen echter eerst horen wat de andere mensen in de 'groep' antwoorden, verandert het verhaal. Zelfs als ze die mensen niet kennen, nooit eerder gezien hebben en het niet om 'experts' gaat. De enige voorwaarde is dat de mensen in de 'groep' allemaal hetzelfde foute antwoord geven. De taak van Asch blijkt nu opeens een zeer moeilijke taak te zijn.

In totaal kregen de 123 proefpersonen die Asch gebruikte, ieder 12 'kritische' items voorgelegd (beoordelingen waarbij de overige leden van de groep hetzelfde foute antwoord gaven). Dat geeft in totaal 1476 kritische oordelen. Hiervan gingen er 542 fout. Van iedere tien kritische oordelen gingen er bijna vier (36,7%) fout.

Het antwoord dat men zes keer hoort, voordat men zelf antwoord moet geven, leidt ertoe dat men meer dan 50 keer zoveel fouten maakt als anders. Een simpele taak die een mens normaal bijna nooit fout doet, gaat nu opeens bijna de helft van de keren (4 van de 10 keer) fout. De antwoorden van de 'groep' hebben een dramatische uitwerking op wat de proefpersonen zeggen te zien.

In normaal psychologisch onderzoek wordt het effect van een behandeling (het verschil in gemiddelde met de controlegroep) uitgedrukt in standaarddeviaties van de controlegroep. Als je dat bij het onderzoek van Asch ook doet, wat vind je dan?

De controlegroep had gemiddeld 0.08 foute antwoorden, de experimentele groep had gemiddeld 4.41 foute antwoorden. Een verschil van 4.33. De standaarddeviatie van de controlegroep is 0.36. Dat levert een effect op van 12.0 standaarddeviaties. In de psychologie geldt een verschil van 0.5 standaarddeviatie als groot. Het effect dat we vinden voor het onderzoek van Asch is 24 keer zo groot. Het horen van de foute antwoorden levert dus een onvoorstelbaar groot effect op.

Met andere woorden: hoe wij over de wereld denken, laten we vaak niet bepalen door die wereld, maar door het verhaal van andere mensen. Wat wij zeggen te zien, ontlenen we niet aan onze ogen, maar aan de mensen om ons heen, die vertellen hoe het volgens hen zit.


Als de taak moeilijker wordt, zien we nog vaker dingen die er niet zijn

Als bij een simpele taak het effect al zo sterk is, dat we in bijna de helft van de gevallen dingen zien die er niet zijn, wat gebeurt er dan als de taak moeilijker is? Bij een taak die echt goed kijken en diep nadenken vereist?

Ook met betrekking tot deze vraag levert het onderzoek van Asch informatie. In totaal gebruikte hij 12 'kritische' items. In werkelijkheid waren dit drie verschillende items, die ieder vier keer werden gebruikt in de totale 'test'. Hoewel deze drie items ogenschijnlijk vrij gelijk zijn, bleek de moeilijkheid toch duidelijk te verschillen. Het gemakkelijkste item leverde 28 procent fouten. Het 'middelste' item leverde 35 procent fouten. Het moeilijkste item leverde 48 procent fouten.

Statistisch gezien zegt dat strikt genomen nog niet alles. Het kan immers zijn dat de verschillen per item voor de vier keer dat een item werd gebruikt, groot zijn. Om die mogelijkheid uit te sluiten heb ik de correlatie berekend tussen het gemiddelde van ieder item en het percentage fouten per afname. Dit levert een correlatie op van 0.82 voor de 12 afnames. De item-moeilijkheid verklaart maar liefst 67 procent van de totale variantie in deze uitkomsten. De moeilijkheid van de items bepaalt voor twee derde hoe vaak een item bij een afname fout wordt gemaakt.

Voor de mensen die liever een klassieke significantietest willen, volgt die hier. Een 1-weg variantieanalyse (3 items met ieder 4 afnames) levert een p-waarde van 0.007 op (bij een F van 8,9). Ook op die manier berekend, gaat het dus om een (zeer) significant verschil tussen de drie items. Het moeilijke item wordt belangrijk minder goed gemaakt dan het makkelijkste.

Het moeilijkste item leverde bijna twee (1.7) keer zoveel fouten als het makkelijkste. Kennelijk is het dus zo dat als een taak iets lastiger wordt, de kans op een fout antwoord snel groter wordt. Bij complexe taken treedt het probleem -- we zien iets, dat er niet is -- nog veel vaker op dan bij eenvoudige taken.


De reactie op de 'groep' blijft hetzelfde

Asch verwachtte verder dat naarmate de situatie langer duurt, mensen vaker zullen bezwijken voor de druk van de groep. In dit geval was er natuurlijk niet sprake van een echte groep en werd er door de mensen die aanwezig waren verder ook op geen enkele manier druk uitgeoefend. Het enige wat men deed was bij sommige items allemaal hetzelfde onjuiste antwoord geven. Maar naarmate de situatie langer duurt, zou je het afwijken van de groep als het ware steeds meer beu kunnen worden en daarom zou je tenslotte steeds vaker met de groep mee kunnen gaan.

Uit de gegevens van Asch blijkt niets van een dergelijk effect. De eerste helft van de 12 kritische items was volledig gelijk aan de tweede helft. Zijn 123 proefpersonen scoorden op beide helften echter niet duidelijk verschillend (t-toets, gepaarde waarnemingen). De eerste testhelft leverde 35,23 procent foute antwoorden. De tweede helft 38,21 procent. Onder invloed van de situatie veranderen mensen kennelijk niet in hun manier van reageren op dit soort problemen.


Het onbekende resultaat van Asch: conformiteit varieert per persoon en is goed meetbaar

De volgende vraag is natuurlijk: treden de fouten bij iedereen in dezelfde mate op of gaat het vooral om bepaalde mensen? Asch vond dat ongeveer een kwart (24%) van de mensen zich door de antwoorden van de groep nooit van de wijs liet brengen. Een ander kwart volgde -- volgens hem -- voortdurend of bijna voortdurend de groep. De overige mensen zaten tussen beide uitersten in.

In totaal is dus ongeveer drie vierde van de bevolking vatbaar voor het probleem, uitgaande van de simpele taak die Asch gebruikte. Bij een complexe taak zal die drie vierde dus vermoedelijk snel oplopen naar 90% en mogelijk meer.

Is het meegaan met de groep een kwestie van toeval of gaat het vooral om bepaalde mensen? Asch kon laten zien dat toeval amper een rol speelt, het gaat steeds om dezelfde mensen. Sommige mensen zitten zo in elkaar dat ze zich voortdurend automatisch conformeren aan het groepsstandpunt. Anderen zitten zo in elkaar dat ze voortdurend gewoon hun taak blijven doen en zich van het groepsstandpunt niets aantrekken. Weer anderen zitten tussen beide uitersten in.

Daarbij ligt de verhouding tussen wel en niet meegaan met de groep voor iedere persoon vast. Iedereen heeft dus een bepaald getal tussen 0 en 100 procent dat aangeeft, hoe vaak men de groep zal volgen.

De 12 kritische items die Asch gebruikte, kan men opvatten als een test. Wat is de betrouwbaarheid van die test? Uit de gegevens die Asch vermeldt in zijn verslag, kon ik de betrouwbaarheid berekenen. Zijn 'test' blijkt een betrouwbaarheid (coëfficiënt alfa) van 0.89 te hebben.

Hij vermeldt ook een tabel ('Table 10' op p. 20) op basis waarvan de correlatie tussen de eerste helft en de tweede helft van de 12 kritische items berekend kan worden. Dit levert 0.82 op. Na correctie via de formule voor testverlenging levert dit voor de totale test 0.90 op. Dus een vrijwel gelijke waarde als de eerder berekende (alfa)betrouwbaarheid.

Tot nu toe is niet algemeen bekend dat Asch een persoonsvariabele mat. Asch heeft dit resultaat in zijn artikel wel nadrukkelijk vermeld, maar om een of andere reden sloeg dit kennelijk niet echt aan bij zijn publiek. Een merkwaardig verschijnsel waar ik in een volgende blogpost verder op in hoop te gaan.

Asch vermeldt niet een duidelijke waarde voor de betrouwbaarheid van zijn kritische items. Hij vermeldt wel een waarde, kennelijk voor iets als de correlatie tussen beide testhelften, maar hanteert hierbij een nogal onbekende index (een 'Sheppard U', p. 20). Via Google kon ik daar geen verdere informatie over vinden.

Bronnen op internet die het onderzoek van Asch samenvatten, vermelden vaak niet dat hij een persoonsvariabele vond, laat staan dat men iets over de betrouwbaarheid daarvan vermeldt.

Wat betekent die hoge betrouwbaarheid? Betrouwbaarheid kun je op drie verschillende manieren interpreteren. De empirische definitie van (alfa-)betrouwbaarheid is de correlatie tussen de oude en de nieuwe scores, wanneer je een andere even lange test met soortgelijke items afneemt bij dezelfde personen. Bij het herhalen van de test met andere items zou je dus opnieuw vrijwel dezelfde uitkomsten vinden.

De tweede manier om betrouwbaarheid te interpreteren is uitgaan van de theoretische definitie. Een betrouwbaarheid van 0.89 betekent dat 89% van de variantie in de testscore veroorzaakt wordt door de eigenschap die de test meet en dat slechts 11% toeval (ruis) is. Het wel of niet meegaan met de groep wordt dus vrijwel volledig bepaald door de persoonseigenschap die gemeten wordt.

Er is echter nog een derde manier om naar die hoge betrouwbaarheid te kijken. Deze manier gaat terug op de berekeningsformule. De hoge betrouwbaarheid betekent dat de verschillen tussen de onderzochte mensen groot moeten zijn. Anders zou je immers vooral ruis meten en zou je betrouwbaarheid laag uitvallen.


Welke frequentieverdeling vindt Asch precies?

Klopt dat in dit geval? Wat vond Asch precies op dit punt? Zijn verhaal op dit punt is moeilijk te volgen en klopt niet helemaal (p. 11, onderaan). Hij schrijft:
'The distribution of errors departs from the normal curve often obtained in psychological measurement, being more akin to a J curve. But it differs in a fundamental respect from the J curves of conformity reported by F. H. Allport and his students. Unlike the latter, the mode occurs not at a point determined by convention or by the pressure of a group, but rather at the truth value, that is to say, at the opposite extreme from the majority position.'

Hij vindt helemaal geen J-curve (eerder een L-curve: een hoge toren met een lange staart). En is het inderdaad zo dat de meest voorkomende waarde de 'truth value' is? Dat hangt er ook vanaf, hoe breed je de kolommen van je frequentieverdeling maakt, lijkt me. Is het dan inderdaad zo dat er helemaal geen normale verdeling gevonden wordt?

De vraag is eigenlijk: hoe moet je zijn uitkomsten handzaam weergeven? Ik ben zo vrij geweest zijn uitkomsten opnieuw samen te vatten.

Ik hanteer vier categorieën (1, 2, 3 en 4) voor de frekwentieverdeling. In de eerste categorie zitten alle mensen die de 12 items foutloos maakten. In de tweede categorie zitten alle mensen met 1-4 fouten. In de derde met 5-8 fouten. In de vierde met 9-12 fouten.

Om goed te begrijpen wat het effect is van de foute antwoorden die de andere 'groepsleden' geven, moeten we eerst naar de uitkomsten van de controlegroep kijken (waarin die foute antwoorden dus niet gegeven werden). In de eerste categorie zit 95%. In de tweede zit 5%. De overige twee categorieën zijn leeg. Vrijwel iedereen zit bij de controlegroep dus in de eerste categorie: men maakte 0 fouten. In de tweede categorie zit bijna niemand.




Laten we nu naar de resultaten van de experimentele groep kijken. In de eerste categorie zit 24%. Dit zijn de mensen die geen enkel item fout hadden. In de tweede categorie zit 33%. Deze mensen hadden maximaal vier fouten. In de derde categorie zit 25% met maximaal 8 fouten. In de vierde categorie zit de resterende 18%.

De meeste mensen zitten dus in de tweede categorie. De eerste en de derde categorie bevatten beide ongeveer een kwart van de mensen. De laatste categorie bevat iets minder dan een vijfde.



Asch vindt voor de verdeling van de experimentele groep een L-curve. Dat komt doordat de mensen die fouten maken uitgespreid zijn over 12 categorieën. Alle mensen die geen fouten hebben gemaakt, zitten samen gepropt in de 0-categorie, die daardoor het hoogste is.

Maar als je de uitkomsten verdeelt in vier categorieën die lopen van 0 fouten tot 8-12 fouten, dan zie je dat de tweede categorie de meeste mensen bevat. Verder zie je dat de verdeling niet echt normaal is (in de midden hoog en aan de kanten laag), maar meer lijkt op een rechte verdeling. Alle vier categorieën komen ongeveer even vaak voor.

Wat zouden we vinden, wanneer iedere proefpersoon via zuiver toeval zou besluiten om wel of niet met de groep mee te gaan? Mijn statistiekprogramma levert via een binomiaalverdeling (12 keer trekken met een kans van .367 op een fout) de uitkomsten voor 1000 gesimuleerde personen. De frequentieverdeling laat zien dat vrijwel iedereen dan in categorie 2 en 3 zou vallen. Categorie 1 en 4 zouden bijna volledig leeg zijn.




Het idee dat Asch in zijn artikel propageert, mensen zouden bij de kritische items in een derde van de gevallen met de groep meegaan, klopt dus niet helemaal. Je doet dan alsof iedereen op dit punt hetzelfde is. Maar als dat zo was, zouden we in categorie 1 en 4 niemand vinden.

Het horen van de zes foute antwoorden voordat men aan de beurt is, leidt er dus toe dat de respondenten volledig verspreid worden over de vier categorieën. De kritische items van Asch werken als een soort sorteermachine. Mensen worden systematisch verdeeld over alle vier categorieën. Daarbij weet de machine vrijwel feilloos in welke categorie iemand thuis hoort, want toeval speelt bij het sorteren, gezien de hoge betrouwbaarheid van de test, amper een rol.

Je zou het verhaal ook korter kunnen formuleren. Ik ga uit van het aantal fouten (0-12). De controlegroep van Asch heeft een standaarddeviatie van 0.36 fout. De spreiding in de uitkomsten is afgerond ongeveer nul. De experimentele groep, die te kampen had met foute antwoorden, had een standaarddeviatie van 3.84. Meer dan 10 keer zo groot. De spreiding in de experimentele groep is dus enorm.

Wat zou de spreiding zijn als alle mensen op dit punt gelijk zouden zijn? Wanneer iedereen op basis van zuiver toeval in 36,7% van de gevallen zou besluiten met de groep mee te gaan? De simulatie geeft voor de standaarddeviatie 1.69 fout. Door de systematische verschillen tussen mensen is de standaarddeviatie in werkelijkheid maar liefst 2,3 keer zo groot. Die grote verschillen tussen mensen op dit punt kunnen onmogelijk toeval zijn.


Conclusie

De ontdekking van Asch is dus niet dat mensen vaak met de groep meegaan, want dat was al bekend voor zijn artikel verscheen. Zijn grote ontdekking is dat het zich conformeren aan het antwoord van de 'groep', vrijwel volledig bepaald wordt door een persoonseigenschap.

Het vermogen om dingen te zien die er niet zijn, is een persoonskenmerk dat nauwkeurig en betrouwbaar gemeten kan worden. Verder is het een kenmerk waarop mensen -- merkwaardig genoeg -- extreem verschillen. Sommige mensen scoren maximaal (9-12 fouten), anderen scoren minimaal (0 fouten), ruim de helft zit tussen beide uitersten in.

Maar om welke eigenschap gaat het precies? Welke eigenschap bepaalt of je wel of niet meegaat met de groep? Welke eigenschap bepaalt of je dingen zegt te zien, die er niet zijn? Ik zou denken dat het om bevooroordeeldheid moet gaan, maar is dat inderdaad zo?
















Geen opmerkingen:

Een reactie posten