De fatale fout van 360-gradenenquêtes

Ik zou dol moeten zijn op 360-gradenenquêtes. Dat zou ik echt moeten doen. Uit mijn onderzoek en dat van vele anderen blijkt immers dat de beste managers en leiders zich bewust zijn van hun sterke en zwakke punten, en stappen hebben ondernomen om de eerste te benutten en de tweede te neutraliseren. En de alomtegenwoordige 360 graden enquête – onze reality check als laatste redmiddel – kan een krachtig instrument zijn om dit zelfbewustzijn te vergroten.

En toch denk ik nog steeds dat alle 360 graden enquêtes, op een paar na, in het beste geval een verspilling van ieders tijd zijn, en in het slechtste geval actief schadelijk voor zowel het individu als de organisatie. We kunnen er nu meteen mee stoppen en onze organisaties zouden er sterker van worden.

Mijn probleem met 360’s is niet de kwaliteit van de feedback die de leider krijgt. Integendeel, ik heb een aantal buitengewone coaches gezien die 360-resultaten gebruikten als springplank voor inzichtelijke en praktische feedbacksessies. Evenmin is mijn probleem dat de meeste 360 feedback zich voornamelijk richt op de kloof tussen wat de leider denkt dat zijn sterke punten zijn en wat alle anderen denken. We weten uit een schat aan toegepast psychologisch onderzoek dat de groep mensen van wie de eigen zelfevaluaties het meest overeenkomen met de evaluaties van anderen, mensen zijn die klinisch depressief zijn. (De beste leiders blazen hun scores altijd een beetje op, een bevinding die “welwillende vervorming” wordt genoemd). Tenslotte kan het me ook niet veel schelen dat de meeste 360 onderzoeken gebaseerd zijn op een logische non-sequitur: namelijk dat aangezien een bepaalde groep van voorbeeldige leiders alle competenties bezit die door de 360 gemeten worden, daarom de beste individuele leider zij is die ze allemaal bezit.

Nee, mijn probleem met 360 onderzoeken is meer fundamenteel, meer fundamenteel. Het zijn de gegevens zelf. De gegevens die uit een 360-enquête komen, zijn slecht. Het is altijd slecht. En omdat de gegevens slecht zijn, hoe goed je ook coacht, hoe inzichtelijk je feedback ook is, hoe coherent je leiderschapsmodel ook is, je zult je leiders waarschijnlijk op een dwaalspoor brengen.

Wat bedoel ik met “slecht”? Nou, denk eens aan de meest recente 360-enquête waaraan u hebt deelgenomen, of haal hem uit de la als u hem bij de hand hebt, en kijk er eens naar. Vrijwel alle 360-enquêtes zijn op dezelfde manier opgebouwd. Ze meten een reeks competenties door deze competenties op te splitsen in gedragingen, en vervolgens beoordelen verschillende collega’s – uw collega’s, uw baas, uw directe ondergeschikten – u op deze gedragingen. Om bijvoorbeeld de leiderschapscompetentie “visie” te meten, scoren je beoordelaars een lijst van gedragsuitspraken zoals, “Marcus zet een duidelijke visie uit voor ons team” en “Marcus laat zien hoe het werk van ons team past in de visie van het hele bedrijf.”

Op het eerste gezicht lijkt het logisch om een complexe competentie als “visie” op te splitsen in specifieke gedragingen, en mij vervolgens op deze gedragingen te beoordelen. Maar als je iets dieper graaft, realiseer je je dat we op die manier ons onderzoek verpesten.

Waarom? Omdat uw beoordeling meer over u zegt dan over mij. Als u mij hoog inschat voor het formuleren van een duidelijke visie voor ons team, leren we alleen dat ik duidelijker ben over die visie dan u; als u mij laag inschat, leren we dat u alleen duidelijker bent ten opzichte van mij.

Dit geldt voor elke vraag waarbij u mijn gedrag beoordeelt. U beoordeelt mij op “Marcus neemt snel beslissingen” en uw beoordeling onthult slechts of ik sneller beslissingen neem dan u. Beoordeel me op “Marcus kan goed luisteren” en we komen te weten of ik beter kan luisteren dan jij. Al deze vragen zijn vergelijkbaar met uw beoordeling van mij op lengte. Of je me kort of lang vindt, hangt af van hoe kort of lang je zelf bent.

Het komt erop neer dat je niet objectief bent als het gaat om de beoordeling van mijn gedrag. U bent, in statistisch jargon, onbetrouwbaar. Je geeft ons slechte gegevens.

“Nou, dat is niet erg,” zeg je misschien, “want ik ben niet de enige beoordelaar. Er zijn anderen die jou beoordelen, Marcus, en wat ik aan objectiviteit mis, wordt gecompenseerd door al die anderen.”

Opnieuw klinkt dit juist, maar het gaat nog steeds niet op. Elke individuele rater is even onbetrouwbaar. Dat betekent dat elke rater slechte gegevens oplevert. En, helaas, als je veel bronnen van slechte gegevens bij elkaar optelt, krijg je geen goede gegevens.

De enige manier om dit effect te vermijden is ervoor te zorgen dat je groep beoordelaars een perfect representatieve steekproef is van de competenties die je probeert te meten. Dit is wat opiniepeilingen doen. Ze trekken een steekproef – meestal iets meer dan 1000 mensen – die nationaal representatief is voor leeftijd, ras, regio, geslacht en politieke voorkeur. Deze zorgvuldig geselecteerde steekproef blijkt dan een veel betrouwbaarder maatstaf te zijn voor de nationale opinie dan een willekeurige groep die tien keer zo groot is.

Maar de beoordelaars van uw 360-enquête zijn geen steekproef die zorgvuldig is geselecteerd om de competenties die worden gemeten te vertegenwoordigen. Noch zijn zij een willekeurige steekproef. In plaats daarvan zijn uw beoordelaars een niet-willekeurige groep van mensen die toevallig met u werken of aan u rapporteren. In de statistiek noemen we dit een “scheve steekproef”. Tel al hun beoordelingen bij elkaar op en je krijgt geen accurate, objectieve meting van je leiderschapsgedrag. Je krijgt roddels, gekwantificeerd.

Gelukkig is de oplossing voor dit probleem eenvoudig. Hoewel u geen betrouwbare beoordelaar van mijn gedrag bent, bent u wel een uiterst betrouwbare beoordelaar van uw eigen gevoelens en emoties. Dit betekent dat u mij niet kunt beoordelen op “Marcus geeft mijn team een duidelijke visie”, maar dat u uzelf wel kunt beoordelen op een uitspraak als “Ik weet wat de visie van mijn team is”. Evenzo zijn uw beoordelingen van mij op “Marcus kan goed luisteren” slechte gegevens, terwijl uw beoordelingen van u op “Ik heb het gevoel dat mijn mening wordt gehoord” goede gegevens zijn. Dit geldt voor elke uitspraak die zo is opgesteld dat u wordt gevraagd u te beoordelen over uzelf.

Om een betrouwbare 360-enquête te maken, hoeft u dus alleen maar alle uitspraken te schrappen waarin de beoordelaar wordt gevraagd anderen te beoordelen op hun gedrag, en deze te vervangen door uitspraken waarin de beoordelaar wordt gevraagd zichzelf te beoordelen op zijn eigen gevoelens.

Door dit te doen, verandert uw 360-enquête in een instrument dat iedereen kan vertrouwen. Maar tot die tijd is het gewoon onzin.

Geef een reactie Antwoord annuleren