Tillämpningen av standardiserade bedömningsmetoder

Debatten om användningen av standardiserade test går vidare, i senaste numret av Psykologtidningen beklagar sig en legitimerad psykolog sig över att standardiserade test har motsatt effekt, hen antyder att ”att de personer som vi har störst behov av att identifiera ur ett riskperspektiv, är de som är sämst på att rapportera sanningsenligt om sig själva. I senaste numret av chefstidningen ondgörs sig vidare både praktiker och forskare om ovetenskapliga test och pengar som slängs i sjön. I skottgluggen står till 99% personlighetstest, men även begåvningstest får sig en släng av sleven. I Psykologtidningen påstår sig en legitimerad psykolog att begåvning är bara avgörande om du ligger under medel, det spelar sedan inte någon roll om du är superbegåvad, det påverkar tydligen inte om du blir en bra chef, menar hen!

I både Psykologtidningen och Chefstidningen finns det även kloka synpunkter om hur du ska använda test, att testet bör vara granskat av oberoende instanser och att det förekommer ”så mycket skit” på marknaden kan skyllas på okunniga uppdragsgivare (läs upphandlingar), samt ett utstuderat icke-vetenskapligt sätt att förhålla sig till hur svårt det är att förutsäga mänskligt beteende.

Nedan kommer min syn på vad som gått snett i debatten om standardiserade test på den svenska marknaden.

Vad är ett test?

Som redan sagt ovan är det ofta självrapporterande personlighetstest som får klä skott, men test är så mycket mer. ”Testing” i USA är alla typer av bedömningar, det kan vara prov i skolan (Educational Testing), det kan vara föräldrars skattningar av barns aggressiva beteende i hemmet (Clinical testing) och det kan var anställningsintervjuer som poängsätts av rekryterare (Selection testing).

Jag föreslår att vi tar bort ordet test från diskussionen och ersätter test med standardiserade bedömningar (eng Assessments). Här ingår anställningsintervjuer, andras bedömningar av personlighet (sk observerad personlighet) etc etc.

Hur ska bedömningen användas?

En bedömning är således ett standardiserat förfarande som garanterar att alla blir bedömda på samma sätt. Inom forskningen har vi sedan urminnes tider två begrepp som används för att utvärdera ett standardiserat bedömningsförfarande; reliabilitet och validitet. Reliabiliteten handlar om träffsäkerheten, alltså hur säkra på är vi att denna poäng inte är endast slumpmässig. Och validitet då? Ett vanligt svar är; att vi mäter vad vi avser att mäta. Men det är lite krångligare än så, för här måste vi ta in bedömaren, dvs hur kommer den som tittar på individens bedömningspoäng använda den? Det går, enligt mig, aldrig ange att en bedömning är valid, så länge du inte tar med bedömaren i bilden. I rekryteringssammanhang är ofta leverantören av bedömningen ansvarig för detta, men det är alltid arbetsgivaren som är ansvarig för urvalsbeslutet. Det gäller således att flera aktörer är överens hur resultatet ska användas efter bedömningen.

Evidensbaserat urval

Maria Åkerlund, Sara Henrysson Eidvall och jag arbetade fram en metod för att maximalt ta tillvara information från standardiserade bedömningsmetoder som underlag för urvalsbeslut, Maria kom på namnet Evidensbaserat urval. Istället för att bedömaren vägde ihop resultatet från ett begåvningstest (BasIQ) och ett personlighetstest (NEO) på ett intuitivt sätt, utvecklade vi en enkel formel får att addera ihop resultatet. Redan på 1950-talet visade forskningen (Meehl, 1954) att den mekaniska tolkningen är överlägsen den intuitiva. I en metaanalys fann Grove, Zald, Lebow, Snitz & Nelson (2000) att av 136 studier, som ingick i analysen, var 63 till den mekaniska tolkningens fördel, 65 visade att båda metoderna var lika bra, och endast 8 studier visade att den intuitiva tolkningen var överlägsen. Den intuitiva tolkningen kräver ofta mer resurser i form av både tid och pengar, vilket gör den intuitiva metoden underlägsen den mekaniska metoden.

Den mekaniska metoden får även den kritik i Psykologtidningen där en psykolog uttrycker det så här.

”Det finns ju en yrkeskunskap som är kopplad just till psykologen, att man har läst en vetenskaplig utbildning och sedan arbetat inom fältet, en teoretisk och praktisk grundad erfarenhet som är viktig. Allt detta samlat gör det möjligt för psykologen att tolka enskild data i det sammanhang som bedömningen gäller”.

Detta är långt ifrån det första argumentet som förts fram som ett argument för det intuitiva metoden. För att citera Paul Meehl

”the honest clinician cannot avoid the question “Am I doing better than I could do by flipping pennies?”

Forskningsresultatet är glasklara, den intuitiva metoden, även om den slår slumpen är underlägsen den mekaniska metoden.

Vad är mekanisk tolkning?

Den mekaniska metoden betyder, trots vad andra framför, att du kan väga in subjektiva inslag i din bedömning. Den mekaniska metoden betyder att du har en regel hur du ska väga ihop informationen. Denna regel kan vara resultat av enskilda valideringsstudier, meta analyser eller experters bedömningar.

Den mekaniska metoden handlar inte enbart om psykologiska test. Det är riktigt att jag personligen, sedan utvecklingen av PJP (Sjöberg, Sjöberg, & Forssén, 2006) arbetat med den mekaniska tolkningen baserat på psykologiska test. Men den mekaniska tolkningen kan innefatta referenstagning, andras bedömning av kunskap, intervjuresultat, så länge det finns ett resultat som kan adderas in i formeln så går det att använda i den mekaniska tolkningsmodellen. Naturligtvis måste informationen vara valid, dvs ha ett samband med det du vill förutsäga (arbetsprestation, arbetsglädje, personalomsättning, kontraproduktivt beteende, etc etc).

Men varför används inte mekanisk tolkning oftare?

Mycket tyder på att den mekaniska tolkningen tar bort känslan av autonomi för psykologen/rekryteraren och att det delvis tar bort ”expertens” unika status i samhället. Att kunna hänvisa till att en arbetsgrupp har en unik förmåga är inte ovanligt, men att psykologen skulle på ett unikt sätt bidra till att intuitivt kunna väga ihop information för långsiktiga förutsägelser, är helt enkelt inte sant. Vad som är sant är att psykologen är bra på att intervjua (och en mängd andra saker), dvs ta fram unik valid information, men psykologen har inte en unik förmåga att väga ihop en stor mängd data för ändamålet urvalsbeslut.

[When it comes to prediction], the whole trick is to decide what variables to look at and then to know how to add (Dawes and Corrigan, 1974).

Det är detta bedömaren bör fokusera på, inte intuitivt väga ihop samma information.

Detta är stegen i den mekaniska tolkningmodellen, även kallad Evidensbaserat urval.

Bestäm vad du vill förutsäga
Bestäm vilka metoder du ska använda för att samla information
Samla data
Bestäm vilka regler som ska användas för att slå ihop data för urvalsbeslut.

Och håll dig till reglerna.

Tips på litteratur

Dawes, R. M. (1979). The robust beauty of improper linear models in decisionmaking. Am. Psychol. 34, 571–582. doi: 10.1037/0003-066X.34.7.571

Dawes, R. M., & Corrigan, B. (1974). Linear models in decision making. Psychological Bulletin, 81, 95–106. doi: 10.1037/h0037613

Grove, W. M., Zald, D. H., Lebow, B. S., Snitz, B. E., & Nelson, C. (2000). Clinical versus mechanical prediction: A meta-analysis. Psychological Assessment, 1, 19–30.

Highhouse, S. (2008). Stubborn reliance on intuition and subjectivity in employee selection. Industrial and Organizational Psychology, 1, 333–342.

Kuncel, N. R. (2008). Some new (and old) suggestion for improving personnel selection. Industrial and Organizational Psychology, 1, 343–346.

Kuncel, N. R., Klieger, D. M., Connelly, B. S., & Ones, D. S. (2013). Mechanical versus clinical data combination in selection and admissions decisions: A meta-analysis. Journal of Applied Psychology, 98, 1060–1072.

Meehl, P. E. (1954). Clinical versus statistical prediction. A theoretical analysis and a review of evidence. Minneapolis, MN: University of Minnesota Press.

Meehl, P. E. (1967). What can the clinician do well? In D. N. Jackson & S. Messick (Eds.), Problems in human assessment (pp. 594–599). New York: McGraw-Hill.

Meehl, P. E. (1986). Causes and effects of my disturbing little book. Journal of Personality Assessment, 50, 370–375.

Sjöberg, A., Sjöberg, S., & Forssén, K. (2006). Predicting Job Performance. Swedish version. Manual. Stockholm: Assessio International.