Bruset i våra bedömningar

Daniel Kahnemans bok Tänka Snabbt Långsamt blev en storsäljare, nu har han tillsammans med Oliver Sibony (professor i ekonomi) och Cass R. Sunstein (professor i juridik) skrivit en ny bok som har namnet BRUS. Jag har läst den engelska originalversionen av boken, och sedan skummat de mest intressanta kapitlen i den svenska översättningen. Mycket intressant för det speglar lite den resa jag gjort i det akademiska och det praktiska arbetslivet.

När jag studerade på psykologiska institutionen på 80-talet gick det rykten om att metodkurserna på stockholms universitet var hemska, man fick räkna variansanalys för hand, inga datorer iphones så långt ögat nådde. På kursen skulle upp till en fyrvägs-variansanalys räknas ut och redogöras för, exakt med alla formler och uträkningar.

Några år senare, efter denna metodkurs, träffade jag Janne Lindell, organisationspsykolog på Bygghälsans forskningsstiftelse, som gav mig första introduktionen till hur jag med statistiken hjälp kan förstå fenomen som i boken benämns som BRUS. När jag blev doktorand blev jag tilldelad Lars Nystedt som min handledare, och han hade superkoll, och en ödmjukhet i sitt sätt att låta oss studenter försöka förstå, utan press. Ytterligare några år senare träffade jag Bertil Mårdberg, när jag började på Psykologiförlaget, som på ett underbart målande sätt förklarade för mig vad psykometri är och vilken praktiskt nytta psykometri kan ge oss.

Men vad har detta med boken att göra? Svaret är att hela boken handlar om varians analys och psykometri. Författarna tar inte utgångspunkten i formler utan tar konkreta exempel, på det sättet behöver man inte, till en början, ha en susning om vad variansanalys är. Några exempel. När två psykiatriker utförde oberoende granskningar av 426 patienter på statliga sjukhus slog de inte en slumpmässig gissning. När ett stort försäkringsbolag skulle bestämma premiesatser varierade individers föreslagna premier med 55 procent , vilket innebär att en medarbetare kunde bestämma en premie på 95 000 SEK medan en annan kollega uppskattade samma premie till 167 000 SEK.

Men vad är då BRUS?

Tänk dig att du och en annan person får exakt samma information om något, och ska med den information fatta ett eller flera beslut, är ni överens till 100% finns inget brus, är ni inte 100% överens finns det brus.

Givet den informationen finns det två saker som ställer till det, det första är att du och den andra personen inte har samma uppfattningen av nivån, exempelvis hur bra betyg måste man måste ha för att få ett jobb, eller hur långt fängelsestraff en dömd person ska få. Det andra problemet är mönsterbrus, exempelvis när du och den andra personen är rimligen överens om den generella nivån, hur kommer skiljer sig då era bedömningar om ett enskilt fall.

Låt mig ta ett exempel från rekryteringsbranschen.

När kompetensmodeller används är det ofta så att en grupp individer är överens om vad som är viktigt (Nivå brus). Problemet är inte nivåbruset, det är mönsterbruset, dvs olika bedömare kommer tolka nivån på olika sätt och på det sättet kommer samma individ bedömas på olika sätt.

Det är relativt enkelt att uppskatta både nivå brus och mönsterbrus, eftersom det enda som behövs är två oberoende bedömningar och minst ett beslut. Inom forskningen kallar vi det reliabilitet. Jag har under de senaste 10 åren utfört ett antal sådana analyser, och det är slående hur vi missbedömer hur överens vi är om olika saker. Ett sätt att dölja detta inom urval är att ha diskussioner mellan rekryterare och anställande chef, känslan är att vi har samma uppfattning om kandidaten, men det är bara skenbart, många gånger är bruset betydligt större än det vi är överens om. I boken beskriver Nathan Kuncel att han föreslog att två oberoende personer skulle granska och sätta betyg på en skola, rektorn svarade då att ”så gjorde vi förr men det resulterade i så mycket oenighet att vi gick över till det nuvarande systemet” (sid 37). Det nuvarande systemet bygger på konsensus, men det döljer bara bruset det tar inte bort bruset.

Brusanalys

Ett bra exempel på en brusanalys är när en kollega till mig Dave Bartram och hans forskningskollegor undersökte hur SHL:s kompetensmodell fungerar, dvs hur överens är två oberoende rekryterare om vad som är viktigt för att lyckas i ett yrke. Nedan kommer några exempel från studien.

Resultatet baseras på delar av Tabell 1; Lievens, F., Sanchez, J. I., Bartram, D., & Brown, A. (2010). Lack of consensus among competency ratings of the same occupation: Noise or substance? Journal of Applied Psychology, 95(3), 562–571. https://doi.org/10.1037/a0018035

I termer som beskrivs i boken Brus, delades det totala bruset (Sytembrus) upp i två komponenter, Nivåbrus och Mösnterbrus. I studien fick två eller flera rekryterare ta ställning till 112 komponenter som sedan delades in i 20 dimensioner. Varje komponent bedömdes utifrån om den var relevant eller inte längs en 4 gradig skala. I tabellen visas det totala systembruset som fanns i fem utvalda yrkesgrupper (den kompletta tabellen återfinns i artikeln).

Tabellen visar först att det är en hel del brus i bedömningarna, men att det varierar en hel del. Tex är det väldigt svårt att komma överens om vad en butikssäljare ska ha för kompetens, det är betydligt ”lättare” att komma överens om polisens kompetens. Vi ser också att mönsterbruset är den största boven i dramat, dvs vi är betydligt bättre på att bedöma vilken generell nivå som gäller, men sedan när enskilda kompetenser ska rangordnas då är vi inte överens. Ett bra exempel är marknadsförare där nivå bruset är 0% medan mönsterbruset är hela 73%.

Vad får detta för konsekvenser. Om vi överför detta till bedömningar i rekryteringar så är det nära katastrof, om vi bara är överens om att kompetenser som nätverkande, affärsutveckling, resultatorientering osv osv (vanliga begrepp i kompetensmodeller som används i kommuner idag) är viktiga, och ska ligga på en viss generell hög nivå, medan sedan när vi som individer verkligen ska bedöma vad som är viktigast så kommer bruset.

Går det att göra något åt? I boken Brus finns många tips hur vi kan minska det totala bruset i våra bedömningar. När det gäller urvals praktiken idag är mitt tips följande.

Skippa alla flummiga kompetensmodeller, använd standardiserade arbetsanalysverktyg som är validerade för att profilera olika yrkesgrupper

Utför brusanalyser, om ni inte idag vet vad som är problemet går det inte att åtgärda

Gör oberoende bedömningar utan att diskutera med varandra, slå sedan ihop dessa bedömningar genom att summera resultatet.

Funkar det då? Ja det gör det, jag har tillsammans med mina kollegor och studenter genomfört brusanalyser på tre olika yrkesgrupper, där har vi kunnat minska bruset genom att verkligen använda en forskningsbaserad modell inom personlighet, den sk Fem Faktor Modellen (FFM, som vi beskriver i vår senaste bok Personlighet i arbete) och utvecklat en standardiserad metod för att mäta FFM i arbetssammanhang. Jag återkommer med beskrivning av dessa resultat.

Referenser

Kahneman, D, Sibony, O., & Sunstein, C.R. (2021). Brus. Det osynliga flera som stör våra bedömningar- och vad du kan göra åt det. Volante.

Sjöberg, S., Sjöberg, A., & Henrysson Eidvall, S. (2021). Personlighet i arbete. Natur & Kultur.

Lievens, F., Sanchez, J. I., Bartram, D., & Brown, A. (2010). Lack of consensus among competency ratings of the same occupation: Noise or substance? Journal of Applied Psychology, 95(3), 562–571.

Aspekter – en nyhet inom personlighetsforskningen som beskrivs i en nyutkommen bok

Sjöberg, Sofia., Sjöberg, Anders., & Henrysson Eidvall, Sara (2021). Personlighet i arbete. Natur och Kultur.

Idag släpps vår nya bok Personlighet i arbete. I boken ger vi en inblick i vad forskningen menar med personlighet, hur personlighet skiljer sig mellan människor, och hur den fungerar i arbetssituationer. Boken är ett ett resultat av många års erfarenhet av testutveckling och praktiskt arbete med personbedömningar. Samtidigt som vi nu lanserar vår nya bok har vi vidareutvecklat vårt personlighetstest i Assessment Engine. Den fullständiga teorin och det vetenskapliga stödet bakom Personality150 skriver vi om boken och nu lanserar vi ytterligare en nyhet för Personality150, vårt test i Assessment Engine. Vi är stolta att kunna erbjuda ett personlighetstest som mäter hela Fem Faktor Modellen, från item till facetter, till aspekter och till faktorer. Detta gör Personality150 helt unik i världen.

Aspekter

Den senaste forskningen inom personlighet föreslår ytterligare en meningsfull tolkningsnivå i personlighetens hierarkiska struktur. Denna nivå återfinns mellan faktorer och facetter och består av 10 så kallade Aspekter.

Aspekternas främsta bidrag är att ge information om den viktigaste nyansen inom varje faktor då den delar varje faktor i två. På så sätt kan man säga att aspekterna belyser varje faktor från två perspektiv och kan bland annat ge svar på vad som driver uttrycket för den generella faktorn. Ett exempel är faktorn Extraversion som delas i aspekterna Entusiasm respektive Självsäkerhet. Båda aspekterna tar sig uttryck i samspelet med andra, men Självsäkerhet drivs av social dominans medan Entusiasm drivs av positiv affekt.

Samtidigt som aspekterna belyser den viktigaste nyansen inom varje faktor så bidrar de även med den mest meningsfulla grupperingen av facetter, genom att de facetter som är mest lika varandra samlas under en och samma aspekt. I aspekten Entusiasm (i Extraversion) ingår till exempel facetterna Tillgivenhet, Sällskaplighet och Gladlynthet medan aspekten Självsäkerhet utgörs av facetterna Dominans, Energi och Spänningssökande. (Notera att antalet facetter som ingår i en aspekt varierar beroende på faktor; fördelningen kan vara 1-5, 2-4, eller 3-3.)
Aspekter finns nu i Assessment Engine!

Assessment Engine levererar nu resultat på samtliga 10 aspekter för alla processer där Personality150 ingår. Vi är övertygade om att det finns många områden där aspekter kan vara till stor nytta, särskilt i tillämpningar där faktorer är alltför trubbiga samtidigt som facetter upplevs som onödigt specifika.

Resultat Assessment Engine

Är du expert på Assessment?

Detta är en intressant undersökning som kommer resultera i en bok av Nigel Guenole, Cicek Svensson och Bart Wille (Technology and Measurement around the Globe). Ni som anser er vara experter på ”assessment in the workplace”, ta 10 minuters paus och svara på några frågor hur du använder assessment i din organisation. Klicka på nedan länk där du kan läsa mer om projektet och svara på frågorna. Tack för hjälpen.

TILL UNDERSÖKNINGEN

Vill du delta i ett forskningsprojekt?

Just nu söker vi deltagare till ett forskningsprojekt om personlighet vid Stockholms universitet. Studien syftar till att undersöka en självskattningsskala som mäter personlighetsfungerande. Den svenska översättningen av skalan har inte tidigare undersökts. Att se hur ett stort antal personer svarar på formuläret ger därför viktig information om dess användbarhet.

Webbenkäten består av tre korta frågeformulär som handlar om hur du fungerar i vardagen, hur du mår och hur du upplever tillvaron. Sammanlagt tar det endast 5-10 minuter att besvara alla frågor.

Datainsamling sker naturligtvis anonymt och all data behandlas på gruppnivå. Eftersom det är helt nya frågor kan vi inte ge dig återkoppling på ditt resultat. Studiens resultat kan komma att publiceras i en forskningsartikel. Om studiens resultat uppfyller vetenskapliga höga krav på kvalitetssäkring av psykologisk testning kommer skalan att användas i viktigt utredningsarbete av legitimerade psykologer.

Vidare information finns på nedan länk. Om du har några frågor och/eller om du vill ta del av resultatet efter att det publicerats kan du höra av dig till jonna.eklund@gmail.com eller till anders.sjoberg@psychology.su.se

För deltagande klicka HÄR

Tack för din medverkan!

Problemen med teamarbete och hur du löser dem

När jag fortfarande gick grundutbildningen på psykologiska institutionen i Stockholm i början på 90-talet träffade jag Annika Lantz för första gången, hon var lärare på institutionen och hon blev sedan min handledare. När jag efter ca 14 år efter min avhandling kom tillbaka till institutionen började Annika sin nya tjänst som Professor på institutionen, så idag är vi arbetskamrater. Annika är en bidragande orsak till mitt yrkesval idag, hon motiverade mig att göra mitt yttersta för att komma in på doktorandutbildningen och nu under senare år har vi även publicerat en artikel om team, vilket är Annikas specialområde. Jag är stolt att presentera henne som gäst på min blogg. Nedan presenterar Annika sig själv och den nya boken som hon skrivit tillsammans med Daniela Ulber och Peter Friedrich. Boken bygger på evidensbaserad kunskap om team och mitt råd är naturligtvis KÖP BOKEN.

KLICKA HÄR FÖR ATT KÖPA BOKEN

Alla vet att det finns inga enkla eller snabba lösningar för att effektivisera teamarbete. Många års egen forskning, utbildning av blivande psykologer och också eget arbete som konsult ledde till en lust att försöka knyta ihop kunskaper om vad systematiskt utvecklingsarbete innebär och vad vi utifrån empirisk forskning vet om orsakerna till vanliga problem i teamarbete och hur man kan lösa dem. Ett resultat blev en bok.  Många års erfarenhet gjorde mig också frustrerad; mycket av det som görs för att lösa problem med teamarbete eller utveckla teams effektivitet leder inte till påtagliga resultat. Organisationer som upphandlar tjänster för att införa eller effektivisera teamarbete behöver beställarkompetens för att öka organisationens krav på utförarna och praktiker behöver ökad kunskap om forskningsläget och förmåga att arbeta systematiskt. Studenter behöver tränas i att göra det som de senare ska göra i sin senare yrkesutövning. Men vad ska de tränas i? Ett kliv framåt är att de flesta lösningar för att lösa problem med teamarbete eller för att utveckla team numera presenteras som evidensbaserade. Men hur evidensbaserad är själva problemlösningen? 

En systematisk intervention bygger på alla stegen i problemlösningscirkeln: från beskrivning av situationen, identifiering av ett eller flera kärnproblem, analys av orsakerna till kärnproblemet (en), val av vilka orsaker som ska elimineras/förändras, bestämma mål för förändringen, välja bland olika alternativa lösningar, iscensätta lösningen (exempelvis ett träningsprogram) och utvärdera effekterna av lösningen. 

En djupdykning i forskningen om orsakerna till vanliga problem i teamarbete och i forskningen om värdet av interventioner visar på några centrala punkter för att förändringsförsöken ska åstadkomma en mätbar, synlig och viktig förändring. 

Det är bara systematiska interventioner som gör en skillnad i teamets resultat. Det tål att tänkas på. Flertalet lösningar är processorienterade och fokuserar alltså på samspelet. Forskning visar att sammanhanget inom vilket teamarbetet utförs och som bestämmer förutsättningarna för samspelet (det organisatoriska sammanhanget exempelvis HR-strategier, faktorer på gruppnivån där arbetets innehåll och utformning är den viktigaste inputen till teamets processer och faktorer på individnivå, exempelvis individuella attribut som kompetensprofil) förklarar mer av resultatet av teamarbetet än samspelet. Det tål också att tänkas på. 

I boken ’Problemen med teamarbete och hur du löser dem’ (Lantz, Ulber, & Friedrich, 2020) utgiven av Studentlitteratur visas vad systematiska interventioner är och vad de kräver. En form av kravspecifikation på ett väl genomfört utvecklingsarbete som ger praktisk hjälp till chefer, teamledare och teamutvecklare så att de hittar rätt i djungeln av de evidensbaserade lösningarna. 

KLICKA HÄR FÖR ATT KÖPA BOKEN

Assessment Engine utvecklar ett nytt sätt att bedöma personlighet. Varför inte fråga andra?

När jag och mina kollegor på Assessment Engine startade verksamheten var det pga av att vi såg en tröghet hos leverantörer av test att hitta på nya bedömningsmetoder. Nu har vi på Assessment Engine, som första leverantör av bedömningar i arbetslivet enligt ISO10667, utvecklat ett nytt sätt att samla information om personers personlighet, vi kallar det Observed Personality. Den första versionen av detta test finns nu tillgänglig i Refapp.

Självrapporterande personlighetstest är det i särklass mest använda psykometriska testet på marknaden.

Ett annat sätt att få en bild av vilken personlighet som döljer sig hos kandidaten som vill ha jobbet är att komplettera det självrapporterande testet med personligheten bedömda av andra personer. Vi på Assessment Engine har nu som första testleverantör utvecklat ett nytt sätt att samla information om personers personlighet, vi kallar det Observed Personality.

Det nya testet vi utvecklat bygger på Hogans distinktion mellan personlighet som identitet (det du själv tycker) eller rykte (det andra tycker om dig), på engelska, identity and reputation.

I Assessment Engine utgår vi ifrån att vi mäter personens identitet när vi skickar ut våra olika versioner av våra självrapporterande test (Personality30 eller Personality150) till kandidater. Eftersom personen själv bedömer sin personlighet bygger det på hur personen själv upplever sig som person.

Att samla information från personen själv är en stor fördel, som inte många tänker på, att personen i fråga känner sig själv bäst, särskilt inre tankar om andra människor och hur personen relaterar till dem. En del drag hos en person är svåra att ”upptäcka” för andra människor. Känslomässig instabilitet är ett exempel, särkilt den del instabiliteten som handlar om oro och nedstämdhet. Personen kan mycket väl känna en inre ångest men inte visa det i sin relation med andra människor.

Andra delar av personligheten, som tex gladlynthet eller positiva känslor (en del av extraversion), syns ofta; personer som har extremt hög nivå av denna facett känns som de är ”glada hela tiden”, det syns utanpå. Och är därför ”lättare” att mäta med ”Observed Personality”.

I den första versionen av Observed Personality får referenten (den som ska säga något om kandidaten) besvara 30 påståenden om individen. När tre eller flera referenter besvarat frågorna poängsätts svaren och sammanfattas i fem faktorer enligt den bekanta Fem Faktor Modellen. Resultatet bör sedan viktas in ert beslutsunderlag baserat på er arbetsanalys, helst med hjälp av en algoritm.

Den första versionen av Observed Personality finns nu tillgänglig i referenstagningssystemet Refapp, där kan du komplettera er personbedömning med observerad personlighet. Vill ni testa detta hör av er till David Näsström Refapp han kommer guida er vidare till en bättre referenstagning och en validare personbedömning.

En fördel är naturligtvis att ni tillsammans med Observed Personality kompletterar med våra personlighetstest i Assessment Engine. Vi bjuder på processer i Assessment Engine till ett värde av 2500 SEK. Det är bara att peta in din mailadress på Assessment Engine.

Ny forskning om beslutsfattande i urvalssituationer. Inget nytt under solen, samma slutsatser som tidigare.

När vi utvecklade Assessment Engine inspirerades vi av den forskning som handlar om beslutsfattande. Asssessment Engine kombinerar olika resultatet till en sk Suitability Score, en lämplighetspoäng. Istället för att du som bedömare själv kombinerar en stor mängd resultat sköter algoritmer detta åt dig, du kan göra annat och samtidigt vara evidensbaserad i ditt arbete. Nu har ny forskning producerats som återigen bevisar att vi som människor inte har förmågan, som många tror, att väga ihop olika typer av information i en urvalsprocess på ett konsekvent och standardiserat sätt.

Så här kan resultatet visas i Assessment Engine

Den 28 september 2013 skrev jag på min blogg om intuitiv tolkning och mekanisk tolkning av bedömningsresultat, läs gärna den bloggen innan ni läser vidare.

Informationen vid personbedömning för urvalsbeslut kan vägas ihop på två olika sätt. Det första tillvägagångssättet är så kallad intuitiv tolkning, vilket betyder att vägningen av informationen insamlad om kandidaten avgörs av bedömarens subjektiva tolkning. Det går till så att flera olika datainsamlingsmetoder används, tex intervju, personlighetstest, begåvningstest och referenstagning. Dessa resultat utgör sedan helhetsbedömningen som sedan blir avgörande för urvalsbeslutet.

Det andra sättet att tolka samma information är mekanisk tolkning. Denna tolkningsmetod bygger på att det finns en i förväg utvecklad evidensbaserad tolkning av informationen som anger sannolikheten att en viss individ ska prestera bättre (eller något annat man vill förutsäga) på arbetet än andra.  Istället för att rekryteraren använder sin subjektiva tolkning grundas tolkningen på en väl beforskad vägning av olika informationskällor (intervju, testpoäng och CV).

Det kanske inte är konstigt att den vanliga arbetsgivaren (som ej har utbildning i personalfrågor) använder sig av den subjektiva helhetsbedömningen. Jag menar, när man i det vanliga livet träffar människor har vi en tendens att använda den intuitiva känslan för att bedöma personers egenskaper, det är enklast så och det kräver minimalt av din tankekraft, istället för att koppla på det logiska systemet så går vi direkt på känslan. Så här kan det låta när en chef (utan utbildning i bedömning) fattar sitt urvalsbeslut.

Det är en signal, en känsla som jag får att där här kommer inte att lira riktigt bra… Om det fortfarande ligger kvar och spökar…då går jag inte emot den, då litar jag på att det inte är bra, att jag inte har valt rätt i den situationen. 

Men om den oinformerade chefen går på ren intuition hur är det då med de som har en längre utbildning på universitetet. Faktum är att en stor del av de som har en professionell titel, som tex rekryterare, och psykolog använder den subjektiva helhetsbedömningen, TROTS att all evidens talar för raka motsatsen. När vi frågade HR personer (via LinkedIN) för några år sedan var det hela 85% som fortfarande går på den subjektiva helhetsbedömningen. Så här kan det låta från en högt utbildad person som har personbdömning som en central arbetsuppgift

”Det intressanta ligger också ofta i det man inte förstår – i den okända variansen, relaterat till förmågan att uppfatta och märka det som avviker från det man trodde.”

Jag vill mena att båda citaten ovan beskriver samma fenomen, en överdriven tro på sin egen förmåga att se runt hörn, att känna något ingen annan känner, att vara unik bedömare, helt enkelt en övertro på sin egen förmåga.

Om vi nu ändå går på forskningen och accepterar att det mekaniska/analytiska bedömningen är överlägsen helhetsbedömningen hur mycket bättre är olika mekaniska/analytiska metoder i jämförelse med den experters helhetsbedömning.

I en alldeles färsk forskningsrapport undersöker Yu och Kuncel (2020) detta. Forskarna har undersökt hur bra en kombination av resultat av några assessment center övningar, ett personlighetstest, ett begåvningstest och intervju förutsäger arbetsprestation i två olika organisationer (tre olika grupper). I denna studie tilldelades varje kandidat sju olika poäng som antogs mäta; adjustment, administration, communication,interpersonal, judgment, leadership, and motivation.

Dessa sju poäng kombinerades på tre olika sätt:

Experternas helhetsbedömning (experten själv sätter en övergripande poäng)

Summering av alla 7 poäng (enkel viktning)

Optimal vikt genom en statistisk formel (linjär regressionsanalys)

Vid jämförelsen av de olika sätten att väga ihop informationen uppträder ett tydligt mönster. För grupp 1 är det den statistiska formeln som har högst validitet (Optimal vikt; r=.25). På andra plats kommer summeringen (Summering; r=.19) och på tredje plats helhetsbedömning (Helhetsbedömning; r=.17). 

Samma mönster återfinns i grupp 2 (Optimal vikt; r=.40; Summering r=.33; Helhetsbedömning r=.16). 

Och detta mönster upprepas i grupp 3; Optimal vikt=.30; Summering=.22; Helhetsbedömning =.13.

Med andra ord, i samtliga grupper hade experterna helhetsbedömning lägst validitet.

För att gräva vidare genomfördes simuleringar hur det skulle gå för de tre olika metoderna om vi skulle genomföra ett oändligt antal bedömningar. Utgångspunkten i all urvalsverksamhet är att slå slumpen, om våra bedömningar inte slår slumpen (eller har en negativt samband med kriteriet) är det helt värdelöst att göra bedömningar, då kan vi lika gärna dra lott vem som ska ha jobbet. Fördelen med slumpen är som bekant att den inte diskriminerar, samt är väldigt billig.

Så hur bra är experternas helhetsbedömning? I den första gruppen slår experterna en helt slumpmässig modell alla gånger (100%). I den andra gruppen är det 8,5% av experterna som blir slagna av slumpen och i den tredje gruppen är det faktiskt hela 22,2% av experterna som är sämre än slumpen. Det betyder att en hel del av experterna utlåtande är sämre än slumpen.

I nästa steg genomfördes en liten korrigering för att minimalt införa en systematik i bedömningen, detta skedde genom att alla individer fick samma vikt men den vikten var framtagen slumpmässigt, det var en positiv vikt som kunde variera mellan 0 till 0.5. 

Om denna lilla korrigering genomförs så slår denna systematik experterna i grupp 1 i 76,83% av fallen, i grupp 2 slås alla experter (100%) och samma sak i grupp 3 (100%).  Slutsatsen är att så fort en systematik genomförs så slås experterna ut, dvs de har i sina beslut lägre validitet i jämförelse med en synnerligen enkel formel, dvs att vikterna är någonstans mellan 0 och 0,5. Detta betyder att även experter som är tränade att väga ihop information av olika bedömningsmetoder är icke-konsekventa i sin bedömning.

”In conclusion, no matter how strongly a set of predictors relate to the criterion, the predictive power of a decision system is dependent on how information is combined. Consistency in weighting predictors across all judgments heavily contributes to maximizing predictive validity. The bad news is that human judges and even experts are often inconsistent” (sid 9).

En intressant iakttagelse i detta tillämpade fall är att experterna naturligtvis har möjlighet att föra in ny information i sina beslut, alltså information som inte inkluderas av de sju poängen, men ändå presterar de betydligt sämre i jämförelse med en summering av resultatet och till och med slumpmässigt framtagna vikter.

”It is possible that the expert assessors could have had more information about the candidates beyond scores on these seven assessment dimensions, such as their performanceon individual assessment activities, test profiles, and biographical information obtained from sources such as résumés and personal interaction. This could be viewed as an advantage that a human judge has over a mechanical method. Despite the possibility that the experts had this information available to them, they still performed worse than any mechanical method”. (sid 9)

Slutkommentar

Vad ska vi då ha experter till? Det är naturligtvis för att utveckla olika metoder som är valida, dvs metoder som har ett positivt samband med det beteende som ska förutsägas, tex arbetsprestation. Algoritmer, eller slumpen för den delen, kan inte utveckla nya intervjumetoder, referenstagningar, asssessment center, psykologiska test etc etc. Experter bör utveckla metoder, men absolut inte kombinera resultatet.

Vill du gratis testa Assessment Engine och Evidensbaserat urval klicka här.

Vill du kolla på hur Assessment Engine fungerar med Teamtailor klicka här

Vill du ha en demonstration av Assessment Engine maila till team@assessmentengine.se så hjälper vi dig att komma igång, helt gratis (inga licenser eller andra dolda kostnader)

Vill du läsa om hur Evidensbaserat urval fungerar och våra tests psykometriska egenskaper maila till team@assessmentengine.se så skickar vi vår tekniska manual

Referens

Yu, Martin C. and Kuncel, Nathan R. (2020). Pushing the Limits for Judgmental Consistency: Comparing Random Weighting Schemes with Expert Judgments, Personnel Assessment and Decisions: Vol. 6 : Iss. 2, Article 2. Available at: https://scholarworks.bgsu.edu/pad/vol6/iss2/2.

Lästips

Dawes, R. M., Faust, D., & Meehl, P. E. (1989). Clinical versus actuarial judgment. Science, 243, 1668- 1674.

Kuncel, N. R., Klieger, D. M., Connelly, B. S., & Ones, D. S. (2013, September 16). Mechanical versus clinical data combination in selection and admissions decisions: A meta-analysis. Journal of Applied Psychology. Advance online publication. doi: 10.1037/a0034156

Tillämpningen av standardiserade bedömningsmetoder

Debatten om användningen av standardiserade test går vidare, i senaste numret av Psykologtidningen beklagar sig en legitimerad psykolog sig över att standardiserade test har motsatt effekt, hen antyder att ”att de personer som vi har störst behov av att identifiera ur ett riskperspektiv, är de som är sämst på att rapportera sanningsenligt om sig själva. I senaste numret av chefstidningen ondgörs sig vidare både praktiker och forskare om ovetenskapliga test och pengar som slängs i sjön. I skottgluggen står till 99% personlighetstest, men även begåvningstest får sig en släng av sleven. I Psykologtidningen påstår sig en legitimerad psykolog att begåvning är bara avgörande om du ligger under medel, det spelar sedan inte någon roll om du är superbegåvad, det påverkar tydligen inte om du blir en bra chef, menar hen!

I både Psykologtidningen och Chefstidningen finns det även kloka synpunkter om hur du ska använda test, att testet bör vara granskat av oberoende instanser och att det förekommer ”så mycket skit” på marknaden kan skyllas på okunniga uppdragsgivare (läs upphandlingar), samt ett utstuderat icke-vetenskapligt sätt att förhålla sig till hur svårt det är att förutsäga mänskligt beteende.

Nedan kommer min syn på vad som gått snett i debatten om standardiserade test på den svenska marknaden.

Vad är ett test?

Som redan sagt ovan är det ofta självrapporterande personlighetstest som får klä skott, men test är så mycket mer. ”Testing” i USA är alla typer av bedömningar, det kan vara prov i skolan (Educational Testing), det kan vara föräldrars skattningar av barns aggressiva beteende i hemmet (Clinical testing) och det kan var anställningsintervjuer som poängsätts av rekryterare (Selection testing).

Jag föreslår att vi tar bort ordet test från diskussionen och ersätter test med standardiserade bedömningar (eng Assessments). Här ingår anställningsintervjuer, andras bedömningar av personlighet (sk observerad personlighet) etc etc.

Hur ska bedömningen användas?

En bedömning är således ett standardiserat förfarande som garanterar att alla blir bedömda på samma sätt. Inom forskningen har vi sedan urminnes tider två begrepp som används för att utvärdera ett standardiserat bedömningsförfarande; reliabilitet och validitet. Reliabiliteten handlar om träffsäkerheten, alltså hur säkra på är vi att denna poäng inte är endast slumpmässig. Och validitet då? Ett vanligt svar är; att vi mäter vad vi avser att mäta. Men det är lite krångligare än så, för här måste vi ta in bedömaren, dvs hur kommer den som tittar på individens bedömningspoäng använda den? Det går, enligt mig, aldrig ange att en bedömning är valid, så länge du inte tar med bedömaren i bilden. I rekryteringssammanhang är ofta leverantören av bedömningen ansvarig för detta, men det är alltid arbetsgivaren som är ansvarig för urvalsbeslutet. Det gäller således att flera aktörer är överens hur resultatet ska användas efter bedömningen.

Evidensbaserat urval

Maria Åkerlund, Sara Henrysson Eidvall och jag arbetade fram en metod för att maximalt ta tillvara information från standardiserade bedömningsmetoder som underlag för urvalsbeslut, Maria kom på namnet Evidensbaserat urval. Istället för att bedömaren vägde ihop resultatet från ett begåvningstest (BasIQ) och ett personlighetstest (NEO) på ett intuitivt sätt, utvecklade vi en enkel formel får att addera ihop resultatet. Redan på 1950-talet visade forskningen (Meehl, 1954) att den mekaniska tolkningen är överlägsen den intuitiva. I en metaanalys fann Grove, Zald, Lebow, Snitz & Nelson (2000) att av 136 studier, som ingick i analysen, var 63 till den mekaniska tolkningens fördel, 65 visade att båda metoderna var lika bra, och endast 8 studier visade att den intuitiva tolkningen var överlägsen. Den intuitiva tolkningen kräver ofta mer resurser i form av både tid och pengar, vilket gör den intuitiva metoden underlägsen den mekaniska metoden.

Den mekaniska metoden får även den kritik i Psykologtidningen där en psykolog uttrycker det så här.

”Det finns ju en yrkeskunskap som är kopplad just till psykologen, att man har läst en vetenskaplig utbildning och sedan arbetat inom fältet, en teoretisk och praktisk grundad erfarenhet som är viktig. Allt detta samlat gör det möjligt för psykologen att tolka enskild data i det sammanhang som bedömningen gäller”.

Detta är långt ifrån det första argumentet som förts fram som ett argument för det intuitiva metoden.  För att citera Paul Meehl

the honest clinician cannot avoid the question “Am I doing better than I could do by flipping pennies?”

Forskningsresultatet är glasklara, den intuitiva metoden, även om den slår slumpen är underlägsen den mekaniska metoden.

Vad är mekanisk tolkning?

Den mekaniska metoden betyder, trots vad andra framför, att du kan väga in subjektiva inslag i din bedömning. Den mekaniska metoden betyder att du har en regel hur du ska väga ihop informationen. Denna regel kan vara resultat av enskilda valideringsstudier, meta analyser eller experters bedömningar. 

Den mekaniska metoden handlar inte enbart om psykologiska test. Det är riktigt att jag personligen, sedan utvecklingen av PJP (Sjöberg, Sjöberg, & Forssén, 2006) arbetat med den mekaniska tolkningen baserat på psykologiska test. Men den mekaniska tolkningen kan innefatta referenstagning, andras bedömning av kunskap, intervjuresultat, så länge det finns ett resultat som kan adderas in i formeln så går det att använda i den mekaniska tolkningsmodellen. Naturligtvis måste informationen vara valid, dvs ha ett samband med det du vill förutsäga (arbetsprestation, arbetsglädje, personalomsättning, kontraproduktivt beteende, etc etc).

Men varför används inte mekanisk tolkning oftare?

Mycket tyder på att den mekaniska tolkningen tar bort känslan av autonomi för psykologen/rekryteraren och att det delvis tar bort ”expertens” unika status i samhället. Att kunna hänvisa till att en arbetsgrupp har en unik förmåga är inte ovanligt, men att psykologen skulle på ett unikt sätt bidra till att intuitivt kunna väga ihop information för långsiktiga förutsägelser, är helt enkelt inte sant. Vad som är sant är att psykologen är bra på att intervjua (och en mängd andra saker), dvs ta fram unik valid information, men psykologen har inte en unik förmåga att väga ihop en stor mängd data för ändamålet urvalsbeslut.

[When it comes to prediction], the whole trick is to decide what variables to look at and then to know how to add (Dawes and Corrigan, 1974).

Det är detta bedömaren bör fokusera på, inte intuitivt väga ihop samma information. 

Detta är stegen i den mekaniska tolkningmodellen, även kallad Evidensbaserat urval.

  1. Bestäm vad du vill förutsäga
  2. Bestäm vilka metoder du ska använda för att samla information
  3. Samla data
  4. Bestäm vilka regler som ska användas för att slå ihop data för urvalsbeslut.

Och håll dig till reglerna.

Tips på litteratur

Dawes, R. M. (1979). The robust beauty of improper linear models in decisionmaking. Am. Psychol. 34, 571–582. doi: 10.1037/0003-066X.34.7.571

Dawes, R. M., & Corrigan, B. (1974). Linear models in decision making. Psychological Bulletin, 81, 95–106. doi: 10.1037/h0037613

Grove, W. M., Zald, D. H., Lebow, B. S., Snitz, B. E., & Nelson, C. (2000). Clinical versus mechanical prediction: A meta-analysis. Psychological Assessment, 1, 19–30.

Highhouse, S. (2008). Stubborn reliance on intuition and subjectivity in employee selection. Industrial and Organizational Psychology, 1, 333–342.

Kuncel, N. R. (2008). Some new (and old) suggestion for improving personnel selection. Industrial and Organizational Psychology, 1, 343–346.

Kuncel,  N. R., Klieger, D. M., Connelly, B. S., & Ones, D. S. (2013). Mechanical versus clinical data combination in selection and admissions decisions: A meta-analysis. Journal of Applied Psychology, 98, 1060–1072.

Meehl, P. E. (1954). Clinical versus statistical prediction. A theoretical analysis and a review of evidence. Minneapolis, MN: University of Minnesota Press.

Meehl, P. E. (1967). What can the clinician do well? In D. N. Jackson & S. Messick (Eds.), Problems in human assessment (pp. 594–599). New York: McGraw-Hill.

Meehl, P. E. (1986). Causes and effects of my disturbing little book. Journal of Personality Assessment, 50, 370–375.

Sjöberg, A., Sjöberg, S., & Forssén, K. (2006). Predicting Job Performance. Swedish version. Manual. Stockholm: Assessio International.

Evidensbaserat Urval: Workplace Safety

Assessment Engine

I mitt förra inlägg berättade jag hur vi på Assessment Engine bygger processer som maximerar validiteten från testresultat, vi kallar dessa processer Evidensbaserat urval, EBU-processer. Säkerheten på arbetsplatser är en viktig fråga för många organisationer. Nu har vi tagit fram en EBU-process som kan användas för att tidigt i en process screena bort individer som har en högre risk för att hamna i eller orsaka arbetsplatsolyckor.

Olycksincidenter orsakade av anställda kan äventyra säkerheten för både den anställde själv, för medarbetare i organisationen och för andra personer, samtidigt som det kan vara kostsamt för arbetsgivare i form av försäkringar och skadestånd. Redan 2016 skrev jag om detta här på Psychometrics.

Arbetsplatsolyckor kan bero på en mängd olika saker, inte minst säkerhetskulturen på arbetsplatsen, men en bidragande orsak kan också vara personens personlighetsdrag. Forskning visar t ex att av 20% av professionella chaufförer var inblandande i 80% av alla olycksincidenter. Även om säkerhetstänket prioriteras på arbetsplatser i Sverige så sker det fortfarande arbetsplatsolyckor och även om antalet dödsolyckor sjunkit något de senaste åren så ligger de runt 50 stycken per år. Räknar man med personer intagna för vård på kriminalvårdsanstalter och liknande, anställda i utländska företag som är verksamma i Sverige men registrerade i andra länder, samt vissa elever så hamnar vi runt 60 dödsolyckor per år. Om vi räknar incidenter så var det inom byggbranschen 2015 över 5000 olyckor registrerade.

Första gången jag kom i kontakt med urval inom ett yrke där säkerhet är en stor del av arbetsmiljön var för ca 12 år sedan när jag och en kollega genomförde en mindre valideringsstudie där vi testade om personlighet kan förutsäga ogynnsamma beteenden hos busschaufförer (klagomål från kunder, olycksincidenter och andra avvikande beteenden). Vi lät 43 busschaufförer svara på ett personlighetsformulär som mäter fyra av de fem faktorerna i FemfaktorModellen (FFM), Emotionell stabilitet, Extraversion, Samvetsgrannhet och Sympatiskhet. Förutom personlighetsdata samlade vi in hur många klagomål personerna hade fått (0-10 st). Resultatet visade att låg Emotionell stabilitet, låg Samvetsgrannhet och hög Extraversion förutsade vilka personer som fick klagomål på sig. När vi delade in gruppen i de som fått klagomål (N=15) och de som EJ fått klagomål (28) kunde personlighetstestet träffa rätt i 34 fall av 43 (slumpen skulle kategorisera ca 21-22 rätt). Slutsatsen enligt mig var att om de från början administrerade detta test och vägde testpoängen enligt ovan redovisade resultat, så skulle en hel icke önskvärda beteenden kunna undvikas. Detta skulle bespara organisationen stora pengar då en olycka av bussbolaget uppskattades kosta företaget i genomsnitt 1 miljon kronor, och en hel del personligt lidande.

Vilka personlighetsdrag bidrar då till att anställda inte följer föreskrifter och med en högre sannolikhet hamnar i situationer som bidrar till olycksincidenter? Nedan kommer en beskrivning av en person som har en förhöjd risk att hamna i olyckssituationer.

Denna person sätter sig själv främst och engagerar sig ogärna i andras problem, i synnerhet inte om det medför uppoffringar, stora som små, för den egna personen. Hen är avslappnad och ointresserad av att vara effektiv och driven i det man tar sig för. Hen prioriterar och värdesätter inte att hålla ordning och reda, speciellt inte för sakens egen skull. Hen har överlag en lättsam inställning till ansvar, skyldigheter och förpliktelser. Hen sätter sällan upp tydliga och explicita mål att arbeta mot och har vanligtvis inte någon förutbestämd plan för hur livet ska te sig. Däremot tenderar hen att vara uppmärksam, på sin vakt och snabb på att reagera. Hen oroar sig ofta för framtiden och blir nervös för saker som kan komma att gå fel. Hen är ofta temperamentsfull har ett livligt humör. Hen kan tappar humöret när hen uppfattar att hen blir orättfärdigt och ojuste behandlad av andra. 

Nedan kommer en beskrivning av en person som har en sänkt risk att hamna i olyckssituationer.

Denna person är osjälvisk och altruistisk och visar ofta stor omtanke om andras välbefinnande. Hen är mycket förnuftig och grundlig i hur hen tar sig an och genomför uppgifter och projekt. Hen är mycket ordningsam, välorganiserad, strukturerad och systematisk, samvetsgrann, plikttrogen och ambitiös. Hen är mycket lugn och avslappnad och ger ett stabilt intryck. Hen är i regel tålmodig, är lättsam och har ett jämnt humör. Brusar sällan upp och tappar inte humöret. Hen är kontrollerad och beräknelig och har en mycket god impulskontroll. I grunden har hen ett avsiktligt och därmed förutsägbart beteende och agerar sällan på stundens ingivelse. Hen har generellt ett mycket begränsat behov av spänning och äventyr och undviker aktivt situationer som präglas av det oväntade och oförutsägbara. 

EBU Workplace Safety

Så här gör man. I Assessment Engine väljer du EBU-processen Workplace Safety. Assessment Engine plockar sedan ihop de frågor som behövs för att täcka av om personen mer liknar den första profilen (Safety behavior) eller den andra profilen (Unsafety behavior). När respondenten besvarat frågebatteriet tillämpas en algoritm, baserad på ovan beskrivna forskning, och genererar en så kallad ”Suitability Score” som kan variera från 30 till 70. Högre poäng betyder att den personen har minskad risk för att hamna i olyckssituationer. EBU Safety går naturligtvis att kombineras med andra EBU:er. Om det gäller en chefstillsättning rekommenderas till exempel EBU:erna Functional och Dysfunctional Leadership som tillägg och de tre EBU:erna vägs samman i en övergripande ”Suitabilty Score”. Vill du prova Assessent Engine så bjuder vi på dessa tre EBU:er, plus två till om du testar inom en månad. Välkomna till Assessment Engine (klicka på nedan länk)

Assessment Engine