Psykometribabbel

Med psykobabbel avses ”Användning av psykologiska termer och i synnerhet av dagens modeord inom psykologin på ett sätt som bara delvis eller inte alls stämmer med ordens vetenskapliga innebörd”. Sedan mer än 20 år har jag arbetat med att anpassa och utveckla psykologiska test som idag används inom klinisk psykologi (utredning av kognitiva svårigheter hos barn), skolpsykologi (tex läs- och skrivdiagnostik, utredning av dyslexi) och arbetspsykologi (test som används för urval och vägledning). Under dessa år har jag stött på ett antal ”buzzwords” inom dessa områden, här kommer jag dock fokusera på begrepp som används inom arbetspsykologisk testning, dvs psykometribabbel inom arbetslivets psykologi.

Som alla ser här är detta en tre parameters IRT modell

Artificiell intelligens (AI)

Artificiell intelligens (AI) eller maskinintelligens är förmågan hos datorprogram och robotar att efterlikna människors och andra djurs naturliga intelligens, främst kognitiva funktioner såsom förmågan att lära sig saker av tidigare erfarenheter, förstå naturligt språk, lösa problem, planera en sekvens av handlingar och att generalisera. AI är förmodligen ett av psykometribabbel som används mest osorterat idag. Det kan i stort sätt betyda vad som helst. När man skrapar på ytan hos vissa leverantörer av test kan det vara att summera en skala.

Maskininlärning

Maskininlärning (engelska: machine learning) är ett område inom AI, och därmed inom datavetenskapen. Det handlar om metoder för att med data ”träna” datorer att upptäcka och ”lära” sig regler för att lösa en uppgift, utan att datorerna har programmerats med regler för just den uppgiften. Detta är inget nytt! På ett teoretiskt plan uppfanns detta för många år sedan, men datakraften att räkna på detta sätt saknades. Idag säger flera leverantörer av test att de använder sig av ”machine learning” och det låter ju häftigt!
Har själv prövat detta och jämfört med betydligt enklare och mer kostnadseffektiva metoder, och de ger i princip samma resultat. Det finns stora fördelar med maskininlärning på en mängd olika områden, men på testområdet har jag inte funnit stöd för detta, dvs avseende hur väl en testpoäng förutsäger senare arbetsprestation. 

Kompetensmodeller

Runt 2005 började olika sk kompetensmodeller dyka upp hos traditionella leverantörer av psykologiska test. Dessförinnan var ett personlighetstest ett test som mäter personlighet (tex Extraversion), och ett kompetenstest ett test som mäter en färdighet som är något annat än personlighet (tex kunskap i programmering). Idag finns det leverantörer som har ett personlighetstest med ofta goda psykometriska egenskaper men kunder förleds tro att testet mäter kompetenser, oftast efter en hemmasnickrad modell som inte är kvalitetssäkrad. Ibland kan till och med användare få sätta ihop sin egen kompetensmodell! Detta är helt klart ett cirkelresonemang. Jag har själv varit med att utveckla ett personlighetstest som idag säljs tillsammans med en mycket diffus kompetensmodell; de psykometriska egenskaperna har blivit godkända av DNV:s granskning enligt EFPA:s kriterier gäller för evidensen och kvalitet som ett personlighetstest.  Trots det marknadsförs och användes detta test tillsammans med en helt ovaliderad kompetensmodell, något som inte framgår i marknadsföringen.

Fem Faktor Modellen

FFM är det modell av personlighet som idag har tydligast stöd inom forskningen, många testleverantörer säger sig ha ett FFM test. Vid närmare granskning av hur test utvecklats är det inte många test på den arbetspsykologiska marknaden som uppfyller kravet på att verkligen mäta FFM av den anledningen att det inte framgår hur item (frågorna eller påståendena i testet) konstruerats och hur varje item är länkat till respektive konstrukt som ligger till grund för facetter, aspekter och faktorer. Idag finns det, enligt min mening, tre-fyra test på marknaden som har manualer som beskriver att det var FFM som låg till grund när item (frågor och påståenden) utvecklades och testet med dess skalor konstruerades. Än värre är det när man påstår att intervjuer mäter FFM utan att ha någon som helst dokumentation på vilka grunder den utsagan kan bekräftas. Jag har även hört att vissa påstå att deras kompetensmodeller vilket säkert är ett framgångsrikt marknadsföringsknep som skänker legitimitet.

Att validera ett testresultat

Detta psykometri-babbel hörde jag första gången på 90-talet. Med detta menas att bedömaren (rekryteraren) ska bekräfta att de resultat som kandidaten fått på ett personlighetstest ska verifieras eller förkastas i en intervju med kandidaten. Jag har aldrig sett någon forskning om detta, men risken att den validitet som finns i en testpoäng försvinner då man ställer dessa frågor är betydande. Om man vill ”kontrollera” resultatet bör man istället utveckla intervjufrågor som mäter FFM, dessa intervjuer genomförs sedan helt oberoende av testresultatet. Det mest ”sanna” är sedan medeltalet av dessa två bedömningar. För att detta ska fungera så krävs dock en hel del utvecklingsarbete, något som få är villiga att göra eller har kompetensen till, tyvärr. Sannolikheten är därför stor att man fortsätter att ställa frågor till kandidater som sannolikt ger mer skada än nytta.

Adaptiva test

Adaptiva test bygger på en psykometrisk modell som benämns item respons theory (IRT). Om IRT används på ett korrekt sätt finns en fördel i att man inte behöver administrera exakt samma item till alla personer som ska jämföras. En annan fördel är att du inte behöver ställa lika många frågor i jämförelse med ett traditionellt test, det räcker med att administrera de för den enskilda individen mest relevanta itemen. Ett exempel är ett begåvningstest, där person 1 får 34 uppgifter att besvara medan person 2 endast får 24 uppgifter. Trots detta kan des båda personernas begåvningsnivå jämföras, och till och med utgöra en bättre jämförelse än om båda fått samma antal frågor. På detta sätt kan en leverantör utveckla en ”itembank” med många uppgifter (eller frågor) som sedan kan användas på olika sätt vid testning. Det låter ju fantastiskt, men vad är nackdelen? (I ett poddavsnitt hörde jag enleverantör ondgöra sig över alla andra okunniga psykometriker som inte fattade detta, förutom att hen naturligtvis som hade utvecklat ett adaptivt personlighetstest).

Jo nackdelen (för sådana finns det alltid flera av även om de sällan nämns) är att när man använder IRT så görs en mängd mycket starka antaganden. Dessa antaganden måste alltså uppfyllas för att modellen ska fungera i praktiken. Ett av de viktigaste (men långt ifrån det enda) antagandena är det sk ”lokala oberoendet”. Antagandet om lokalt oberoende innebär att det statistiska sambandet mellan item kan förklaras endast av det latenta begreppet som vi avser att mäta med en skala, tex en frågor i en skala som mäter Extraversion ska förklaras av begreppet Extraversion. Om så inte är fallet, faller IRT modellen modellen totalt. Den är helt enkelt inte längre giltig. Naturligtvis går detta att testa, men det struntar man ofta i när man pratar IRT.

Jag har själv varit med att utveckla test som tillämpar IRT och som testutvecklare anser jag att IRT INTE fungerar i praktiken såsom teorin förutspår. IRT kan fungera med begåvningstest, men jag har tills dags datum inte läst om något personlighetstest som mäter FFM och som uppfyller alla krav som ställs på IRT för att det praktiskt ska fungera. Så säger din testleverantör att de har ett adaptivt personlighetstest så ställ frågan om alla antaganden som finns verkligen uppfylls för den svenska version (eller annan språkversion) som ska användas och låt dem redogöra för det skriftligt. Jag har läst en manual som ser lovande men det är inte ett test som finns på svenska.

Textanalys

Detta begrepp är nära knutet till Maskinlärning, skillnaden är att innan själva analysen omvandlas textmassan till siffror. I ett pilotprojekt jag ledde analyserades öppna enkätsvar med sk ”latent semantisk analys”. Resultatet såg lovande ut men det var ett enormt jobb att göra data analyserbart. Och analysen i sig tog väldigt lång tid. Det finns också lovande resultat inom forskningen där man uppnått minst lika bra resultat av text analys som av att använda numeriska värden för att tex mäta livstillfredställelse (https://psycnet.apa.org/record/2018-31467-001). Tror mycket på detta i framtiden, men hitintills har jag inte sett någon studie som stödjer att textanalys skulle addera någon validitet till ett begåvningstest eller ett personlighetstest som använder traditionell poängsättning.

Användningen av normgrupper

Går det att använda ett test utan normgrupper? Normgruppens funktion är att relatera den individuella testpoängen till en absolut nivå. Låt mig ta ett exempel, om du har testat en person och fått en summapoäng på skalan Sympatiskhet i ett personlighetstest, då vill du veta om denna summa är förhållandevis låg eller hög i jämförelse med andra personer. ”Babblet” här jag har hört är att det finns test på marknaden utan normgrupper?  Eller att vi ”inte har normgrupper, vi har stickprov”. Ett annat babbel jag hört är att i den moderna psykometrin inte behövs några normgrupper. Det är sant att man mycket väl kan strunta i normgrupper, om syftet med testningen är att endast rangordna dessa individer längs skalan Sympatiskhet (som exempel) utan att vara intresserad av att säga om en individs summavärde är låg, medel eller högt i förhållande till något. Men så fort du ska uttala dig om en individs absoluta nivå på Sympatiskhet måste ALLTID en normgrupp användas. Det spelar inte någon roll om du använder ”gammal” psykometri från början av 1900-talet eller ”modern psykometri” (som för övrigt inte bör kallas modern psykometri eftersom IRT kan spåras tillbaka till 1940-talet, eller kanske t om tillbaka till 1920-talet när Thurstone lanserade sin absoluta skalning som var inspirerad av psykofysiken).

Detta är bara några exempel på babbel som många gånger har svagt stöd i forskningen. Om du vill att jag ska skriva om mer psykometribabbel så maila mig på info@psychometrics.se

Personlighet i arbete –evidensbaserad personlighetsbedömning 

Vår bok Personlighet i arbete som publicerats av Natur och Kultur har fått ett fantastiskt mottagande av personer som är intresserade av att veta mer om sin egen och andras personlighet. När vi började detta projekt hade vi en vision att informera intresserade vad forskningen säger om personlighet. Nu vill vi ta ett steg till och ge kunskap om evidensbaserad bedömning av personlighet i arbete. Vi kommer ge deltagarna den absolut senaste forskningsresultaten avseende Fem Faktor Modellen och extrema personlighetsdrag och även visa hur ni på ett enkelt sätt kan öka tillförlitligheten i personbedömningar i arbetslivet. Välkomna

Utbildning

9 maj 2022 kl 13-16 på Tändstickspalatset i centrala Stockholm samt digitalt via zoom

Kursbok: Sjöberg, S., Sjöberg A., & Henrysson Eidvall S. (2021). Personlighet i arbete. Natur och Kultur.

Pris: 2500 kronor + moms och inklusive kursbok.
(Om du redan har boken är kostnaden 2150 kronor + moms – ange i anmälan).

Seminariet anordnas av Sara Henrysson Eidvall, Henrysson Åkerlund AB i samarbete med Sofia och Anders Sjöberg, Assessment Engine

Anmäl dig här

Länkar med mer information

Vill du höra mer om boken klicka här där jag samtalar med Fredrik Hillerborg i programmet Lära från Lärda.

Vill du höra mer om boken klicka här där jag samtalar med Lena Gatenborg Mohns på MPS om hur personligheten sätter ramar för våra styrkor och svagheter på arbetsplatsen?

Vill du beställa boken klicka här

Vill du läsa om evidensbaserade bedömningar i arbetslivet som följer ISO10667 klicka här

Vill du beställa den nya standarden ISO10667 om bedömningstjänster i arbetslivet, i detta projekt har jag verkat som expert i många år. Om du är uppdragsgivare av personbedömningar klicka här. Är du leverantör av personbedömningar klicka här

Personlighetsbedömning i arbetslivet. Vad funkar bäst?

Att bedöma personlighet är svårt. Eftersom personlighet alltid är i arbete går det att bedöma med en rad olika metoder. Bedömningen kan vara att se vad du publicerar på Facebook, låta en robot ställa frågor om din personlighet, administrera ett självrapporterande test och/eller låta andra bedöma din personlighet. I mitt förra inlägg redovisade jag var forskningen står idag avseende självrapporterande test. Nedan breddar jag dikussionen och tar även upp observatörsskattning.

Fem Faktor Modellen (FFM) bedöms i de allra flesta fallen med ett självrapporterande test. Men faktum är att FFM inte upptäcktes genom självrapporterande test utan genom observatörsskattningar. Det var redan 1961 som forskarna Ernest Tupes och Raymond Christal formulerade det som vi i dag kallar FFM. I huvudsak grundades detta arbete
på omfattande observatörsskattningar inom det amerikanska flygvapnet. Observatörsskattningarna faktoranalyserades och resulterade i en preliminär FFM.

Under senare delen av 1960-talet och under 1970-talet drabbades personlighetsforskningen och synen på individuella skillnader av en mer allmän, stark kritik från olika håll. Det var inte politiskt korrekt att tala om att människor skiljer sig åt, i synnerhet inte om sådana skillnader som till stora delar är ärftliga. Personlighetsforskningen föll mer eller mindre i glömska. Det var inte förrän på 1980-talet, när forskarna Paul T. Costa och Robert R. McCrae genomförde studier om personlighetsutveckling, som arbetet med FFM togs upp igen. Även då med observatörsskattningar. Paul T. Costa och Robert R. McCrae kunde då replikera Ernest Tupes och Raymond Christals fynd, drygt 20 år senare. Tanken bakom en observerad bedömningsmetod av personlighet är att andra uppfattar individens personlighet på ett annat, mer korrekt sätt i jämförelse med individen själv och/eller att betraktaren ser andra saker i jämförelse med individen själv. Så den självrapporterande personligheten bör således kompletteras med observatörskattningar av personlighet, för att ge en mer träffsäker bedömning

Vill du läsa mer om historiken kring FFM, kolla in vår nya bok här.

Jag har sammanfattat forskningen nedan vad vi idag vet om självrapporterande test och observatörsskattningar baserat på studierna som ni hittar i referenslistan. Jag har även adderat egen insamlad data. För att göra en komplett uppskattning behövs följande.

  1. Samband mellan de ingående faktorerna i FFM (Känslomässig Instabilitet, Extraversion, Öppenhet, Sympatiskhet och Målmedvetenhet.
  2. Samband mellan de ingående faktorerna i FFM och kriteriet arbetsprestation. Data för detta går att hitta i forskningstudier (se referenslistan), förutom sambanden mellan de ingående faktorerna i FFM för kontextualiserade test.

Det opublicerade resultatet som jag använde i mina beräkningar hämtade jag från Assessment Engine Manualen där vi beskriver standardiseringen av vårt nya kontextualiserade personlighetstest Personality30 (Assessment Engine Assessments & Algorithms Technical Info, 2020).

För att beräkna validiteten använde jag programmet R (package yhat). Genom att beräkna en linjär regressionsanalys baserat på ovan redovisad data kan den sammanlagda validiteten (multiple R) uppskattas för tre olika sätt att bedöma personlighet. Allmänna (okontextualiserade) personlighetstest, kontextualiserade personlighetstest och test som baseras på observatörsskattningar.

Not. Observera att estimatet för observerad personlighet antar att det är en person som observerat. Om det är flera personer som observerar så ökar sannolikt validiteten. Mer forskning behövs, särkilt för kontextualiserade test och observatörsskattningar för att de flesta studierna som meta analyserna bygger på har inte undersökt hur dessa metoder fungerar i skarpt läge.

Resultatet i figuren visar validiteten uttryckt i en multipel korrelation för allmänna personlighetstest, kontextualiserade personlighets test och observatörsskattningar. Lägst validitet har allmänna okontextualiserade personlighetstest och högst validitet har observatörsskattningar.

Det är naturligtvis praktiska utmaningar med olika bedömningsmetoder, särskilt med observatörsskattningar. Vi på Assessment Engine tror dock att detta går att lösa, vill ni veta mer om vår nyutvecklade bedömningstjänst ”observerad personlighet” eller testa vårt kontextualiserade personlighetstest, ett av få test som verkligen bygger på hela FFM och utvecklat för arbetslivet, får ni gärna kontakta oss på team@assessmentengine.se.

Vill ni läsa mer om Assessment Engine kan ni klicka här.

Referenser

Assessment Engine. Assessments & Algorithms Technical Info (2020). opublicerat manuscript. Psychometrics Sweden AB.

Connelly, B. S., & Ones, D. S. (2010). An other perspective on personality: Meta-analytic integration of observers’ accuracy and predictive validity. Psychological Bulletin, 136(6), 1092–1122. https://doi.org/10.1037/a0021212

Oh, I.-S., Wang, G., & Mount, M. K. (2011). Validity of observer ratings of the five-factor model of personality traits: A meta-analysis. Journal of Applied Psychology, 96(4), 762–773. https://doi.org/10.1037/a0021832

Park, HyeSoo (Hailey) , Wiernik, Brenton M. , Oh, In-Sue , Gonzalez-Mulé, Erik , Ones, Deniz S. , & Lee, Youngduk. Journal of Applied Psychology, Vol 105(12), 1490-1529

Sackett, P. R., Zhang, C., Berry, C. M., & Lievens, F. (2021, December 30). Revisiting Meta-Analytic Estimates of Validity in Personnel Selection: Addressing Systematic Overcorrection for Restriction of Range. Journal of Applied Psychology. Advance online publication. http://dx.doi.org/10.1037/apl0000994.

Shaffer, J. A., & Postlethwaite, B. E. (2012). A matter of context: A metaanalytic investigation of the relative validity of contextualized and noncontextualized personality measures. Personnel Psychology, 65(3), 445–494. https://doi.org/10.1111/j.1744-6570.2012.01250.x

Sjöberg, S., Sjöberg A., & Henrysson Eidvall, S. (2021). Personlighet i arbete. Förstå drivkrafter bakom och beteenden bakom femfaktormodellen. Natur & Kultur. 

Personlighet i arbete. Beror personlighetstests validitet på situationen? Nya resultat från meta-analyser ger klarhet.

Personlighetstest som bedömningsmetod har fått mycket kritik i media under senaste åren. Enligt min mening är det ofta på grund av okunskap från de som kritiserar, sällan behandlas vilken teori personlighetstestet utgår ifrån, om det ska användas som en beskrivning av personen eller om det ska vara underlag för ett urvalsbeslut. Inte heller diskuteras när i en urvalsprocess ett personlighetstest ska administreras till sökande till en tjänst. Nedan kommer en alldeles färsk sammanställning vad forskningen säger om självrapporterande personlighetstest.

I den senaste sammanställningen av forskning kring metoder som kan användas för urvalsbeslut jämförs olika typer självrapporterande personlighetstest. Författarna skiljer på två olika personlighetstest. Allmänna och kontextualiserade test. I allmänna test får personen som bedöms instruktioner att svara på frågorna hur personen tänker känner och handlar i största allmänhet i olika situationer. Kontextualiserade test anger en specifik situation, i detta fall hur personen tänker känner och handlar på arbetet eller i en yrkesroll.

Resultatet presenterades redan 2012 men har nu sammanställts och beräknats om med delvis nya metoder och publicerats i samma artikel som jag bloggade om förra veckan. Nedan ser ni resultatet när en jämförelse genomförs mellan allmänna och kontextualiserade personlighetstest. Resultatet är uppdelat i de fem stora personlighetsdragen, känslomässig stabilitet, extraversion, öppenhet, sympatiskhet och målmedvetenhet.

Figur. Allmänna och Kontextualiserade personlighetstest

Som ni ser är det tydliga resultat, test som i instruktionerna anger att personen ska tänka på en arbetssituationen har betydligt högre validitet i jämförelse med de allmänna personlighetstesten som ej definierar en arbetssituation. Det är särskilt emotionell stabilitet och öppenhet där de största skillnaderna finns. Men även de andra faktorerna visar på en klar förhöjd validitet. Så slutsatsen är tydlig. Använd personlighetstest som är kontextualiserade. Forskarna har en förklaring till detta vilket benämns Frame Of Reference (FOR). Det betyder att frågar du tydligt vilken situation som avses så höjs validiten betydligt.

Vill ni börja använda ett personlighetstest som bygger på vår senaste bok om personlighet i arbete? Ett test som från början utvecklades och validerades i en arbetande population och där instruktioner och frågor handlar om hur personen som testas tänker, känner och handlar i arbetet. Vi kallar det Personality150. Kolla in denna adress www.assessmentengine.se

Kolla in denna bok om ni är intresserade att läsa mer om personlighet i arbete.

Sjöberg, S., Sjöberg A., & Henrysson Eidvall, S. (2021). Personlighet i arbete. Förstå drivkrafter och beteenden med femfaktormodellen. Natur & Kultur. 

Och det är inte slut här, i nästa blogg gör jag en jämförelse mellan observatörsskattningar och självrapporterade personlighetstest som vi skriver om i vår bok Personlighet i arbete.

Referenser

Sackett, P. R., Zhang, C., Berry, C. M., & Lievens, F. (2021, December 30). Revisiting Meta-Analytic Estimates of Validity in Personnel Selection: Addressing Systematic Overcorrection for Restriction of Range. Journal of Applied Psychology. Advance online publication. http://dx.doi.org/10.1037/apl0000994. Table 4.

Shaffer, J. A., & Postlethwaite, B. E. (2012). A matter of context: A metaanalytic investigation of the relative validity of contextualized and noncontextualized personality measures. Personnel Psychology, 65(3), 445–494. https://doi.org/10.1111/j.1744-6570.2012.01250.x

Sjöberg, S., Sjöberg A., & Henrysson Eidvall, S. (2021). Personlighet i arbete. Förstå drivkrafter bakom och beteenden bakom femfaktormodellen. Natur & Kultur. https://www.nok.se/titlar/laromedel-b2/personlighet-i-arbete/

Ny sammanställning av metaanalyser och hur det påverkar det praktiska urvalsarbetet

Som jag skrivit om tidigare är min rekommendation att inte fullständigt stirra sig blind på Schmidt & Hunters meta analys från 1998. En hel del nya meta analyser har visat att forskningsresultat förändras och min poäng är att praktiken alltid måste följa de senaste forskningsresultaten.

Sista dagen på året 2021 publicerades en ny sammanställning av alla meta analyser som finns tillgängliga avseende urvalsmetoders prediktiva validitet som kommer delvis ändra på kartan avseende hur urvalsmetoder bör användas i urvalsprocesser (Sackett mfl, 2021).  Men innan jag redovisar en del av resultatet bör några saker sägas.

Få som citerar och hänvisar till den tidigare artikeln publicerad 1998 har läst hela artikeln. Det är oftast endast en kolumn i hela artikeln som används som argument för att bygga en urvalsprocess. Delvis mitt fel, för jag gjorde redan 1998 en förenklad figur av den kolumnen (tillsammans med Åsa Magander på dåvarande Psykologiförlaget) som sedan har återgetts om och om igen i tidningar och powerpoint presentationer. Nu innan den nya artikeln når ut så vill jag gärna försöka förklara närmare hur resultatet bör tolkas. Så innan jag presenterar det det jämförande resultatet mellan åren 1998 och 2021 skulle jag be att ni läser igenom följande punkter innan ni tittar på resultatet (i graf och kolumner).

  • En hel del av data i denna artikel bygger INTE på ny data utan snarare på att forskarna har räknat om gamla resultat med en delvis ny metod för att hitta mer exakta estimat. 
  • Kriteriet i denna artikel liksom den tidigare artikel från 1998 fokuserar på övergripande arbetsprestation, i de allra flesta fallen bedömd av den närmaste chefen. Idag vet vi att det är här viktigt att skilja på olika typer av prestation som ”task performance” som omfattar den prestation i faktiska och konkreta arbetsuppgifter som bidrar till produktionen i organisationen, och Organisationsmedborgarskap (eng. Organizational Citizenship Behaviour, OCB) som definieras som alla de frivilliga och positiva beteenden som inte omfattas av Task Performance men som på olika sätt främjar organisationens mål, och ”skadliga” eller kontraproduktiva beteenden ”Counterproductive Work Behavior, CWB” som är relaterade till arbetet eller organisationen. Denna distinktion görs EJ i denna artikel.
  • Denna artikel behandlar explicit varken kostnadsaspekten av vad som administreras i urvalsprocessen eller hur många sökande det är till en tjänst (sk nyttoberäkningar). Under vissa förhållanden kan det vara fördelaktigt att välja billigare alternativ med lägre validitet framför mer kostsamma metoder med högre validitet. Detta behandlades i artikeln från 1998.
  • Denna artikel behandlar INTE tillägs-validiteten (eng incremental validity), dvs vad som händer när man kombinerar två eller flera metoder, tex arbetsprov och begåvningstest. Detta genomfördes i Schmidt & Hunter (1998) men inte i denna artikel.
  • När resultatet tolkas nedan är det viktigt att skilja på metoder som baseras på en noggrann arbetsanalys (tex kunskapsprov) och de metoder som mäter generella psykologiska egenskaper (tex begåvning).
  • När det gäller strukturerad intervju avses EJ kompetensbaserad intervju (unikt fenomen på den svenska marknaden). En strukturerad intervju avser att samma frågor ställs till alla kandidater, utan olika följdfrågor och att alla svar (som har med urvalsbeslutet att göra) poängsätts på samma skala. Varje fråga ska kunna länkas till den kunskap eller färdighet som krävs i arbetet baserat på den tidigare utförda arbetsanalysen. Det som i Sverige benämns struktured intervju betraktar jag i de flesta fallen som ostrukturerad intervju, dvs liknande frågor med följdfrågor med poängsättning som endast delvis är kopplat till en gedigen arbetsanalys.
  • Systematisk insamlad biodata används, vad jag vet, knappast i Sverige. I USA benämns det som ”biodata inventories” och består av skriftliga frågor som standardiserat besvaras av kandidaten om tex ledarskap, personlighet, intresse, kunskap och färdighet. Det gemensamma med alla frågor är att det handlar om tidigare beteenden på arbetsplatsen. Även biodata är starkt knutet till arbetsanalysen.
  • När det gäller intresse så har man delvis bytt fokus, i denna artikel avses matchningen mellan individens intresse och det aktuella arbetet. Det skiljer sig från den tidigare sammanställningen där det handlade om hur mycket intresse individen hade av alla olika intressen. Således även här krävs en ordentlig arbetsanalys.
  • Vissa av metoderna har ej, enligt forskarna kunnat replikeras då det redan 1998 saknades tillräcklig information om studierna som ingick i de enskilda meta analyserna. Detta är bl.a.; år av utbildning, medarbetarbedömning (eng peer ratings) provanställning, referenstagning (eng reference checks), grafologi och ålder. Så dessa metoder för urvalsbeslut vet vi inte något om i dagsläget.
  • Nedan resultatredovisning är inte en komplett redovisning, det finns fler resultat bl.a. om emotionell intelligens och personlighet som jag kommer återkomma till i senare blogginlägg. 

Jämförande resultatet (1998 mot 2021)

Det tydligaste resultatet ser ni i grafen och den högra kolumnen i tabellen. Av 11 metoder är det 9 där validiteten sjunkit. Den största skillnaden är arbetsprov (-0,21) tätt följt av begåvning (-0,20) och ostrukturerad intervju (-0,19). Det är endast två metoder som visar på en högre validitet i jämförelse med för över 20 år sedan, det är intresse (+0,14) och biodata (+0,03). Både intresse Nye m.fl. (2017) och biodata Speer m.fl. (2021) baseras på nyligen publicerade meta analyser långt efter 1998.
Den största anledningen till skillnaden (förutom de nya meta analyserna) är, menar forskarna, att tidigare studie överkorrigerat för beskuren spridning. Beskuren spridning uppkommer när man räknar samband baserat på samma urval som redan använt metoden för urvalsbeslut. Eftersom många av studierna sannolikt inte haft en kraftig beskuren spridning så har man överskattat validiteten. Det syns tydligt i validiteten för begåvning som man 1998 fann ha samma validitet som strukturerad intervju (0,51). Däremot har det inte varit samma problem med den strukturerade intervjun, den sjunker inte så kraftigt som begåvning.

Vad betyder detta resultat för praktiken? 

Den tydligaste indikationen är att de metoder som har högst validitet mäter arbetsbeteende. Den strukturerad intervjun, kunskapsprov, biodata och arbetsprov (och även assessment center som kommer lite längre ned i rangordningen) har ofta en gemensam nämnare, dvs vad kandidaten kan, vad har kandidaten gjort innan och hur bra har kandidaten lyckats med det. 

Det är positivt eftersom då vet vi att det viktigaste kanske inte är att välja en specifik metod av dessa utan snarare analysera, hur kan vi till minsta möjliga tid/kostnad kan ta reda på detta? En annan fördel är att dessa kan kombineras, tex kan en anställningsintervju även innehålla kunskapstest, ett prov på att göra jobbet (arbetsprov) och frågor om hur väl man lyckats på ett tidigare jobb (biodata). 

En nackdel är att det i de allra flesta fallen krävs erfarenhet hos de som söker arbetet, vi kan ju inte testa kunskapen hos någon som ska lära sig något (tex urvalet till polishögskolan). Vi kan inte heller ställa frågor hur någon lyckats med något om det inte finns någon erfarenhet (en person som söker chefsposition som aldrig varit chef). 

Ytterligare en utmaning är att med dessa metoder är att det krävs det en ytterst gedigen arbetsanalys, då varje roll kan ha specifika utmaningar och de frågor som ställs i antingen skriven form eller muntlig form bör vara specifikt arbetsrelaterat till just det jobbet. Här finns inga genvägar, här krävs grundlighet av någon expert som kan jobbet, eller flera som utfört jobbet under en längre tid som vet vad som krävs. 

Jag ser inte att detta kan utföras av en rekryteringsexpert ensam, snarare ska rekryteraren samla in standardiserad information från experter och sammanställa denna information som grund för utformning av intervjun/kunskapsprovet/arbetsprovet/biodata. En annan utmaning är kostnaden. För att utveckla dessa metoder krävs både en arbetsanalys, en utprövning av metoden inklusive en lokal valideringstudie för att se om det funkar.

Begåvningstest och personlighet (i detta fall målmedvetenhet och intergritetstest) och intresse mäter psykologiska egenskaper hos kandidaten. Förutom intresse har dessa sjunkit i validitet. Det är naturligtvis en stor brist att vi trott innan att begåvning har haft en betydligt högre validitet för medelkomplexa arbeten. När det gäller komplexa arbeten höjs validiteten, det är viktigt att komma ihåg. Uppskattnigsvis för mer komplexa arbeten så ligger validiteten på ca .40 (men det får kommande meta analyser undersöka).

Finns det fog för att använda dessa psykometriska metoder? Fördelen med dessa mer psykologiska faktorer är att de ofta är billigare i förhållande till mer arbetsrelaterade metoder. Mycket tyder på tex att nivåer av begåvning och centraltendenser av personlighet går att generalisera till många jobb och yrken. Tex mer komplicerade yrken kräver högre begåvning och stressutsatta arbeten kräver känslomässig stabilitet, så arbetsanalysen blir inte så central här. Eftersom det tar mindre tid att administrera dessa metoder bör de lika tidigt i processen när de obligatoriska kraven på tjänsten uppfyllts. Däremot är det tveksamt att använda dessa psykologiska variabler sent i urvalsprocessen. En annan fördel är att dessa metoder ej kräver någon erfarenhet hos de sökande, således lämpar sig dessa metoder bra när man ska lära sig nya saker eller anpassa sitt beteende till ett nytt jobb, en del kallar det för potential att lyckas.

Detta var det första blogginlägget om denna artikel, men det finns flera intressanta resultat om tex personlighet som jag kommer ta upp i nästa inlägg.

Referenser

Sackett, P. R., Zhang, C., Berry, C. M., & Lievens, F. (2021, December 30). Revisiting Meta-Analytic Estimates of Validity in Personnel Selection: Addressing Systematic Overcorrection for Restriction of Range. Journal of Applied Psychology. Advance online publication. http://dx.doi.org/10.1037/apl0000994

Nye, C. D., Su, R., Rounds, J., & Drasgow, F. (2017). Interest congruence and performance: Revisiting recent meta-analytic findings. Journal of Vocational Behavior, 98, 138–151. https://doi.org/10.1016/j.jvb.2016.11.002

Schmidt, F. L., & Hunter, J. E. (1998). The validity and utility of selection methods in personnel psychology: Practical and theoretical implications of 85 years of research findings. Psychological Bulletin, 124(2), 262–274.https://doi.org/10.1037/0033-2909.124.2.262

Speer, A. B., Tenbrink, A. P., Wegmeyer, L. J., Sendra, C. C., Shihadeh, M., & Kaur, S. (2021, October 21). Meta-Analysis of Biodata in Employment Settings: Providing Clarity to Criterion and Construct-Related Validity Estimates. Journal of Applied Psychology. Advance online publication. http://dx.doi.org/10.1037/apl0000964

Lära Från Lärda. Avsnitt 254 – Personlighet i arbete.

Podcasten “Lära Från Lärda” är numera Sveriges största podcast om fackböcker. Varje avsnitt handlar om en ny fackbok och dess författare intervjuas av Fredrik Hillerborg. Tanken med podden är att inspirera fler att hitta nyfikenhet och en glädje i att lära sig nya saker. Formatet, med längre och reflekterande intervjuer, står till viss del i kontrast till ett höjt tempo i hur vi konsumerar media idag. Och intervjutekniken, med närvaro och nyfikenhet i samtalet, står också i viss kontrast till “tyckartrenden” och att det är ovanligt med bra lyssnare. Det här är två viktiga budskap med poddens koncept.

Tack Fredrik för att jag fick besöka din studio och prata om vår bok Personlighet i arbete, jag hoppas att detta avsnitt kan sprida lite kunskap om personlighet, utöver det vanliga dravlet i den allmänna debatten om personlighetstests vara eller icke vara.

Fem Faktor Modellen och prestation i det akademiska och på jobbet

I dag är fem Faktor Modellen (FFM), med sina fem personlighetsdrag eller faktorer, den mest meningsfulla modellen för att bedöma och beskriva kandidaters personlighet. Många använder denna modell när kandidater ska bedömas vem som sannolikt kommer prestera bäst på arbetet. Det finns även forskning kring akademisk prestation, nedan presenteras en kort sammanfattning av forskningen.

Kärt barn har många namn. Det har även FFM, som ofta även kallas Big Five, och dess faktorer. Både de svenska och engelska benämningarna på dessa fem faktorer varierar, men de mest allmänt vedertagna är:

MÅLMEDVETENHET – conscientiousness  (C)– ordningsamhet, disciplin och prestationssträvan

SYMPATISKHET – agreeableness (A) – tillit, värme och samarbetsvilja

KÄNSLOMÄSSIG INSTABILITET – Neuroticism (N) – stresskänslighet, vaksamhet och beredskap

ÖPPENHET – openness (O) – intellektuell nyfikenhet, fantasi och öppenhet för nya idéer

EXTRAVERSION (E) – extraversion – utåtriktning, energi och spänningssökande.

Men hur bra är egentligen dessa fem faktorer att förutsäga prestation? Med prestation menas här prestation i det akademiska och i arbetet.

Det har genomförts ett antal sk meta analyser som undersökt mer exakt hur bra de olika faktorerna är att förutsäga prestation och nyligen publicerades en sammanfattning av läget för hur väl FFM förutsäger prestation.

Resultatet i grafen visar tydligt att det är Målmedvetenhet som har högst förutsägande kraft. Men viktigt att påpeka är att det är ej ett högt samband, om man tex jämför med intelligens (som ligger på ca .50). De andra faktorerna visar på lite olika resultat. Extraversion kan förutsäga arbetsprestation men inte akademisk prestation. Samma sak med Neuroticism, där finns det ett negativt samband med arbetsprestation men endast ett mycket svagt negativt samband med akademisk prestation. För öppenhet finns det ett något högre samband med akademisk prestation och när det gäller Sympatiskhet är sambandet lite högre för arbetsprestation. 

En anledning att Målmedvetenhet sticker ut i FFM i förhållande till prestation är, som vi skriver i vår bok Personlighet i arbete (Sjöberg, Sjöberg, Henrysson Eidvall, 2021), att individer med låg nivå av målmedvetenhet har ett avslappnat och lättsamt förhållningssätt till prestation, ansvar, åtaganden och förpliktelser, medan de individer som har hög målmedvetenhet istället karakteriseras av att förpliktelser och åtaganden tas på allvar, vilket gör att de ofta uppfattas som pålitliga, plikttrogna, samvetsgranna och lojala” (sid 34-35).

Efter dessa meta analyser (54 meta analyser med över 500 000 individer, undersökta i sammanlagt över 2000 studier) anser jag att det vi inte kommer längre med FFM för att förutsäga prestation. Även om det kan tyckas svaga samband så rätt använt kan personlighet fungera mycket väl i urvalssituationer, särkilt om man viktar de olika faktorerna enligt grafen ovan. Tyvärr verkar många använda resultatet som ett diskussionsunderlag och då är det tveksamt naturligtvis.

Nästa steg är att ta med hela modellen, inte bara de fem breda faktorerna. FFM har bara skrapat på ytan. Forskning de
senaste årtiondena har nämligen visat att personlighet kan beskrivas utifrån en hierarki där FFM och dess faktorer
enbart utgör en av flera nivåer. Vill du läsa mer om detta, kolla in vår nya bok Personlighet i arbete. 

Bruset i våra bedömningar

Daniel Kahnemans bok Tänka Snabbt och Långsamt blev en storsäljare, nu har han tillsammans med Oliver Sibony (professor i ekonomi) och Cass R. Sunstein (professor i juridik) skrivit en ny bok som har namnet BRUS. Jag har läst den engelska originalversionen av boken, och sedan skummat de mest intressanta kapitlen i den svenska översättningen. Mycket intressant för det speglar lite den resa jag gjort i det akademiska och det praktiska arbetslivet.

När jag studerade på psykologiska institutionen på 80-talet gick det rykten om att metodkurserna på stockholms universitet var hemska, man fick räkna variansanalys för hand, inga datorer iphones så långt ögat nådde. På kursen skulle upp till en fyrvägs-variansanalys räknas ut och redogöras för, exakt med alla formler och uträkningar.

Några år senare, efter denna metodkurs, träffade jag Janne Lindell, organisationspsykolog på Bygghälsans forskningsstiftelse, som gav mig första introduktionen till hur jag med statistiken hjälp kan förstå fenomen som i boken benämns som BRUS. När jag blev doktorand blev jag tilldelad Lars Nystedt som min handledare, och han hade superkoll, och en ödmjukhet i sitt sätt att låta oss studenter försöka förstå, utan press. Ytterligare några år senare träffade jag Bertil Mårdberg, när jag började på Psykologiförlaget, som på ett underbart målande sätt förklarade för mig vad psykometri är och vilken praktiskt nytta psykometri kan ge oss.

Men vad har detta med boken att göra? Svaret är att hela boken handlar om variansanalys och psykometri. Författarna tar inte utgångspunkten i formler utan ger oss läsare konkreta exempel, på det sättet behöver man inte, till en början, ha en susning om vad variansanalys är. Några exempel. När två psykiatriker utförde oberoende granskningar av 426 patienter på statliga sjukhus slog de inte en slumpmässig gissning. När ett stort försäkringsbolag skulle bestämma premiesatser varierade individers föreslagna premier med 55 procent , vilket innebär att en medarbetare kunde bestämma en premie på 95 000 SEK medan en annan kollega uppskattade samma premie till 167 000 SEK.

Men vad är då BRUS?

Tänk dig att du och en annan person får exakt samma information om något, och ska med den information fatta ett eller flera beslut, är ni överens till 100% finns inget brus, är ni inte 100% överens finns det brus.

Givet den informationen finns det två saker som ställer till det, det första är att du och den andra personen inte har samma uppfattningen av nivån, exempelvis hur bra betyg måste man måste ha för att få ett jobb, eller hur långt fängelsestraff en dömd person ska få. Det andra problemet är mönsterbrus, exempelvis när du och den andra personen är rimligen överens om den generella nivån, hur skiljer sig då era bedömningar i ett enskilt fall?

Låt mig ta ett exempel från rekryteringsbranschen.

När kompetensmodeller används är det ofta så att en grupp individer är överens om vad som är viktigt (Nivå brus). Problemet är ofta inte nivåbruset, det är mönsterbruset, dvs olika bedömare kommer tolka nivån på olika sätt och på det sättet kommer samma individ bedömas på olika sätt av oberoende bedömare.

Det är relativt enkelt att uppskatta både nivå brus och mönsterbrus, eftersom det enda som behövs är två oberoende bedömningar och minst ett beslut. Inom forskningen kallar vi det reliabilitet (egentligen avsaknad av reliabilitet). Jag har under de senaste 10 åren utfört ett antal sådana analyser, och det är slående hur vi missbedömer hur överens vi är om olika saker. Ett sätt att dölja detta inom urval är att ha diskussioner mellan rekryterare och anställande chef, känslan är att vi har samma uppfattning om kandidaten, men det är bara känns så, många gånger är bruset betydligt större än det vi är överens om. Ett exempel i boken ger Nathan Kuncel; han föreslog att två oberoende personer skulle granska och sätta betyg på en skola, rektorn svarade då att ”så gjorde vi förr men det resulterade i så mycket oenighet att vi gick över till det nuvarande systemet” (sid 37). Det nuvarande systemet bygger på konsensus, men det döljer bara bruset det tar inte bort bruset. Konsensus diskussioner innan urvalsbeslut tas är snarare en regel än undantag på den svenska marknaden.

Brusanalys

Ett bra exempel på en brusanalys är när en kollega till mig Dave Bartram och hans forskningskollegor undersökte hur SHL:s kompetensmodell fungerar, dvs hur överens två oberoende rekryterare är om vad som är viktigt för att lyckas i ett yrke. Nedan kommer några exempel från studien.

Resultatet baseras på delar av Tabell 1; Lievens, F., Sanchez, J. I., Bartram, D., & Brown, A. (2010). Lack of consensus among competency ratings of the same occupation: Noise or substance? Journal of Applied Psychology, 95(3), 562–571. https://doi.org/10.1037/a0018035

I termer som beskrivs i boken Brus, delades det totala bruset (Sytembrus) upp i två komponenter, Nivåbrus och Mösnterbrus. I studien fick två eller flera rekryterare ta ställning till 112 komponenter som sedan delades in i 20 dimensioner. Varje komponent bedömdes utifrån om den var relevant eller inte längs en 4 gradig skala. I tabellen visas det totala systembruset som fanns i fem utvalda yrkesgrupper (den kompletta tabellen återfinns i artikeln).

Tabellen visar först att det är en hel del brus i bedömningarna, men att det varierar en hel del. Tex är det väldigt svårt att komma överens om vad en butikssäljare ska ha för kompetens, det är betydligt ”lättare” att komma överens om polisens kompetens. Vi ser också att mönsterbruset är den största boven i dramat, dvs vi är betydligt bättre på att bedöma vilken generell nivå som gäller, men sedan när enskilda kompetenser ska rangordnas då är vi inte överens. Ett bra exempel är marknadsförare där nivå bruset är 0% medan mönsterbruset är hela 73%.

Vad får detta för konsekvenser. Om vi överför detta till bedömningar i rekryteringar så är det nära katastrof, om vi bara är överens om att kompetenser som nätverkande, affärsutveckling, resultatorientering osv osv (vanliga begrepp i kompetensmodeller som används i kommuner idag) är viktiga och ska ligga på en viss generell hög nivå, medan sedan när vi som individer verkligen ska bedöma vad som är viktigast så kommer bruset.

Går det att göra något åt? I boken Brus finns många tips hur vi kan minska det totala bruset i våra bedömningar. När det gäller urvals praktiken idag är mitt tips följande.

Skippa alla flummiga kompetensmodeller, använd standardiserade arbetsanalysverktyg som är validerade för att profilera olika yrkesgrupper

Utför brusanalyser, om ni inte idag vet vad som är problemet och hur stort problemet är, går det inte att åtgärda

Gör oberoende bedömningar utan att diskutera med varandra, slå sedan ihop dessa bedömningar genom att summera resultatet.

Funkar det då? Ja det gör det, jag har tillsammans med mina kollegor och studenter genomfört brusanalyser på tre olika yrkesgrupper, där har vi kunnat minska bruset genom att använda en forskningsbaserad modell inom personlighet, den sk Fem Faktor Modellen (FFM, som vi beskriver i vår senaste bok (Personlighet i arbete) och utvecklat en standardiserad metod för att mäta FFM i arbetssammanhang. Jag återkommer med beskrivning av dessa resultat.

Referenser

Kahneman, D, Sibony, O., & Sunstein, C.R. (2021). Brus. Det osynliga flera som stör våra bedömningar- och vad du kan göra åt det. Volante.

Sjöberg, S., Sjöberg, A., & Henrysson Eidvall, S. (2021). Personlighet i arbete. Natur & Kultur.

Lievens, F., Sanchez, J. I., Bartram, D., & Brown, A. (2010). Lack of consensus among competency ratings of the same occupation: Noise or substance? Journal of Applied Psychology, 95(3), 562–571.

Aspekter – en nyhet inom personlighetsforskningen som beskrivs i en nyutkommen bok

Sjöberg, Sofia., Sjöberg, Anders., & Henrysson Eidvall, Sara (2021). Personlighet i arbete. Natur och Kultur.

Idag släpps vår nya bok Personlighet i arbete. I boken ger vi en inblick i vad forskningen menar med personlighet, hur personlighet skiljer sig mellan människor, och hur den fungerar i arbetssituationer. Boken är ett ett resultat av många års erfarenhet av testutveckling och praktiskt arbete med personbedömningar. Samtidigt som vi nu lanserar vår nya bok har vi vidareutvecklat vårt personlighetstest i Assessment Engine. Den fullständiga teorin och det vetenskapliga stödet bakom Personality150 skriver vi om boken och nu lanserar vi ytterligare en nyhet för Personality150, vårt test i Assessment Engine. Vi är stolta att kunna erbjuda ett personlighetstest som mäter hela Fem Faktor Modellen, från item till facetter, till aspekter och till faktorer. Detta gör Personality150 helt unik i världen.

Aspekter

Den senaste forskningen inom personlighet föreslår ytterligare en meningsfull tolkningsnivå i personlighetens hierarkiska struktur. Denna nivå återfinns mellan faktorer och facetter och består av 10 så kallade Aspekter.

Aspekternas främsta bidrag är att ge information om den viktigaste nyansen inom varje faktor då den delar varje faktor i två. På så sätt kan man säga att aspekterna belyser varje faktor från två perspektiv och kan bland annat ge svar på vad som driver uttrycket för den generella faktorn. Ett exempel är faktorn Extraversion som delas i aspekterna Entusiasm respektive Självsäkerhet. Båda aspekterna tar sig uttryck i samspelet med andra, men Självsäkerhet drivs av social dominans medan Entusiasm drivs av positiv affekt.

Samtidigt som aspekterna belyser den viktigaste nyansen inom varje faktor så bidrar de även med den mest meningsfulla grupperingen av facetter, genom att de facetter som är mest lika varandra samlas under en och samma aspekt. I aspekten Entusiasm (i Extraversion) ingår till exempel facetterna Tillgivenhet, Sällskaplighet och Gladlynthet medan aspekten Självsäkerhet utgörs av facetterna Dominans, Energi och Spänningssökande. (Notera att antalet facetter som ingår i en aspekt varierar beroende på faktor; fördelningen kan vara 1-5, 2-4, eller 3-3.)
Aspekter finns nu i Assessment Engine!

Assessment Engine levererar nu resultat på samtliga 10 aspekter för alla processer där Personality150 ingår. Vi är övertygade om att det finns många områden där aspekter kan vara till stor nytta, särskilt i tillämpningar där faktorer är alltför trubbiga samtidigt som facetter upplevs som onödigt specifika.

Resultat Assessment Engine

Är du expert på Assessment?

Detta är en intressant undersökning som kommer resultera i en bok av Nigel Guenole, Cicek Svensson och Bart Wille (Technology and Measurement around the Globe). Ni som anser er vara experter på ”assessment in the workplace”, ta 10 minuters paus och svara på några frågor hur du använder assessment i din organisation. Klicka på nedan länk där du kan läsa mer om projektet och svara på frågorna. Tack för hjälpen.

TILL UNDERSÖKNINGEN