Aversion mot algoritmer vid urvalsbeslut, ny forskning och egna tankar om framtidens rekrytering

Lika säkert som att algoritmer i genomsnitt är bra mycket effektivare i jämförelse med människor att väga ihop information för att förutsäga händelser, är det lika säkert att människor väljer sig själva framför algoritmer, forskarna kallar det algoritmisk aversion.

Redan på 1950-talet (Meehl, 1954) visade forskning att den algoritmiska tolkningen är överlägsen den mänskliga när det gäller att förutsäga beteenden. Sedan har forskning visat att detta gäller på områden, för att nämna några, som att förutsäga studieframgång, kriminella beteenden, medicinska diagnoser, köpbeteende, och inte minst att förutsäga vem som är bäst lämpad för jobbet. Som Camerer and Johnson, 1991 uttrycker det.

”Expert judgments have been worse than those of the simplest
statistical models in virtually all domains that have been studied”

Algoritmen har, förutom en överlägsen effektivitet, en betydligt större kostnadseffektivitet jämfört med den mänskliga tolkningen, algoritmen är således både smartare och billigare. När en algoritmen väl är på plats så är kostnaden per kandidat i tex rekrytering avsevärt lägre jämfört med den mänskliga tolkningen där informationen för varje enskild kandidat så att säga tolkas separat. Genom dagens explosion av meta analyser, Big Data och Machine learning är jag övertygad om att morgondagens rekryterare kommer få förändrade arbetsuppgifter. Jag kallar det Evidensbaserat urval (EBU™), smartare och billigare.

Men varför väljer vi inte algoritmen framför människan. Forskaren Berkeley J. Dietvorst har undersökt detta i några publicerade studier (Tack till John Hermiz Assessio som delade informationen med mig) som jag kommer sammanfatta nedan. För att sedan diskutera resultatet utifrån egna erfarenheter från undervisning och rekryteringsuppdrag.

I en studie (Dietvorst, Simmons, & Massey, 2014) visar det sig att personer förlorar förtroende för algoritmer i större utsträckning i jämförelse med om beslutsfattaren är en människa, även om det visar sig att människan gör fler fel i jämförelse med algoritmen, detta benämner forskaren algoritmsk aversion (motvilja, ovilja, antipati, avsmak, avsky). I flera experiment testade forskarna hur personer väljer mellan algoritmen eller sig själv eller någon annan expert som beslutsfattare. I samtliga fall förlorade personerna förtroendet för algoritmen så fort de upptäckte att den inte alltid gjorde rätt. Försökspersonerna hade betydligt större tålamod med människan som beslutsfattare trots att de visste att algoritmen i längden var ett bättre val

I en annan experimentell studie av Dietvorst, Simmons, & Massey (2016) visar det sig att försökspersonerna blev mer vänligt inställda till algoritmen om de fick vara med och ändra i algoritmen. Bland försökspersonerna räckte det att ändra ”lite” i algoritmen för att bli mer positiva.

Personer som fick vara med att påverka viktningen av informationen befann sig mer positiva till algoritmen i jämförelse med dem som endast fick samma algoritm som räknade ut resultatet utan att de kunde påverka algoritmen. Forskarna konstaterar att det i praktiken kan vara bättre att låta personer påverka algoritmen, även om det blir sämre, eftersom alternativet är att inte använda algoritmen och förlita sig på sin egen förmåga, detta skulle ändå leda till en sämre förutsägelse eftersom man helt skulle strunta i algoritmen.

Egna tankar

Studierna verifierar min egen empiri på området. Att applicera en logisk modell, dvs argumentera för att algoritmer vinner över människan med stöd i forskning visar sig endast fungera på en handfull individer.

Ett exempel från en lektion illustrerar aversionen mot algoritmer. Efter ca 15 minuter in i lektionen, där jag argumenterar för ett mekaniskt (läs algoritmiskt) tillvägagångssätt i rekrytering, räcker en student upp handen, och innan jag hinner avbryta min påbörjade mening säger studenten:

”Jag vet vad du kommer säga nu Anders, men jag kommer inte tro på vad du säger”

Och jag tror inte den negativa inställningen (läs aversionen) var till mig som personen utan forskningsresultatet som jag i nästa powerpoint bild skulle visa.

Den första studien ”make sense”. Generellt har de flesta människor svårt att förstå, känna, och ta till sig, även om det är logiskt, att algoritmer är bättre att använda för att fatta beslut istället för människans magkänsla.

Det finns dock situationer när människor litar på datorn. Tänk dig situationen när du kommer fram med en vagn med varor i din lokala ICA butik, du lägger upp varorna till hen som sitter i kassan, hen skannar in varorna och på displayen kan du läsa 1253,10 SEK. Inte skulle du ifrågasätta detta och säga att din erfarenhet säger dig att det snarare skulle landa på 1100 SEK, nej du litar fullt på algoritmen i datorn (som är en enkel summering av kronor) och slänger fram ditt kontokort. Du har även kvittot så du kan kontrollräkna om du vill (där lägger du också in ett nyttoperspektiv, är det värt att stanna upp kön för att du har en känsla av att något är fel).

Så när algoritmen ”nästan” aldrig gör fel och vi vet hur vi kan kontrollera den, då litar vi på algoritmen. Det är annorlunda när algoritmen ibland gör fel, som när svåra förutsägelser ska göras, tex i rekryteringar. Då förlitar vi oss gärna på den egna magkänslan, det kan hända när vi spelar på lotto (även om vi vet att det rent statistiskt nästan är omöjligt att vinna så satsar vi 50 kronor), och det händer i rekryteringar, när HR personal handskas med rekryteringsärenden. Inom spelberoende forskningen benämns detta som tankefälla (Jonsson et al, 2003), dvs en övertro på att vår egna tankar är de rätta om chansen att vinna, dvs träffa rätt (i spel är tankefällan, eftersom jag inte vunnit förut kommer jag vinna nästa gång). Rekryteringsbranschen idag är inne i en stor tankefälla, i detta fall bygger tankefelet på att jag är bättre än algoritmen, dvs en övertro på att människan kan slå algoritmen, medan all forskning pekar på motsatsen.

Den andra studien där försökspersonerna tillåts ändra i algoritmen gör mig dock lite tveksam till hur det kommer att fungera i praktiken. Låt oss ta ett rekryteringsexempel. Du som leverantör av en urvalstjänst har utvecklat en algoritm för att med ett personlighetstest förutsäga vilka som är bäst säljare. Validiteten är inte perfekt men du vet att den kommer slå människans förmåga att väga ihop samma resultatet. Uppdragsgivaren (kunden) hör vad du säger, men är tveksam. Då erbjuder du att kunden själv får bestämma (inom vissa frihetsgrader) hur informationen i personlighetstestet ska vägas samman, du tillåter med andra ord att det ändras i den algoritm som är den bästa möjliga givet den information du har för handen. Med andra ord du måste ljuga för kunden, eller åtminstone undanhålla viktig information från kunden för att få kunden att ”köpa” algoritmen. Är detta i linje med de etiska riktlinjer vi sätter upp, nej jag tycker inte det.

Men låt säga att vi ändå gör så, vi låter kunden ändra i algoritmen, vad händer då. För uppdragsgivare händer inte så mycket, eftersom validiteten i testet inte är så hög kommer den sannolikt att få ungefär lika duktiga säljare. Problemet är istället att kandidaten kan diskrimineras. Den senaste algoritmen jag utvecklade bygger på nästa 1 miljon människors resultat på personlighetstest. När jag bygger algoritmen vet jag att detta är den bästa möjliga sammanfogningen av information från testresultatet. När jag applicerar algoritmen får jag en rangordning av 50 olika kandidater, jag vill kalla 10 till intervju. Eftersom logiken säger att de med högsta sammanvägda resultatet ska kallas till intervju måste jag sätta ett gränsvärde. Detta innebär i sin tur att någon kommer på plats 10 och någon kommer på plats 11. Skulle jag låta kunden ”ändra” lite i ekvationen är sannolikheten att dessa personer byter plats. För kunden spelar detta ingen roll, kunden får intervjua ungefär lika duktiga säljare, men får kandidaten som sorteras bort blir den en negativ effekt när kunden tillåts ändra i algoritmen för att det ”känns bra” för hen.

Slutkommentar
I en klassisk studie av Dawes (1971) om studenturval vid ett universitet visas det sig att en mycket enkel algoritm (med betyg) slog expertgruppen av lärare, som förutom betyg hade en längre intervju samt kandidaternas referenser och vilken skola kandidaten hade gjort sin grundutbildning vid som underlag för beslut. Algoritmen visade sig både effektivare och billigare att använda som urvalsinstrument. Tror ni att de ändrade förfaringssätt? Svar Nej.

Att algoritmer slår människor är idag ett faktum. I en studie fann vi att en algoritm som tilläts träna lite på ett IQ test nådde upp till ett IQ runt 130, dvs bra mycket högre än en medelpresterande människa (Strannegård, Nizamani, Sjöberg, & Engström, 2013). Det formligen exploderar på detta område just nu. Matematiker, statistiker och psykologer jobbar nu tillsammans för att utveckla algoritmer som lär sig själva genom erfarenhet, detta kommer ändra spelplanen för många yrkesgrupper. En del yrken kommer försvinna och en del kommer ändra karaktär, det här är bara början.

Referenser

Dawes. R. (1971). A Case Study of Graduate Admissions: Application of Three Principles of Human Decision Making. American Psychologist, 26, 180-88.

Camerer., C. & Johnson. E .(1991). The process-performance paradox in expert judgment: How can experts know so much and predict so badly? In: K Anders Ericsson and J Smith (eds). Toward a general theory of expertise. (pp. 195-217). Cambridge University Press: Cambridge.

Dietvorst., Simmons., & Massey, (2014). Algorithm aversion: People erroneously avoids algorithms after seeing them err. Journal of Experimental Psychology: General.

Dietvorst., Simmons., & Massey, (2016). Overcoming algorithms aversion: people will use imperfect algorithms if they can (even slgihtly) modify them. Journal of Experimental Psychology: General.

Jonsson, J., Andrén, A., Nilsson, T., Svensson, O., Munck, I., Kindstedt, A., & Rönnberg, S. (2003). Spelberoende i Sverige – vad kännetecknar personer med spelproblem. Stockholm: Statens folkhälsoinstitut.

Meehl, P. E. (1954). Clinical versus statistical prediction. Minneapolis, MN: University of Minnesota.

Strannegård, C , Nizamani, A,R. , Sjöberg, A., and Engström, F. (2013). Bounded kolmogorov complexity based on cognitive models. Artificial General Intelligence, 5, 130–139.

Skänk en slant till Rädda barnen och bidra till forskning om personlighet? 


Just nu söker vi deltagare till ett forskningsprojekt om personlighet vid Uppsala och Stockholms universitet. Deltagandet sker genom att besvara två frågeformulär som sammanlagt tar ca 40 minuter att genomföra. Inte nog med att du bidrar till forskning så får du som tack för medverkan en skriftlig återkoppling om din personlighet från ett kvalitetssäkrat internationellt personlighetstest.

Som tack för din medverkan skänks 50 kronor till Rädda Barnen.

 

 

 

Frågeformulären besvaras online och kräver inga förkunskaper. Som tack för medverkan får du en övergripande återkoppling om din personlighet i form av en skriftlig rapport direkt efter du genomfört testet. Återkopplingen kan användas i utvecklande syfte inför framtida yrkesliv eller för att öka din självinsikt.

Är du intresserad och vill medverka?

Maila Alex Tidgård och märk mailet ”Uppsats”:

alex.tidgard@assessio.se

Naturligtvis kommer forskningsresultatet att publiceras här på psychometrics.se under hösten 2017.

Observera. All data kommer att avidentifieras innan dataanalys och kommer inte kunna spåras till någon enskild individ. All data behandlas på gruppnivå.

Forskare pratar psykologi: Framtidens rekrytering 10 april kl 18.00-19.00

Framtidens rekrytering

Datum: 10 april 2017 18:00 – 10 april 2017 19:00 
Plats: ABF-huset, Sveavägen 41, Hjärtat-scenen på entréplanet.

Stockholms universitet och ABF Stockholm fortsätter sin serie ”Forskare pratar psykologi”, med aktuella forskningsföreläsningar. Framstående psykologiforskare berättar om de senaste rönen inom sina fält. Den 10 april 2017 är det docent Anders Sjöberg som talar om framtidens rekrytering. Fri entré. Välkommen!

Sammanfattning
Rekrytering och urval i arbetslivet har studerats under lång tid där psykologisk kunskap varit en bidragande faktor till en effektiv och rättvis urvalsprocess. Denna föreläsning spänner över 120 års forskning och tillämpning i ämnet, från de första försöken att finna vilka personliga egenskaper som är väsentliga för att förutsäga arbetsprestation, genom 1970-talets skeptiska inställning till psykologisk kunskap i ämnet, fram till dagens tillämpning. Föreläsningen avslutas med ett resonemang om hur forskning gällande artificiell intelligens kan bidra till framtidens rekryterings- och urvalsprocesser.Sök mer information i ABFs kalendarium.Tid och plats: Måndag den 10 april, kl. 18.00. ABF-huset, Sveavägen 41.

Fri entré!

Välkommen!

Personlighetstest används på fel sätt

Idag i DN uttalar jag mig om varför personlighetstest ska användas i början av urvalsprocessen. Nedan kommer förtydligande och en hänvisning till forskningsstödet i varje uttalande.

Det är ganska svårt att mäta personlighet av en mängd olika orsaker. Resultatet är ganska osäkert. Störst effekt får man om man använder ett personlighetstest tidigt i processen, som ett screeningsförfarande, säger Anders Sjöberg, psykolog och forskare vid Stockholms universitet.

Med svårt menar jag här att det behövs väldigt många frågor i ett test för att få reliabilitet i måttet på personlighet. Reliabiliteten sätter gränsen för hur valid en mätning är, i rekryteringssammanhang sambandet mellan personlighet och arbetsprestation. Eftersom personlighetsmätningen sällan kommer över .30 i validitet har den mest verkan om man så tidigt som möjligt adminstrerar ett personlighetstest.

Om ett test ska bedömas hur effektivt det är är det tre begrepp som behöver uppskattas, baskvot (BK), urvalskvot (UK) och validitet (val). Baskvot anger andelen goda presterar som skulle lyckas om rekryteraren slumpade in kandidaterna. Urvalskvoten anger hur många kandidater det är som testas i förhållande till hur mångas som ska väljas ut. Och validiteten anger sambandet mellan i detta fall ett personlighetstest och arbetsprestation. Sambandet mellan urvalskvot, baskvot och ett urvalsförfarandes validitet generar tillsammans det som forskarna Taylor och Russell (1939) kallar framgångskvot. Med framgångskvot avses den andel kandidater som efter en viss anställningstid visar sig klara jobbet på ett tillfredsställande sätt (över genomsnittet). Denna kvot bör naturligtvis vara så hög som möjligt; det ideala är att 100 % av de nyanställda klarar jobbet på ett bra sätt, vilket skulle motsvara en framgångskvot på 1.00. Taylor och Russell räknade med hjälp av en statistisk teori ut sambandet mellan urvalskvot, baskvot och framgångskvot i kombination med olika validiteter i urvalsförfaranden. Med hjälp av den så kallade Taylor-Russell tabellen (Sjöberg, Sjöberg & Forssén, 2007) kan man avläsa under vilka kombinationer av urvalskvot och baskvot som olika nivåer på validiteten genererar högst framgångskvot. Generellt kan man säga
att ju högre validitet, desto högre framgångskvot, men vid extremt låg eller hög baskvot, eller hög urvalskvot har en ökning av validiteten – som resonemanget ovan visar – begränsad effekt.

 

 

 

 

 

 

Om man tillämpar detta på ett exempel med 500 sökande till de 50 jobb som säljare, kan man räkna ut att urvalskvoten är 10 %, (50/500 = .10). Baskvoten är uppskattad till 50 % eller .50 (dvs om man slumpade in sökande skulle hälften överprestera. Om den urvalsmetod som används har en validitet på noll (validiteten kan variera mellan 0 och 1.00), kommer detta förfarande att generera en framgångskvot på 50%. I klarspråk innebär detta att hälften, 50 %, av de som anställs kommer att prestera bra, och att hälften inte kommer att bidra med en tillfredsställande arbetsprestation.

Det är dock sällan man låter slumpen styra vilka man anställer; oftast används någon form av systematisk urvalsmetod, som till exempel ett personligetstest som mäter målmedvetenhet. Validiteten i denna typ av test kan uppskattas ligga runt .20 (Sjöberg & Sjöberg, Näswall & Sverke, 2014) vilket enligt Taylor-Russell tabellen skulle generera en framgångskvot på 64 %. Således, genom att höja validiteten från 0 till .20 så identifierar man ytterligare en bra säljare till förmån för en mindre bra (.64 x 10). Använder man en urvalsmetod, tex ett begåvningstest med ännu högre validitet, kanske runt .40, får man en framgångskvot på 78% (se markering i tabellen). Inte så dumt för ett test som har en valditet på .40.

Validiteten är således viktig, men det gynnsamma förhållande har ett stort inflytande av den låga urvalskvoten. Om man istället höjer denna, vilket är fallet med tex second opinion, där urvalkvoten kanske är 50-100% istället för 10% så får vi inte samma nytta av validiteten. Istället för 78% rätt sjunker den till 63% rätt rekryteringar. Alltså ”störst effekt får man om man använder ett personlighetstest tidigt i processen, som ett screeningsförfarande”

Många använder testerna på fel ställen i rekryteringsprocessen, de används i slutet när de i stället borde användas i början. Om testerna används i början kan man göra bättre urval och få in personer som kanske annars diskrimineras.

Test är förhållandevis bra på att inte diskriminera eftersom det har visat sig att de inte mäter (beömer) diskrimineringsgrundade faktorer (kön, könsöverskridande identitet eller uttryck, etnisk tillhörighet, religion eller annan trosuppfattning, funktionsnedsättning, sexuell läggning och ålder). Test mäter istället personliga egenskaper som visat sig viktiga för att förutsäga arbetsprestation. Det betyder att om du använder test tidigt i processen kan jämställdheten gynnas. Att screena på CV och personlighetsbrev har visat sig öka diskrimineringen.

Jag rekommenderar aldrig att man ska använda testet som en second opinion i slutet av rekryteringen. Det kan kosta mellan 25.000 och 30.000 kronor per rekrytering, men det är bortkastade pengar om någon tolkar personlighetstesterna så sent i processen. Då är det bättre att slumpa. Slumpen diskriminerar åtminstone inte och det är bra mycket billigare jämfört med att testa, säger Anders Sjöberg.

Med samma argument som ovan avseende urvalskvoten är det bortkastad tid och pengar att införa ett test med så låg validitet som personlighetstest sist i processen. En metod som kostar mycket pengar bör ha en väldigt hög validitet för att göra nytta. Det har inte personlighetstest som mäter normalpersonlighet. Kan tänka mig att det att ett kognitvt test tillsammans med ett test som mäter avvikande tendenser (tex antisociala drag) kan ingå i en second opinion, men den låga urvalskvoten gör det ändå svårt att argumentera för ett sådan test när bara två kandidater återstår i urvalsprocessen. Med tanke på den sannolikt höga baskvoten så kan det vara bortkastat tid.

När det gäller slumpen så är den en underskattad metod vid urval. Då slumpen garanterat inte diskriminerar och den är väldigt billig att använda. All urvalsverksamhet handlar om att slå slumpen. I korrelationen mellan test och prestation (som kan variera mellan -1 och +1) anger vi hur långt från slumpen testet kan ta oss. Tyvärr finns det risk att vi sänker validiteten när vi använder testresultat som diskussionsunderlag inför ett urvalsbeslut (se nedan). Det är en stor risk att vi då tar in ovidkommande information som bidrar till diskriminering.

Han förklarar vidare: om två personer fått göra ett personlighetstest och den ena kandidaten har åtta poäng för en särskild egenskap och den andra personen har sju, innebär det inte att den som har åtta poäng nödvändigtvis är bättre. Det beror på att det finns en ganska hög felmarginal, vilket gör att den kandidaten som ligger lägre egentligen kan ha högst poäng.

Detta är reliabiliten i mätningen, dvs om varje kandidat skulle göra om testet så skulle resultatet variera. I personlighetstest finns det mätfel, dessa måste tas hänsyn till i tolkningen av 1 testpoäng. I ett test som kan variera mellan 0-10 är ofta felmarginalen 1-2 poäng, om du testar få personer sent i processen gör den höga baskvoten att det kommer vara liten skillnad mellan kandidaterna det finns då risk att små skillnader övertolkas.

Men om du gör personlighetstester på många personer i början av en process kommer du att få en del personer som har låga poäng och en del personer som har höga poäng inom en egenskap som till exempel emotionell stabilitet. Då kan du välja bort dem med extremt låga poäng, för de kommer sannolikt att få det jobbigt som chef, säger Anders Sjöberg.

Under gynnsamma förhållande, dvs låg urvalskvot kommer det finnas många testpoäng att välja på.

Om personlighetstester görs i slutet av en process ska rekryteraren inte titta på testresultatet förrän efter sista intervjun och väga samman de olika delarna var för sig, anser både Mattias Elg och Anders Sjöberg. Men det görs sällan, många använder personlighetstesterna som ett diskussionsunderlag.
– Då förstör man validiteten i testet, det blandas ihop med det som sägs under intervjun. Jag tror att 90 procent av testerna används fel. Men branschen har inga incitament att ändra sig eftersom man tjänar pengar på detta, säger Anders Sjöberg.

Det är inget fel att tjäna pengar på en god urvalsprocess. Men tyvärr så tolkas särskilt personlighetstest på ett felaktigt sätt.

Tolkning, eller sammanvägning, av testresultat (och all annan information som samlas in om kandidater i urvalssammanhang) kan ske på två väsensskilt olika sätt. Det vanligaste sättet att tolka testresultat på i praktiskt urvalsarbete är genom så kallad intuitiv tolkning (Viteles, 1925). Utgångspunkten för intuitiv tolkning är en kravprofil som definierar hur arbetsprestation manifesteras för det tilltänkta arbetet eller rollen. Denna typ av traditionella kravprofiler är oftast fastställda och uttryckta i kvalitativa termer, till exempel i beskrivningar av önskvärda egenskaper eller beteenden. Vid intuitiv tolkning ses testresultat i regel som en del av en helhet och det är personbedömaren (eller en grupp av personbedömare) som avgör om och på vilket sätt testresultat, och annan information, ska vägas in den sammantagna bedömningen. Det är också personbedömaren (eller gruppen) som genom en implicit mental process gör den faktiska sammanvägningen för varje kandidat och sätter denna i relation till kravprofilen. Processer som inrymmer intuitiv tolkning resulterar sällan i en explicit rangordning av kandidater. Intentionen är istället att de kandidater som genom ovanstående beskrivna process uppfattas passa eller ”matcha” kravprofilen bäst ska erbjudas anställning.

Det andra sättet att tolka eller sammanväga information på är genom så kallad mekanisk tolkning (Freyd, 1926). Detta förfaringsätt innebär:

  • att det finns en i förväg fastställd specifikation för vad som ska tolkas – tidsperspektivet är centralt; specifikationen formuleras inte efter att informationen samlats in och den ska inte, utan explicit medvetenhet ändras efter hand.
  • att specifikationen är explicit – alltså uttalad och dokumenterad så att intressenter kan ta del av den, och om så skulle ske; bevaka ändringar i specifikationen.
  • att specifikationen beskriver logiken för tolkningen/samman-vägningen – det kan handla om en enkel summering av måtten man bestämt på förhand men det kan också vara avancerade algoritmer med ett stort antal komponenter baserade på evidens och där hänsyn tagits till i vilken utsträckning de olika informationsbitarna de facto överlappar i förhållande till kriteriet som ska prediceras.
  • att tolkningen/sammanvägningen de facto görs mekaniskt – med till exempel en miniräknare eller motsvarande som garanterar konsistens över kandidater och som inte lämnar utrymme för subjektivitet eftersom det oundvikligen leder till att kandidaterna bedöms på olika premisser.

Vid mekanisk tolkning så är det alltså inte upp till den professionella personbedömaren att utifrån egen förmåga fastställa kravprofil (innehåll eller viktning), att väga ihop information (som till exempel testresultat och utfall från en intervju), matcha denna mot kravprofilen, eller att rangordna kandidater. Detta sker genom en standardiserad mekanisk process.

Redan på 1950-talet visade forskning att den mekaniska tolkningen är överlägsen den intuitiva när det gäller att förutsäga beteenden (Meehl, 1954), det vill säga att predicera exempelvis arbetsprestation. I en metaanalys fann Redan på 1950-talet visade forskning att den mekaniska tolkningen är överlägsen den intuitiva när det gäller att förutsäga beteenden (Meehl, 1954), det vill säga att predicera exempelvis arbetsprestation. I en metaanalys fann Grove, Zald, Lebow, Snitz & Nelson (2000) att av 136 studier, som ingick i analysen, så var 63 till den mekaniska tolkningens fördel, 8 studier visade att den intuitiva tolkningen var överlägsen, och 65 studier visade att metoderna leder till likvärdiga nivåer vad gäller prediktiv validitet.

Och det är just i skillnaden mellan det intuitiva och mekaniska förhållningssättet, inte i hur man viktar de olika informationsbitarna, som visat sig påverka validiteten allra mest (Sawyer, 1966; Grove etal., 2000). Det innebär att jakten på de perfekta vikterna, eller att förkasta mekanisk tolkning med hänvisning till att vikterna inte nått perfektion, saknar logisk grund. Forskning visar tydligt att givet samma information så leder mekanisk tolkning till högre prediktion jämfört med intuitiv tolkning (Kuncel, Klieger, Connelly & Ones, 2013).

Den mekaniska tolkningen har, förutom en överlägsen prediktiv validitet, en betydligt större kostnadseffektivitet jämfört med den intuitiva tolkningen (Highhouse, 2008). När en ekvationen väl är på plats så är kostnaden per kandidat avsevärt lägre jämfört med den intuitiva tolkningen där informationen för varje enskild kandidat så att säga tolkas separat.

Replikerbarheten och transparensen i den mekaniska tolkningen möjliggör dessutom systematisk utvärdering och därmed kontinuerligt arbete med förbättringar. Exempelvis kan viktningar förfinas och bli mer reliabla och valida i takt med att det empiriska underlaget ökar. Motsvarande är inte möjligt med den intuitiva tolkningen eftersom subjektiviteten hos bedömaren ständigt ändrar viktningen utan att ta hänsyn till kriteriet. Replikerbarheten och transparensen garanterar att kandidater jämförs på samma sätt utifrån samma premisser; att hänsyn tas till relevant information och inte minst att irrelevant information utesluts från tolkningen.

Replikerbarheten och transparensen möjliggör också spårbarhet. Inte minst i praktiska urvalssituationer är det lämpligt att kunna besvara frågan om varför en kandidat erbjuds tjänsten och inte en annan. Att logiskt kunna härleda processen som lett fram till beslutet och därmed på begäran kunna bevisa hur processen fram till beslutet gått till är en annan följd av spårbarheten.

Ovanstående kan tyckas vara självklarheter och är kanske även den intentionella essensen i intuitiv tolkning men faktum är att den intuitiva tolkningen har svårt att göra anspråk på dessa punkter. Med sitt ostandardiserade format ger den intuitiva tolkningen utrymme och möjlighet till att relevant information inte vägs in, att irrelevant information vägs in, att viktningen sker på ett mindre korrekt sätt, och den medför oundvikligen att bedömningsgrunderna varierar mellan kandidater. I praktiken leder det till medveten eller omedveten särbehandling av olika slag vilket ökar risken för diskriminering.

Trots den mekaniska tolkningens överlägsenhet så är den sällan implementerad fullt ut i praktiskt urvalsarbete; intuitiv tolkning utgör standardförfarandet inom praktiskt urvalsarbete idag även om intresset och efterfrågan för standardiserade och evidensbaserade lösningar så som mekaniska tolkningsmodeller har ökat på senare år.

Referenser

Mount, M. K., & Judge, T. A. (2001). Personality and job performance at the beginning of the new millennium: What do we know and where do we go next? International Journal of Selection and Assessment, 9, 9–30.

Barrick, M. R., & Mount, M. K. (2005). Yes, personality matters: Moving on to more important matters. Human Performance, 18, 359–372.

Borman, W. C., & Motowidlo, S. J. (1993). Expanding the criterion domain to include elements of contextual performance. In N. Schmitt, & W. C. Borman (Eds.), Personnel selection in organizations (pp. 71–98). San Francisco, CA: Jossey-Bass.

Freyd, M. (1926). The statistical viewpoint in vocational selection. Journal
of Applied Psychology, 4, 349–356.

Gonzalez-Mulé, E., Mount, M. K., & Oh, I.-S. (2014, August 18). A meta-analysis of the relationship between general mental ability and nontask performance. Journal of Applied Psychology. Advance online publication. http://dx.doi.org/10.1037/a0037547

Grove, W. M., Zald, D. H., Lebow, B. S., Snitz, B. E., & Nelson, C. (2000). Clinical versus mechanical prediction: A meta-analysis. Psychological Assessment, 1, 19–30.

Highhouse, S. (2008). Stubborn reliance on intuition and subjectivity in employee selection. Industrial and Organizational Psychology, 1, 333–342.

Hunter, J. E., Schmidt, F. L., & Le, H (2006). Implications of direct and indirect range restriction for meta-analysis methods and findings. Journal of Applied Psychology, Vol. 91, No. 3, 594–612.

Hurtz, G. M., & Donovan, J. J. (2000). Personality and job performance: The Big Five revisited. Journal of Applied Psychology, 85, 869–879.

Kuncel, N. R., Klieger, D. M., Connelly, B. S., & Ones, D. S. (2013). Mechanical versus clinical data combination in selection and admissions decisions: A meta-analysis. Journal of Applied Psychology, 98, 1060–1072.

Le, H., & Schmidt, F. L., (2006). Correcting for Indirect range restriction in meta-analysis: testing a new meta-analytic procedure. Psychological Methods, 11, 416–438.

Meehl, P. E. (1954). Clinical versus statistical prediction. Minneapolis, MN: University of Minnesota.

Mount, M. K., & Barrick, M. R. (1995). The Big Five personality dimensions: Implications for research and practice in human resources management. Research in Personnel and Human Resources Management, 13, 153–200.

Rotundo, M., & Sackett, P. R. (2002). The relative importance of task, citizenship, and counterproductive performance to global ratings of job performance: A policy-capturing approach. Journal of Applied Psychology, 87, 66–80.

Sackett, P. R., & DeVore, C. J. (2001). Counterproductive behaviours at work. In N. Anderson, D. S. Ones, H. K. Sinangil, & V. Viswesvaran (Eds.), International Handbook of Work Psychology (Vol. 1, pp. 145–164). London, UK: Sage Publications.

Salgado, J. F. (1997). The five-factor model of personality and job performance in the European Community. Journal of Applied Psychology, 82, 30–43.

Salgado, J. F. (2003). Predicting job performance using FFM and non-FFM personality measures. Journal of Occupational and Organizational Psychological, 76, 323–346.

Sawyer, J. (1966). Measurement and prediction, clinical and statistical. Psychological Bulletin, 66, 178–200.

Schmidt, F. L., & Hunter, J. E. (1998). The validity and utility of selection methods in personnel psychology: Practical and theoretical implications of 85 years of research findings. Psychological Bulletin, 124, 262–274.

Sjöberg, S., Sjöberg, A., Näswall, K., Sverke, M. (2012). Using individual differences to predict job performance: Correcting for direct and indirect restriction of range. Scandinavian Journal of Psychology, DOI: 10.1111/j.1467-9450.2012.00956.x

Sjöberg, A., Sjöberg, S., & Forssén, K. (2006). Predicting Job Performance. Manual. Stockholm: Assessio International.

Taylor, H. C., & Russell, J. T. (1939). The relationship of validity coefficients to the practical effectiveness of tests in selection. Journal of Applied Psychology, 23, 565–578.

Viswesvaran, C., Schmidt, F. L., & Ones, D. S. (2005). Is there a general factor in ratings of job performance? A meta-analytic framework for disentangling substantive and error influences. Journal of Applied Psychology, 90, 108–131.

Viswesvaran, C., & Ones, D. S. (2000). Perspectives on models of job performance. International Journal of Selection and Assessment, 8, 216–226.

Viteles, M. S. (1925). The clinical viewpoint in vocational selection. Journal of Applied Psychology, 9, 131–138.

Målmedvetenhet, Extraversion och Intelligens: Goda egenskaper för att få ett arbete, behålla det och få en god löneutveckling.

Ny forskning presenterar hur egenskaperna Målmedvetenhet, Extraversion och Intelligens hjälper personer att ta sig fram i arbetslivet. Nedan definieras först begreppen sedan sammanfattas resultatet från två nya studier där sambandet mellan egenskaperna och att lyckas i arbetslivet beskrivs.

Målmedvetenhet, eller Conscientiousness (CO)
Målmedvetenhet, eller Conscientiousness (CO) är den huvudsakliga personlighetsegenskapen i situationer där alla former av prestation är i fokus, till exempel arbete, inlärning och utbildning. Denna egenskap förbinds ständigt till kriterier som relaterar till arbetsprestation och faller oftast ut som den viktigaste faktorn. Personer med höga poäng är målmedvetna, har ofta en stark vilja och är beslutsamma.

Begåvning, eller Intelligens (IQ)
Intelligens, IQ (av latin intellego, att förstå, begripa, inse, avgöra), mental förmåga; förmågan att utifrån givna grunder avsiktligt utveckla sitt tänkande. Till intelligensen räknas vanligen förmågorna att resonera, planera, lösa problem, associera, tänka abstrakt, förstå idéer och språk, komplicerade orsakssammanhang samt förmågan till inlärning.

Utåtriktning, eller Extraversion (EX)
Extraversion (EX) kännetecknas i huvudsak av graden av sällskaplighet och energi som riktas
mot den yttre världen. Sällskapligheten inbegriper de båda aspekterna att orka med och att vara intresserad av social interaktion samt behovet av kontinuerlig och omfattande social kontakt med andra. Den absoluta graden av energi och i vilken utsträckning den riktas mot den externa världen inbegrips i EX.

CO, IQ, EX och arbetsförmåga

I studier har det visat sig att av faktorererna i Fem Faktor Modellen är CO den som predicerar arbetsprestation bäst över samtliga yrken. Tillsammans med IQ så är de överlägsna psykologiska egenskaper att förutsäga arbetsprestestion. EX har visat sig sig också förutsäga arbetsprestation men i betydligt lägre utsträckning, det är särkilt i chefspositioner som denna egenskap visat sig användbar för att förutsäga prestation.

Flera studier har också visat att EX är den variabel som visat sig vara avgörande om personen får jobbet, mycket på grund av att personer med hög EX gillar social interaktion, och eftersom intervjun i de allra flesta fallen är avgörande för om man ska få jobbet är denna egenskap av stor betydelse. Allt från första handskakningen till självförtroende i intervjun gynnar den extroverta individen.

Resultat
Wiersma & Kappe (2016) fokuserar först och främst på om CO och EX kan förutsäga löneläget vid anställningen och löneutecklingen bland HR utbildade personer. IQ används snarare som en kontroll variabel, en något konstigt upplägg som jag analyserat om genom att data redovisat i arikeln kan användas för ytterligare analys av resultatet.

Nedan redovisas min jämförelse mellan CO, EX och IQ och hur dessa egenskaper viktas in när lön sätts (startlön), och löneutveckling.

Resultatet visar tydligt att när det gäller att få en hög startlön är det endast EX som har betydelse, medan sambandet ser annorlunda när det gäller löneutvecklingen, där är det CO och IQ som står för sambandet. Så slutsatsen är, när det ska förhandlas startlön prioroteras utårtriktade individer, förmodligen för deras förmåga att på ett sällskapligt och energifullt sätt övertyga om deras förträfflighet. Denna förmåga blir dock inte avgörande för de kommande årens lönehöjningar, där är det noggranhet, pålitlighet och logisk problemlösning som blir en bidragande orsak till mer stålar i plånboken.

Egan, Daly, Boyce, & Wood (2016) har genomfört en unik studie där nivån av CO IQ och EX tillsammans med IQ mättes i 16-27 års åldern hos inte mindre än 4206 personer för att sedan följas upp med data på vilka som kunde behålla sitt arbete och vilka som blev arbetslösa (mellan åren 1986 och 2009). Förutom denna data fanns också information om emotionell stabilitet, sympatiskhet, socioekonomisk bakgrund, akdemisk motivation och utbildningsnivå vilket gör att sambandet mellan CO-EX-IQ och arbetslöshet kan kontrolleras för med dessa variabler.

Särskilt fokus i denna artikel ligger på CO (vilket också är lite konstigt eftersom IQ är en lika stark prediktor som CO). Bland de som hade hög CO (+1SD) vid 16 års ålder var 1,5 % arbetslösa i jämförelse med de som hade låg CO (-1SD) var 3,5% arbetslösa. Över 17 år hade de med hög CO varit arbetslösa i snitt 3 månader i jämförelse med de som hade låg CO som varit utan arbete i närmare 6 månader, alltså dubbelt så länge (se figur nedan). Även när kontrollvariablerna inkuderades i analysen visade det sig att CO hade i stort sättt detta samband med arbetslöshet.

Den enda egenskapen som hade lika högt samband med arbetslöshet var inte överraskande intelligensnivå (IQ) vid 16 års ålder. Sammantaget kan man säga att de kognitivt starka och målmedvetna ungdomarna står sig starka i arbetslivet. Detta därför att intelligens handlar om att man ”kan arbeta”, och CO att man ”vill arbeta”. Extraversion visade inte i denna studie på några väsentliga samband med arbetslöshet i framtiden. Den variabel som överlägset förutsade hur många månader personerna hade varit arbetslösa var dock socioekonomisk status, alltså vilket yrke som föräldrarna hade när personen föddes var det klart starkaste prediktorn för antal månader arbetslöshet.

Sammanfattning

  • EX viktig i anställningsintervjun och när den första lönen ska förhandlas
  • IQ och CO viktiga för löneutvecklingen
  • IQ och CO kan vara en avgörande faktor för att undvika arbetslöshet

Men vilket yrke föräldrarna hade vid födseln var avgörande för hur lång arbetslösheten blir.

Var du kommer ifrån (socioekonomisk status), på det sätt du presenterar dig (Extraversion), på det sätt du löser problem (IQ) och hur pålitlig du är (CO) hjälper dig i ditt arbetsliv.

Referenser

Wiersma, U.J., & Kappa, R. (2016). Selecting for extroversion but rewarding for conscientiousness. European Journal of Work and Organizational Psychology, DOI: 10.1080/1359432X.2016.1266340

Egan, M., Daly, M., Delaney L., Boyce C.J., & Wood, A.M (2016). Adolescent conscientiousness predicts lower lifetime unemployment. Journal of Applied psychology, Nov 28.

 

Fusk på högskoleprovet, det går att förhindra

h2De senaste veckorna har det uppmärksammats att det fuskas på Högskoleprovet. Det har nog pågått i många år, men frågan är om det går att förhindra? Nedan kommer jag berätta om hur psykometriska forskningen kan hindra att personer köper sig in på läkarlinjen.

Högskoleprovet är ett studiefärdighetsprov. Testpoängen på provet ska säga vilka personer som sannolikt klarar olika universitets- och högskoleutbildningar. Det finns ett stort intresse bland sökande till högre utbildning att skriva högskoleprovet eftersom man då konkurrerar i ytterligare en urvalsgrupp och eftersom man på vissa attraktiva utbildningar använder resultatet på högskoleprovet som urvalsverktyg. På de allra populäraste utbildningarna krävs det också väldigt höga poäng på Högskoleprovet.

Hur ska då Universitets- och högskolerådet (UHR) komma åt fuskare?

För att störa det organiserade och tekniskt avancerade fusket, använde UHR fyra olika varianter av det sista provpasset i samband med provet den 29 oktober. Tre provorter fick olika versioner av provet i olika lokaler: Göteborg, Skåne och Stockholm.

I analysarbetet har UHR kunnat identifiera 50 fall där svarsmönstren visar att det med mycket hög sannolikhet inte har gått till på rätt sätt.

Bland de som har fuskat, har UHR identifierat 37 personer i Stockholm, nio personer i Skåne, fyra personer i Göteborg och en person i Linköping. Dessa provdeltagare har polisanmälts.

UHR säger sig fortsätta utveckla provet och överväger fler åtgärder för att komma åt användningen av otillåtna hjälpmedel vid högskoleprovet.

Vilka andra krafttag tar då UHR för att hindra att fuskare tar sig in på eftertraktade utbildningar? Detta har gjorts

  • Skriftligen intyga att man inte fuskar
  • Provvakter för utökad rättighet att använda kroppsvisitation (för att upptäcka teknisk utrustning hos fuskaren)
  • Sekretess för ”tipsare”

Nej, nej nej det räcker inte, fusket kommer att fortsätta, det räcker inte med kontroll, det måste till ett system där det är omöjligt att fuska, och det har funnits sedan många år tillbaka, inom psykometriska forskningen benämns det; Item Response Theory (IRT).

Den tekniska möjligheten finns redan idag att Högskoleprovet administreras med hjälp av sk ”adaptive testing” en teknik (som bygger på IRT) som gör det möjligt att ingen testtagare får identiska prov, inte ens samma antal frågor, men kan ändock jämföras med samma måttstock. Nedan kommer jag berätta hur det kan gå till när man inte längre behöver jaga fuskare, eftersom det helt enkelt inte går att fuska på högskoleprovet.

Den hastiga utvecklingen på IT-området de senaste årtiondena har öppnat möjligheten för att välja ut frågor som ska administreras i den individuella testningen och poängsätta resultaten. Denna form av testning sammanfattas under benämningen Computer Adaptive Testing, CAT. CAT baserat på IRT tar hänsyn till varje frågas svårighetsgrad, diskrimineringsförmåga (hur bra en fråga är på att mäta skillnaden i förmåga), samt sannolikhet att testpersonen har gissat sig till rätt svar.

Om olika individer administreras olika uppsättningar frågor justeras högskolepoängen efter svårighetsgrad (hur svår en fråga är), diskrimineringsförmåga (hur bra en fråga är på att mäta skillnaden i förmåga), samt sannolikhet att testpersonen har gissat sig till rätt svar.

Frågor i provet kan väljas ut för att matcha testpersonens nivå på den aktuella egenskapen (tex verbal förmåga) vilket medför att denna inte blir uttråkad av att administreras alltför lätta frågor eller frustrerad över att administreras alltför svåra frågor. Sammantaget innebär det att nästa fråga som administreras är beroende av vilket svar testpersonen gav på föregående fråga. CAT sätter sedan poängen från de unika administreringarna på samma skala så att de blir jämförbara.
Sammantaget blir detta en tillförlitlig mätning som garanterat  (100%) förhindrar fusk.

Jag har hört att detta är på gång, åtminstone med dataversioner av Högskoleprovet. Men varför har vi idag en papper och penna version av ett prov som ska avgöra många människors kommande arbetsliv som uppenbarligen går att fuska på?

I flera andra länder undviks fusk genom denna teknik. Att få ordning på detta borde prioroteras. Inte minst för att idag kan den som har tillräckligt fet plånbok köpa sig ett bra provresultat, ju fetare plånbok desto högre poäng.

 

DN skriver om psykologiska test i rekrytering

selectionPersonlighetstester och andra färdighetsprov blir allt vanligare vid anställningsintervjuer. DN:s journalist har skrivit om detta förra veckans jobb bilaga. Där försöker hen beskriva för kandidater vad test är och sedan kommer några tips för att ”klara” testen. Nedan kommer jag med några förtydligande.

I Sverige används en lång rad personlighetstester. Merparten baseras på teorin om ”big five”, med skattningar på de fem skalorna målmedvetenhet, känslomässig stabilitet, utåtriktning, öppenhet/kreativitet och vänlighet.

Öppenhet och kreativitet är inte samma sak inom forskning, att vara kreativ handlar om att få ur sig saker som som får ”impact” för andra människor, det kan vara upplevelsebaserad och/eller funktionellt. Ofta hänger kreativitet ihop med god kognitiv förmåga.

Förespråkarna menar att bra tester gynnar alla inblandade, genom att förebygga en undermedvetet fördomsfull rekrytering på basis av utseende och andra ytliga och i sammanhanget irrelevanta egenskaper.

Absolut, om de som adminstrerar test verkligen följer det som står i manualer till testen, tyvärr är det ofta inte fallet. I de fall jag undersökt detta är det skrämmande lite av urvalsbeslutet som baseras på kandidatens testresultat

Hos professionella rekryteringsföretag plockas personlighetstestet fram först i slutfasen. Men vissa företag lägger även ett enklare test i början av processen för att redan då försöka gallra bort en del sökande.

Att använda personlighetstest och även begåvningstest är tämligen uddlöst i slutfasen av urvalsprocessen, test bör användas tidigt i processen, det är där de har mest nytta. Vad som menas med enklare test är här oklart, ett personlighetstest kan inte vara mer eller mindre enkelt. Som kandidat ska du fråga varför man använder test och hur det kommer att påverka ett urvalsbeslut.

Att förbereda sig på något särskilt sätt går inte. Det viktiga för en så rättvisande bild som möjligt är att fundera över hur man fungerar i främst arbetssituationer, och att välja det svar man först kommer att tänka på – även om det inte nödvändigtvis är det för en själv mest smickrande.

En del test har mer eller mindre situationsbaserade. Det viktiga är att läsa instruktionerna innan du genomför testet.

Även om många frågor är rätt lätta att genomskåda har du enligt proffsen föga att vinna på att försöka frisera bilden av dig själv. Testet har ofta något slags indikator som kan ge utslag när ett testresultat framstår som mindre pålitligt. Det kan handla om såväl alltför många motsägelser som en alltför stor enhetlighet.

Det finns vissa företag som marknadsför att det går att hitta ”fuskare” som genomför personlighetstest, men forskningen är kluven inför detta, jag lutar åt att det är omöjligt. (vän av ordning undrar också vilka proffsen är)

Men motsägelser kan det ändå vara gott om. När man på kort tid gjort en handfull så kallat vetenskapligt utformade tester blir det tydligt hur ens egna inneboende motsägelser mellan till exempel impulsivitet/spontanitet respektive kritiskt granskande/noggrannhet ger utslag ungefär som i ett detaljerat horoskop. De enklare, mer psykologiskt ovetenskapliga testerna utmynnar i beskrivningar som lätt kan stämma på de flesta – som ett kvällstidningshoroskop.
Många har uttalat skarp kritik mot testandet. Vissa tester är rent hokuspokus. Många på marknaden saknar bakomliggande forskning. Och samma test passar heller inte alla yrkesgrupper eller arbetsplatser.

Förvisso finns det en del skräp på marknaden, men med tanke på alla skräpintervjuer som genomförs är det i sammanhanget försumbart, särskilt då intervjuresultatet nästa alltid fäller avgörandet om du får jobbet eller ej.

Vissa tester granskas av Stiftelsen för tillämpad psykologi, STP, en ideell förening grundad av Sveriges Psykologförbund, som tittar på hur testet hänger ihop med det som det säger sig vilja mäta. STP:s stickprov visar att testresultaten över lag bara går att lita på i runt hälften av fallen.

STP (Stiftelsen för Tillämpad Psykologi) är inte längre ansvarig för att granska test i Sverige. Istället är det ett certifieringsinstitut som heter DNV-GL som är ansvariga. I alla de granskningar som jag läst från STP går det ej att utläsa att hälften av fallen skulle vara värdelösa. Samtliga granskningar gör en nyanserad värdering vad testet kan och inte kan användas till.

Fem bra tips inför ett personlighetstest
1. Svara snabbt. De flesta tester är utformade så att man inte ska hinna tänka efter för mycket. Börjar du fundera länge på en fråga hinner du inte klart.

OBS Detta gäller personlighetstest men inte begåvningstest

2 Du ska vara utvilad. När du gör testet ska du se till att vara utvilad och inte hungrig.

Innan prestation är det alltid bra att vara utvilad och inte hungrig.
3 Ta det lugnt. Du ska inte ”tävla”. Försöker du svara ”rätt” avslöjas du under den följande djupintervjun.

NEJ NEJ NEJ, det finns inget inom forskningen som talar för att ”djupintervjun” skulle kunna avslöja något. Ett test ska aldrig vara underlag för en intervju, om det används på detta sätt finns det stor risk att validiteten sänks kraftigt. Alla validitetsmått i manualer bygger på att bedömaren ”inte rör” testresultatet.

4. Koncentrera dig. Se till att du inte blir avbruten medan du svarar på frågorna.

Bra förslag

5. Ta på ”jobbhatten”. Utgå från hur du fungerar i jobbsituationer snarare än privat.

Nej, vissa test utgår från hur du är i situationer även utanför arbetet. Personlighet är en stabil faktor hos individen som inte nämnvärt ändras pga av situationen, tex är målmedvetna personer på jobbet även målmedvetna på fritiden.

Psykologiska egenskaper och metoder för att förutsäga arbetsprestation

selectionOfta får jag frågor om hur några olika urvalsmetoder fungerar inom urval. Ett exempel är assessment center och ett annat är personlighets test. För att besvara dessa frågor behövs det att man definerar dels vad vi mäter och hur vi mäter. I ett assessment-center utförs simuleringsövningar som så nära som möjligt ska spegla kandidatens förmåga att utföra sina arbetsuppgifter, medan i ett personlighetstest ska en viss psykologisk egenskap mätas. I ett assessment-center är det bedömaren som avgör poängsättningen, i ett personlighetstest är det istället individen själv som svarar på frågor. Nedan ska jag ge exempel på en ny riktning av forskningen kring urval som delar in olika sätt att bedöma kandidater i olika metod moduler.

I forskningen skiljer man på begrepp (vad vi mäter) och på prediktor metod (hur vi mäter). Ofta blandas de sakerna ihop särskilt när det gäller sitiuationsbaserade bedömningar såsom i ett situationsbaserat test eller i en kompetensbaserad intervju. Nedan presenterar jag en modell som föreslagits hur kommande forskning (Lievens, & Sackett, 2016) kommer behandla validitet i urvalssammanhang. Nedan ser du ett exempel på hur detta kan illustreras. I figuren nedan redovisas både begrepp som ska bedömas (sympatiskhet och extraversion) och med vilken metod data ska samlas in.

figur-1

 

 

 

 

Begrepp

Grad av sympatiskhet ger en bild av vilken stil en person tenderar att ha i sina interpersonella relationer snarare än omfattningen av, eller vilket fokus man lägger på den sociala omgivningen, vilket fångas av skalan Extraversion (se nedan). En persons sympatiskhet eller sociala stil präglas av i vilken utsträckning personen känner tillit till mänsklighetens natur och har som utgångspunkt att människan i allmänhet är god. Denna grundläggande tillit påverkar samspelet med andra,
både genom den verbala kommunikationen och genom kroppsspråket, och lägger grunden till i vilken utsträckning man utstrålar omtanke, tillgivenhet och värme gentemot andra.

Extraversion kännetecknas i huvudsak av graden av sällskaplighet och energi som riktas mot den yttre världen. Sällskapligheten inbegriper de båda aspekterna att orka med och att vara intresserad av social interaktion samt behovet av kontinuerlig och omfattande social kontakt med andra. Den absoluta graden av energi och i vilken utsträckning den riktas mot den externa världen inbegrips i detta begrepp. Extraverta personer har ofta ett behov av och tycker om att omge sig med andra människor. Dessa personer trivs i situationer som, liksom de själva, håller ett högt tempo och de trivs med att vara i centrum för andras uppmärksamhet och att ta ledarrollen i olika grupper. Karaktäristiska drag är att de är pratsamma, entusiastiska, livliga, optimistiska, sociala, lättsinniga
och glada men kan ibland uppfattas som frispråkiga, besvärliga, aggressiva, djärva, arroganta eller ytliga.

Metoder

I kolumnerna redovisas två sätt att samla in information för att kartlägga sympatiskhet och extraversion. I intervjun ställer bedömaren frågor som ska spegla begreppen och i den självrapporterande versionen svarar ofta kandidaten på en mängd standardiserade frågor.

Att säga att intervjun och självrapportering är valida metoder ter sig ganska innehållslöst om det inte samtidigt relateras till vad vi mäter och vad som kan samvariera med arbetsprestation. Men detta är precis vad som händer i den klassiska meta analys-sammanställningen (Schmidt & Hunter, 1998) där både begrepp och metoder redovisas i samma tabell. Tex är den strukturerade intervjun lika valid som intelligensmätningen (r=.51) för att förutsäga arbetsprestation. Problemet är att det är som att jämföra äpplen och päron. Intelligens är ett psykologisk begrepp som visat sig förutsäga lärande som sin tur predicerar prestation medan intervjun inte mäter ett särskilt begrepp utan varierar från situation till situation, alltså kan man tänka sig intervjun som ett siuationsbaserat test. Med andra ord blir det ganska meningslöst att prata om att en intervju kan förutsäga något som vi inte vet vad det mäter. Intervjun blir därför mycket beroende av situationen, tex föregående arbetsanalys och en särkild enskild valideringsstudie för att bedöma intervjuns tillförlitlighet.

Kontextualisering
En bedömning kan också vara mer eller mindre kontextualiserad, dvs stimuli en fråga i en intervju eller i ett test kan vara mer eller mindre beroende av en situation. Detta kan illustreras i nedan figur.

figur-2

 

 

 

 

Ej kontext betyder att frågan (som kan komma från en intervju eller ett test) är ställd utan att en situation är inblandad. Ett exempel på en EJ kontextualiserad fråga; Är du en vänlig person? Om det ska betraktas lågt kontextualiserad fråga skulle samma fråga lyda; betraktas du av andra som en vänlig person? Mellannivån kan lyda; betraktas du på dina arbetsplats av andra som en vänlig person? Och högt kontextualiserad; När du på din arbetsplats jobbar som projektledare och betraktas av andra under ett projektmötet, betraktas du då som en sympatisk och vänlig person?

Om man också betraktar intervjun och det självrapporterade testet som två olika sätt att samla information uppkommer en komplex situation där 2 begrepp (Sympatiskhet och Extraversion) * 4 (nivåer av kontextualiering) * 2 metoder (Intervju och test) samvarierar. Sammanlagt har vi 16 unika kombinationer. Frågan blir vilken kombination har högst validitet?

Ny modell för bedömning av urvalmetoder

Det är just detta som uppmärksammas i en alldeles ny artikel av författarna Filip Lievens och Paul Sackett (Lievens, & Sackett, 2016). Författarna poängterar att det är dags att dela upp bedömningsmetoder i moduler för att undersöka vad i en bedömningen som driver att validiteten ökar eller minskar. När de går igenom var forskningen står idag kan de konstatera att det är mycket vi inte vet. När de delar in en bedömning i moduler kan de dock konstatera detta.
Stimuli format

Denna modul handlar om hur informationen i tex i ett test presenteras (information, frågor, påståenden). Inom denna modul har man funnit att audio visuella stimuli fungerar bättre i jämförelse med text stimuli. Ett problem är att text-stimuli iställer mäter kognitiv förmåga istället för förmåga att lösa tex känslomässiga problem. Ett annat forskningsresultat är att det är inte samma sak att intervjua genom tex skype och en vanlig intervju. Det är betydligt rikare stimuli i en vanlig intervju vilket gör att bedömningen blir annorlunda.

Kontextualisering

Kontextualisering betyder hur lite eller mycket situations-stimuli sätts in i en situation (se ovan exempel). Här säger forskningen att du hellre ska ställa frågor i en intervju till kandidaten om tidigare beteenden på arbetsplatsen istället för att formulera frågor om situationer som ska lösas. När det gäller situtationsrelaterade test visar forskningen att upp till 70% av problemlösningsfrågor kan lösas utan att situationen är inblandad i frågan, vilket gör att situationen i frågan blir ointressant ur validitetssynvinkel, dock kan kandidaten uppleva det som mer relevant.

Standardisering av både stimuli och respons

I vilken grad stimuli i en bedömning är standardiserat. Inom detta område har det först och främst varit anställningsintervjun som varit i fokus där högre grad av standardisering av frågor leder till vilket kan variera från helt öppna svar till färdigt formulerade svar där kandidaten får välja. Här forskningsresultatet oklara och det behövs mycket mer forskning om detta.

Tydlighet i instruktioner

Detta kan variera från att bedömaren är helt tydlig vad bedömningen ska mäta till att inte lämna någon information om vad bedömningen går ut på. Även här behövs det mer forskning för att säga hur det påverkar kandiaten, begreppet som ska mätas och urvalsbeslutet.

Det ska bli spännande att följa denna forskning och kanske bidra till den själv då jag har tillgång till en hel del data på test avseende många av de aspekter som berörs ovan.

Referenser
Leivens, F., & Sackett, P.R. (September 2016 online version). The effects of predictor method factors on selection outcomes: A modular approach to personnell selection. Journal of Applied Psychology, http://dx.doi.org/10.1037/apl0000160

Schmidt, F. L., & Hunter, J. E. (1998). The validity and utility of selection methods in personnel psychology: Practical and theoretical implications of 85 years of research findings. Psychological Bulletin, 124, (2), 262–274.

Sara Henrysson Eidvall varnar för nya rekryteringsmetoder


Det blir vanligare att arbetsgivare använder sig av alternativa rekryteringsmetoder som snabbintervjuer, videopresentationer och auditions. Det säger Arbetsförmedlingen. Men det här kan göra att företag missar viktig kompetens – och i värsta fall bryter mot diskrimineringslagen.

I en mässhall utanför Stockholm får de jobbsökande visa upp en dans eller ett trick inför resten av gruppen. Ingen i lokalen behövde skicka in ett cv för att komma på en första snabbintervju, och nu gäller det att på olika sätt övertyga arbetsgivaren om att man är rätt person för jobbet.

– Det här är ett sätt att få de att bjuda på sig själva och visa vilka de verkligen är, säger Daniel Dersén, vd för företaget som nu ska anställa 70 personer till sitt nya upplevelsecentrum.

Och enligt Arbetsförmedlingen är det fler och fler arbetsgivare som använder sig av nya metoder som till exempel snabbintervjuer, auditions och videopresentationer när det är dags att anställa.

– Det du ser då det är just personens extroverta sida, om man är energisk och sådär. Och det behöver absolut inte hänga ihop med att man faktiskt sedan gör ett bra jobb.

Hon är kritisk till när arbetsgivare väljer att sålla med till exempel snabbintervjuer och videopresentationer, eftersom forskning visar att social förmåga och utseende spelar ännu större roll vid sådana snabba möten.

– Då väljer vi bort folk som är för tjocka, folk som är för gamla, eller folk som ser för olika ut, det kan ju vara annan etnisk härkomst. Det blir brott mot diskrimineringslagstiftningen.

Sara Henryson Eidvall menar också att anonyma problemlösningstest och välplanerade intervjuer generellt är bättre om man vill hitta rätt personer.

Men Daniel Dersén menar att de nya formerna för rekrytering är ett bra sätt att hitta rätt folk och han säger att det inte sker på bekostnad av exempelvis mångfald.

– Vi försöker bara leta efter speciella personer. Om man har varit lite blyg och tyst så betyder det inte att man inte är bra. Det betyder bara att man inte passar för just det här jobbet.

Ett mått på hur väl leverantörer av urvalstjänster är evidensbaserade

ebu1Även om en urvalsprocess använder standardiserade bra metoder är det inte säkert att själva rekommendationen från leverantören och urvalsbeslutet i sig ger det avsedda resultatet för organisationen. Det är därför jag har utvecklat Evidensbaserat urval (EBU™). EBU™ ersätter den subjektiva bedömningen i slutet av urvalsprocessen med en objektiv metod för att fatta beslut. EBU™ innehåller en statistisk algoritm som kan stödja leverantören och uppdragsgivaren så att de uppfyller kraven som ställs i ISO 10667 standarden, bedömningstjänster i arbetslivet, och på detta sätt gör organisationer mer effektiva. Nedan kommer jag berätta hur en leverantör av urvalstjänster kan få ett objektivt mått på hur väl de följer EBU™ och på detta sätt förfina sin urvalsprocess.

En utmärkt urvalsprocess kan innehålla några standardiserade test och en standardiserad intervju, men i slutskedet verkar det för vissa indvider vara otänkbart att väga ihop dessa olika informationskällor på maximalt sätt. Det är ofta just i slutklämmen som de flesta strular till det.

Ett råd jag ger till rekryterare (både uppdragsgivare och leverantör) är att.

1) Samla in information med reliabla och valida bedömningsmetoder
2) Väg ihop dessa reliabla och valida metoder med hjälp av EBU™

Det första steget handlar om att alla kandidater bedöms på samma parametrar. När detta inte sker kan det vara olika typer av information om kandidaterna som styr urvalsbeslutet. Om tex psykologiska test ska användas ska alla göra samma test under samma förhållanden under samma tid. Deta första steg verkar de flesta leverantörer genomföra. CV bedöms enligt en mall, psykologiska test används och standardiserad intervju genomförs, men detta steg handlar inte om de enskilda metodernas reliabilitet och validitet i den enskilda urvalsprocessen. Det är riktigt att dessa metoder uppvisat reliabilitet och validitet i många studier, men det betyder inte att detta kan omsättas i praktiken till enskild situation utan att helt mekaniskt tolka resultatet.

Det andra steget är att väga ihop denna information där EBU™ algoritmen appliceras på den information som samlats in för varje kandidat. Detta ger en poäng för varje kandidat.

Dessa två steg är teoretiska, i praktiken händer en hel del under processen. Några expempel som kan hända under steg 1 (insamling av information)

  • en kandidat får göra ett test under kontollerade förhållanden en annan på distans
  • en kandidat intervjuas av två personer en annan intervjuas av en person
  • en kandidat har lämnat två referenser en annan bara en referens

Och några exempel på avvikelser för steg 2 (väga ihop informationen) kan vara

  • Bedömningsmetoderna vägs ihop med EBU™ men resultatet används inte vid beslut
  • Ostrukturerad information vägs ihop i EBU™ vilket sänker validiteten
  • Bedömningsmetoderna vägs ihop med EBU™ och resultatet används vid beslut men de kandidater som väljs för jobbet tackar nej till jobbet efter löneförhandlingen.

Genom undersöka hela urvalsprocessn kan en organisation en diagnos ställas hur väl organisationen följer EBU™. Diagnosen kontrollerar först hur väl man följer det första steget, vilket är en förutsättning att gå vidare till steg 2.

För att få ett mått på hur väl leverentören av urvalstjäsnten följer EBU™ i det andra steget behövs ett kriterie. Detta kriterie kan vara vilka som rekommenderas av leverenatören att anställas. Frågeställning är; om första steget uppfyllts genom att använda schyssta metoder när insamling av information samtidigt som den informationen vägs ihop med en algoritm (EBU™), är det verkligen de som får högst poäng som rekommenderas till tjänsten?

Tyvärr inte skulle jag vilja säga i flertalet fall, många organisationer anser att de har valt en evidensbaserad väg, men de hänvisar bara till första steget, när informationen samlas in, inte när beslut om rekommendation ska göras. Till syvende sist är det uppdragsgivaren (enligt ISO, individ eller organisation som uppdrar åt en leverantör att leverera bedömning och de delar som ingår i en bedömningsprocess) som ta urvalsbeslutet, men om det ska kunna vara evidensbaserat måste leverantören (enligt ISO, person eller organisation som levererar bedömningstjänster till uppdragsgivaren) följa ISO 10667.

Så här står det i ISO 10667 ”Om flera bedömningsmetoder används för att dra slutsatser ska rationalen (den logiska grunden) för den integrering av data som utgör grund för slutsatserna anges liksom evidensen för slutsatserna.”

Med ”flera bedömningsmetoder” menas i mitt exempel intervjuer- och testresultat. Med ”rationalen” menas de bevis som finns att det fungerar att göra som leverantören föreslår och med ”evidensen” menas att den rekommendation som leverantören gör stämmer inom en specifik kontext i ett specifikt syfte.

Så fort denna kedja av händelser bryts så sjunker evidensen i urvalsprocessen.

Låt mig ta ett exempel på hur två leverantör kan utvärderas. Men innan exemplet måste det klargöras att även om leverantören följer EBU™ kan uppdragsgivare helt strunta i rekommendationen, men då ligger ansvaret helt och hållet på uppdragsgivaren. Om detta sker följer leverantören ISO 10667 men EJ uppdragsgivaren.

Nu tillbaka till mitt fiktiva exemepl. Dessa två organisationer har under 5 år följt EBU™ processens två steg. Det är helt klart att det första steget följs där alla kandidater bedöms på samma sätt. Leverantörerna bedömer alla sökande under 1 dag på ett och samma fysiska ställe med exakt samma metoder under exakt samma tid. När all data är insamlad går de enskilda poängen från test, intervjuer och simuleringsövningar in i en EBU™ algoritm som sedan överlämnas till uppdragsgivaren som sedan tar själva urvalsbelutet. EBU™ algoritmen bygger på forskningsresultat från både meta analyser och egna valideringsstudier som leverentörerna genomfört.

Om EBU™ följs bör detta speglas i ett mått som mäter sambandet mellan EBU™ och rekommendationen, eller hur?

För att räkna detta mått behövs resultatet från EBU™ (alltså resultatet från den statistiska algoritmen), och leverantörens rekomendation av kandidater (urvalsbeslutet ligger hos uppdragsgivaren, detta kommer jag problematisera i kommande inlägg). I detta exempel kan EBU™ poängen variera från 0 till 10. 0 betyder låg arbetsprestation och 10 betyder hög arbetsprestation. Om leverantören till 100% skulle följa EBU™ skulle det representera den svarta linjen i diagrammet nedan.

curve2

På X axeln har ni EBU™ poängen och på Y axeln sannolikhet att bli rekommenderad uttryckt i procent (%). Ni ser att det är 0 % sannolikhet för rekommendation om kandidaten har en EBU™ under 4 (kolla den svarta linjen) och ligger kandidaten över 5 har kandidaten 100% chans att bli rekommenderad. Detta fall är unikt men ibland har jag stött på leverentörer som har detta förfarande i första screeningförfarande. Den enda gången det sker är när leverenatören bestämt på förväg ett gränsvärde för rekommendation (i detta fall över 4). Den svarta linjen representerar således att Leverantören följer EBU™ till 100%.
Leverantör A (grön linje) följer EBU™ till 46% och Leverantör B (Blå linje) följer endast EBU™ till 16%. Konsekvenser för kandidaterna som bedöms av Leverantör A blir att desto högre poäng på EBU™ desto högre sannolikhet att blir rekommenderad. Tex ger en EBU™ poäng på 5 poäng endast en sannolikhet på 25% att bli rekommenderad medan en EBU™ poäng på 9 ökar sannolikheten till närmare 95% att bli rekommenderad.

Leverantör B följer EJ EBU™ poängen och därmed EJ ISO 10667. Även om chansen ökar ser ni att en poäng på 10 knappast ger en chans över 50%  att bli rekommenderad, alltså knappt bättre chans än om man slumpade in kandidaterna. Leverantör B kan lika bra singla slant vilket är betydligt billigare än att använda standardiserade metoder och EBU™ för att välja vilka som ska rekommenderas.

Sammanfattning

Ett grundläggande antagande bakom all rekryterings- och urvalsverksamhet, är att människor skiljer sig från varandra, även när det gäller andra faktorer än utbildning och erfarenhet. Vore det inte så, skulle man kunna anställa vem som helst med rätt yrkesmässig kompetens. Men i och med antagandet att det också finns andra skillnader som påverkar människors arbetsprestationer, blir dessa intressanta att bedöma. Förutom den yrkesmässiga kompetensen är man i allmänhet intresserad av faktorer som motivation, begåvning, den sökandes personliga egenskaper, värderingar och så vidare. Detta bedöms ofta med standardiserade metoder som visat sig reliabla och valida. Problemet är inte längre, med dagens teknik, att samla information, utan problemet består av att rekyterare har en övertro på sin egen förmåga att väga ihop denna information. EBU™ är ett sätt att bli mer professionell i sin yrkesutövning, att ta statistikens hjälp för att fatta nyktra belslut. Min förhoppning är detta mått som jag redovisat ovan ska hjälpa till att ge bättre urvalsbeslut som bygger på logiskt tänkande istället för magkänsla.

Copyright Psychometrics Sweden AB. Evidensbaserat urval (EBU™) är varumärkesskyddat.