SIOP 2018 dag 2 och 3

SIOP 2018 är historia nu och jag ska försöka sammanfatta vad jag tycker har varit höjdpunkterna under dag 2 och 3.

 

Flera av de seminarier jag varit på har handlat om intervjuer och beslutsfattande. Intervjun är den i särklass mest använda metoden i rekrytering och urval. I stort sett alla jag träffar använder intervjuar innan anställningsbeslutet. Vi vet också från forskningen att standardiserade intervjuer där frågorna är situations och/eller beteende inriktade samt att samma frågor ställs till alla kandidater slår mindre strukturerade frågor. Men även om vi använder evidensbaserade frågor så finns det ju en felkälla som vi måste ha koll på; kandidaten. 

Det har visat sig att kandidaten kan förställa sig på fyra olika sätt.

  1. Mindre image-förbättring (exempel, jag har arbetat fyra år med dessa uppgifter, medan sanningen är 2 år).
  2. Stor image-förbättring (Min kompetens är mycket god inom det statistiska området ….Sanningen är jag har kört på varje statistik tenta genom hela utbildningen).
  3. Inställsam image-förbättring (Jag tycker att både du som intervjuare och detta företag andas kompetens, medan sanningen är att jag inte vet, utan jag säger det för jag vill ha jobbet)
  4. Undanhållande av negativ information (I mitt senaste arbete fick jag hela tiden veta att av både chefer och medarbetare att jag var slarvig, detta är inget jag säger).

Ovan förbättring av image vet vi från forskning används ganska ofta, intervjuaren upptäcker det ytterst sällan. Förbättringen av imagen kan påverka arbetsprestationen både positivt och negativt (resultaten något oklara) men ökar helt klart sannolikheten för kontraproduktiva beteenden på arbetsplatsen. Om den som är ”bättre på att förbättra imagen” får jobbet före någon som inte gör det handlar det inte om diskriminering men betraktas av de flesta som en ”orättvis rekrytering” som kan få negativa konskekvenser för arbetsgivaren i form av större sannolikhet att indviden gör ”dumma” saker på arbetet.

Vilka omständigheter påverkar ett beteende av ”image förbättring” hos kandidaten? Svar, motivation, kapacitet och möjlighet. Det har visat sig att det är framförallt motivation samt individuella skillnader i personlighet som avgör snarare än situationen, förmodligen för att det alltid finns möjlighet att förbättra sin image i intervjun. Det finns de som mer eller mindre förställer sig hela tiden och de som sällan gör det och de allra flesta gör det ibland. Den samlande forskningen visar det som är gemensamt för dessas personer är att de har en inställning att ”detta gör alla andra också”, de har en ytterst tävlingsinriktad inställning när de söker jobb, de har narcisistiska psykopatiska drag (älskar sig själva och har låg grad av empati och förståelse för hur andra människor reagerar). Studierna som presenterades på SIOP visade tydligt att de som har dessa drag anställs i högre grad i jämförelse med de som är ärliga i intervjun.

Ett sätt att minska effekten av att många försöker framhäva sig själva är naturligtvis att hålla sig till strukturerade intervjuer. Kevin P. Nolan presenterade resultat som pekar på varför rekryterare inte använder strukturerade intervjuer. I den första studien visade Kevin och hans kollegor att uppdragsgivaren (kunden) som anlitade rekryteraren attribuerade den lyckade rekryteringen till rekryterarens unika förmåga om hen var mindre strukturerad. I den andra studien visade forskarna att kunden upplever rekryteraren som mindre kompetent om hen använder standardiserade metoder. Dessa resultat pekar onekligen på trögheten i systemet, när upplevelsen hos uppdragsgivaren är negativ när leverantören föreslår mer valida metoder.

Under dessa dagar hann jag också med att ha ett möte med SIOP Professional Series Editor Group där vi diskuterade kommande bokprojekt. Bland många bra uppslag gillar jag idén att skriva en bok som kan vägleda unga människor som är intresserade att arbeta med arbets- och organisationspsykologi. Framförallt vilka kompetenser som behövs, och vilka kompletteringar förutom kunskap i psykologi som behövs för att trivas och lyckas i arbetet. SIOP Professional Series group, som bara består av USA baserade psykologer förutom jag, var naturligtvis intresserade av det svenska systemet där blivande arbetspsykologer även ”måste” läsa klinisk psykologi, detta tycker de är jättekonstigt. I USA finns det en mängd olika vägar för att bli yrkesaktiv inom detta område, dock är ett måste i USA att doktorera i ämnet (ta sin PhD). 

En halv dag på SIOP ägnade jag tid åt att undersöka vilka nya typer av statistiska/psykometriska metoder som används i forskningen men också hur amerikanska universitet resonerar vilka program som arbetspsykologer behöver kunna för att lyckas i sitt arbete som forskare/praktiker. Det står helt klart att program som SPSS (som vi använder i Sverige i undervisning på alla nivåer) slängs ut från universiteten. I stort sätt alla personer på SIOP 2018 under 30 år som presenterade sina resultat använder R (ett gratisprogram som funkar på både PC och Mac). Det fanns över 15 tillfällen under SIOP att lära sig mer om R. Analyser som maskininlärning och meta analyser introducerades i R under dessa dagar. Ett intressant seminarie jag var på handlade om cronbach alpha som har använts sedan 50-talet som ett mått på reliabilitet. Det är dags att slänga ut cronbach alpha som ett tecken på reliabillitet. Forskarna visade att cronbach alpha lanserades på 50-talet som en ”genväg” eller förenkling eftersom datorer inte fanns tillgängliga. Idag kan de ”riktiga” måtten beräknas i R. Ni som är intresserade kan ladda ned psych (A package for personality, psychometric, and psychological research). Så sluta med SPSS, det är dags att gå vidare.

Ett annat ämne som togs upp vid flera tillfällen under SIOP var det faktum att många forskare ”fiskar” efter resultat. Istället för att från början veta vilka frågeställningar som ska besvaras eller vilka hypoteser som ska testas samlas data in där forskarna ”letar” efter signifikanta resultat, formulerar sedan sin hypotes och publicerar sedan sin artikel. Idag kan man med moderna statistiska metoder räkna ut hur stor andel av publicerade studier som är ”osannolika”. Detta har lett till att många anser att vi forskare står inför en enorm trovärdighetskris om vi inte kan vara oberoende i vår kunskapsinhämtning. Kan bara hålla med om att inom en hel del forskning som jag kommer i kontakt med kan man ”misstänka” att det inte gått rätt till. En drivande kraft är att publicera sig så snabbt som möjligt och att tidsskrifterna hela tiden letar efter “nya” resultat. Det som behövs många gånger istället är att replikera tidigare resultat. Som jag säger till mina studenter, börja aldrig analysera dina resultat innan du är 100% säker på vilka frågor du ska besvara. Detta leder till att många av mina studenter inte finner ”signifikanta” resultat vilket gör dem nedslående. Nej, helt fel, icke signifikanta resultat är lika intressanta som signifikanta resultat.

Sammanfattning av tre dagar på SIOP

Årets konferens håller jag bland de fyra bästa jag varit på. Intressanta tal och själv träffade jag  bedömnings-distributörer inom urval som kan vittna om att branschen har förändrats och kommer förändras ännu snabbare i framtiden. Den största anledningen till detta är att aktörer på marknaden köper upp mindre företag, det sorgliga är att de som sitter i ledningsgrupper inte längre har någon forskningsbakgrund. Det är bara att titta på företag i Sverige, kolla upp själva får ni se hur många i ledningsgruppen för testföretag som har en Phd. Idag är det kundens upplevelse som styr vilka metoder som används. Utan en bakgrund inom forskningen är det svårt att vägleda kunderna hur de ska göra. Inom forskningen kallas detta fenomen för Illusion of understanding, dvs folk tror att de förstår komplexa fenomen i högre utsträckning än vad de faktum gör. Detta gör att kunder ofta övervärderar produktens effektivitet. Tänk er utbildare i psykologisk testning som ej förstår vad en valideringsstudie är, hur ska denna utbildare lära kunder vad en produkt kan och inte kan göra (återigen är kompetensmodeller inom personlighetstestning ett bra exempel på en kraftigt övervärderad produkt).

På tal om detta, så fanns det knappt något om dessa kompetensmodeller på SIOP 2018, ett mycket gott tecken tycker jag är att forskningen verkar ganska klar på detta område, kompetensmodeller inom personlighetstestning funkar inte.

Så tack för en bra konferens, och det är bara att ladda för nästa års SIOP 2019 April 4 – 6; National Harbor, Fort Washington, Maryland, at the Gaylord National (south of Washington, D.C. on the Potomac River).

Vi ses i Washington

Anders

 

SIOP dag 1

Första dagen bjöd på intressanta seminarier på SIOP 2018. Efter öppningsceremonin träffade jag ett gäng från Sverige där vi planerade första dagen. Eftersom det är många parallella seminarier är det omöjligt att täcka alla ensam. Efter mötet blev min dag den här.

Första seminariet var en sk keynote av professor Thomas J. Bouchard. Bouchard är känd för sina studier av tvillingar, särskilt som en del av Minnesota Study of Twins Reared Apart (MISTRA). Detta arbete har inkluderat fallstudier, longitudinella studier och meta-analyser. Dessa studier visar att gener spelar en betydande för psykologiska variabler som tex personlighet och intelligens. Bouchards titel var Finding Out How Things Work: Using strong inference strategies recommended. Bouchard  argument genom 1.30 timmes tal var att om forskare ska testa sina hypoteser kräver det ett öppet sinne och acceptera det resultat forskaren finner. Bouchard är kritisk hur forskarvärlden agerat när han och hans kollegor funnit att alla psykologiska faktorer (tillsammans med medicinska variabler) har en ärftlig komponent. Och denna ärftliga komponent har bara större och större inverkan ju äldre du blir. Detta fakta bygger på ”strong inference strategies” dvs att alla resultat MÅSTE upprepas upprepas och åter upprepas. ”Finding Out How Things Work” i detta fall är att oftast är ärftlighetskomponenten minst lika stor i jämförelse med situationskomponenten när det gäller psykologiska variabler, och i många fall större.

Bouchard visade på många exempel som verkligen stödjer denna hypotes. Han gick så långt, i ett ovanligt känslomässigt tal för att vara på SIOP, att hans resultat ej accepterats av stora delar av forskningssamhället. Istället har olika (läs politiskt korrekta) situationsargument vunnit över ärftlighetshypotesen. Även om jag inte lärde mig något nytt av Bouchards tal (har läst många av hans forskningsartiklar) var detta en riktig höjdare. Att höra en människa kämpa ganska ensam mot ett forskningssamhälle som inte vill lyssna på bra forskning. Jag kan vittna själv att detta är ett faktum även idag. När jag ibland pekar på Bouchard forskning, som är så tydlig, skrattar man åt det och säger, det är inte sant. Det är faktiskt skrämmande, bara för att ärftligheten hos oss har stor inverkan (du kommer likna dina föräldrar mer och mer ju äldre du blir), betyder det inte att ärftlighetskomponenten kommer försvinna och få konsekvenser för en hel del i vårt vardagliga liv, inte minst i arbetslivet, allt från stressreaktioner och prestation. Om du vill läsa mer om denna skandal att man ”mörkar” resultat rekommenderar jag att läsa denna artikel av ingen mindre än Frank Schmidt. Ladda ned här

Andra seminariet jag valde att vara på var ett seminarium om sk deeplearning. Detta är en del av området maskininlärning inom artificiell intelligens (AI). Deeplearning är baserad på en uppsättning algoritmer som försöker modellera abstraktioner i data på hög nivå genom att använda många processlager med komplexa strukturer, bestående av många linjära och icke-linjära transformationer. Precis, liksom Ni är jag inte den som kan förstå detta. Men här ska jag försöka förklara det i alla fall. Tänk dig att du inte ens vet vad som orsakar något, men har en stor mängd data, deeplearning algoritmer kan hjälpa oss att strukturera upp all data, data kan vara tal, text, bilder, ljud, ljus, medicinska variabler, psykologiska variabler samt hjälpa oss att förstå vad som förutsäger vad. Idag har deeplearning ingen praktisk betydelse för vårt område inom psykologin, själva ansatsen tar ej hänsyn till varken etiska principer eller lagar. Eftersom deeplearning är en del av AI, det kommer att påverka vårt samhälle hur det kommer påverka bedömningar inom arbetslivet är för mig oklart får mig och många andra, men det kommer vara ytterst intressant att följa utvecklingen.

Nästa händelse var en intervju med Nancy Tippins. Nancy har jobbat i många år både som akademiker och praktiker inom området bedömningstjänster i arbetslivet. I denna intervju fick Nancy berätta hur hon började som student bli intresserad av hur psykologin kan tillämpas i arbetslivet. Förutom att ha varit anställd på företag som IBM, Exxon, Valtera och CEB har hon samtidigt drivit akademisk forskning som hela tiden varit inriktat mot tillämpning. Själv har jag arbetat tillsammans med Nancy i några internationella projekt, förutom att hon är extremt duktig person så har hon en ödmjukhet som imponerar. I slutet av denna ”session” fick publiken ställa frågor. Eftersom Nancy under många år har arbetat med bedömningar i arbetslivet undrade många vad hon tycke om den senaste utvecklingen när stora företag utan psykologisk kompetens köper upp mindre företag som har en gedigen psykologisk kompetens på området. Nancy var politiskt korrekt och pratade om fördelar och nackdelar av detta. Men det blev helt klart för mig att många inom den ”seriösa” branschen är oroliga över att företagsledningar tar beslut som EJ har kunskap om sunda bedömningsmetoder. Ytterst intressant seminarium som jag tar med mig hem.

Avslutningen på dagen handlade om psykometri och reliabilitet. Ett begrepp som många av er kanske har hört talas om som på något sätt kommit i kontakt med ett psykologiskt test är; Cronbach Alpha. Efter detta seminarie kan man konstatera att alla vi som beräknar detta borde skämmas, denna formel från 50-talet var en konsekvens av att det inte fanns datorer som kunde beräkna reliabilitet på ett kostnadseffektivt sätt. Jag kan bara hålla med talarna, det är dags att sluta undervisa cronbach alpha på våra utbildningar på universitetet, kasta ut SPSS som ett datorprogram och introducera R (ett gratisprogram) som kan beräkna reliabilitet på ett adekvat sätt.

Efter första dagen känner jag mig nöjd, har varit bra kvalitet.

The 33rd Annual Conference of the Society for Industrial and Organizational Psychology

Nu har jag precis landat på den årliga SIOP konferensen (The 33rd Annual Conference of the Society for Industrial and Organizational Psychology), denna gång i Chicago. Jag har varit ca 12 gånger på konferensen (har inte riktigt koll), och vid flera tillfällen har det varit höjdpunkter i mitt arbetsliv. SIOP har givit mig och mina kollegor bra uppslag till testutveckling. Men ibland har det varit mindre bra, förmodligen för att de områden som jag själv fokuserat på; psykometri, urval, personlighet och intelligens inte alltid varit huvudnummer på konferensen.

När jag nu läser årets program (ladda ned här program2018) tycker jag det är en hel del intressant på årets konferens. Naturligtvis kommer jag skriva på Psychometrics om konferensen under veckan för er läsare (bevaka gärna @psychometricSWE på Twitter). Har själv inget annat bokat än ett Editor möte med SIOP:s Professional Book Series, där vi ska spåna om intressanta författare och ämnen för senare utgivning, förhoppningsvis. 

Detta är några av seminarierna jag ska bevaka under torsdagen. 

39. Special Event: 10:30AM–11:50AM Sheraton 1.

Dunnette Prize Winner Address: Thomas J. Bouchard, Jr. Finding Out How Things Work: Using strong inference strategies recommended by Dunnette (1966), Dr. Bouchard presents a new 4-stratum model of the structure of mental abilities, followed by briefer discussions of work in the domains of personality, occupational interests, and social attitudes. This work is then tied together with a meta-theory (Experience Producing Drive Theory) based on genetics, evolution, and learning. See http://www.siop.org/Conferences/ 18con/Dunnette.aspx for more information.

Thomas J. Bouchard, Jr., University of Minnesota (Emeritus)

Jeffrey J. McHenry, Rainier Leadership Solutions, Host

Submitted by Jeffrey J. McHenry, jeff.mchenry@rainierleadership.com

52. Poster: 11:30AM–12:20PM Riverwalk

Is There a g  in Gunslinger?: Cognitive/Personality Predictors of Firearms Proficiency. This study addressed a gap in the research literature looking at the validity of cognitive ability and personality in predicting firearms/shooting range performance, an entirely objective task-based criterion. Using 4 datasets, g and logical reasoning had operational validities of .162–.254. Conscientiousness had a negative operational validity (-.079) and EmotionalStability lacked validity.

Jeffrey M. Cucina, U.S. Customs and Border Protection

Kim Wilson, U.S. Customs and Border Protection

Theodore L. Hayes, U.S. Department of Justice

Philip T. Walmsley, U.S. Customs and Border Protection

Submitted by Jeffrey M. Cucina, jcucina@gmail.com

 

177. Panel Discussion: 1:30PM–2:50PM Streeterville

Applications of Artificial Intelligence by Practitioners

I-Os are now in the midst of an artifi cial intelligence (AI) revolution with the rapid proliferation of AI products and services being offered to organizations. Panelists will discuss how AI is being applied in the areas of hiring, training, customer service, performance management, diversity, employee surveys, and employee wellness. The benefits and precautions of AI will be debated.

Romella J. El Kharzazi, Equal Employment Opportunity Commission, Panelist

Benjamin J. Taylor, Ziff, Panelist

Alex Zhavoronkov, Insilico Medicine, Panelist

Sara P. Weiner, Glint, Panelist

Mark Vickers, HR.com, Panelist

Brock Dubbels, McMaster University, Panelist

Submitted by Romella J. El Kharzazi, me@romella.xyz

 

186. Panel Discussion: 3:30PM–4:20PM Erie

“The Why” of Validation: Practitioner’s Guide to Wooing

Those Who Couldn’t Care Less Proposing traditional validation studies with supervisory performance ratings pose challenges. Although they meet legal requirements, they oftenfall short in showcasing the impact of the selection system on “the realwork.” This panel will discuss strategies for communicating “the why” behind programmatic validation research, balancing legal requirements with business outcomes.

Brett M. Wells, Talent Plus, Inc., Co-Chair

Kristina R. Barr, CEB, now Gartner, Co-Chair

Christopher J. L. Cunningham, University of Tennessee at Chattanooga/

Logi-Serve, Panelist

Dara Drescher, CEB, now Gartner, Panelist

David B. Schmidt, DDI, Panelist

Tracey Tafero, Amazon, Panelist

Submitted by Brett M. Wells, brwells@talentplus.com

 

Normering av arbetspsykologiska test: En introduktion

Allt som oftast så tolkas ett testresultat på ett psykologiskt test för en individ i förhållande till hur andra svarat på ett test. Förfarandet vid testutveckling benämns normering. För normeringen av testresultat behövs en normgrupp. För normgruppen beräknas ett medelvärde och en standardavvikelse (spridning). Dessa två värden fungerar sedan som referenspunkt för individens resultat. En vanlig fråga jag får är hur normer ska bedömas och användas vid arbetspsykologisk testning? Nedan försöker jag bringa klarhet i frågeställningen, behövs det normgrupper vid testning? Svaret är både JA och NEJ.

Först en definition:

”de åtgärder som direkt syftar till att möjliggöra för användaren av testet att jämföra det enskilda testresultatet med resultaten i en referensgrupp, det vill säga en normgrupp. I normeringen ingår således definition och urval av normgrupper, beräkning av medeltal och standardavvikelser i råpoängsfördelningarna för normgrupper, transformering av råpoängskalor till Z-poäng samt upprättande av standardiserade poäng (tex stanine, T-poäng, C-poäng). Normeringen av ett test är ett led i standardiseringen av testet”

Normeringen av test kan se olika ut för olika typer av test, men här kommer jag fokusera på personlighetstest. Men innan vi går in på själva normgruppens betydelse för användningen av resultat måste först syftet med testningen bestämmas, och det finns två olika sätt att använda personlighetstest på, ett beskrivande syfte och ett prognostisk syfte. När ett test används i beskrivande syfte är ”tolkningen” av testpoängen i fokus, ett exempel kan vara när testpoängen användas som underlag för personlig utveckling. I det prognostiska syftet ska testpoängen användas för att säga något om hur individens kommer agera i framtiden, ett exempel är när rekryteraren ska välja mellan ett antal personer om vem som ska rekommenderas till den nya chefspositionen.

Beskrivande syfte

Personlighetstest genererar information av beskrivande karaktär. Individens egenskaper uttrycks i en standardiserad testpoäng (se ovan) vars nivå bestäms i förhållande till en relevant jämförelsegrupp, en så kallad normgrupp för att poängen ska bli meningsfulla och begripliga för testadministratörer och testpersoner. En normgrupp som motsvarar en population kan beskrivas som en grupp människor som också besvarat frågorna i testet och som är representativ för populationen beträffande relevanta variabler, som tex ålder, kön och utbildningsnivå. För testtagaren blir jämförelsen med tillhörande beskrivning begriplig när den görs i förhållande till ”andra” personer. Traditionellt handlar det beskrivande syftet om begreppsvaliditet, dvs individens resultat ska spegla den personlighetsfaktor som antas bedömas.

Prognostiskt syfte

I det prognostiska syftet ska testpoängen ställas i relation den kriterierelaterade validiteten, dvs sambandet mellan testpoäng och det kriterie som ska förutsägas, tex arbetsprestation. Även om normgruppen är tillräckligt stor och representativ så är det oväsentligt om inte sambandet mellan testpoängen och kriteriet kan bekräftas genom empiriska studier. Behövs en normgrupp även för detta syfte,? Svaret är både JA och NEJ. Om syftet endast är att rangordna kandidater på en given egenskap behövs EJ en normgrupp, det går lika bra att bara summera alla svar på en skala och ta de som ligger på högsta poängen (om sambandet mellan testpoäng och kriterie är positivt). Men så fort det beskrivande syftet kommer in i bilden, tex när återkoppling till testtagaren ska ske efter genomförd bedömning behövs en normgrupp för att relativisera resultatet i förhållande till ”andra” personer.

Tolkning av psykologiska test och normering av test

Psykologiska test har funnits länge långt innan datorer, surfplattor och mobiltelefoner inträdande i vårt liv. Vid de första normeringarna av psykologiska användes papper och penna. En stor mängd personer fick besvara testet och sedan beräknades ett medelvärde och en standardavvikelse (spridning) för gruppen. Denna nivå och spridning kunde sedan jämföras mot individens resultat. Psykologen (som endast var tillåten att administrera dessa test på den tiden) tolkade sedan resultatet med hjälp av normgruppens resultat. På den tiden fanns inte standardiserade återkopplingstexter utan det var psykologen själv som var ansvarig att tolka resultatet. Den sk kliniska tolkningen i arbetspsykologiska sammanhang populariserade av psykologen Arne Trankell på 60-talet, då professor vid Stockholms universitet. Trankell var ansvarig för att psykologens tolkning var central när stridspiloter skulle väljas, ut. Eftersom militären alltid har varit central för utvecklingen av urvalsprocesser tog det inte lång tid innan övriga arbetslivet tog kunskapen till sig, psykologiska test på den tiden tolkades av psykologen i beskrivande syfte, även när syftet är prognostiskt. Trankell hade således inte koll på skillnaden mellan prognos och beskrivning.

Idag vet vi bättre, forskning visar tydligt att användandet av psykologiska test ska vara så standardiserad som möjligt utan inblandningen av tolkaren, särskilt för det prognostiska syftet. Så fort tolkaren är inblandad i tolkningen försämras både begrepps-och kriterierelaterade validiteten för testpoängen. Att testadministratören lägger sig i hur testpoängen ska tolkas är ett mycket större problem i jämförelse med vilken normgrupp som används. Att marknaden fortfarande betalar för att någon ska tolka testpoängen i rekryteringssammanhang (prognostisk syfte) är en gåta för mig, min rekommendation är att sluta betala för detta.

Normgruppen

Fram till 90-talet publicerades normer i form av normtabeller i manualer, idag publiceras inte normer utan resultatet finns i web-plattformen. När detta fungerar bra representerar normgruppen avsedd population där låga respektive höga testpoäng resulterar i en standardiserad rapport som väl beskriver personens test resultat. Men att ett personlighetstest har förmågan att ge en övergripande och/eller detaljerad beskrivning av en individs personlighet kan vara relevant men detta ska inte förväxlas med, och det ska inte per automatik antas, att testpoöngen har en prognostisk kapacitet (se ovan).

Om det finns möjlighet att samla data från hela populationen, tex hela sveriges befolkning, så skulle detta vara det absolut bästa sättet. Då skulle medelvärdet och standardavvikelsen representera ”sanna” värden. Det näst bästa sättet är att ta ett slumpmässigt stickprov från normalpopulationen (hela Norge), det skulle också representera ett ”sant” värde (med en viss felmarginal) givet att alla tillfrågade svarar på testet.

Men dessa förfaringssätt är väldigt tidskrävande och dyra att genomföra, även om det förekommer ibland. Iställer använder sig leverantörer av test sig av den data de har samlat in i sin egen webplattform.
Det är därför sällan som en testpoäng talar om för oss hur personen förhåller sig till ”folk i allmänhet”. Istället säger testpoängen hur resultatet förhåller sig till en liknande grupp personer som söker liknande arbete.

Vi kan ta ett exempel, om du som kandidat får ett medelpoäng på skalan emotionell stabilitet och normgruppen är representativ för hela befolkning ligger du på medelvärdet. Men utgör normgruppen istället av chefskandidater så utgör medelvärdet sannolikt en underskattning av din emotionella stabilitet, då chefer i allmänhet brukar ligga nästa 1.5 SD över medelvärdet i populationen. Detta utgör således det beskrivande syftet, om du istället är testadministratör och ska välja de som har högst emotionell stabilitet så spelar inte normgruppen någon som helst roll, du väljer den som har högst poäng (se ovan).

Problemet med normgrupper idag är att testleverantörer inte längre tar kostnaden att genomföra stickprovs normeringar på normalpopulationen. Även om jag har förståelse för att det utgör en mängd problem att genomföra en bra normering skulle mycket lösas om det genomfördes i större utsträckning än vad det görs idag. Rekommendationen att använda en normgrupp som representerar normalpopulationen betyder inte att jämförelser med andra grupper aldrig kan vara informativa eller låter sig göras utan betyder enbart att den grundläggande beskrivningen av en testperson alltid bör göras i förhållande till en normalpopulation. Individens absoluta resultatbeskrivning behålls på så sätt intakt och både testtagare och testadministratör undviker en förvirrande diskussion av karaktären ”men är jag extravert eller inte?” som en konsekvens av att man byter normgrupp mellan rapporter, mellan testtillfällen eller använder olika test och metoder med olika typer av normgrupper. Efter en beskrivning av individs personlighet är det vanligtvis lättare att bygga på med att relatera individens resultat med andra, för syftet relevanta grupper.

Jag kan försvara att testleverantörer använder den data de får in, fördelen med detta förfarande är att det med dagens teknik går det att i realtid uppdatera normer, och att normgrupperna blir stora. Har själv normerat test med över 200 000 testningar vilket gör att resultaten blir ytterst stabila, men på bekostnad av att resultatet inte kan generaliseras till normalpopulationen, för det beskrivande syftet.

Konsekvensen att testleverantörer inte normerar mot normalpopulation tillsammans att testadministratörer blandar ihop beskrivande- med prognostisk syfte med testningen gör att förvirring blir stor. Det faktum att ett vanligt förfarande är att uppdragsgivaren ber en leverantör av en personbedömning att rekommendera några få sökande. Istället för att på förhand bestämma hur testpoäng ska vägas ihop (Evidensbaserat urval) utan en mänsklig tolkare, använder leverantören testpoängen som ett diskussionsunderlag i den stundande djupintervjun. Uppdragsgivaren litar på ”experten”, dvs tolkaren av testpoängen, och på det sättet blandas det beskrivande syftet ihop med det prognostiska syftet. Över tid blir tolkaren, inte bara kär i sitt test, utan också i sin normgrupp. Hela referensramen ändras för experten om en poäng ändras vid en normuppdatering. Som en expert sa till mig, ”jag har en känsla av vad en 7:a betyder”.

Det är också viktigt att normerna, oavsett om det är från normalpopulation eller inte, är insamlat på ”rätt” språk. Det är inte ovanligt att normerna är insamlade på ett språk för att sedan användas på andra språkversioner. Det finns två felkällor i detta. Den första felkänslan är språket, dvs lydelsen i fråga på ett språk kan skilja sig från lydelsen i det andra språket. Den andra felkänslan är kulturen, dvs olika regioner där folk testas har olika personlighet. En kollega till mig Dave Bartram, anställd hos dåvarande SHL, visade mig att skillnaden i standardiserade poäng (Sten poäng, 1-10) mellan språkversioner i testet OPQ kan variera upp till 15% mellan språkversioner. Detta betyder att en 3 på en skala för ett språk kan betyda en 6 för ett annat språk, vilket gör det knepigt att uttala sig en persons absoluta nivå på tex en skala som mäter emotionell stabilitet.

Nedan är uppgifter man bör ha koll på avseende normgruppen:

  • En fullständig beskrivning av hur normgruppen samlats in (normalpopulation eller inte)
  • En fullständig beskrivning av bakgrundsinformation om de personer som ingår i normgruppen (tex ålder, kön, utbildningsnivå). Om testleverantören använder sig av egen databas ska det tydligt framgå vilka yrken, arbetsroller som testtagarna sökt.
  • Reliabilitet för varje testpoäng (när testpoängen används för beskrivande syfte)
  • Reliabilitet för varje testpoäng (när testpoängen används för prognostiskt syfte)
  • Validitet för varje testpoäng (när testpoängen används för beskrivande syfte)
  • Validitet för varje testpoäng (när testpoängen används för prognostiskt syfte)
  • Rekommendation hur testpoängen ska användas för både beskrivande- och prognostiskt syfte
    Medel, standardavvikelse för varje testpoäng
  • Samband mellan kön, ålder, utbildningsnivå för respektive testpoäng.
  • En beskrivning hur den standardiserade texten förhåller sig till normgruppen
  • Eventuell skillnad mellan tidigare normgrupp och den nya normgruppen
  • Varje språkversion ska ha normer som baseras på att personerna som genomfört testet har det språket som hemspråk. OBS använd aldrig enbart andra språkversioners normgrupp (tex använd ej svenska normer när testpersonerna testats på andra språk).

Nedan är rekommendationer för användning testpoängen

  • Undvik matchningsförfarande, sk kompetensmodeller (oftast uttryckt i %), dessa resultat är betydligt mindre reliabla i förhållande till den standardiserade poängen, vilket gör att normerna inte går ”att lita på” även om de kommer från en normalpopulation.
  • Undvik gränsvärden, att använda gränsvärden på enskilda skalor är ytterst känsligt för vilken normgrupp som används. Vid byte av normgrupp måste alltid gränsvärdena beräknas om. Om det finns gränsvärden ska det finnas en rational varför just detta gränsvärde.
  • Undvik att experten tolkar testresultatet, genom att experten tolkar resultatet själv byggs flera felkällor in i den standardiserade poängen som inte behöver ha med normgruppen att göra.
  • Används algoritmer för att ta beslut av fler än en testpoäng (Evidensbaserat urval)
  • Används algoritmer för att ta beslut av fler än en testpoäng tillsammans med annan information, tex intervju (Evidensbaserat urval)

Om du vill lära dig mer om stickprov och normgrupper rekommenderar jag att läsa 

Mabon, H (2014). Arbetspsykologisk testning. Stockholm. Assessio. ISBN 978-91-7418-366-5. Artikelnummer 778-000.

En liten bok om Person Urval

Det är sparsamt med bra böcker om urval på svenska. Boken Arbetspsykologisk testning av Hunter Mabon har jag tidigare rekommenderat som standardverk för alla som är intresserade av testning i arbetssammanhang. Men nu har det kommit ytterligare bok i ämnet som jag varmt kan rekommendera, det är Christopher Svensson som skrivit ”En liten bok om Person Urval”.

Boken, i sitt begränsade format, delas upp i 5 kapitel.

  1. Effektivt personurval
  2. Att vara mest lämpad för tjänsten
  3. Urvalsmetoder
  4. Effektiva urvalsmetoder
  5. Välgrundade urvalsbeslut

Det jag gillar med boken är att Christopher lyckas med att på ett pedagogiskt sätt förklara för läsaren hur det går att koppla forskning med praktik. Inför varje del i boken ger Christopher levande exempel som får läsaren att förstå hur illa det idag går till i många urvalsprocesser och hur rekryteraren med tämligen enkla medel kan effektivisera sin urvalsprocess. För den intresserade finns även en gedigen referenslista efter varje kapitel.

Detta är den första boken jag läst på svenska som inte innehåller ett enda faktafel, respekt Christopher. Inte heller tar boken upp mysko kompetensmodeller och matchning av resultat, befriande.

Denna bok kommer att finnas som kompletterande kurslitteratur på flera av mina kurser. För dig som är praktiker och inte gillar att läsa forskningsartiklar är “En liten bok om Person Urval” ett måste. För mig som är nörd på forskning är det en bok att ge till alla som undrar vad jag håller på med.

Beställ här

 

Podcasts om arbetspsykolgiska bedömningsmetoder och testanvändning

För några veckor fick jag besök av Nina Hedlund från Bonnier Management 360. Hon ville prata om arbetspsykologisk testning. De blev en hektisk och rolig förmiddag. Nina delade upp intervjun i tre delar, nedan kan du lyssna på resultatet.

För att lyssna klicka här

För att lyssna klicka här

För att lyssna klicka här

Min spaning efter tre dagar på ATP 2018, världens största testkonferens

Nu sitter jag på planet hem och ska försöka sammanfatta mina intryckt av ATP2018. I ytterligare två spännande dagar på konferensen har jag lyssnat och pratat med många duktiga och kloka människor om hur teknikutvecklingen kommer att påverka framtidens testningar av kunskap, färdigheter och andra individuella differenser. Här är min spaning från ATP, med min egen erfarenhet av projekt som jag varit inblandad i senaste åren.

När testning jämförs i DÅTID och NUTID är det särskilt informationsmängden som skiljer sig åt, idag är det möjligt att samla en betydligt större informationsmängd om varje kandidat för jobbet, eftersom vi är uppkopplade dygnet runt.

Den traditionella testningen (tex ett intelligenstest) är endast en ögonblicksbild av något och själva processen inom individen har i den traditionella testningen helt lämnats därhän. Genom att det idag finns möjlighet att samla data om 1 individ under väldigt lång tid kan det inte uteslutas i framtiden att varje individ utgör sin egen normgrupp. Detta öppnar upp möjligheter för effektiv coaching, om du bara jämförs med dig själv kan coachen och du tillsammans se utvecklingskurvan.

Morgondagens testningar kommer inte vara administrerade av andra människor utan kan göras genom att beteenden kan bedömas genom nyutvecklade appar och andra ”devices” som finns i din telefon. Just nu pågår ett gigantiskt projekt i USA där datautvecklare tillsammans med psykometriker samlar så mycket information om individer så att all data inte kan analyseras med en vanlig dator, istället samlas allt i molnet. Som flera jag pratat med konstaterar, tåget har redan lämnat stationen…… detta kommer förändra vår syn på testning.

En bidragande orsak till detta är att nya statistiska metoder utvecklas som gör det möjligt att analysera stora mängder data som inte var möjligt förut. Professor Deniz Ones från Minnesota berättar för mig att idag får hennes doktorander kurser i maskin inlärning och artificiell intelligens för att de i framtiden ska kunna samarbeta med andra yrkesgrupper som datautvecklare och ingenjörer. Som exempel nämner Deniz att i hennes nuvarande undersökningsgrupp av 400 anställda samlas det varje vecka in data som motsvarar 224000 timmar, vilket i datamängd motsvarar 1TB data (i veckan?).

Enligt Deniz handlar det inte om att vi psykologer och beteendevetare ska bli lika bra som andra yrkesgrupper på statistiska formler, men vi måste veta vad det handlar om för att hänga med i utvecklingen och därmed kunna bidra i framtidens testning med psykologisk kunskap. I hennes projekt samlas det information genom att personerna får besvara både traditionella psykologiska test (tex intelligens och personlighetstest) tillsammans med data som samlas in i realtid genom att personerna bär på sig olika sensorer som hela tiden mäter olika beteendemönster (tex vilket röstläge man har samt kroppsrörelser).

En annan väldigt tydlig inriktning som många testleverantörer är intresserade av på ATP är hur den nya tekniken kan bidra med testutveckling. I stort sätt alla sk item som idag ingår i psykologiska test kan rent teoretisk utföras av artificiell intelligens eftersom samtliga beståndsdelar i ett test bygger på någon logisk princip. Om du ska bedöma matematisk förmåga finns det regler och när du svarar på en fråga om hur målmedveten du är bygger även det på en logisk princip. För några år sedan hade jag förmånen att arbeta med en forskningsgrupp från Göteborg i ledningen var Professor Claes Strannegård. Jag fick vara med att publicera en forskningsartikel i en tidskrift som heter general artificial intelligens där vi kunde visa att algoritmerna som Claes & Co hade utvecklat hade en IQ nivå på ca 115. Den fråga jag ställde till Claes var naturligtvis, om nu dina algoritmer är så smarta kan man inte träna dem till att konstruera psykologiska test? Absolut svarade Claes. Claes och jag frågade ett par testleverantörer om det fanns ett intresse att utforska detta, vi gjorde ett pilotprojekt som sedan lades ned trots lovande resultat. Nu har andra kommit betydligt längre med detta, men är det någon som är intresserad av våra idéer är det bara att höra av sig.

En annan nyhet är att det inte längre går att skilja på kvalitativ data och kvantitativ data, metoden kallas för datamining. Flera seminarier ”touchade” detta ämne där företag som google och microsoft lyftes fram. Jag har själv använt datamining i ett pilotprojekt på där vi ställde frågor om hur du som chef stöttar din personal. Genom denna metod kunde vi analysera 28 786 ord från 80 personer utan att någon människa var inblandad i tolkningen av vad cheferna sa. Det fanns klara mönster hur olika personer pratade om sitt ledarskap, dock kvarstår att vi inte i detta projekt hade ett kriterie att validera mot. Men helt klart gav det en ny dimension till hur vi kan analysera verbal information. Tänk på anställningsintervjun där den sociala interaktionen är av så central betydelse, vilket leder till en stor risk för ”bias”. Om istället en analys utförs på ett objektivt sätt utan förutfattade meningar från intervjuaren kan detta leda till mindre diskriminering och mer jämställdhet i arbetslivet.

Robert McHenry, en kollega till mig, berättade på seminariet tillsammans med Deniz Ones, att det faktum att andra yrkesgrupper börjar närma sig det psykologiska testområdet kommer att förändra hela modellen hur testleverantörer tar betalt för sina test. Idag är test ofta en statisk enhet, du köper en utbildning för att lära dig ett test, du betalar en licens för detta, och du betalar varje gång du ska testa någon. Detta är en modell som är på väg ut enligt mig. Redan idag finns det gratis test som är minst lika bra som de test som säljs. Robert berättar i en paus för mig att han tror att hela branschen står inför en enorm utmaning där det inte längre går att ta betalt för test. Istället kan teknikutvecklingen leda till att bedömningen med traditionella test inte kommer vara intressant då mätningen istället är dynamisk genom att informationen om individen hela tiden samlas in i realtid.

Men vad är riskerna då? Ryan Ross från HAS och John Weiner från PSI pratade om att risken att all denna teknikutveckling leder till att aktörer struntar i reliabilitet och validitet, dvs kvaliteten i själva bedömningen. Många företag hoppar på tåget lite väl snabbt utan att tänka på om det som verkligen bedöms har någon mening. Under diskussioner mellan seminarierna är många intresserade av hur olika ”guidelines” och ”standards” kan sätta ramar för att den nya tekniken används på ett adekvat sätt. Inte minst ISO 10667 nämns som ett banbrytande sätt att försöka rama in vad en bedömningstjänst är; ISO 10667 kan fungera som en checklista vad både kunder och säljare bör tänka på innan de gör affär. I USA är man också intresserad hur vi bedömer arbetspsykologiska test i europa, där EFPA review standards är av särskilt intresse, alltså den modell som idag används idag i Sverige och andra länder i europa för att kvalitetsmärka test. Risken med att ha detta system är att leverantörer certifierar test och sedan säljer något annat, tex sk kompetensmodeller. Därför har jag initierat att nuvarande EFPA review standards bör ses över och anpassas efter hur testning och bedömning i verkligheten fungerar i Sverige och i andra länder. En annan del av detta är nya GDPR lagen i Europa där många är oroliga hur detta kommer att påverka branschen. Min personliga spaning är att vi i testbranschen är betydligt mycket mer med i matchen i jämförelse med många andra. Det har funnits och bör alltid finnas en diskussion om hur all denna teknikutveckling påverkar den personliga integriteten.

Av alla konferenser jag varit på inom detta område och närliggande områden är ATP2018 i topp 3. Mycket pga av en proffsig organisering av konferensen där det tillåts att diskutera praktiska spörsmål om bedömningar. På ATP är det nästan är förbjudet att prata signifikanta resultat och krångliga forskningsresultat som inte betyder något i praktiken. Där har G Harris från ATP en tydlig inverkan, en konferens ska enligt G vara en spelplats där alla som är intresserade av bedömningar ska komma till tals och att det väsentliga är interaktionen mellan människor mellan de olika seminarierna (oavsett kön, etniskt ursprung och ålder). G har varit i denna bransch i ca 150 år, typ. Vad han inte vet om testning år inte värt att veta. Så tack G och ATP för en mycket givande och trevlig ATP konferens.

Kompetensmodell och personlighet, några tankar efter första dagen på ATP

Jag har tidigare nämnt min tvekan hur kompetensmodeller används i psykologisk testning. Därför var jag första dagen på ATP på flera seminarier om kompetensmodeller för att utröna kompetensmodellens inre mening.

Det första seminariet gick igen historiken varför dessa modeller blivit så populära. Faktum är att detta kommer först och främst från skolans värld där man redan på 60-talet började prata om att olika lärare var olika duktiga på att lära sina studenter sina ämnen. En kompetent lärare är en person som kan prestera bra i det ämnet som hen representerar. Redan tidigt fokuserades på observerbart beteende i klassrummen, men när kompetensmodeller började sprida sig till andra områden så gled det över till att handla om mer abstrakta saker som inte direkt kunde bedömas. Den beteendemässiga bedömningen är fokuserad på resultatet och direkt mätbar, medan den indirekta bedömningen istället fokuserar på individens kunskap och färdigheter.

En annan dimension att lägga till är hur abstrakt och konkret en kompetensmodell är. Den holistiska abstrakta modellen fokuserar på begrepp som påverkan, planering, och relationsbyggande medan den konkreta omsätter detta i meningar som; påverkar andra personer genom att ödmjukt framföra sina åsikter på ett rättframt och ärligt sätt.

Det övergripande intrycket jag har efter dagens föreläsningar är

  • att den seriösa kompetensmodellen handlar om konkreta beteenden som är länkade till en arbetssituation (alltså traditionell tråkig arbetsanalys)
  • Inom i stort sätt alla områden finns kompetensmodeller
  • Det finns ingen gemensam definition av kompetens

Om jag nu blickar ut över hur kompetensmodeller används när personlighet bedöms finner jag en dyster syn. Det är tveklöst så att i stort sätt alla leverantörer av personlighetstest har en kompetensmodell för att ”folk vill ha det”. Återkommande är att leverantörer av personlighetstest överger forskningsbaserade modeller som tex fem faktor modellen och istället säljer kompetensmodeller. Senast i raden är 16PF som från början var ett kliniskt test för bedömning av personlighet. I den senaste versionen som presenterades idag på konferensen har 16 skalor blivit 25 kompetenser (se bilden nedan). Och anledningen till detta är när jag frågar den person som gjort detta får jag svaret ”because our customers do not understand the personality language so we have to find ways to convince our customers that 16PF is a good instrument”

16PF är bara ett exempel, när jag av en person fick uppdraget att gå igenom vilka personlighetstest som används på den svenska marknaden fann jag endast 1 företag som INTE hade gjort om sitt personlighetstest till en kompetensmodell.

Problemet för mig är att alla andra verkar förstår hur ett personlighetstest kan bli en kompetens utom jag, jag kanske måste satsa på egen kompetensutveckling?

Även om det inte finns en gemensam syn på vad en kompetens är tänker jag lansera min egen som ni gärna får använda för egna syften när ni bedömer kandidater i er urvalsprocess.

Kompetens är ett innehav av adekvata kunskaper och färdigheter som är förvärvade genom utbildning och/eller träning och som personen nyttjar i relevanta arbetssituationer för att nå organisationens mål med verksamheten.

Detta är väldigt långt från vad som bedöms i personlighetstest som används för urval.

Innovations in testing 2018, konferens där testeliten samlas

Jag är för närvarande i USA, närmare bestämt i San Antonio, Texas. Där går den 19 konferensen som Association of Test Publisher (ATP) anordnar. ATP är en organisation som samlar idag aktiva företag och myndigheter som på något sätt bedömer andra människor i form av kunskaper, färdigheter, attityder etc etc. ATP bildades i USA 1992 för att föra ut den samlade kunskapen om bedömningar. Över tid har denna organisation vuxit och idag finns det även avdelningar i Europa (E-ATP), där för övrigt en tidigare kollega Cicek Svensson är ordförande. Det finns även en avdelning i Asien och en i Indien. Årligen hålls det konferenser i ämnet där den största konferensen av alla inte helt oväntat är den i USA.  

Även om det i första hand är en konferens för företag så är många akademiker här, kanske de främsta i världen för de har ofta ett finger med i utvecklingen av test bland de stora elefanterna. Jag har varit en gång tidigare på denna konferens och upplevda att det var en mycket givande tillställning för mig som befinner mitt emellan akademin och praktiken. Särskilt intressant kommer det vara denna gång att hålla utskick för nya seriösa trender i testvärlden, men även avfärda saker som inte för utvecklingen framåt.

Nu sitter jag här med hela programmet som löper över tre heldagar och kan konstatera att det är svårt att välja. Men några saker tycker jag framträder som gör mig lite nyfiken. Den första är att mäta kompetenser. Flera intressanta presentationer har jag bokat, bland annat kommer det diskuteras hur kompetens kan defineras innan man börjar utveckla bedömningsinstrument för att mäta denna kompetens. Detta är ett område som jag har varit kritisk till flertalet år, nämligen på det sätt som ordet kompetens används av en del testleverantörer.

Det andra området som jag kommer fokusera är olika nya metoder för att både utveckla test och analysera testresultat med. Här är det begrepp som artificiell intelligens, machine learning och data mining som leder mig till dessa seminarium. Konferensen handlar mycket om hur dessa metoder kan användas i skolans värd för att dels bedöma men också utveckla lärandet. Men även inom arbetspsykologin finns det ett flertal intressanta seminarier att bevaka. Några kollegor till mig ska bla berätta om att de nya metoderna kan ha en negativ inverkan på hur valida bedömningsmetoderna är.

Dessa seminarium ska jag bevaka men ofta är det mellan seminarier som ”det händer” att jag lär mig nya saker. Då är det tillfälle att möta duktiga kollegor och diskutera psykometriska väsentligheter. Flera av personerna som var med att arbeta fram ISO 10667 ska jag ”haffa” i pauserna och fråga hur de ser på revideringen av standarden.

Nedan ser du några av seminarierna jag kommer bevaka följande dagarna.

  • Competencies – What Are They and how to Measure Them?
  • Using a Generalizable Taxonomy of O*Net defined competencies
  • A Roadmap to Third-party Programs Accredation and Certification: Comparison of the NCCA: 2014 and ISO/IEC 17024:2012 Standards
  • Artificial Intelligence and Automated Essay ScoringEssay Scoring:
  • Next Generation Assessment – The State of Innovations in Selection Science
  • Can We Automate Psychometrics with AI?
  • Recruiting Through Performance-Based Assessments

Kommer sammanfatta mina intryck av konferensen, återkommer.

Anders

Mår din anställningsintervju bra? Här kommer några förslag som kan pigga upp den

Intervjun är den i särklass mest använda metoden i rekrytering och urval. I stort sett alla jag träffar pratar om den kompetensbaserade intervjun, eller att det behövs en djupintervju efter att man testat med psykologiska test, men vad är en intervju och hur lirar detta vad forskning säger om anställningsintervjun? Jag har gått igenom ett stort antal artiklar och bokkapitel om ämnet och detta är vad jag kortfattat vill dela med mig.

Först av allt ska sägas att en bra (reliabel och valid) intervju kan bidra till att rätt beslut tas i en urvalssituation. Med detta menas att det ”rätta” beslutet är att den person som anställs kommer bidra till att uppnå organisationens mål. Detta behöver inte betyda att det är ”rätt” för individen, dvs kandidaten kan tycka att det inte är ”rättvist” att man inte får jobbet. Vad jag vill säga att är att en intervju är en process där det finns olika intressen, intervjun är i grund en social interaktion mellan en eller flera individer där det bestäms vem som ska få jobbet, där arbetsgivaren tillsammans med kandidaten tar det slutliga beslutet, även om arbetsgivaren har det slutliga lagliga anställnings beslutet.

En fördel med intervjun är att det är just en social process, i stort sätta alla jag pratar med vill träffa och ”känna på varann” innan det fattas ett definitivt beslut med vem man vill umgås med på jobbet. Detta kan vara bra när intervjuren fokuserar på delar som är arbetsrelaterade, men mindre bra för att ”man verkar gilla varandra”.

En anställningsintervju liknar på det sätter många andra situationer i vårt liv när vi väljer vänner, när vi bestämmer vem vi inte vill umgås med och när vi väljer vår livspartner. Kort och gott det känns naturligt att prata med andra som kommer vara delaktiga i vårt liv.

Jag får ofta höra från mina studenter och från folk i branschen att tex mer strukturerade metoder som psykologiska test kan visst fungera för att snabbt sålla bland hundratals kandidater i en rekrytering. Men när det kommer till det slutgiltiga urvalet behövs en djupintervju som är väl genomtänkt. Denna intervju tar ofta lång tid och kan kosta att genomföra. En ledande auktoritet inom området säger så här.

– Det tar tid för mig att få syn på en person. Efter en timme är jag inte färdig, det tar minst en och en halv.

Inte ett ovanligt tema för dessa intervjuer kan vara att komma åt kandidatens sk livsberättelse: bakgrund, skola, intressen, svaren tolkas som drivkrafter för varför kandidaten vill ha jobbet och hur hen kommer att prestera, Ibland kan anställningsbeslut ändra där den sk djupintervjuaren har kommit fram till ofördelaktiga saker i intervjun om kandidaten.

Men hur ska vi se på intervjun utifrån ett evidensbaserat synsätt. Helt klart är att om ni vill anlita en person och betala för detta bör denna personen kunna presentera någon form av evidens att detta blivit bra i tidigare uppdrag (helst från andra än intervjuaren). Dvs, exakt samma krav som gäller för om du vill använda ett psykologiskt test och använda resultatet för att fatta ett anställningsbeslut. Det ska finnas ett samband mellan intervjun och senare beteende. Det sorgliga är det finns väldigt lite forskat om anställningsintervjun i Sverige.

Istället får vi luta oss mot internationell forskning och den säger följande.

En bra intervju kan bidra till att kandidaten tackar JA till jobbet om kandidaten anser att den som intervjuaren är professionell och personlig,

Om du som intervjuare vill förkovra dig är det följande som gäller;

  • Använd situations baserade frågor (hur skulle du göra om….?), baserad på en seriös arbetsanalys dvs ställ frågor om situationer som du kan bedöma utifrån vad som är rätt och fel svar på frågan. Dessa situationsfrågor fungerar bäst när det är fråga om mindre komplexa arbeten.
  • Använd beteende baserade frågor (kan du beskriva när du….?), även dessa grundade på en seriös arbetsanalys, dvs ställ frågor som kandidaten kan referera till en situation där något hänt och be personen beskriva hur hen agerade i denna situation med sitt egna beteende, dessa frågor fungerar bäst när det är mer komplexa arbeten där du själv som expert kan bedöma vad som är bra beteende.

Till skillnad från psykologiska test där du bedömer en egenskap (utan påverkan av dig som intervjuare) bör du tänka på att detta för att din intervju ska må bra;

  1. Poängsätt alla svar på dina frågor utifrån vad du menar med bra eller dåliga svar
  2. Basera dina frågor på arbetsrelaterade saker inte personens livshistoria
  3. Ställ samma frågor till alla kandidater
  4. Ställ högst 1-2 uppföljande frågor efter din huvudfråga
  5. Träna och utveckla din intervju
  6. Om det är möjligt, använd flera intervjuare
  7. Diskutera inte dina resultat med andra mellan intervjuerna av kandidaterna
  8. Använd ínte tidigare bedömningar som underlag för din intervju (tex psykologiska test resultat)
  9. När din bedömning ska ligga till grund för det slutliga urvalsbeslutet använd algoritmer inte din eller flera
  10. personers helhetsbedömning. (Observera att din intervju kommer ingå i det slutliga beslutet, men inte på grund av det diskuteras med andra personer).
  11. Korta intervjuer är ofta lika bra som långa intervjuer

När du gör detta rätt ska du tänka på det att det finns saker som kan bidra till att din intervju mår sämre.

  1. Negativ information vägs tyngre i jämförelse med positiv information
  2. Tidigt intryck i intervjun blir avgörande för beslut, det blir svårt att bortse från din tidiga känsla eftersom det är svårt att hålla samma uppmärksamhet genom hela intervjun
  3. Om du blir attraherad av personen påverkar det din bedömning.
  4. Om kandidaten inte liknar dig (tex etniskt ursprung, kön) kommer det påverka ditt beslut
  5. Många kandidater anpassar hela tiden svaren för att de vill ha jobbet vilket blir svårt att tolka för dig
  6. Ordning spelar roll, om du bedömer att det är en svag kandidat kommer du sannolikt bedöma nästa kandidat som bättre än vad hen är (och tvärtom).
  7. Undvik djupintervjuer om inte den som ska intervjua har klara belägg för att det finns en korrelation mellan metoden och det du vill förutsäga.

Tänk på detta när du genomför din nästa intervju eller när du ska betala för nästa intervju.

Lycka till

Lästips

Richard A. Posthuma, Frederick P. Morgeson, and Michael A. Campion, “Beyond Employment Interview Validity: A Comprehensive Narrative Review of Recent Research and Trends over Time,” Personnel Psychology 55 (2002): 1–82.

Robert L. Dipboye, “The Selection/Recruitment Interview: Core Processes and Contexts,” in
The Blackwell Handbook of Personnel Selection, ed. Arne Evers, Neil Anderson, and Olga
Voskuijil (Oxford, UK: Blackwell Publishers, 2004), 121–142.

Murray R. Barrick, Jonathan A. Shaffer, and Sandra W. DeGrassi, “What You See May Not
Be What You Get: A Meta-Analysis of the Relationship between Self-Presentation Tactics
and Ratings of Interview and Job Performance,” Journal of Applied Psychology 94 (2009):
1394–1411.

Julia Levishina and Michael A. Campion, “Measuring Faking in the Employment Interview:
Development and Validation of an Interview Faking Behavior Scale,” Journal of Applied
Psychology 92 (2007): 1638–1656.

Sara L. Rynes, Robert D. Bretz Jr., and Barry Gerhart, “The Importance of Recruitment in
Job Choice: A Different Way of Looking,” Personnel Psychology 44 (1991): 24.

Frank L. Schmidt and Ryan D. Zimmerman, “A Counterintuitive Hypothesis about
Employment Interview Validity and Some Supporting Evidence,” Journal of Applied
Psychology 89 (2005): 553–561.

Paul J. Taylor and Bruce Small, “Asking Applicants What They Would Do versus What They
Did Do: A Meta-Analytic Comparison of Situational and Past Behaviour Employment
Interview Questions,” Journal of Occupational and Organizational Psychology 75 (2002):
272–294.

Taylor, Paul J. & Small, Bruce (2002). Asking applicants what they would do versus what they did do: A meta-analytic comparison of situational and past behaviour employment interview questions
Journal of Occupational and Organizational Psychology, 75, 277-294.