Omgiven av färger eller evidensbaserad kunskap om personlighet

Anders SjöbergUrvalsbeslut4 Comments

Precis innan sommaren blev jag uppringd av en journalist från tidningen Filter. Journalisten ville att jag skulle uttala mig om boken ”Omgiven av Idioter”. Jag sa att jag inte läst boken, tänker inte ägna energi åt detta utan istället läsa forskningsbaserade texter om personlighet under sommaren. Nu har artikeln i Filter kommit ut om ni vill läsa den ”klicka här”, nedan text belyser som komplement evidensbaserad kunskap om personlighet.

Personlighetsteori är vägledande för hur bedömningen av hur personlighet sker. Till skillnad från teorier om människors färger som speglar personliga egenskaper finns det även seriösa teoretiska ramverk som på ett adekvat beskriver hur vi människor skiljer sig åt oss i dessa egenskaper. Till skillnad från många i min omgivning som ägnat semestern åt att läsa pocketböcker om personlighet har jag läst artiklar om nya teoretiska och empiriska genombrott som kan få stora konsekvenser hur vi kommer bedöma personlighet i framtidens urvalssammanhang.

I praktiken sker den seriösa personlighetsbedömning idag inom urval och rekrytering utifrån femfaktormodellen (FFM). De test som inte på ett tillförlitligt sätt kan visa belägg för att testet ”hänger ihop med” FFM bör ej användas i praktiken. Detta betyder inte att andra modeller kan fungera, men då ska testleverantören visa hur den föreslagna modellen skiljer sig från FFM och att den föreslagna modellen på ett bättre sätt fungerar i urvalssammanhang. 

Det dröjde emellertid ända till 60-talet innan FFM formulerades som den ser ut idag. Under senare delen av 1960-talet och under 1970-talet drabbades emellertid personlighetsforskning och personlighetsmätning av stark kritik från socialpsykologer. Det ledde till att den föreslagna FFM föll i glömska. Inte förrän på 1980-talet, genom longitudinella studier om personlighetsutveckling, togs tråden om FFM upp igen, och är nu den dominerande ansatsen vad gäller personlighetsbedömning urvalssammanhang. Idag finns ett övertygande stöd i forskningen för att dessa faktorer – i olika grad – bidrar till att förutsäga arbetsprestation.  Vilka är då dessa fem breda personlighetsdrag, och vad kan de säga om en individs arbetsprestation? Jo dessa är; Känslomässig stabilitet (ES), Extraversion (EX), Öppenhet (OP), Sympatiskhet (AG) och Målmedvetenhet (CO). FMM förknippas ofta med psykologiska test, men det har visat sig att FFM kan bedömas genom en mängd olika datainsamlingsmetoder som tex andras rapportering, assessment center, och intervjuer och beteendeobservationer.

En anledning att FFM tog så lång tid att upptäcka var att under 60-70 talet förhärskade den sk situationshypotesen (SH) avseende personlighet. SH utgick ifrån att att personlighet som ”trait”, dvs att en stabil egenskap som personlighet inte finns. Istället förklarades människors olika personlighet (och beteenden) med den kontext personen befinner sig i, situationen var avgörande till 100% hur vi människor skiljer oss åt. Idag vet vi bättre, det finns en ganska stor ärftlighetskomponent i vår personlighet, dvs vi föds till viss del med vissa personlighetsdrag (läs FFM), med andra ord du liknar ganska mycket din mamma och/eller pappa (i snitt får du 50% av generna från dina föräldrar, men i unika fall kan du få 90% från ena föräldern).

Detta betyder att situationen fortfarande kan vara avgörande för vår personlighet, situationen kan på väsentliga sätt förklara din personlighet eftersom ärftlighetskomponenten är högst 50%. Låt  mig ta ett exempel. Om jag av mina föräldrar fått dispositionen att vara impulstyrd (en del av CO och ES) betyder inte att jag i alla situationer är impulsstyrd. Detta kan ta sig úttryck i skillnaden hur jag är bland vänner på fritiden och på jobbet. Även om jag är impulstyrd bland mina vänner är det osannolikt att jag kan hålla tillbaka min impuls på jobbet fullt ut, men situationen kan göra att jag trycker bort impulserna jag har till en viss grad. Detta betyder att situationen till viss del avgör min personlighet. Argumenten för eller emot situation och/eller ärftlighet som förklaringsmodell är lika starka, enligt forskningen, det är både ärftlighet och situation som kan förklara din personlighet. 

På forskningsspråk pratar man om ”mellan individ skillnad” och ”inom individ skillnad”, det första är det som i flesta fall mäts i en urvalssituation, enligt FFM, utifrån ett stabilit trait tänkande medan det andra är ”situationstänket” även kallat ”state”. Trait och state samvarierar för att förklara vår personlighet, att utesluta ett perspektiv minskar vår förståelse av mänskligt beteende. I mitt exempel ovan skulle det betyda att ”trait” beskriver min övergripande grad av impulskontroll medan ”state” beskriver min impulskontroll i olika situationer (tex på jobbet och hemma). Detta kallar forskarna för “whole trait theory”; hur jag agerar i olika situationer impulsmässsigt tillsammans med min övergripande impulskontroll bestämmer min övergripande impulsivitet (personlighet).

Inom rekrytering är det vanligaste att FFM utifrån trait perspektivet bedöms, genom de övergripande fem faktorerna (eller facetter under de fem faktorerna, tex impulskontroll). Detta sker ofta genom ett psykologiskt test där kandidaten får svara på frågor om generella saker som ”om man gillar att gå på fest” (EX), om man håller vad man lovar (CO) och om man aldrig oroar sig för framtiden (ES). Summan av en mängd påståenden som mäts på en skala (tex 1-7) utgör ett estimat på en skala var du befinner dig på de olika faktorerna. 

För att mäta state behövs istället att kandidaten får svara på frågor i ”realtid”; tex tycker du det är roligt att vara på denna firmafest? idag höll jag vad jag lovade på jobbet? idag har jag oroat mig för att vad som ska hända på jobbet? Dessa svar ska samlas in över tid, på detta sätt kan både “mellan individ variation” och “inom variation” av kandidatens personlighet samlas in. I själva verket undersöks hur ”konsistent” kandidaten är i sin personlighet. Det har visat sig att personer som har olika förmåga att ”anpassa” sin personliget kan vara avgörande för prestationen på arbetet.  Forskare har funnit att traditionell traitbedömning tillsammans med situationsbedömning reflekterade substantiv variation i funktionell flexibilitet på jobbet och arbetsprestation.

Ovan har jag tagit personlighet som exempel, men hur är det med arbetsprestation? Även om det finns begränsad forskning om “inom individ variation” i arbetsprestation visar resultat att en väsentlig del av variationen är beroende av situationen. Hela 64% av variationen i arbetsprestation kan förklaras av “inom individ variation”. Detta betyder att arbetsprestationen hos en individ varierar i högre grad i jämförelse om vi bedömer skillnaden mellan individer. 

Detta får konsekvenser hur vi ska se på urvalstestning av personlighet i framtiden och det förklarar också den relativt svaga sambandet mellan personlighet och arbetsprestation. När FFM bedöms i urvalssammanhang mäts skillnaden mellan individer, denna mätning jämförs sedan med hur individer generellt presterar, denna utvärdering sker oftast med en korrelation som endast tar hänsyn till skillnaden mellan individer i arbetsprestation. Om vi då adderar kunskapen att 64% att variationen beror på att individen över tid presterar på olika sätt på jobbet, kan aldrig korrelationen överstiga .36 (36%). När jag och några kollegor estimerade effekten av FMM (skillnaden mellan individer) mot övergripande arbetsprestation (skillnaden mellan individer) fann vi att 23% av variationen var gemensam mellan FFM och arbetsprestation, de övriga 13% skulle kunna härledas av facetter tillhörande FMM. (OBS vill poängtera att jag pratar om samvariation, INTE förklarad variation).

Vi kan således inte förvänta oss att sättet vi idag bedömer personlighet ska öka validiteten, dvs att lansera nya test som endast mäter skillnaden mellan individer kan inte bli bättre (dock ska man komma ihåg att kvaliteteten mellan test varierar). Inte heller ska ni tro på testleverantörer som säger att deras test har en korrelation som överstiger .36, det är högst osannolikt. Inte heller ska ni tro på leverantörer av sk situationstest som hävdar att de mäter saker i situationen. Av namnet kan man tro att det har med situationen att göra men i själva verket har det med 1 situation vid 1 tillfälle att göra, samt att sättet att poängsätta situationstest är detsamma som “mellan individ” jämförelse. Med andra ord du få reda på hur olika personer agerar i 1 situation, på detta sätt får du högst begränsad information om hur den individen kommer agera över tid när situationer förändras.

Utmaningen i framtiden blir att bedöma personlighet och arbetsprestation på en mer dynamiskt sätt för att förstå och förutsäga den individuella arbetsprestationen över tid. Forskning pågår just nu med nya tekniska hjälpmedel att genomföra detta. Tills detta är löst får vi nöja oss med ett mediokert samband mellan personlighet och prestation (23%). Och det hjälper ej att dela upp människor i olika färger, tyvärr.

Referenser

Dalal, R. S., Meyer, R. D., Bradshaw, R. P., Green, J. P., Kelly, E. D., & Zhu, M. (2015). Personality strength and situational influences on behavior: A conceptual review and research agenda. Journal of Management, 41, 261–287. http://dx.doi.org/10.1177/0149206314557524

Dalal, R. S., Bhave, D. P., & Fiset, J. 2014. Within-person variability in job performance: A theoretical review and research agenda. Journal of Management, 40, 1396-1436.

Dalal, R. S., Lam, H., Weiss, H. M., Welch, E. R., & Hulin, C. L. 2009. A within-person approach to work behavior and performance: Concurrent and lagged citizenship-counterproductivity associations, and dynamic relationships with affect and overall job performance. Academy of Management Journal, 52, 1051-1066.

Dalal, R. S., Meyer, R. D, Bradshaw, R. P., Green, J. P., Kelly, E. D., & Zhu, M. 2015. Personality strength and the reduction of situational influences on behavior. Journal of Management, 41, 261-287.

Fleeson, W. (2001). Toward a structure- and process-integrated view of personality: Traits as density distribution of states. Journal of Personality and Social Psychology, 80, 1011–1027. http://dx.doi.org/10.1037/0022-3514.80.6.1011

Fleeson, W. (2004). Moving personality beyond the person-situation debate: The challenge and the opportunity of within-person variability. Current Directions in Psychological Research, 13, 83–87. http://dx.doi .org/10.1111/j.0963-7214.2004.00280.x

Fleeson, W. (2007). Situation-based contingencies underlying trait-content manifestation in behavior. Journal of Personality, 75, 825–861. http://dx.doi.org/10.1111/j.1467-6494.2007.00458.x

Fleeson, W., & Gallagher, P. (2009). The implications of Big Five standing for the distribution of trait manifestation in behavior: Fifteen experiencesampling studies and a meta-analysis. Journal of Personality and Social Psychology, 97, 1097–1114. http://dx.doi.org/10.1037/a0016786

Fleeson, W., & Jayawickreme, E. (2015). Whole trait theory. Journal of Research in Personality, 56, 82–92. http://dx.doi.org/10.1016/j.jrp.2014 .10.009

Fleeson, W., & Law, M. K. (2015). Trait enactments as density distributions: The role of actors, situations, and observers in explaining stability and variability. Journal of Personality and Social Psychology, 109, 1090–1104. http://dx.doi.org/10.1037/a0039517

Fleeson, W., & Noftle, E. E. (2009). The end of the person-situation debate: An emerging synthesis in the answer to the consistency question. Social and Personality Psychology Compass, 2, 1667–1684. http://dx doi.org/10.1111/j.1751-9004.2008.00122.x

Lievens, F., Lang, J. W. B., Corstjens, J., & Van de Vijver, M (2018). The predictive power of people’s intraindividual variability across situations: Implementing whole trait theory in assessment. Journal of Applied Psychology, 103, 7, 753–771

Sjöberg, S., Sjöberg, A., Näswall, K., Sverke, M. (2012). Using individual differences to predict job performance: Correcting for direct and indirect restriction of range. Scandinavien Journal of Psychology, 53, 368–373.

Dela detta inlägg

Igår kompetensmodeller idag AI, gamla produkter i ny förpackning

Anders SjöbergUrvalsbeslut2 Comments

Nya tekniska landvinningar tillsammans med utökad datakraft har givit möjlighet att utveckla det statistiska ramverket. Artificiell Intelligens (AI) och Maskin Inlärning (MI) är bara några nya begrepp som många ”slänger” sig med idag. För 20 år sedan var det Emotionell Intelligens (EI), för 10 år sedan var det kompetensmodeller idag är det BIG DATA. Jag är den första att medge att forskning om Big Data är ytterst intressant att följa, men samtidigt är jag mån om att det som kommer ut i praktiken verkligen gör en skillnad. Almedalen verkar vara en av platserna för skådespelet just nu, där hörs begreppen AI och algoritmer och förslag på hur tex Arbetsförmedlingen kan lösa matchningsproblematiken för sökande genom nya algoritmer.

Om du  funderar att hoppa på detta tåg, här kommer några tips på vägen.

  • Undvik “black box” förslag. Om företag inte kan förklara sina processer för dig (var inte rädd att fråga), så förstår de förmodligen inte själva algoritmerna, eller de hoppas kunna räkna ut hur de fungerar när de tillämpar dem i din organisation. Begär teknisk dokumentation, om du inte själv förstår anlita en expert på detta innan du köper något.
  • Var säker på att du verkligen köper en färdig produkt så att du inte finansierar en forskningsstudie. Det finns inget fel med det senare, bara så du vet vad du betalar för.
  • Insistera på att få veta vad processen mäter. Som ett exempel, på området för anställningsintervjuer, utforskar vissa leverantörer möjligheterna att utveckla produkter som modellerar allt från ansiktsfunktioner och ögonkontakt till talmönster och rösthöjd. Det är möjligt att detta fungerar men vad mäter det egentligen?
  • Algoritmerna bör naturligtvis valideras på traditionellt sätt, det vill säga det som algoritmerna säger ska jämföras med avsedd effekt. Nöj dig inte med vaga framgångshistorier, eller allmänna fantasier vad algoritmerna kan göra. Det är också viktigt att leverantörerna av dessa fantastiska processer kan förklara vad algoritmerna INTE kan gör.
  • Låt säga att det fungerar, ta hänsyn till hur detta fungerar ur kandidatperspektiv, och inte minst GDPR.

BIG DATA, AI etc etc kommer att förändra mycket inom rekrytering och urval framöver, men idag är det många företag som ”sminkar grisen”, en kompetensmodell som ingen vet hur den fungerar kan lätt översättas till en AI produkt.

Dela detta inlägg

Varför vill inte företag undersöka om deras kompetensmodeller fungerar eller inte?

Anders SjöbergUrvalsbeslutSkriv en kommentar

Inom urval har begreppet validitet varit centralt för att förstå hur vi kan kvalitetssäkra vad vi gör inom rekrytering och urval. Jag har ägnat helgen åt att gå igenom studier från 50-60 talet i Sverige där validiteten i urvalsinstrument på ett föredömligt sätt dokumenterats. Stora aktörer som genomförde dessa studier var arbetsförmedlingen och försvarsmakten. Idag är dessa studier ett minne blott. Istället kan det se ut så här när man resonerar om validitet (mina kommentarer inom parantes)?

Vår kompetensmappning (i många färger) utgår från XXX kompetensbibliotek™ (bibliotek låter bra), en sammanställning av ett åttiotal olika beprövade kompetenser (vaddå beprövade??), samtliga med koppling till våra verktyg (hur då?), vilket gör dem direkt mätbara (jasså?). Vårt kompetensbibliotek kan hjälpa er att:

Fastställa vilka kompetenser som kännetecknar just er organisation (kräver validitet)

Säkerställa att organisationen utvecklas åt rätt håll för att nå uppsatta mål (kräver validitet)

Skapa en utvecklingsplan, baserad på vilka kompetenser som behöver utvecklas och i vilken utsträckning.(kräver validitet)

Ingen information om det fungerar eller inte? inga estimat på reliabilitet? Inget resonemang om validitet.

När jag frågar om varför det ser ut så här? svarar leverantörerna av kompetensmodeller att kunderna orkar inte höra mer, de nöjer sig med detta. När jag frågar kunderna blir det tyst, eller möjligtvis att alla andra har ju en kompetensmodell.

Men hur hamnade vi i detta träsk av helt irrationella tankar om vad som fungerar eller inte?

Här kommer mina tankar om detta.

Fram till 1968 fanns en god tradition av utvärdering i Sverige, där både betygssystem och urvalssystem kvalitetssäkrades. Denna goda tradition försvann i slutet av 60-talet där det snarare föddes en tanke av att allt vi gör påverkas av situationen, inte av personliga egenskaper. Om situationen avgör till 100% beteende i organisationer behövs inga urvalsmetoder. Att bedöma olika saker som kognitiv förmåga ”förbjöds” i praktiken. Ett ämne som psykometri försvann från pedagogiska och psykologiska utbildningar. 

Hur ska vi komma tillrätta med det?

Leverantörer av bedömningstjänster som säljer sina tankar och modeller till kunder har de senaste åren tagit långa steg från en sund utveckling av validerade metoder. Det är ni som kunder/uppdragsgivare som ska ställa kraven, kan inte leverantören visa på studier som kan bekräfta det som säljs vid införsäljningen så betala inte (och det räcker inte att referera till Schmidt & Hunter, 1998).

Leverantörer på marknaden har idag anpassat sig efter en väldig låg standard (läs kunderna ställer låga krav), knappast något som idag kommer ut på marknaden baseras på empiriska fakta. Så länge leverantörerna tjänar pengar på detta kommer inget att hända.

Som köpare av en bedömningstjänst ska du ställa dessa frågor (och förstår du inte svaren du får köp inte tjänsten).

1. Finns begreppet som avses att bedömas?

2. Går det att bedöma begreppet?

3. Går det av resultatet att förutsäga olika arbetsrelaterade beteenden?

Vill du läsa mer om detta klicka här

Vill du lära dig Evidensbaserat urval™ klicka här

 

Dela detta inlägg

Reflektioner om GDPR och arbetspsykologisk testning vid urval

Anders SjöbergUrvalsbeslutSkriv en kommentar

General Data Protection Regulation är en ny lag som gäller över hela EU från och med 2018-05-25. Översatt till svenska så betyder GDPR Dataskyddsförordningen.
I Sverige kommer GDPR att ersätta Personuppgiftslagen (PUL). Syftet med Dataskyddsförordningen är att enskilda ska få större kontroll över sina personuppgifter samtidigt som företag bara behöver förhålla sig till ett regelverk när de verkar i flera EU-länder. Detta är det få som lyckats undgå. Men hur förhåller sig GDPR till psykologisk testning inom urval. Nedan kommer mina tankegångar efter ha läst valda delar av GDPR.

Disclaimer. Innan Ni läser texten nedan ska sägas att jag har EJ läst hela GDPR och jag har ej någon juridisk skolning, så nedan ska läsas som mina egna personliga tolkningar avseende ett oerhört komplicerat område.

Arbetspsykologisk testning och GDPR

Idag används ofta psykologisk testning av personlighet och intelligens i urvalsprocesser. Det vanligaste förfarandet är att testningen resulterar i poäng som tolkas av bedömaren, ofta samma person som har administrerat testet. Testpoängen fungerar som en profilering av testkandidatens personlighet och intelligens. Forskning har visat att vissa profiler sannolikt presterar bättre i jämförelse med andra, men detta struntar de flesta i utan tolkningen sker utifrån en tänkt kravprofil som sällan eller aldrig validerats.

Min tolkning av GDPR är att, oberoende om man håller sig till forskning eller tolkar efter eget huvud handlar det om profilering och mer eller mindre automatiskt beslutsfattande. Vad säger då GDPR:

Profiling and automated decision-making can be useful for individuals and organisations as well as for the economy and society as a whole, delivering benefits such as: increased efficiencies; and resource savings.

Inom psykologisk standardiserad testning har detta under 100 år varit ett tungt vägande skäl att använda test, den standardiserade modellen att alla poängsätts på samma sätt resulterar i både träffsäkra och valida beslutsunderlag, gott så långt.

Profilering och automatiskt beslutsfattande vi urval

GDPR tar aldrig (vad jag sett) upp psykologisk testning som exempel men mycket av som definieras kan enkelt transporteras till vad som händer i urvalssammanhang. Men innan vi går vidare bör begreppen profilering och automatiskt beslutsfattande definieras.

Profiling is composed of three elements:
it has to be an automated form of processing;
it has to be carried out on personal data; and
the objective of the profiling must be to evaluate personal aspects about a natural person.

Det finns tre olika beståndsdelar i profilering; datainsamling, automatiserad poängsättning samt analys för att förutsäga nuvarande eller senare beteenden.

Detta utgör själva grunden till att använda test för urval, dvs samla data från individen, poängsättning och tolkning av resultat.

Automatiserat beslutsfattande definieras som:

Automated decision-making is the ability to make decisions by technological means without human involvement.

Nu blir det lite besvärligare att orientera sig i förhållande till psykologisk testning. Jag menar när är beslutsfattande ”without human involvement”? I inledningen av artikel 29 (GDPR) nämns saker som Artificiell Intelligens och Machine Learning, men utan att definieras. Jag tolkar ”without human involvement” som att lagstiftaren menar att algoritmen själv fattar beslut, vilket sällan eller aldrig är fallet i psykologisk testning som används i urvalsprocessen. Jag menar även om testresultat automatiserat poängsätts så är det en människa inblandad, jag menar denna poängsättning har ju konstruerats av en människa.

Ur kandidatens perspektiv

Men låt då säga att psykologisk testning kan anses som ett underlag till automatisk beslutsfattande i en urvalssituation, vad säger då GDPR om automatisk beslutsfattande ur synvinkeln från den som blir bedömd:

The data subject shall have the right not to be subject to a decision based solely on automated processing, including profiling, which produces legal effects concerning him or her or similarly significantly affects him or her.

Vad som menas med ”legal effects concerning him or her or similarly significantly affects him or her” är för mig oklart men en process bedöms EJ som fullständigt automatiserat om en person på något sätt är inblandad i beslutsfattande. Som exempel ges i artikel 29 detta:

An automated process produces what is in effect a recommendation concerning a data subject. If a human being reviews and takes account of other factors in making the final decision, that decision would not be ‘based solely’ on automated processing.

I urvalsprocesser händer det aldrig att processen är fullständigt automatiserad då urvalsbeslutet måste rent lagligt tas av en person, dvs företrädare för arbetsgivaren i fråga som vill anställa kandidaten. Men naturligtvis är det en tolkningsfråga, tex om det sker en automatisk poängsättning av psykologiska test och att dessa poäng sedan vägs ihop med en algoritm, som sedan fungerar som beslutsunderlag, är inte detta fullständig automatiserat? Mitt svar är NEJ, det är fortfarande människor inblandade i poängsättningen, det är en människa inblandad som konstruerat algoritmen. Däremot ställer jag mig tveksam till om data samlas in av en dator genom att samla data automatiskt från  tex facebook, en algoritm används för att analysera data och ett beslut genereras av algoritmen.

En intressant tanke är att det finns en möjlighet att ha en fullständig automatiserad process där en algoritm väger ihop information som en dator samlat in och i slutändan slänger man in en människa som tar ett annat beslut (rätt eller fel spelar ingen roll i GDPR) då är ”decision not ‘based solely’ on automated processing”.
Ett annat scenario är att den psykologiska testningen är fullständigt automatiserat, men en människa slänger in en intervjupoäng i algoritmen, då bör inte heller denna process vara ”‘based solely’ on automated processing”.

Men som sagt det lär bli en tolkningsfråga.

Hur kan man säkra upp att GDPR följs som ansvarig för en urvalsprocess?

Informera kandidaten att en automatisk process med profilering kommer att äga rum (alltifrån CV granskningen till urvalsbeslutet). Informera kandidaten på ett meningsfullt sätt hur denna process går till, vilken logik som ligger bakom profileringen och det automatiserade beslutet och förklara vilka konsekvenser denna process har för kandidaten (ev fördelar och nackdelar)

GDPR och ISO10667

Kort och gått, var tydlig  vad som kommer att hända i urvalsprocessen. Där kan Ni ta utgångspunkt i ISO 10667, bedömningstjänster i arbetslivet som säger bla detta om vad den som är ansvarig för urvalsprocessen ska tänka på.

  • Personer med ansvar för analys och tolkning av resultaten bör:
  • ange typ av metod för att kombinera uppgifterna samt ge en tydlig logisk grund för eventuella slutledningar och beslut beträffande kombination och tolkning av dessa uppgifter, samt bevis till stöd för dem,
  • använda dig av rutiner för att systematiskt undersöka bedömningsresultaten i syfte att identifiera osannolika eller orimliga tolkningar, poängklassificering, t.ex. datautredningsarbete samt identifiera osannolika poängvärden
  • tillhandahåll tolkningar som överensstämmer med tillgängliga uppgifter om bedömningsmetoden såsom den har dokumenterats i tekniska manualer samt övrig vetenskaplig litteratur,.

(OBS detta skrevs 7 år innan GDPR).

Avslutande kommentar

Jag är positivt inställd till GDPR, äntligen måste tolkning av data och poängsättning av psykologiska test diskuteras inom urval och rekrytering. De företag som är öppna och transparenta hur bedömningsmetoder kommer att användas är vinnare, förlorare är de företag som säger sig använda artificiell intelligens etc etc och ej kan visa på hur det fungerar och/eller inte informera kandidaten om ”vad som pågår”. Sammantaget kan detta gynna de som söker arbete.

Dela detta inlägg

Rekryteringspodden om Evidensbaserat urval™

Anders SjöbergUrvalsbeslutSkriv en kommentar

Jag blev inbjuden av Rekryteringspodden och Josefin Malmer. Det blev ca 30 minuters prat om ISO10667, psykologiska test, intelligens, personlighet, nyttoberäkningar, transparens i bedömningen, kompetensträsket och en hel del annat som har med urval att göra.

Tack Josefin för förtroendet och förhoppningsvis kan detta leda fram till bättre bedömningar. Om ni vill lära er mer om Evidensbaserat urval™, se information om vårens och höstens utbildningar. KLICKA HÄR

Om ni vill lyssna på intervjun KLICKA HÄR.

Trevlig valborg

Anders

Dela detta inlägg

SIOP 2018 dag 2 och 3

Anders SjöbergUrvalsbeslut3 Comments

SIOP 2018 är historia nu och jag ska försöka sammanfatta vad jag tycker har varit höjdpunkterna under dag 2 och 3.

 

Flera av de seminarier jag varit på har handlat om intervjuer och beslutsfattande. Intervjun är den i särklass mest använda metoden i rekrytering och urval. I stort sett alla jag träffar använder intervjuar innan anställningsbeslutet. Vi vet också från forskningen att standardiserade intervjuer där frågorna är situations och/eller beteende inriktade samt att samma frågor ställs till alla kandidater slår mindre strukturerade frågor. Men även om vi använder evidensbaserade frågor så finns det ju en felkälla som vi måste ha koll på; kandidaten. 

Det har visat sig att kandidaten kan förställa sig på fyra olika sätt.

  1. Mindre image-förbättring (exempel, jag har arbetat fyra år med dessa uppgifter, medan sanningen är 2 år).
  2. Stor image-förbättring (Min kompetens är mycket god inom det statistiska området ….Sanningen är jag har kört på varje statistik tenta genom hela utbildningen).
  3. Inställsam image-förbättring (Jag tycker att både du som intervjuare och detta företag andas kompetens, medan sanningen är att jag inte vet, utan jag säger det för jag vill ha jobbet)
  4. Undanhållande av negativ information (I mitt senaste arbete fick jag hela tiden veta att av både chefer och medarbetare att jag var slarvig, detta är inget jag säger).

Ovan förbättring av image vet vi från forskning används ganska ofta, intervjuaren upptäcker det ytterst sällan. Förbättringen av imagen kan påverka arbetsprestationen både positivt och negativt (resultaten något oklara) men ökar helt klart sannolikheten för kontraproduktiva beteenden på arbetsplatsen. Om den som är ”bättre på att förbättra imagen” får jobbet före någon som inte gör det handlar det inte om diskriminering men betraktas av de flesta som en ”orättvis rekrytering” som kan få negativa konskekvenser för arbetsgivaren i form av större sannolikhet att indviden gör ”dumma” saker på arbetet.

Vilka omständigheter påverkar ett beteende av ”image förbättring” hos kandidaten? Svar, motivation, kapacitet och möjlighet. Det har visat sig att det är framförallt motivation samt individuella skillnader i personlighet som avgör snarare än situationen, förmodligen för att det alltid finns möjlighet att förbättra sin image i intervjun. Det finns de som mer eller mindre förställer sig hela tiden och de som sällan gör det och de allra flesta gör det ibland. Den samlande forskningen visar det som är gemensamt för dessas personer är att de har en inställning att ”detta gör alla andra också”, de har en ytterst tävlingsinriktad inställning när de söker jobb, de har narcisistiska psykopatiska drag (älskar sig själva och har låg grad av empati och förståelse för hur andra människor reagerar). Studierna som presenterades på SIOP visade tydligt att de som har dessa drag anställs i högre grad i jämförelse med de som är ärliga i intervjun.

Ett sätt att minska effekten av att många försöker framhäva sig själva är naturligtvis att hålla sig till strukturerade intervjuer. Kevin P. Nolan presenterade resultat som pekar på varför rekryterare inte använder strukturerade intervjuer. I den första studien visade Kevin och hans kollegor att uppdragsgivaren (kunden) som anlitade rekryteraren attribuerade den lyckade rekryteringen till rekryterarens unika förmåga om hen var mindre strukturerad. I den andra studien visade forskarna att kunden upplever rekryteraren som mindre kompetent om hen använder standardiserade metoder. Dessa resultat pekar onekligen på trögheten i systemet, när upplevelsen hos uppdragsgivaren är negativ när leverantören föreslår mer valida metoder.

Under dessa dagar hann jag också med att ha ett möte med SIOP Professional Series Editor Group där vi diskuterade kommande bokprojekt. Bland många bra uppslag gillar jag idén att skriva en bok som kan vägleda unga människor som är intresserade att arbeta med arbets- och organisationspsykologi. Framförallt vilka kompetenser som behövs, och vilka kompletteringar förutom kunskap i psykologi som behövs för att trivas och lyckas i arbetet. SIOP Professional Series group, som bara består av USA baserade psykologer förutom jag, var naturligtvis intresserade av det svenska systemet där blivande arbetspsykologer även ”måste” läsa klinisk psykologi, detta tycker de är jättekonstigt. I USA finns det en mängd olika vägar för att bli yrkesaktiv inom detta område, dock är ett måste i USA att doktorera i ämnet (ta sin PhD). 

En halv dag på SIOP ägnade jag tid åt att undersöka vilka nya typer av statistiska/psykometriska metoder som används i forskningen men också hur amerikanska universitet resonerar vilka program som arbetspsykologer behöver kunna för att lyckas i sitt arbete som forskare/praktiker. Det står helt klart att program som SPSS (som vi använder i Sverige i undervisning på alla nivåer) slängs ut från universiteten. I stort sätt alla personer på SIOP 2018 under 30 år som presenterade sina resultat använder R (ett gratisprogram som funkar på både PC och Mac). Det fanns över 15 tillfällen under SIOP att lära sig mer om R. Analyser som maskininlärning och meta analyser introducerades i R under dessa dagar. Ett intressant seminarie jag var på handlade om cronbach alpha som har använts sedan 50-talet som ett mått på reliabilitet. Det är dags att slänga ut cronbach alpha som ett tecken på reliabillitet. Forskarna visade att cronbach alpha lanserades på 50-talet som en ”genväg” eller förenkling eftersom datorer inte fanns tillgängliga. Idag kan de ”riktiga” måtten beräknas i R. Ni som är intresserade kan ladda ned psych (A package for personality, psychometric, and psychological research). Så sluta med SPSS, det är dags att gå vidare.

Ett annat ämne som togs upp vid flera tillfällen under SIOP var det faktum att många forskare ”fiskar” efter resultat. Istället för att från början veta vilka frågeställningar som ska besvaras eller vilka hypoteser som ska testas samlas data in där forskarna ”letar” efter signifikanta resultat, formulerar sedan sin hypotes och publicerar sedan sin artikel. Idag kan man med moderna statistiska metoder räkna ut hur stor andel av publicerade studier som är ”osannolika”. Detta har lett till att många anser att vi forskare står inför en enorm trovärdighetskris om vi inte kan vara oberoende i vår kunskapsinhämtning. Kan bara hålla med om att inom en hel del forskning som jag kommer i kontakt med kan man ”misstänka” att det inte gått rätt till. En drivande kraft är att publicera sig så snabbt som möjligt och att tidsskrifterna hela tiden letar efter “nya” resultat. Det som behövs många gånger istället är att replikera tidigare resultat. Som jag säger till mina studenter, börja aldrig analysera dina resultat innan du är 100% säker på vilka frågor du ska besvara. Detta leder till att många av mina studenter inte finner ”signifikanta” resultat vilket gör dem nedslående. Nej, helt fel, icke signifikanta resultat är lika intressanta som signifikanta resultat.

Sammanfattning av tre dagar på SIOP

Årets konferens håller jag bland de fyra bästa jag varit på. Intressanta tal och själv träffade jag  bedömnings-distributörer inom urval som kan vittna om att branschen har förändrats och kommer förändras ännu snabbare i framtiden. Den största anledningen till detta är att aktörer på marknaden köper upp mindre företag, det sorgliga är att de som sitter i ledningsgrupper inte längre har någon forskningsbakgrund. Det är bara att titta på företag i Sverige, kolla upp själva får ni se hur många i ledningsgruppen för testföretag som har en Phd. Idag är det kundens upplevelse som styr vilka metoder som används. Utan en bakgrund inom forskningen är det svårt att vägleda kunderna hur de ska göra. Inom forskningen kallas detta fenomen för Illusion of understanding, dvs folk tror att de förstår komplexa fenomen i högre utsträckning än vad de faktum gör. Detta gör att kunder ofta övervärderar produktens effektivitet. Tänk er utbildare i psykologisk testning som ej förstår vad en valideringsstudie är, hur ska denna utbildare lära kunder vad en produkt kan och inte kan göra (återigen är kompetensmodeller inom personlighetstestning ett bra exempel på en kraftigt övervärderad produkt).

På tal om detta, så fanns det knappt något om dessa kompetensmodeller på SIOP 2018, ett mycket gott tecken tycker jag är att forskningen verkar ganska klar på detta område, kompetensmodeller inom personlighetstestning funkar inte.

Så tack för en bra konferens, och det är bara att ladda för nästa års SIOP 2019 April 4 – 6; National Harbor, Fort Washington, Maryland, at the Gaylord National (south of Washington, D.C. on the Potomac River).

Vi ses i Washington

Anders

 

Dela detta inlägg

SIOP dag 1

Anders SjöbergUrvalsbeslutSkriv en kommentar

Första dagen bjöd på intressanta seminarier på SIOP 2018. Efter öppningsceremonin träffade jag ett gäng från Sverige där vi planerade första dagen. Eftersom det är många parallella seminarier är det omöjligt att täcka alla ensam. Efter mötet blev min dag den här.

Första seminariet var en sk keynote av professor Thomas J. Bouchard. Bouchard är känd för sina studier av tvillingar, särskilt som en del av Minnesota Study of Twins Reared Apart (MISTRA). Detta arbete har inkluderat fallstudier, longitudinella studier och meta-analyser. Dessa studier visar att gener spelar en betydande för psykologiska variabler som tex personlighet och intelligens. Bouchards titel var Finding Out How Things Work: Using strong inference strategies recommended. Bouchard  argument genom 1.30 timmes tal var att om forskare ska testa sina hypoteser kräver det ett öppet sinne och acceptera det resultat forskaren finner. Bouchard är kritisk hur forskarvärlden agerat när han och hans kollegor funnit att alla psykologiska faktorer (tillsammans med medicinska variabler) har en ärftlig komponent. Och denna ärftliga komponent har bara större och större inverkan ju äldre du blir. Detta fakta bygger på ”strong inference strategies” dvs att alla resultat MÅSTE upprepas upprepas och åter upprepas. ”Finding Out How Things Work” i detta fall är att oftast är ärftlighetskomponenten minst lika stor i jämförelse med situationskomponenten när det gäller psykologiska variabler, och i många fall större.

Bouchard visade på många exempel som verkligen stödjer denna hypotes. Han gick så långt, i ett ovanligt känslomässigt tal för att vara på SIOP, att hans resultat ej accepterats av stora delar av forskningssamhället. Istället har olika (läs politiskt korrekta) situationsargument vunnit över ärftlighetshypotesen. Även om jag inte lärde mig något nytt av Bouchards tal (har läst många av hans forskningsartiklar) var detta en riktig höjdare. Att höra en människa kämpa ganska ensam mot ett forskningssamhälle som inte vill lyssna på bra forskning. Jag kan vittna själv att detta är ett faktum även idag. När jag ibland pekar på Bouchard forskning, som är så tydlig, skrattar man åt det och säger, det är inte sant. Det är faktiskt skrämmande, bara för att ärftligheten hos oss har stor inverkan (du kommer likna dina föräldrar mer och mer ju äldre du blir), betyder det inte att ärftlighetskomponenten kommer försvinna och få konsekvenser för en hel del i vårt vardagliga liv, inte minst i arbetslivet, allt från stressreaktioner och prestation. Om du vill läsa mer om denna skandal att man ”mörkar” resultat rekommenderar jag att läsa denna artikel av ingen mindre än Frank Schmidt. Ladda ned här

Andra seminariet jag valde att vara på var ett seminarium om sk deeplearning. Detta är en del av området maskininlärning inom artificiell intelligens (AI). Deeplearning är baserad på en uppsättning algoritmer som försöker modellera abstraktioner i data på hög nivå genom att använda många processlager med komplexa strukturer, bestående av många linjära och icke-linjära transformationer. Precis, liksom Ni är jag inte den som kan förstå detta. Men här ska jag försöka förklara det i alla fall. Tänk dig att du inte ens vet vad som orsakar något, men har en stor mängd data, deeplearning algoritmer kan hjälpa oss att strukturera upp all data, data kan vara tal, text, bilder, ljud, ljus, medicinska variabler, psykologiska variabler samt hjälpa oss att förstå vad som förutsäger vad. Idag har deeplearning ingen praktisk betydelse för vårt område inom psykologin, själva ansatsen tar ej hänsyn till varken etiska principer eller lagar. Eftersom deeplearning är en del av AI, det kommer att påverka vårt samhälle hur det kommer påverka bedömningar inom arbetslivet är för mig oklart får mig och många andra, men det kommer vara ytterst intressant att följa utvecklingen.

Nästa händelse var en intervju med Nancy Tippins. Nancy har jobbat i många år både som akademiker och praktiker inom området bedömningstjänster i arbetslivet. I denna intervju fick Nancy berätta hur hon började som student bli intresserad av hur psykologin kan tillämpas i arbetslivet. Förutom att ha varit anställd på företag som IBM, Exxon, Valtera och CEB har hon samtidigt drivit akademisk forskning som hela tiden varit inriktat mot tillämpning. Själv har jag arbetat tillsammans med Nancy i några internationella projekt, förutom att hon är extremt duktig person så har hon en ödmjukhet som imponerar. I slutet av denna ”session” fick publiken ställa frågor. Eftersom Nancy under många år har arbetat med bedömningar i arbetslivet undrade många vad hon tycke om den senaste utvecklingen när stora företag utan psykologisk kompetens köper upp mindre företag som har en gedigen psykologisk kompetens på området. Nancy var politiskt korrekt och pratade om fördelar och nackdelar av detta. Men det blev helt klart för mig att många inom den ”seriösa” branschen är oroliga över att företagsledningar tar beslut som EJ har kunskap om sunda bedömningsmetoder. Ytterst intressant seminarium som jag tar med mig hem.

Avslutningen på dagen handlade om psykometri och reliabilitet. Ett begrepp som många av er kanske har hört talas om som på något sätt kommit i kontakt med ett psykologiskt test är; Cronbach Alpha. Efter detta seminarie kan man konstatera att alla vi som beräknar detta borde skämmas, denna formel från 50-talet var en konsekvens av att det inte fanns datorer som kunde beräkna reliabilitet på ett kostnadseffektivt sätt. Jag kan bara hålla med talarna, det är dags att sluta undervisa cronbach alpha på våra utbildningar på universitetet, kasta ut SPSS som ett datorprogram och introducera R (ett gratisprogram) som kan beräkna reliabilitet på ett adekvat sätt.

Efter första dagen känner jag mig nöjd, har varit bra kvalitet.

Dela detta inlägg

The 33rd Annual Conference of the Society for Industrial and Organizational Psychology

Anders SjöbergUrvalsbeslutSkriv en kommentar

Nu har jag precis landat på den årliga SIOP konferensen (The 33rd Annual Conference of the Society for Industrial and Organizational Psychology), denna gång i Chicago. Jag har varit ca 12 gånger på konferensen (har inte riktigt koll), och vid flera tillfällen har det varit höjdpunkter i mitt arbetsliv. SIOP har givit mig och mina kollegor bra uppslag till testutveckling. Men ibland har det varit mindre bra, förmodligen för att de områden som jag själv fokuserat på; psykometri, urval, personlighet och intelligens inte alltid varit huvudnummer på konferensen.

När jag nu läser årets program (ladda ned här program2018) tycker jag det är en hel del intressant på årets konferens. Naturligtvis kommer jag skriva på Psychometrics om konferensen under veckan för er läsare (bevaka gärna @psychometricSWE på Twitter). Har själv inget annat bokat än ett Editor möte med SIOP:s Professional Book Series, där vi ska spåna om intressanta författare och ämnen för senare utgivning, förhoppningsvis. 

Detta är några av seminarierna jag ska bevaka under torsdagen. 

39. Special Event: 10:30AM–11:50AM Sheraton 1.

Dunnette Prize Winner Address: Thomas J. Bouchard, Jr. Finding Out How Things Work: Using strong inference strategies recommended by Dunnette (1966), Dr. Bouchard presents a new 4-stratum model of the structure of mental abilities, followed by briefer discussions of work in the domains of personality, occupational interests, and social attitudes. This work is then tied together with a meta-theory (Experience Producing Drive Theory) based on genetics, evolution, and learning. See http://www.siop.org/Conferences/ 18con/Dunnette.aspx for more information.

Thomas J. Bouchard, Jr., University of Minnesota (Emeritus)

Jeffrey J. McHenry, Rainier Leadership Solutions, Host

Submitted by Jeffrey J. McHenry, jeff.mchenry@rainierleadership.com

52. Poster: 11:30AM–12:20PM Riverwalk

Is There a g  in Gunslinger?: Cognitive/Personality Predictors of Firearms Proficiency. This study addressed a gap in the research literature looking at the validity of cognitive ability and personality in predicting firearms/shooting range performance, an entirely objective task-based criterion. Using 4 datasets, g and logical reasoning had operational validities of .162–.254. Conscientiousness had a negative operational validity (-.079) and EmotionalStability lacked validity.

Jeffrey M. Cucina, U.S. Customs and Border Protection

Kim Wilson, U.S. Customs and Border Protection

Theodore L. Hayes, U.S. Department of Justice

Philip T. Walmsley, U.S. Customs and Border Protection

Submitted by Jeffrey M. Cucina, jcucina@gmail.com

 

177. Panel Discussion: 1:30PM–2:50PM Streeterville

Applications of Artificial Intelligence by Practitioners

I-Os are now in the midst of an artifi cial intelligence (AI) revolution with the rapid proliferation of AI products and services being offered to organizations. Panelists will discuss how AI is being applied in the areas of hiring, training, customer service, performance management, diversity, employee surveys, and employee wellness. The benefits and precautions of AI will be debated.

Romella J. El Kharzazi, Equal Employment Opportunity Commission, Panelist

Benjamin J. Taylor, Ziff, Panelist

Alex Zhavoronkov, Insilico Medicine, Panelist

Sara P. Weiner, Glint, Panelist

Mark Vickers, HR.com, Panelist

Brock Dubbels, McMaster University, Panelist

Submitted by Romella J. El Kharzazi, me@romella.xyz

 

186. Panel Discussion: 3:30PM–4:20PM Erie

“The Why” of Validation: Practitioner’s Guide to Wooing

Those Who Couldn’t Care Less Proposing traditional validation studies with supervisory performance ratings pose challenges. Although they meet legal requirements, they oftenfall short in showcasing the impact of the selection system on “the realwork.” This panel will discuss strategies for communicating “the why” behind programmatic validation research, balancing legal requirements with business outcomes.

Brett M. Wells, Talent Plus, Inc., Co-Chair

Kristina R. Barr, CEB, now Gartner, Co-Chair

Christopher J. L. Cunningham, University of Tennessee at Chattanooga/

Logi-Serve, Panelist

Dara Drescher, CEB, now Gartner, Panelist

David B. Schmidt, DDI, Panelist

Tracey Tafero, Amazon, Panelist

Submitted by Brett M. Wells, brwells@talentplus.com

 

Dela detta inlägg

Normering av arbetspsykologiska test: En introduktion

Anders SjöbergUrvalsbeslutSkriv en kommentar

Allt som oftast så tolkas ett testresultat på ett psykologiskt test för en individ i förhållande till hur andra svarat på ett test. Förfarandet vid testutveckling benämns normering. För normeringen av testresultat behövs en normgrupp. För normgruppen beräknas ett medelvärde och en standardavvikelse (spridning). Dessa två värden fungerar sedan som referenspunkt för individens resultat. En vanlig fråga jag får är hur normer ska bedömas och användas vid arbetspsykologisk testning? Nedan försöker jag bringa klarhet i frågeställningen, behövs det normgrupper vid testning? Svaret är både JA och NEJ.

Först en definition:

”de åtgärder som direkt syftar till att möjliggöra för användaren av testet att jämföra det enskilda testresultatet med resultaten i en referensgrupp, det vill säga en normgrupp. I normeringen ingår således definition och urval av normgrupper, beräkning av medeltal och standardavvikelser i råpoängsfördelningarna för normgrupper, transformering av råpoängskalor till Z-poäng samt upprättande av standardiserade poäng (tex stanine, T-poäng, C-poäng). Normeringen av ett test är ett led i standardiseringen av testet”

Normeringen av test kan se olika ut för olika typer av test, men här kommer jag fokusera på personlighetstest. Men innan vi går in på själva normgruppens betydelse för användningen av resultat måste först syftet med testningen bestämmas, och det finns två olika sätt att använda personlighetstest på, ett beskrivande syfte och ett prognostisk syfte. När ett test används i beskrivande syfte är ”tolkningen” av testpoängen i fokus, ett exempel kan vara när testpoängen användas som underlag för personlig utveckling. I det prognostiska syftet ska testpoängen användas för att säga något om hur individens kommer agera i framtiden, ett exempel är när rekryteraren ska välja mellan ett antal personer om vem som ska rekommenderas till den nya chefspositionen.

Beskrivande syfte

Personlighetstest genererar information av beskrivande karaktär. Individens egenskaper uttrycks i en standardiserad testpoäng (se ovan) vars nivå bestäms i förhållande till en relevant jämförelsegrupp, en så kallad normgrupp för att poängen ska bli meningsfulla och begripliga för testadministratörer och testpersoner. En normgrupp som motsvarar en population kan beskrivas som en grupp människor som också besvarat frågorna i testet och som är representativ för populationen beträffande relevanta variabler, som tex ålder, kön och utbildningsnivå. För testtagaren blir jämförelsen med tillhörande beskrivning begriplig när den görs i förhållande till ”andra” personer. Traditionellt handlar det beskrivande syftet om begreppsvaliditet, dvs individens resultat ska spegla den personlighetsfaktor som antas bedömas.

Prognostiskt syfte

I det prognostiska syftet ska testpoängen ställas i relation den kriterierelaterade validiteten, dvs sambandet mellan testpoäng och det kriterie som ska förutsägas, tex arbetsprestation. Även om normgruppen är tillräckligt stor och representativ så är det oväsentligt om inte sambandet mellan testpoängen och kriteriet kan bekräftas genom empiriska studier. Behövs en normgrupp även för detta syfte,? Svaret är både JA och NEJ. Om syftet endast är att rangordna kandidater på en given egenskap behövs EJ en normgrupp, det går lika bra att bara summera alla svar på en skala och ta de som ligger på högsta poängen (om sambandet mellan testpoäng och kriterie är positivt). Men så fort det beskrivande syftet kommer in i bilden, tex när återkoppling till testtagaren ska ske efter genomförd bedömning behövs en normgrupp för att relativisera resultatet i förhållande till ”andra” personer.

Tolkning av psykologiska test och normering av test

Psykologiska test har funnits länge långt innan datorer, surfplattor och mobiltelefoner inträdande i vårt liv. Vid de första normeringarna av psykologiska användes papper och penna. En stor mängd personer fick besvara testet och sedan beräknades ett medelvärde och en standardavvikelse (spridning) för gruppen. Denna nivå och spridning kunde sedan jämföras mot individens resultat. Psykologen (som endast var tillåten att administrera dessa test på den tiden) tolkade sedan resultatet med hjälp av normgruppens resultat. På den tiden fanns inte standardiserade återkopplingstexter utan det var psykologen själv som var ansvarig att tolka resultatet. Den sk kliniska tolkningen i arbetspsykologiska sammanhang populariserade av psykologen Arne Trankell på 60-talet, då professor vid Stockholms universitet. Trankell var ansvarig för att psykologens tolkning var central när stridspiloter skulle väljas, ut. Eftersom militären alltid har varit central för utvecklingen av urvalsprocesser tog det inte lång tid innan övriga arbetslivet tog kunskapen till sig, psykologiska test på den tiden tolkades av psykologen i beskrivande syfte, även när syftet är prognostiskt. Trankell hade således inte koll på skillnaden mellan prognos och beskrivning.

Idag vet vi bättre, forskning visar tydligt att användandet av psykologiska test ska vara så standardiserad som möjligt utan inblandningen av tolkaren, särskilt för det prognostiska syftet. Så fort tolkaren är inblandad i tolkningen försämras både begrepps-och kriterierelaterade validiteten för testpoängen. Att testadministratören lägger sig i hur testpoängen ska tolkas är ett mycket större problem i jämförelse med vilken normgrupp som används. Att marknaden fortfarande betalar för att någon ska tolka testpoängen i rekryteringssammanhang (prognostisk syfte) är en gåta för mig, min rekommendation är att sluta betala för detta.

Normgruppen

Fram till 90-talet publicerades normer i form av normtabeller i manualer, idag publiceras inte normer utan resultatet finns i web-plattformen. När detta fungerar bra representerar normgruppen avsedd population där låga respektive höga testpoäng resulterar i en standardiserad rapport som väl beskriver personens test resultat. Men att ett personlighetstest har förmågan att ge en övergripande och/eller detaljerad beskrivning av en individs personlighet kan vara relevant men detta ska inte förväxlas med, och det ska inte per automatik antas, att testpoöngen har en prognostisk kapacitet (se ovan).

Om det finns möjlighet att samla data från hela populationen, tex hela sveriges befolkning, så skulle detta vara det absolut bästa sättet. Då skulle medelvärdet och standardavvikelsen representera ”sanna” värden. Det näst bästa sättet är att ta ett slumpmässigt stickprov från normalpopulationen (hela Norge), det skulle också representera ett ”sant” värde (med en viss felmarginal) givet att alla tillfrågade svarar på testet.

Men dessa förfaringssätt är väldigt tidskrävande och dyra att genomföra, även om det förekommer ibland. Iställer använder sig leverantörer av test sig av den data de har samlat in i sin egen webplattform.
Det är därför sällan som en testpoäng talar om för oss hur personen förhåller sig till ”folk i allmänhet”. Istället säger testpoängen hur resultatet förhåller sig till en liknande grupp personer som söker liknande arbete.

Vi kan ta ett exempel, om du som kandidat får ett medelpoäng på skalan emotionell stabilitet och normgruppen är representativ för hela befolkning ligger du på medelvärdet. Men utgör normgruppen istället av chefskandidater så utgör medelvärdet sannolikt en underskattning av din emotionella stabilitet, då chefer i allmänhet brukar ligga nästa 1.5 SD över medelvärdet i populationen. Detta utgör således det beskrivande syftet, om du istället är testadministratör och ska välja de som har högst emotionell stabilitet så spelar inte normgruppen någon som helst roll, du väljer den som har högst poäng (se ovan).

Problemet med normgrupper idag är att testleverantörer inte längre tar kostnaden att genomföra stickprovs normeringar på normalpopulationen. Även om jag har förståelse för att det utgör en mängd problem att genomföra en bra normering skulle mycket lösas om det genomfördes i större utsträckning än vad det görs idag. Rekommendationen att använda en normgrupp som representerar normalpopulationen betyder inte att jämförelser med andra grupper aldrig kan vara informativa eller låter sig göras utan betyder enbart att den grundläggande beskrivningen av en testperson alltid bör göras i förhållande till en normalpopulation. Individens absoluta resultatbeskrivning behålls på så sätt intakt och både testtagare och testadministratör undviker en förvirrande diskussion av karaktären ”men är jag extravert eller inte?” som en konsekvens av att man byter normgrupp mellan rapporter, mellan testtillfällen eller använder olika test och metoder med olika typer av normgrupper. Efter en beskrivning av individs personlighet är det vanligtvis lättare att bygga på med att relatera individens resultat med andra, för syftet relevanta grupper.

Jag kan försvara att testleverantörer använder den data de får in, fördelen med detta förfarande är att det med dagens teknik går det att i realtid uppdatera normer, och att normgrupperna blir stora. Har själv normerat test med över 200 000 testningar vilket gör att resultaten blir ytterst stabila, men på bekostnad av att resultatet inte kan generaliseras till normalpopulationen, för det beskrivande syftet.

Konsekvensen att testleverantörer inte normerar mot normalpopulation tillsammans att testadministratörer blandar ihop beskrivande- med prognostisk syfte med testningen gör att förvirring blir stor. Det faktum att ett vanligt förfarande är att uppdragsgivaren ber en leverantör av en personbedömning att rekommendera några få sökande. Istället för att på förhand bestämma hur testpoäng ska vägas ihop (Evidensbaserat urval) utan en mänsklig tolkare, använder leverantören testpoängen som ett diskussionsunderlag i den stundande djupintervjun. Uppdragsgivaren litar på ”experten”, dvs tolkaren av testpoängen, och på det sättet blandas det beskrivande syftet ihop med det prognostiska syftet. Över tid blir tolkaren, inte bara kär i sitt test, utan också i sin normgrupp. Hela referensramen ändras för experten om en poäng ändras vid en normuppdatering. Som en expert sa till mig, ”jag har en känsla av vad en 7:a betyder”.

Det är också viktigt att normerna, oavsett om det är från normalpopulation eller inte, är insamlat på ”rätt” språk. Det är inte ovanligt att normerna är insamlade på ett språk för att sedan användas på andra språkversioner. Det finns två felkällor i detta. Den första felkänslan är språket, dvs lydelsen i fråga på ett språk kan skilja sig från lydelsen i det andra språket. Den andra felkänslan är kulturen, dvs olika regioner där folk testas har olika personlighet. En kollega till mig Dave Bartram, anställd hos dåvarande SHL, visade mig att skillnaden i standardiserade poäng (Sten poäng, 1-10) mellan språkversioner i testet OPQ kan variera upp till 15% mellan språkversioner. Detta betyder att en 3 på en skala för ett språk kan betyda en 6 för ett annat språk, vilket gör det knepigt att uttala sig en persons absoluta nivå på tex en skala som mäter emotionell stabilitet.

Nedan är uppgifter man bör ha koll på avseende normgruppen:

  • En fullständig beskrivning av hur normgruppen samlats in (normalpopulation eller inte)
  • En fullständig beskrivning av bakgrundsinformation om de personer som ingår i normgruppen (tex ålder, kön, utbildningsnivå). Om testleverantören använder sig av egen databas ska det tydligt framgå vilka yrken, arbetsroller som testtagarna sökt.
  • Reliabilitet för varje testpoäng (när testpoängen används för beskrivande syfte)
  • Reliabilitet för varje testpoäng (när testpoängen används för prognostiskt syfte)
  • Validitet för varje testpoäng (när testpoängen används för beskrivande syfte)
  • Validitet för varje testpoäng (när testpoängen används för prognostiskt syfte)
  • Rekommendation hur testpoängen ska användas för både beskrivande- och prognostiskt syfte
    Medel, standardavvikelse för varje testpoäng
  • Samband mellan kön, ålder, utbildningsnivå för respektive testpoäng.
  • En beskrivning hur den standardiserade texten förhåller sig till normgruppen
  • Eventuell skillnad mellan tidigare normgrupp och den nya normgruppen
  • Varje språkversion ska ha normer som baseras på att personerna som genomfört testet har det språket som hemspråk. OBS använd aldrig enbart andra språkversioners normgrupp (tex använd ej svenska normer när testpersonerna testats på andra språk).

Nedan är rekommendationer för användning testpoängen

  • Undvik matchningsförfarande, sk kompetensmodeller (oftast uttryckt i %), dessa resultat är betydligt mindre reliabla i förhållande till den standardiserade poängen, vilket gör att normerna inte går ”att lita på” även om de kommer från en normalpopulation.
  • Undvik gränsvärden, att använda gränsvärden på enskilda skalor är ytterst känsligt för vilken normgrupp som används. Vid byte av normgrupp måste alltid gränsvärdena beräknas om. Om det finns gränsvärden ska det finnas en rational varför just detta gränsvärde.
  • Undvik att experten tolkar testresultatet, genom att experten tolkar resultatet själv byggs flera felkällor in i den standardiserade poängen som inte behöver ha med normgruppen att göra.
  • Används algoritmer för att ta beslut av fler än en testpoäng (Evidensbaserat urval)
  • Används algoritmer för att ta beslut av fler än en testpoäng tillsammans med annan information, tex intervju (Evidensbaserat urval)

Om du vill lära dig mer om stickprov och normgrupper rekommenderar jag att läsa 

Mabon, H (2014). Arbetspsykologisk testning. Stockholm. Assessio. ISBN 978-91-7418-366-5. Artikelnummer 778-000.

Dela detta inlägg

En liten bok om Person Urval

Anders SjöbergUrvalsbeslutSkriv en kommentar

Det är sparsamt med bra böcker om urval på svenska. Boken Arbetspsykologisk testning av Hunter Mabon har jag tidigare rekommenderat som standardverk för alla som är intresserade av testning i arbetssammanhang. Men nu har det kommit ytterligare bok i ämnet som jag varmt kan rekommendera, det är Christopher Svensson som skrivit ”En liten bok om Person Urval”.

Boken, i sitt begränsade format, delas upp i 5 kapitel.

  1. Effektivt personurval
  2. Att vara mest lämpad för tjänsten
  3. Urvalsmetoder
  4. Effektiva urvalsmetoder
  5. Välgrundade urvalsbeslut

Det jag gillar med boken är att Christopher lyckas med att på ett pedagogiskt sätt förklara för läsaren hur det går att koppla forskning med praktik. Inför varje del i boken ger Christopher levande exempel som får läsaren att förstå hur illa det idag går till i många urvalsprocesser och hur rekryteraren med tämligen enkla medel kan effektivisera sin urvalsprocess. För den intresserade finns även en gedigen referenslista efter varje kapitel.

Detta är den första boken jag läst på svenska som inte innehåller ett enda faktafel, respekt Christopher. Inte heller tar boken upp mysko kompetensmodeller och matchning av resultat, befriande.

Denna bok kommer att finnas som kompletterande kurslitteratur på flera av mina kurser. För dig som är praktiker och inte gillar att läsa forskningsartiklar är “En liten bok om Person Urval” ett måste. För mig som är nörd på forskning är det en bok att ge till alla som undrar vad jag håller på med.

Beställ här

 

Dela detta inlägg