Psychometrics Sweden & Assessment Engine

Vilket begåvningstest ska användas när arbetsprestation ska förutsägas? Ny avhandling försöker ge svar

I en färsk avhandling presenteras intressanta resultat avseende olika typer av begåvningstest. Det är Bennet Eugene Postlethwaite som har samlat alla publicerade studier genom åren som undersökt begåvningspoängens prediktiva kraft till olika kriterier, var av ett kriterie är arbetsprestation.

Vad vi vet innan är att begåvningstest, ofta lite slarvigt definieras som generella intelligens test (g), vilka förutsäger arbetsprestation, men denna avhandling tar frågeställningen vidare och visar hur olika typer av test skiljer sig åt i prediktionskraft. Författaren delar in begåvningstesten i tre olika typer av test; Gf (fluency), Gc (Crysstalized), GCA (General Cognitive Ability). Exempel på Gf test är det vi känner bäst i Sverige och Norge som Ravens Matriser, Matrigma och Bomat Advanced. Gc test kan vara kombinationer av synonymer, motsatser och språkliga analogier. Ett annat typ av Gc test är högskoleprovet (Sverige), eller olika typer av språktest. GCA är det vi kallar g test i Sverige, generella intelligens test med många olika slag av problemlösning, tex Instruktionsprovet, det militära inskrivningsprovet, Wechsler skalorna, BasIQ och Wonderlic.

Postlethwaites övergripande jämförande resultat visas här till vänster. Av resultatet går att utläsa att det, något överraskande, är Gc test (språklig buren information) som har den största prediktiva kraften. Författaren förklarar att resultatet kan bero på att Gc test handlar om vad man lär sig och att arbeta handlar om att lära sig jobbet. Som teoretiska förklaring används Cattells Investment Teori som postulerar att det är Gf som påverkar Gc och inte tvärtom. Gc blir då ett bra mått på vad du har lärt dig fram tills den tidpunkt när du gör testet, givet din medfödda nivå på Gf. Inlärning är viktig i arbetssammanhang, därför den relativt höga korrelatioen mellan Gc och arbetsprestation, menar författaren. Det finns argument också för att använda Gc test eftersom dessa inte diskriminerar äldre arbetssökande, det är väl känt att Gf sjunker med ålder medan Gc är stabilt eller ökar.

När sedan resultatet delas upp i låg, mellan, hög-komplexa arbeten ser resultatet ut så här (se grafen nedan). Gf test har en hög prediktiv kraft särskilt i hög-komplexa arbeten. Gc test har en jämnare fördelning, men fortfarande differentierande över komplexitetsgrad och GCA test visar ungefär samma resultat. Det bekräftar vad vi vet från tidigare forskning om arbetskomplexitet och dess modererande effekt på sambandet mellan begåvning och arbetsprestation, men detta resultat visar att det är särskilt Gf test som utmärks av denna effekt.

Den praktiska implikationen av detta är; när det gäller prediktiv kraft kan med fördel Gc test användas för att förutsäga arbetsprestation. Å andra sidan så förutsäger Gf test mycket väl arbetsprestation i hög-komplexa arbeten, men inte i låg komplexa arbeten. Fördelen att använda Gf test (icke verbala test) är naturligtvis att det inte krävs att testtagaren kan språket väl. Dessutom är det betydligt svårare att utveckla bra reliabla verbala test i jämförelser med Gf test. GCA har i princip samma prediktiva kraft i jämförelse med Gc test, att adminsitrera ett GCA test som på olika sätt mäter den generella intelligensen har en stor fördel eftersom det mäter det breda begreppet generell intelligens, nackdelen är att det tar ofta lite längre tid att administrera eftersom dessa test (tex BasIQ) ofta är mer omfattande i jämförelse med Gf och Gc test. Om leverantören av test rekommenderar ett Gc test bör leverantören kunna visa hög intern konsistens i testet (god reliabilitet), att det finns i likvärdigt psykometriskt sunda språkversioner, samt visa på god kriterierelaterad validitet.

Min rekommendation är att inte förlita sig enbart på test som mäter en problemlösningsförmåga, och att alltid inkludera någon typ av språklig problemlösningsförmåga i er bedömning. Var försiktiga att administrera endas Gf test (Matriser) för att fatta viktiga beslut. Det är förvisso ett rent mått på intelligens (som har en stark ärftlig komponent), men risken är att ni missar det som individen lärt sig fram till nu, en komponent som är väl så viktig att kartlägga för att förutsäga kommande arbetsprestation. Om rådet inte följs är risken att den prediktiva kraften förloras, särskilt i lågkomplexa arbeten.

Referens

”Fluid ability, crystallized ability, and performance across multiple domains: a meta-analysis.” dissertation, University of Iowa, 2011.

Avslutande Kommentar

Avhandlingen behandlar också akademisk framgång och ”training performance” där mönstret i resultatet liknar det som redovisas ovan.

Nya riktlinjer för testgranskning: THE EFPA REVIEW MODEL

När psykologiska test granskas i Europa används ”EFPA REVIEW MODEL FOR THE DESCRIPTION AND EVALUATION OF PSYCHOLOGICAL AND EDUCATIONAL TESTS” som kriterie för vad som ska granskas av de bedömare som genomför granskningen. En arbetsgrupp bestående av Arne Evers (chair, the Netherlands), Carmen Hagemeister (Germany), Andreas Høstmælingen (Norway), Patricia Lindley (UK) José Muñiz (Spain) och Anders Sjöberg (Sweden) presenterade en revision av de riktlinjer som gäller idag på ett möte i Bryssel förra veckan.

EFPA Board of Assessment som är den grupp som handskas med testrelaterade frågor röstade JA till att denna version kan gå ut på offentlig remiss i början av 2013. Förhoppningsvis kommer de nya riktlinjerna att gälla från hösten 2013. Även om de nya riktlinjerna bygger mycket på de gamla så är det några förändringar som bör poängteras. För det första så har ett längre avsnitt om validitet lagts till som förklarar ett ställningstagander att ett test inte isolerat kan valideras, utan måste sättas i relation till vilka beslut som ska tas efter att testpoängen räknats fram. För det andra har det tydliggjorts att de testförlag som säger att deras test går att användas för en mängd olika områden (utveckling, urval) behövs det mer bevis i jämförelse med förlag som säger att deras test är framtaget för ett syfte (urval inom försäljning). För det tredje har avsnittet om datagenerade tolkningsrapporter arbetats om, här bör granskningen inte bara titta på kvalieten i rapporterna utan också granska hur väl valideringsstudierna stödjer texten i datarapporten. Det går sålunda inte att komma undan med att redovisa en korrelation med ett kriterie om man inte också kan redovisa hur det hänger samman med vad som sägs i rapporten.

Ett längre avsnitt är nu ägnat åt en beskrivning vilka normer som använts och vilken rational som finns för hur dessa har räknats fram. Skrämmande många uppdragsgivare och leverantörer vet idag inte hur normerna räknats fram, vilket kan få vida konsekvenser vid beslutsfattande. På marknaden finns det företag som idag räknar fram särskilda normer för kunder (sk egna normer) som inte hänger ihop med resultatet som genereras av testsystemen.

När de nya riktlinjerna är klara får det konsekvenser för de organisationer som idag sköter testgranskningen i olika länder. I Norge är det Det Norskes Veritas (DNV) och i Sverige är det Stiftelsen för Tillämpad Psykologi (STP) som är ansvariga för att granska testkvaliteten. I England är det British Psychological Society (BPS) och i både Spanien och Nederländerna är respektive psykologförbund ansvariga för granskningen. Även om alla dessa länder har samma utgångspunkt, EFPA REVIEW MODEL, så är tillvägagångssättet vid granskningen olika. I Sverige och Norge får testförlag betala för att bli granskade, i övriga länder är det gratis. I Spanien och Nederländerna granskas alla typer av psykologiska test, i Norge och Sverige granskas bara test som används för arbetspsykologiska beslut.

Endast i Norge är den slutliga rapporten hemlig i den mening att det är det betalande förlaget som äger rapporten. I övriga länder är rapporten offentlig, i en del länder kostar det pengar att köpa rapporten i andra länder är det gratis. Endast i Norge och England godkänner eller underkänner man test, i övriga länder arbetar man efter den amerikanska modellen att granskarna beskriver kvaliteten i materialet och i valideringsstudierna. I Norge får testförlagen vara med och bestämma vilka som ska vara granskare, i Sverige utser STP granskare vars namn är anonyma.

Det är inte så av automatik att ett granskat test i ett land är granskat i andra länder, och det är inte heller riktlinjernas mål. Sålunda kommer inte test i framtiden godkännas eller underkännas av EFPA, det är upp till förbunden och marknaden i respektive land att bestämma hur riktlinjerna ska användas. I nästan alla länder görs och en anpassning av riktlinjerna, så faktum är att inte något land har samma system. Psychometrics meddelar i början av nästa år när riktlinjerna går ut på remiss, endast förslag som i texten är konkretiserade kommer att behandlas av arbetsgruppen. Innan riktlinjerna faststlås måste den nya modellen godkännas av ledningsgruppen i EFPA.

Urvalsgruppen kartlägger känslomässig stabilitet och arbetsglädje

Känslomässig stabilitet påverkar dig i ditt dagliga liv, inte minst ditt arbetsliv. Genom din känslomässiga stabilitet filtreras vad du i vardagen upplever. Även om din arbetsglädje påverkas av en mängd olika saker dagligen (en dålig chef, för hög belastning, hot om konkurs, taskiga arbetskamrater och för lång resväg till jobbet) spökar dina känslomässiga förutsättningar hur du upplever din chef, arbetskamrater och arbetsbelastning. Urvalsgruppen kommer titta närmare på detta när vi följt 83 anställda över fem år, kartlagt deras känslomässiga stabilitet och deras känslomässiga arbetsglädje.

Känslomässig stabilitet säger något om hur säker eller osäker en person är på sig själv, hur väl personen kan motstå impulser, på vilket sätt stress hanteras och vilken sinnesstämning personen i allmänhet har. En del personer blir lättare irriterade och frustrerade och är mer benägna att känna nedslagenhet och pessimistiskt tänkande. De stabila personerna däremot låter sig inte påverkas av yttre omständigheter och känner sig inte nedslagna av motgångar. Dessa personer ger ett intryck av att vara självständiga individer som tar vara på sig själva. Andra uppfattar dessa personer som jämna i humöret och utan skuldkänslor. De har en förmåga att motstå impulser och frestelser vilket gör att de sällan hamnar i problemfyllda situationer på jobbet på grund av förhastade eller behovsdrivna beslut.

Känslomässig stabilitet har visat sig i studier vara den faktor som bäst, av de fem breda personlightetsfaktorerna, som förutsäger senare arbetstrivsel. Redan på 30-talet fann man detta positiva samband, men sedan glömdes den forskningen bort. Inte förrän på 80-talet började den frågeställningen undersökas igen, denna forskningen sammanfattades i en meta-analys 2002. Resultatet visar att fyra av fem faktorer (Stabilitet, Extraversion, Sympatiskhet, Målmedvetenhet) visade sig ha en en positiv effekt på hur grad av arbetsglädje. Stabilitet hade den starkaste effekten på arbetstrivsel.

Urvalsgruppen vid Stockholm universitet, psykologiska institutionen, har följt 83 individer under 5 år, kartlagt deras känslomässiga stabilitet, mätt deras arbetstrivsel för att utröna hur den känslomässiga stabiliteten påverkar skillnaden i den inter-individuella utvecklingen av arbetstrivsel över tid (skillnaden mellan medarbetare), och den intra-indivudella utvecklingen av arbetsglädje (individernas förändring av arbetsglädje över tid), givet deras känslomässiga stabilitet när de anställdes. Resultatet kommer förhoppningsvis kunna presenteras redan i sommar vid den europeiska kongressen i psykologi som anordnas i Stockholm 2013.

Referenser

Fisher, V. E., & Hanna, J. V. (1931). The dissatisfied worker. New York: Macmillan.

Judge, T. A., Heller, D., & Mount, M. K. (2002). Five-factor model of personality and job satisfaction: A Meta-analysis. Journal of Applied Psychology, 87, 530-541

Staw, B. M., Bell, N. E., & Clausen, J. A. (1986). The dispositional approach to job attitudes: A lifetime longitudinal test. Administrative Science Quarterly, 31, 56–77.

Staw, B. M., & Ross, J. (1985). Stability in the midst of change: A dispositional approach to job attitudes. Journal of Applied Psychology, 70, 469–480.

Det lönar sig att vara snäll, eller?

Det går en våg i näringslivet på epitetet att det lönar sig att vara snäll och sympatisk i sitt arbete. Det skrivs böcker i ämnet, och företrädarna hävdar att klimatet kommer bli mer sympatiskt.

Sympatiskhet ingår också i den berömda fem faktormodellen som beskriver människan övergripande personlighetsstruktur. Denna dimension handlar om i vilken utsträckning vilken ”stil” en person har i sina relationer till andra. Vissa personer är varma, tillitsfulla, snälla, sympatiska och ivriga att hjälpa, andra är mer avvaktande och skeptiskt inställda till sin omgivning och antar lättare ett kritiskt synsätt mot andra människor. I faktorn brukar ibland även ingå egenskaper som ”ömsinthet kontra realism” och ”följsamhet kontra konkurrensinriktning”.

Lönar det då att vara snäll i sina relationer på arbetet? Nu har ett forskarteam i USA med Professor Timothy A Judge i spetsen undersökt detta i fyra separata studier. I inte mindre än tre separata studier undersökte Judge & Co personlighetens fem dimensioner och hur mycket personerna tjänade i månaden. Tillsammans med en mängd olika kontrollvariabler som också analyserades (komplexitet, ålder, status, ansvar, tidigare inkomst etc) är resultatet är tydligt. Att vara osympatisk syns i lönekuvertet, särkilt för män. Män som ligger en standardavvikelse under medelvärdet i sympatiskhet tjänar i snitt 18% mer än män som ligger en standardavvikelse över medelvärdet i sympatiskhet. För kvinnor lönar det också att vara tuffa mot andra, men där tjänar mindre följsamma kvinnor i snitt bara 5% mer än sina snällare medsystrar.

Högre utbildning, tidigare inkomst, status i arbetet och ansvar i arbete var andra faktorer som hade, inte förvånande, ett positivt samband med lönen. Andra personlighetsfaktorers inverkan på lönen visade på skiftande resultat. Enskilda analyser visade att målmedventenhet och emotionell stabilitet var svagt positivt relaterat till lön, medan det var svaga samband som inte gick att generalisera.

I den sista studien testade forskarna hypotesen att män som visar sin varma känsla (där kvinnor ofta har en fördel) inte i lika stor utsträckning bedöms som lämpliga för chefsposter, i jämförelse med sina medtävlare som visar mer av sin skeptiska inställning till andra människor. Indirekt testar denna studie om män som visar sin ”kvinnliga sida” straffas i urvalsprocessen till chefsposter.

Resultatet var tydligt män som visar sin sympatiska sida har inte samma chans att nå en chefsposition i jämförelse med de män som visar mindre värme i relationer till andra. Kvinnor då? Kvinnor som var mindre sympatiska vann över män som var sympatiska, men män verkar generellt ha en fördel till chefsposition.

OK, då kan vi försiktigt konstatera att det är en fördel i löneförhandlingen att vara lite tuffare, men vilka nackdelar har det att vara mindre omtyckt och snäll mot sina arbetskamrater. Ja, de som ligger lågt på sympatiskhet visade sig mindre nöjda med livet utanför jobbet, mer stressad. De hade också ett mindre nätverk och nära vänner. Så detta är medaljens baksida. Det verkar som att de som vinner lönekriget genom att bekräfta sin personlighet måste offra annat.

Så, att vara illa omtyckt av dina kollegor behöver inte vara en nackdel, sannolikheten att du så småningom kommer att ha högre lön än dina omtyckta sociala och varma vänner är ganska sannolik. Det har sin nackdel när det gäller välmående, stress och det social nätverket. Och för att få en chefsroll så bör män tona ned sina kvinnliga drag, annars förlorar både män och kvinnor mot sina osympatiska medtävlare.

Referens

Judge, T.A., Livingston, B.L., & Hurst, C. (2012). Do nice guys—and gals—really finish last? The joint effects of sex and agreeableness on income. Journal of Personality & Social Psychology, 102, 390-407.

Nu kan du följa inlägg på Psychometrics direkt i din mobiltelefon

Psychometrics kommer kontinuerligt uppdateras med senaste forskningsnyheter avseende bedömningstjänster i arbetslivet.

Genom att anmäla dig till höger kan du nu följa alla inlägg på Psychometrics direkt i din mobiltelefon. Varje nytt inlägg skickas direkt till alla som anmäler sig. Psychometrics kommer kontinuerligt uppdateras med senaste forskningsnyheter avseende bedömningstjänster i arbetslivet.

Anders

Rekommendation till testanvändare: Krångla inte till det

Validiteten beror på två saker, testets psykometriska kvalitet och användningen av testet. Den psykometriska (och även den teoretiska) kvaliteten ska redovisas i den tekniska manualen, i korthet ska det som teorin säger (ex, det finns tre faktorer) stödjas av den statistik (ex faktoranalys) som redovisas. Om testet sedan ska förutsäga arbetsprestation ska det framgå med önskvärd tydlighet hur bra testet är för detta syfte. Det som inte finns i manualen, finns det inte stöd för och därför ska inte testet användas för andra saker än det är avsett för. Finns det bara valideringsstudier för urval ska samma instrument EJ användas för utveckling, detta begränsar användningen betydligt för vissa test på marknaden.

Ibland redovisas sk lokala studier där testet utvärderas och ibland refereras till meta-analyser (många lokala studier sammanfatttas till ett effektmått). Avgörande för validiten är den samlade mängd stöd som finns för det avsedda användandet. Men, detta är väl ingen nytt tänker du? Nej, det är det inte men tyvärr är det en sak som missuppfattats, nämligen den validitet som finns redovisad i forskningen förutsätter 100% mekanisk sammanvägning av testresultat. Just det, alla valideringsstudier antar att du använder testet mekaniskt och fattar beslutet utan magkänla, fingertoppskänsla, erfarenhet, valideringssamtal, helhetsbedömningar etc etc. Du kan naturligtvis lägga till annan information, men den måste också behandlas mekaniskt och evidens ska finna hur det ska vägas mot varandra, allt enligt ISO 10667. Om du lägger in fel information för beslutet kommer slumpen att vinna över dig, dvs det är bättre att singla slant istället för att ta in fel information för urvalsbeslut, ganska logiskt eller hur!

Listor över olika metoders validitet blir därför ointressant så länge du inte använder test på det avsedda sättet. En av dessa listor och väl använd referens är Schmidt & Hunters metanalys (1998), många pratar om den men få här läst den. Om nu begåvning har en korrelation med arbetsprestation med .65 (Sjöberg et al, 2012), antar forskarna mekanisk tolkning av testpoängen. Om du inte använder mekaniskt tolkning (högst poäng vinner) så sänker du per automatik validiteten i beslutet. .65 är således en övre gräns inte en nedre gräns som vissa tror (du kan inte med din subjektiva förmåga höja validiteten).

Låt mig ge ett exempel, om du har en kandidat som ligger bra till på ett begåvningstest (hög poäng), men istället tar en kandidat som ligger sämre till med argumentet att denna person har ett bra ”track record”, då åsidosätter du allt som finns beskrivet om validitet (om du inte säker på att ditt alternativ har högre validitet i jämförelse med begåvningspoängen. Ett samband på runt .50 ger dig ett odds på 4 gånger större chans att hitta en toppresterare i jämförelse med att du singlar slant. Detta odds blir osäkert när du tar in andra faktorer som inte är validerade i bedömningen.

Gör så här istället, ta alla testpoäng på skalor som det finns evidens för har ett positivt samband med det du vill förutsäga, och summera. Sedan tar du alla skalor som är dåliga indikatorer (minus samband) på vad du vill förutsäga, summera dem och sedan tar du de positiva faktorerna minus de negativa faktorerna, höga poäng bra, låga poäng dåliga. Använder du ett Big Five test, summera ihop alla faktorer (använd standardpoängen på Stabilitet, Extraversion, Vänlighet, Målmedvetenhet och Öppenhet), strunta i att ”tolka profilen”. Är du bra på excel kan du maximera vägningen genom att lägga in mer precisa mått (regressionsanalys). Men är det så enkelt? Ja det är det, tyvärr har logiken förlorat mot den förhärskande helhetsbedömningen, men det betyder inte att det är för sent att ändra på detta. Krångla inte till det använd huvudet (eller minräknaren) och börja summera. Varför gör ingen det då? Nedan kommer de mest frekventa invändningarna, med mina kommentarer i kursivt.

1. Den mekaniska tolkningen tar inte hänsyn till många faktorer som är viktiga för beslutet

Det är inte heller någon som sagt, mekanisk tolkning handlar inte om VAD man bedömer utan HUR man väger ihop informationen. Tänk att du har 10 olika bedömningsfaktorer om en person, det finns två sätt att väga ihop den informationen, du kan göra det mekaniskt eller intuitivt. Varken den mekaniska eller den intuitiva tolkningen kan hjälpa dig med okända faktorer, de enda som säger sig kunna detta är de personer som spår om framtiden! Du ska inte heller validera ett testresultat i intervjun, intervjun och testresultat ska mäta olika saker och sedan summeras ihop inför urvalsbeslutet. När konsulter säger att de kommer att använda testresultatet som ett diskussionsunderlag kan du vara säker på att testresultatet är värdelöst att använda som beslutsunderlag. Nästa gång du upphandlar rekrytering fråga inte bara vilket test de kommer att använda, fråga HUR de kommer att använda testpoängen, först då kan validitet uppskattas.

2. Den mekaniska tolkningen kan aldrig ersätta en duktig personbedömare

Detta är fel, forskningen är tydlig här. Problemet är snarare att ”duktiga” personbedömare känner sig hotade, den mekaniska tolkningen vänder på en arbets- och affärsmodellen som är accepterad, dvs att köpa ”expertråd” vid urvalsbeslut”. Samma sak som hände inom den amerikanska basebollen kommer hända inom rekryteringsbranschen. För 20 år sedan tjänade talangscouter grova pengar genom att plocka ut de bästa spelarna genom den intuitiva modellen (magkänsla etc). Idag har alla baseboll-lag en databas med prestationsinformation för varje spealare, detta vägs ihop på mekanisk väg för att användas vid urvalsbeslut. Se filmen Moneyball med Brad Pitt i huvudrollen, kolla in sista delen av filmen när Brads rollfigur får erbjudande från Boston, Bostons chef säger att de baseball team som inte ändrar sin rekryteringsmodell kommer att vara som dinosaurier i branschen.

Här kommer trailern (en snabbkurs i evidensbaserat urval)

2. Den mekaniska tolkningen är krånglig

Summera lärde vi oss tidigt i grundskolan och vi gör det inom många områden, tänk dig att du skulle ifrågasätta ICA kassörskan/kassören genom att hävda att din magkänsla säger dig att hen har räknat fel, skulle inte tro det!

4. Människan är komplex och kan inte reduceras till delar som summeras ihop

En mekanisk tolkning motsätter inte att människan är komplex? I urvalsbeslut ska inte den komplexa människans alla delar beskrivas, uppgiften är istället att sannolikhetsbestämma senare prestation. Väl utfört kan man öka oddsen till 6 (i jämförelse med slumpen), men det förutsätter att magkänslan hålls borta. Precis som läkaren ska diagnostisera (sannolikhetskhetsberäkning) och bestämma behandling ska rekryteraren bestämma vem som har största sannolikhet att lyckas i det kommande arbetet. Alla dessa beskrivningar som finns på testmarknaden kan ni sluta att betala för, de hjälper dig inte i ditt urvalsbeslut (även om det känns så).

4. Den mekaniska tolkningen accepteras inte av min kund/uppdragivare

Helt korrekt, det är här skon klämmer, de företag som vågar utmana kommer vinna.

Anders Sjöberg

Referenser

Sjöberg, S., Sjöberg, A., Näswall, K, & Sverke, M. (2012). Using individual differences to predict job performance: Correcting for direct and indirect restriction of range. Scandinavien Journal of Psychology. http://dx.doi.org/10.1111/j.1467-9450.2012.00956.x

Schmidt, F. L., & Hunter, J. E. (1998). The validity and utility of selection methods in personnel psychology: Practical and theoretical implications of 85 years of research findings. Psychological Bulletin, 2, 262–274.

Arbetsgivare väljer bort sökande som är äldre, icke-européer, har flera barn, är överviktiga eller har en historik av sjukfrånvaro

Som tidigare rapporterats väljer rekryterare ofta en holistisk tolkning av information vid urvalsbeslut. Nu kan färsk forskning presenteras att denna osystematiska tolkning av information kan få ödesdigra konsekvenser för individen som söker anställningen. Rekryterare väljer systematiskt bort sökande som är äldre, icke-européer, muslimer, judar, har flera barn, är överviktiga eller har en historik av sjukfrånvaro.

Diskriminering uppkommer när ett urvalsbeslut fattas på grundval av komponenter som inte är relevanta för kriteriet, ofta arbetsprestation i en urvalsituation. Det finns en mängd olika saker som bör beaktas i en urvalsprocess, som tex beskrivs i ISO 10667 (bedömningstjänster i arbetslivet). Men diskrimineringen blir olaglig när en arbetsgivare tar ett urvalsbeslut baserat på kön, könsöverskridande identitet eller uttryck, etnisk tillhörighet, religion eller annan trosuppfattning, funktionshinder, sexuell läggning eller ålder.

Hur står då då till med detta i Sverige. För att undersöka detta gjorde forskarna vid Institutet för arbetsmarknads- och utbildningspolitisk utvärdering ett experimentet där arbetsgivarna först beskriva en anställd som nyligen slutat och därefter välja mellan två hypotetiska sökande att kalla till en anställningsintervju, eller att anställa som en ersättare för den tidigare anställde.

Enkätundersökningen administrerades av Statistiska Central Byrån (SCB) och enkäterna skickades via post till företagen. Svarsfrekvensen var 46 procent. Totalt ingick 426 arbetsställen (rekryterare) i analysen. Av de rekrryterare som besvarande enkäten var runt en tredjedel verksamhetschefer, en tredjedel personalchefer och en tredjedel andra personer som arbetade med personalfrågor. De flesta arbetade med rekrytering, personalfrågor och rehabilitering, och de flesta hade arbetat med dessa frågor under ett antal år. Runt 80 procent hade någon form av universitetsutbildning.

Det mest slående resultatet avseende att blir kallad till en intervju var effekten för sökande som är över 55 år: Sannolikheten att bli kallad till en intervju för en sökande är 64 procentenheter lägre än för en sökande som är under 30 år. Sannolikheten att bli kallad till en intervju för en sökande som är 30–55 år är tolv procentenheter högre än för en sökande som är under 30 år. Detta är inte bara oetiskt utan också olagligt enligt diskrimineringslagen.

När det gäller jobberbjudande så återfanns den största effekten avseende etnicitet och religiös trosuppfattning. Sannolikheten att bli erbjuden ett jobb var likartad med svenskföddas för sökande som är födda i Europa medan motsvarande sannolikhet för sökande som är födda i Afrika, Mellanöstern och Sydamerika var betydligt lägre (minus 28 procentenheter). Sökande som är muslimer eller judar har också en betydligt lägre sannolikhet än sökande som är kristna (minus 30 respektive 26 procentenheter). Ett andra slående resultat är den mycket kraftiga effekten av de sökandes vikt: Sökande som är kraftigt överviktiga har en sannolikhet som är 83 procentenheter lägre än sökande som är normalviktiga. Vidare har sökande som har minst två barn en sannolikhet som är 25 procentenheter lägre än sökande som inte har några barn. Som förväntat har sökande som har en historik av sjukfrånvaro en lägre sannolikhet. Slutligen fann forskarna endast små skillnader i graden av diskrimineringen mellan olika typer av rekryterare och företag.

Referens

Läs hela rapporten

Eriksson, S., Johansson, P., Langenskiöld, S. (2012). Vad är rätt profil för att få ett jobb? En experimentell studie av rekryteringsprocessen. Institutet för arbetsmarknads- och utbildningspolitisk utvärdering.

Varför gör alla strukturerade intervjuer?

Intervju är den klart mest frekvent använda metoden vid urval. Ofta får jag höra av kollegor i branschen att de gör strukturerad intervju och att forskningen minsann säger det är bra, för det har meta-analyser visat. När det sägs är det två påståenden som bör få stöd. För det första, att metoden verkligen är en strukturerad intervju, på samma sätt som forskningen menar, och att den meta analys de refererar till kan fungera som stöd för beviskedjan.

Schmidt & Hunters (1998) meta analys över 85 års forskning är den mest citerade meta analysen om urvalsmetoder någonsin. Många refererar till den men få har läst den. Och det är förståeligt då den är späckad av forskningsinformation som många svimmar av bara de öppnar första sidan. Istället har (och det har jag själv bidragit till) förenklingar gjorts i form av enkla diagram och powerpointbilder som personer i branschen visar och drar slutsatser om, slutsatser som inte för utvecklingen framåt avseende evidensbaserade urvalsmetoder. En sådan slutsats är att den strukturerade intervjun (som alla påstår sig göra) är lika valid som ett begåvningstest; .51 i validitet för båda metoderna. Den ostrukturerade intervjun (som ingen längre verkar genomföra) har en validitet på .37.

Först och främst var inte Schmidt & Hunters artikel 1998 en ny meta analys när den kom, det är en sammanställning av en mängd olika meta analyser där författarna, som alltid i dessa sammanhang, behövt ta svåra beslut vilka koefficienter som ska redovisas. Bakom varje siffra finns det en mängd andra siffror som kommer från själva orginalanalysen. De beslut om vilka siffror som ska ingå i tabellen finns sammanfattat under tabellen i en enorm fotnot, en fotnot som få bryr sig om.

Nu tillbaka till påståendet att den strukturerade intervjun som alla verkar göra har en validitet på .51. Där kan man läsa att denna siffra är hämtat från McDaniel, Whetzel, Schmidt & Maurer (1994). Men där finns massa siffror! och Schmidt & Hunter har valt, vilket inte argumenteras varför, den siffra som är högst. Det är den validitet som är från de studier som var designade just för att undersöka validiten i en specifik intervju, alltså studier som redan i designen var forskningsrelaterade. Att Schmidt & Hunter har valt denna siffra är inte fel på något sätt, men när personer pratar om detta som en självklarhet blir det naturligtvis intressant att utröna om det finns några andra resultat vi behöver känna till så att uppdragsgivare inte ”köper grisen i säcken”?

Hela meta analysen baseras på ett urval av 25 244 individer, medan de siffrorna som finns publicerad 1998 har endast 531 individer för den ostrukturerad och 3069 individer för den strukturerade intervjun. Om vi istället leker med tanken att istället dela upp hela urvalet i strukturerad intervju och ostrukturerad, ja då blir det lite andra siffror att ta hänsyn till, .44 för den strukturerade intervjun och .33 för den ostrukturerade intervjun.

Ok, men vilka siffror ska man lita på. Ja, så är det är med forskningen, DET BEROR PÅ! Forskningen kring detta område kommer aldrig att nå till sanningen, det ligger i sin natur att all bra forskning är ett ständigt vridande på argument för och emot saker och ting. I sak ändrar inte ovanstående resonemang något, den strukturerade intervjun verka vara lite mer träffsäker i jämförelse med den ostrukturerade intervjun. Men det som ytterligare behöver belysas är att dessa resultat senare har beräknats om, med en bättre statistisk metod som bättre tar hand om problemet med beskuren spridning i denna typ av studier (Le & Schmidt, 2006), dvs det faktum att de personer som ingår i studierna som ligger till grund för dessa mått på validitet ofta är pre-selekterade på psykologiska egenskaper som mäts med metoderna. Och då är de korrigerade måtten på valliditet, .44 (för den strukturerade intervjun) och .41 för den ostrukturade intervjun, en försumbar skillnad i kriterierelaterad validitet. Sålunda stämmer inte argumentet längre att den strukturede intervjun är ”så mycket bättre”.

Men betyder det att vi helt enkelt kan strunta att strukturera våra intervjuer, slänga bort våra intervjumallar och ägna oss åt löst sammanfattande samtal i en anställningsintervju? Knappast. Förmodligen är det så att de intervjuer som forskarna kallar för ostrukturerade i själva verket är strukturerade och de strukturerade intervjuerna är helt styrda intervjuer som i stort sätt istället kan besvaras i enkät med fasta svarslaternativ.

När sedan anställningsintervjun jämförs med tex begåvningstestning där den kriterierelaterade validiteten ligger på .65 (för medelkomplexa arbeten; Schmidt, Shaffer. & Oh, 2008) måste hänsyn tas till att begåvningstesten som används för att mäta begåvnining på marknaden (tex BasIQ och Ravens matriser) har hög korrelation, dvs oberoende vilket test vi använder så mäter de ett och samma begrepp (generell begåvning). Anställningsintervjuerna som genomförs på företag X och Y har vi inte en aning hur väl de överenstämmer i mätningen, och inte heller hur de är relaterade till de intervjuer som genomförts i forskningen. Ett begåvningstest mäter ett psykologisk begrepp som vi hyfsat väl känner till (IQ), anställningsintervjun har ingen innehållvaliditet utan att en empirsik undersökning genomförs. Därför blir påståendet att ”vi genomför strukturerade intervjuer och då vet vi att det har en viss validitet”, innehållslöst

För att få ett innehåll i ett sådant påstående som kan vägleda en uppdragsgivare i val av leverantör kan man gå till ISO 10667 och kontrollera vilka krav som ställs på både uppdragsgivare och leverantörer av anställningsintervjuer. Dock säger inte ISO 10667 hur saker ska göra, utan bara vad som ska göras. Nedan kommer några saker som leverantören av anställningsintervjun bör göra;

1) Genomför en studie där reliabiliteten kartläggs, är reliabiliteten god (låt säga över .70) kan det anses att intervjun uppfyller kravet på att kvala in som en mer eller mindre strukturerad intervju.

2) Genomför en valideringsstudie, där poängsättningen på intervjun jämförs mede ett mått på prestation (tex bedömning av av närmaste chef korreleras med poängen på intervjun).

1 är ett ”krav” och 2 är ett ”bör”, tycker jag.

Och detta är de frågor som uppdragsgivaren ska ställa innan bedömningstjänsten upphandlas.

1) Hur har ni bedömt tillförlitligheten i er intervju?

2) Hur vet jag som uppdragsgivare att den intervju som ni utför har ett samband med det jag vill förutsäga?

Kan inte leverantören svara på detta, välj inte den leverantören. Kan leverantören svara upp mot dessa krav så köper ni tjänsten.

Referenser

McDaniel, M. A., Whetzel, D. L., Schmidt, F. L., & Mauer, S. D. (1994). The validity of employment interviews: A comprehensive review and meta-analysis. Journal of Applied Psychology, 79, 599-616.

Schmidt, F. L., Shaffer. J. A., & Oh, I. S. (2008). Increased accuracy for range restriction corrections: Implications for the role of personality and general mental ability in job and training performance. Personnel Psychology, 61, 827-868.

Meritocruitment, framtidens leverans av arbetsprov

There is no correlations between the firmness of a handshake, a person’s race or gender, hipness or ability to chat, and a person’s job related skill set.

Meritocruitment believe that the primary objective for any recruitment should be to find the person that can best perform the job, the person with the best skills and knowledge for the job. It should be about what you know, not who you know, where you come from, your age, gender or other irrelevant stuff. The best way to ascertain, before hiring, whether a candidate is suitable for a job is to test his or her knowledge, there simply is no other way. And this goes two ways – the best way for a candidate to know, before applying to or accepting a position, if it is a good fit, is to see which skills and knowledge are actually needed for the job and if they are at the right level.

Meritocruitment is a platform for test creators, employers and candidates to come together and find excellent matches. Test creators create tests and make them public on the site. Employers select from the buffet of tests and choose those that match the skills required for the job. Candidates take tests and apply for postings. Only the top candidates for each posting is presented to the employer – giving the employer time to focus on the candidates that matter. All other candidates remain anonymous. Candidates must connect their account to Facebook or Linkedin before taking any tests, to confirm their identity, and are only allowed to take any test once.

We feel that the world should be more of a meritocracy than it is. There is no correlations between the firmness of a handshake, a person’s race or gender, hipness or ability to chat, and a person’s job related skill set.

This is what is commonly called a win-win situation!

Take care everyone,
The Meritocruitment team

Psychometrics ger utbildning för forskare vid Mälardalens högskola

Idag genomfördes den första dagen av avancerad datanalys för forskare vid Mälardalens högskola. Forskarna som kommer från olika områden inom den psykologiska forskningen fick kännedom om hur latenta variabler kan användas för att förkasta eller bekräfta teorierna bakom deras mätinstrument.

På utbildningen togs också upp att vid mätning av latenta variabler består de poäng som utgör basen för sambandsberäkningen av olika typer av mätfel, som måste tas hand om när psykologiska teorier testas. Mätfel kan uppkomma av en mängd olika orsaker. Vid personlighetsmätning kan tex social önskvärdhet vara upphovet till mätfel, dvs personerna vill framställa sig i bra dager inför intervjuaren. Ett annat exempel på mätfel kan vara mer slumpmässigt, tex att just den dagen personen besvarar en enkät har något hänt som påverkar personens svarsmönster. Båda typer av mätfel går att beräkna med Struktur-Ekvations- Modellering (SEM). För praktiker är det viktigt att veta hur mätfel i deras beslutsunderlag uppkommer. Psychometrics tackar deltagarna för denna första dag och vi ses igen den 5 november i Eskilstuna

Johnny Hellgren & Anders Sjöberg