Psychometrics Sweden & Assessment Engine

Svag evidens för förändringsinsatser inriktade på chefer och medarbetare

Psychometrics berör ofta bedömningstjänster som har med urval att göra. Psykologiska tests kvalitetet diskuteras ofta, det krävs att testen är båder reliabla och valida. Det finns granskningsintitutet där oberoende granskare bedömer kvalitetet i både test och urvalsprocess. Enligt min mening har detta både höjt kvaliteteten och statusen på marknaden på psykologiska test inom arbetslivet och på sikt kommer det höja kvaliteten i urvalsprocessen. Men, hur är det med metoder som används för utveckling och förändring? En ny forskningssammanställning (Barends, Janssen, ten Have, & ten Have, 2014) visar att kvaliteten i dessa utvärderingsstudier är under all kritik.

Idag finns det ca 4,2 miljoner anställda i Sverige, av dessa är över en halv miljon chefer. Dessa chefer utgör ett enorm marknadspotential för alla yrkesgrupper som arbetar med chefer/ledares utveckling. Det kan vara allt från att man får höra en bergsklättrare prata om ledarskap, till program som pågår under år för att utveckla och förändra chefer till något bättre. Upphandlingar i mångmiljonklassen är inte ovanliga för dessa typ av tjänster från myndigheter och andra offentliga institutioner. Det handlar alltså om förändring av beteende av chefer och medarbetare som sin tur antas påverka organisationers måluppfyllelse. Men vad finns det för typ av evidens att alla dessa insatser verkligen fungerar som det är avsett?

För några år sedan gick jag och en kollega igenom litteraturen avseende ledarskapsförändring, även om resultatet visade på att ledarskap interventioner hade en effekt, så slog det mig när vi gick igenom den samlad forskningen att det var endast ett fåtal studier vars design verkligen kunde prova hypotesen att det var insatsen som påverkade det man ville förändra. Nu har en sammanställning över alla artiklar som undersökt förändringsinsatser publicerats som på något sätt berör ”organizational change management”. Det kan handla om allt från stora strukturella förändringar till teamutveckling och chefsträning. Studien undersöker inte effekten av dessa interventioner utan undersöker vilken typ av forskningsdesign som leder fram till slutsatserna. Forskarna använder sig av en modell där den bäst lämpade designen är en randomiserande experimentell studie med kontroll grupp samt före och efter mätning (A), följt av (B) en studie som har en före-eftermätning men utan kontrollgrupp, (C) kvasistudier som inte är kontrollerande, och (D) helt värdelösa studier utan vare sig det ena eller det andra.

Viktigt att påpeka är att för att dra slutsatser om interventioner fungerar så krävs en kraftfull design av studierna som liknar krav som ställs på läkemedelsprövning (läkemedlet ska bota/lindra en åkomma). Detta skiljer sig från tex studier om urval, där krävs inte samma design eftersom i urval behöver vi inte dra några kausala slutsatser, att intelligenspoäng samvarierar med prestation betyder inte att intelligenspoäng kausalt påverkar prestation, vilket inte är nödvändigt att veta när vi tar urvalsbeslut.

Tillbaka till studien, vad fann du forskarna? Jo, ett ganska nedslående resultat. Av 563 studier som på något sätt undersökt en förändringsinsats så var det endast 10 stycken som nådde nivå A (2%). På nivå B fanns det 54 studier (10%), nivå C, 61 studier (11%). A, B, C kan ändå räknas som bidra till en förståelse vad som påvekar förändring i organisationer men de utgör endast 23% av studierna. De allra flesta studierna kan knappast kallas för forskning, på nivå D fann forskarna 438 studier, hela 77% av studierna uppfyller knappast kravet på att få kallas forskning. Denna design har ingen föremätning, har ingen kontrollgrupp och är utom kontroll för att dra kausala slutsatser.

Slutsatsen så långt är att evidensen att uttala sig om effekter av ”organizational change” givet detta resultat vilar på en yttterst bräcklig vetenskaplig grund. Av intresse är dock de 125 studier som ändå kan kallas forskning. Av intresse är att undersöka vilka effekter som mäts i dessa studier. Av 549 unika mått var dock endast 65 mått objektiva prestationsmått. Resterande utgjordes av upplevelsemått på förändring. Sammantaget ger det svagt stöd att dessa studier kan säga något om hur förändringsinsatser fungerar. Än mer nedslående är att det inte blivit bättre de senaste 30 åren:

”Even more disturbing is the fact that the relative proportion of controlled studies into the effectiveness of interventions and/ or moderators within the field has decreased dramatically over the past 30 years, from more than 30% in the early 1980s to just less than 5% in the past decade” (sid 20)

Med tanke på hur mycket kraft som läggs på förändringsinsatser så bygger slutsatserna på en ytterst svag vetenskaplig grund. Mycket på grund av att de som utför insatserna har varken kunskapen eller de ekonomiska resurserna att utföra dessa utvärderingar. Så länge uppdragsgivarna inte börjar ställa krav på leverentörerna är jag rädd att ingenting kommer förändras. Om man tittar på andra områden ser det bättre ut, på den kliniska sidan av psykologin kräver ”köparna” studier som visar på effekt av tex terapiformer, arbetspsykologin borde snegla på denna sida av psykologin där finns det mycket att lära. Sedan önskar jag att forskningsamhället bidrar med forskningsmedel för att utveckla detta område, eftersom det påverkar så många anställda borde en del av skattemedlen finansiera denna typ av forskning.

Referens

Barends, E., Janssen, B., ten Have, W., & ten Have, S. (2014). Effects of change interventions: What kind of evidence do we really have? The Journal of Applied Behavioral Science, 50, 5-27.

Fullt till sista plats var det på Henrysson, Åkerlund & Sjöberg ABs urvalsseminarium på Tändstickspalatset

Fullt till sista plats var det på Henrysson, Åkerlund & Sjöberg ABs urvalsseminarium på Tändstickspalatset. Under rubriken State of the art inom urval och personbedömning presenterade fil dr Sofia Sjöberg sin avhandling. Läs mer här och ladda ned presentationerna här.

ISO 10667 har inspirerat till nya riktlinjer för Assessment Center

För drygt 8 år sedan engagerade jag mig i ett arbete att ta fram en standard för bedömningstjänster i arbetslivet, detta blev en ISO standard (10667) som reglerar det ömsesidiga beroendet av att uppdragsgivare (del 1) och leverantörer (del 2) har ”koll på läget” när de samarbetar kring bedömningar av personer i arbetslivet. Jag kan säga att från början var intressset svalt från både uppdragsgivare och leverantörer av bedömningstjänster (rekrytering, teambedömning och organisationsanalyser). Men nu är denna standard accepterad av 156 länder (även om de flesta inte bryr sig). Till min glädje har nu ISO 10667 fått tillökning i form av en ny standard för assessement center (AC). Det är British Psychological Society (BPS)* som nu är klara med nya ”guidelines” för AC och dessa riktlinjer lutar sig till 100% mot ISO 10667.

Tanken med ISO 10667 var från början att organisationer på ett effektivare sätt ska kunna bedöma personer, fatta bättre anställningsbeslut samt förbättra förutsättningarna för sina anställda. Dessa riktlinjer tänkte vi som jobabde med detta skulle underlätta tillhandahållandet av rättvisa bedömningstjänster för de personer som blir bedömda. Alltså, ISO 10667 är i första hand till för att ”skydda” de som blir bedömda genom att ställa rimliga krav på att båda uppdragsgivare och leverantörer vet vad de gör, allt från det som händer innan bedömningen, under bedömningen och eventuellt den utvärdering som kan ske efter bedömningen.

Redan 2008 förutspådde jag att ISO 10667 kommer att få implikationer för mer specialiserade riktlinjer för bedömning. Detta presenterade jag på världskongressen i psykolog i Berlin (Sjöberg, 2008). Första tecknet på detta kommer nu från British Psychological Society (BPS) som producerar riktlinjer för diverse bedömningstjänster. I den senaste utgåvan av Assessment Center ”guidelines” inleds denna skrift med följande ord

” The form and structure of the standard were based closely on ISO 10667 – the International Standard on Assessment Service Delivery – and the standard can be considered as exemplifying in detail how ISO 10667 applies to Assessment Centres. We followed the ISO convention of using ‘shall’ to indicate a minimum requirement and ‘should’ to indicate a desirable one”

Detta är ett tecken på att ISO 10667 kommer få ett stort genomslag bland användare av bedömningstjänsen AC. Betydligt hårdare krav ställs nu på att AC bedömningen ska vara evidensbaserad, transparant och följa forskningsresultat hur urvalsbeslut ska fungera inom ramen för bedömningar inom AC. Detta sägs om

”Overall Centre Rating”

7.3
Rules for determining the Overall Centre Rating shall be defined based on the
standards required in the job or role as identified through the job analysis.
Differential weighting of assessment criteria ratings, if used in determining outcomes,
shall be as identified through the job analysis or additional job performance
research.
7.4
Arithmetic approaches shall be used to determine the Overall Centre Rating
whenever the Centre is designed to facilitate selection decisions.

7.4.1 NOTE:
7.4.1.1 Research indicates that arithmetic combinations of scores (e.g. averaging)
are associated with much higher validities than consensual methods of
determining final scores through discussion by Centre staff.
7.4.1.2 Scores can be combined using a simple average or by requiring a
minimum score on one or more assessment criteria before averaging.
7.4.1.3 Arithmetic approaches can be supplemented by qualitative information
for feedback and developmental purposes.
7.5
The Client shall ensure when making decisions using Centre outcomes, that the
decision makers are supported by a person who is appropriately trained and
understands the meaning of the assessment data.
7.6
A record of the Centre outcomes shall be made. Where final decisions deviate from
the Overall Centre Ratings, the Overall Centre Ratings should still be documented
with an explanation of why the decision deviates from the Centre outcomes.

I punkt 7.4 står det klart att den kliniska bedömningen som byggar på bedömarnas unika sätt att väga ihop all information nu är borttagen. Istället SKALL bedömningarna vägas ihop på ett mekaniskt sätt. Viktningen kan tas fram med hjälpa av arbetsanalys och/eller vedertagen forskning på området. Och det viktiga är att om denna viktning frångås bör detta dokumenteras med en förklaring varför detta sker (punkt 7.6).

Nu får vi se hur detta kommer påverka organisationer som använder AC, nu är det leverantören av tjänsten som ska komma upp med viktning av data och uppdragsgivaren, som ofta står för själva urvalsbeslutet, får stå till svars för om man inte följer dessa anvisningar.

Men det är långt kvar innan vi är där, en leverantör av AC sa till mig för ett halvår sedan att ”det är inte vår sak att se till om uppdragsgivare följer våra rekommendationer”. Jo, det är faktiskt precis vad det är. Det är ett gemensamt ansvar för både uppdragsgivare och leverantör att kandidaten blir bedömd med transparanta bedömningstjänser och att även urvalsbeslutet vilar på samma grund, åtminstone om man vill följa ISO10667, men det är naturligtvis frivilligt.

Referens

Sjöberg, A.(2008). Documentation of validity in professional assessments. Presented at the XXIX International Congress of Psycholog, Berlin, Germany. July 20-25, 2008.

The Working Group members at BPS were:
Helen Baron*, Independent
Dave Bartram*, CEB’s SHL Talent Measurement Solutions
Sue Bawtree, CEB’s SHL Talent Measurement Solutions
Alan Bourne, Talent Q
Max Choi*, Quest Partnership
Chris Dewberry, Birkbeck College
Nigel Evans, Nigel Evans Consulting Ltd
Charles Eyre*, College of Policing
Amelia Hughes, Price-Waterhouse Coopers
Patricia Lindley*, Independent
Claudia Nutgens, Independent
Sonia Pawson, NOMS
Nigel Povah*, A&DC
Jo Silvester, Cass Business School, City University
John Toplis, Independent
Steve Whiddett*, Association for Business Psychology and WHE UK Ltd
Derek Wilkie, Stuart Robertson & Associates Ltd
Philip Wilson, Fast Stream, Civil Service Resourcing

*Members of the drafting group

Goda betyg för nya boken om testning i arbetslivet

Komplexitet i arbetsuppgiften och intelligenspoängen, några saker att tänka på

När jag föreläser om intelligens och arbetsprestation kommer ofta frågor om komplexitet i arbetsuppgifterna kopplat till intelligenspoängen, nedan kommer en liten förklaring.

Det är sedan länge fastlagt att intelligens förutsäger arbetsprestation och att detta samband förklaras genom att intelligenspoängen (g) på ett test samvarierar positivt med lärande (dvs de som har höga intelligenspoäng har hög sannolikhet att förvärva arbetsrelaterad kunskap) som i sin tur kan förutsäga arbetsprestation (Schmidt, & Hunter, 1992). Detta är själva poängen med intelligenspoängen (hi hi) att vi vet inte vilken arbetskunskap kandidaten kommer att ha, men intelligenspoängen förutsäger det delvis. MEN, detta samband kan dock variera beroende på vilken komplexitet det är i arbetsuppgifterna.

Att komplexiteten i uppgiften kan påverka sambandet mellan intelligens och prestation går i linje med Spearmans utgångspunkt i början av 1900-talet att en högre komplexitet i ett testuppgifter medför att mer av g-kraften är inblandad för att lösa problemställningen. När forskarna på 80-talet undersökte Spearmans hypotes testades om intelligenstestpoäng hade en större prediktiv kraft när komplexiteten i arbetsuppgifterna var högre. Resultatet var tydligt, efter att analyserat över 400 validitetsstudier (med över 30 000 individer) i vilka sambandet mellan intelligenstestet General Aptitude Test Battery (GATB) och arbetsprestation undersöktes kunde det konstateras att det svagaste sambandet mellan intelligenspoäng och arbetsprestation återfanns i de minst komplexa yrkena (mycket standardiserade arbetsuppgifter) och högst i yrken med komplexa arbetsuppgifter.

De olika typer av yrken som ingick i studierna delades in i fem kategorier utifrån komplexitetsnivå, där 1 indikerade låg komplexitet (exempelvis löpande band) och 5 indikerade hög komplexitet (exempelvis forskare och uppfinnare). Den mittersta kategorin – kategori 3 – utgörs av yrken av medelkomplexitet och fångar 63 % av alla arbeten på den amerikanska marknaden (exempelvis assistenter, administratörer och övervakning av tekniska system). Det resultat som först publicerades 1984 (Hunter & Hunter, 1984) var kontroversiellt. Hypotesen att komplexiteten i arbetsuppgifter hade en effekt på prediktionen kunde bekräftas, dock framkom det därtill att resultat på intellligensstest kunde förutsäga arbetsprestation även för de minst komplexa yrkena. Den prediktiva kraften ökade dock kraftigt i takt med att komplexiteten i arbetsuppgifterna blev högre.

På senare år har nya metoder utvecklats för att på ett mer effektivt sätt korrigera för beskuren spridning i analysen – något som ytterligare stärkt beläggen för intelligenstestens prediktiva kraft. Man har med hjälp av förfinade analyser uppskattat den generella prediktiva validiteten för begåvningstest till .39 för de minst komplexa typerna av yrken, och .73 för de mest komplexa (Lee & Schmidt, 2006). För yrken av medelkomplexitet (där den största gruppen av arbetskraft på arbetsmarknaden är verksam) uppskattas den prediktiva validiteten till .66.

Men vad betyder detta? Vilken typ problemlösning är det som sker i de mest komplexa arbetena, kan detta beskrivas? Några forskare undersökte om detta kunde beskrivas (Arvey & Davis, 1983) genom att undersöka 140 olika arbeten inom oljeindustrin. De fann att arbetsuppgiferna kunde beskrivas i en generell komplexitetsfaktor där några av följande beskrivningar av arbetsuppgifterna återfanns.

Hantera oväntade händelser
Fömåga att minnas arbetsrelaterad information
Kunna resonera fram logiska beslut
Att snabbt kunna identifiera problem
Lära sig nya saker snabbt
Förstå saker före andra personer

Denna faktor beskriver forskarna som en generell komplexitetsfaktor. Så om du ska rekrytera till ett arbete som kräver mycket av dessa egenskaper, använd intelligenstespoäng för att ta urvalsbeslut.

Referenser

Arvey, R. D., & Davis, G.A. (1983). Development of a performance appraisal instrument for blue collar jobs in the petroleum-petrochemical industry. Final report delivered to the American Petroleum Industri. Washington D.C.

Schmidt, F. L., & Hunter, J. E. (1992). Development of casual models of processes determining job performance. Current Directions in Psychological Science, 1, 89–92.

Spearman, C. (1904). General intelligence: Objectively determined and measured. American Journal of Psychology, 15, 201–292.

Le, H., & Schmidt, F. L., (2006). Correcting for Indirect range restriction in meta-analysis: Testing a new meta-analytic procedure. Psychological Methods, 11, 416–438.

Hunter, J. E., & Hunter, R. F. (1984). Validity and utility of alternate predictors of job performance. Psychological Bulletin, 96, 72–98.

Hunter, J. E., Schmidt, F. L., & Le, H. (2006). Implications of direct and indirect range restriction for meta analysis methods and findings. Journal of Applied Psychology, 91, 3, 594-612.

Datorn bättre än människor att bedöma personlighet påstår forskare. Nej, det är fortfarande människor som gör bedömningen

För några år sedan träffade jag en ambitiös person vid namn Michal Kosinski på någon av de konferenser som jag var på, mycket övertygande berättande han om den nya psykometrin som skulle upplysa många beslutsfattare, inte minst när det handlar om urval. Jag var då skeptisk till det han sa. Sedan fick jag vatten på min kvarn när han tunerade runt (med stort stöd från Cambridge psychometric centre) och påstod att han kunde mäta personlighet genom sociala medier på ett tillförlitligt sätt. Det jag vände mig emot var att det fanns svagt empiriskt stöd för hans påstående. Det jag sa då får jag äta upp nu, nyligen publicerade Kosinski med kolleger en mycket imponerande undersökning som tydligt visar att det är möjligt att fånga delar av personligheten med hjälp av att kartlägga ”Likes” på facebook. De benämner sin artikel ”Computer-based personality judgments are more accurate than those made by humans” (Youyou, Kosinski, Stillwell, 2015).

Forskarna samlade in över 70 000 personers ”Likes” på facebook, samma personer fick fylla i ett personlighetstest (kvar blev ungefär 17 000 personer). På detta sätt kunde antal Likes kopplas ihop med personernas personlighetsdrag (Big Five). Förutom detta fick deras vänner, familj och bekanta också bedöma personligheten hos de som hade gjort ”Likes”. Forskarna kallar bedömningen för Likes för ”computers’ judgement” eftersom dessa Likes samlas in och analyseras med algoritmer. De kallar den egna bedömningen för ”Self-ratings” och andras bedömning av personligheten för ”Humans’ judgements”. I artikeln utgör ”Self ratings” den ”riktiga” personligheten. På detta sätt kan man jämföra vilket sätt som är bäst på att undersöka den rätta personligheten (self ratings), är det datorn (Computers’ judgement) eller människan (Humans’ judgement)? Se figur nedan.

Här kommer en sammanfattning vad forskarna kom fram till

I medel behöver datorn 100 Likes för att prestera bättre än andras ”ratings” av personligheten

Och mer specifikt behöver…

datorn 10 Likes för att vara bättre i jämförelse med en arbetskollega som bedömer personligheten
datorn 70 Likes för att vara bättre i jämförelse med nära vän eller rumskamrat som bedömer personligheten
datorn 150 Likes för att vara bättre i jämförelse med en familjemedlem som bedömer personligheten
datorn behöver 300 Likes för att vara bättre i jämförelse med en make/maka/sambo som bedömer personligheten

När det gäller vilka Likes som kan kopplas till vilka personlighetsdrag ger forskarna exempel på att de som har högt i öppenhet gillar Salvador Dali och Ted talks, och de personer som är extraverta gillar party, reality serier och dans. Öppenhet var lättast att bedöma med. Besvärligast att kartlägga med facebook Likes var emotionell stabilitet och målmedvetenhet (intressant att dessa är de som båda förutsäger arbetsprestation).

Sedan undersökte forskarna hur dessa tre olika bedömningar av personlighet samvarierade med en rad externa mått såsom depression, hälsa, drogmissbruk, livstillfredställelse etc etc. Där vann inte helt oväntat den egna skattningen över både andras skattning och datorn (mycket pga av det är samma person som bedömer både personlighet och externa mått). Men i fyra av tolv fall vann faktiskt datorn över den egna skattningen; facebook aktiviteter, drogmissbruk och hur mycket man surfar på nätet. Personligheten kartlagt med datorn vann i 12 fall av 13 fall över andras skattning (human judgements), som är forskarnas USP (Unique Selling Point)

Konklusion (enligt forskarna): ”Computer-based personality judgments are more accurate than those made by humans”

Först vill jag säga att detta är mycket bra forskning publicerad i en ansedd tidskrift, all heder åt Kosinski & Co. Det ska också sägas att en hel del material är nog borttaget från publikationen av utrymmesskäl (så det finns mer att krama ur detta enorma big data material). Men, det verkar inte som forskarna kan den psykologiska historian om mekanisk kontra klinisk tolkning av data, så här tänker jag.

Det forskarna kallar ”computer judgement” kallar jag ”data combination of Likes” eftersom det är fortfarande människor som står för bedömningen, i detta fall trycker personerna på Likes knappen på Facebook, sedan svarar samma människor på ett personlighetsformulär. Detta är samma källa data kommer ifrån när man trycker på Likes och när man svarar på personlighetsitem (self ratings), i mina ögon är det testformatet som förändras. I ”computer judgement” är det Likes som utgörs av item (information), i det andra fallet (self ratings) är det personlighetstestet som innehåller en typ av item som ska mäta personlighet, och i det tredje fallet är det någon annan (frugan, brorsan, syrran, polarn på jobbet, chefen etc etc) som svarar på samma personlighetsitem. Så min konklusion är, att samla data från Facebook kan liknas vid vilket test som helst, och att samla data från personen är ett test och samla data från andras perspektiv är ett test. Alla dessa test räknas ihop av en dator, men källan varifrån data kommer ifrån skiljer sig åt.

Detta resultat kan också analyseras utifrån den klassiska testteorin (psykometrin), givet allt annat lika ju fler observationer du har desto säkrare blir dina bedömningar (om data kombineras statistiskt). Detta syns också i resultatet, det krävs olika antal Likes beroende på vem som ger informationen. Så nej det är inte datorerna som gör bedömningen det är människor som fortfarande gör bedömningen, skillnaden är hur du kombinerar data från olika källor maximalt för ditt syfte med bedömningen. Om du har rätt redskap i din psykometrilåda kan du nå långt med att samla data på sociala medier. Om du har ett bra test kan du be personerna svara på dessa frågor (det Hogan kallar identity), och du kan ställa dessa frågor till andra personer (reputation).

Vi är mogna att säga att datorn gör bedömningen, för detta krävs artificiell intelligens, och dit har vi inte nått, ännu. Så ta det lugnt om du är i personbedömarbranschen, din bedömningskunskap behövs fortfarande inte minst för att avgöra vilken data som ska analysera. Men som tidigare påpekats, låt datorn kombinera dina bedömningar. Om du ska till SIOP i Philadelphia rekommenderar jag att du bokar denna session, där kommer dessa frågor dryftas.

Ladda ned artikeln här

Öva på ditt historieberättande då har du större chans att få jobbet

Vanligt är att rekryterare ställer frågor i anställningsintervjun om tidigare beteenden. Det finns två typer av sådana frågor. Den ena typen handlar om att kandidaten ska beskriva en liknande situtation hen befunnit sig i och ange hur hen klarat detta och den andra typen, som används när kandidaten inte har någon erfarenhet, går ut på att kandidaten ska tänka in sig i ett scenario och berätta hur hen klarat det. Ett exempel på den första typen är ”kan du dra dig till minnes en gång när du har haft att göra med en arg kund” och ett exempel på den andra typen är ”föreställ dig att en arg kund ringer”.

Men spelar det någon roll hur kandidaten svara på dessa frågor? blir hen rekommenderad eller inte? Detta har några forskare försökt ta reda på i en intressant artikel publicerad i Jorunal of Business and Psychology (Bangerter, Corvalan & Cavin, 2014).

Forskarna lät kandidaterna genomgå ett batteri av test (personlighet och intelligens) innan intervjun. Sedan fick 62 kandidater ovan nämnda typer av frågor i intervjun, frågorna handlade om kompetenserna; övertalningsförmåga, kommunikation, stresshantering och organisering, varpå intervjuarna sedan fick rekommendera eller icke rekommendera kandidaterna.

Svaren från kandidaterna kunde delas in i historieberättande (en historia hänger ihop från början till slut på ett logiskt sätt), pseudohistoria (är en hsitoria utan tid och beteende) exemplifiering (ett kortare exempel), värdering/åsikt (en utan sammanhang uttryckt åsikt), självpresentation (ett exempel på en förmåga kandidaten hen tycker är bra på utan sammanhang).

Resultatet visade att väldigt få responderade med en fullständig historia, ofta var det pseudohistorier utan tid och något specifikt beteende.

När svaren analyserades visade det också att kandidaten ofta fokuserade på sammanhanget istället för beteendet (eller kompetensen). Hur man svarade var beroende på vilken kompetens som efterfrågades. Tex så var målmedvetna individer mer benägna att uttrycka åskiter och värdering jämfört med mindre målmedvetna kandidater. Det fanns vissa könsskillnader som forskarna hade svårt att tolka.

Men den vikstigaste frågan är kanske, betyder det något för kandidaten hur man presterar på test (personlighet och intelligens) eller hur man svarar på dessa frågor från intervjuaren.

Vad tror ni?

Här var resultatet betydligt tydligare, de kandidater som producerad hela historier (viktigast i intervjun) och pseudohistorier (näst viktigast i intervjun) de blev i högre grad rekommenderade för anställning i jämförelse med de som lyckades sämre med historieberättandet. Däremot de som framhävde sin kompetens utan historier de rekommderade i lägre grad för samma anställning.

Men testpoäng då?

Intelligens betydde ingenting för rekommendationen, den enda testpoängen som spelade roll var extraversion, de som hade höga poäng på personlighetstestet de blev i högre grad rekommenderade. Och det var viktigast av allt. Jobbet handlade om att arbeta som forskningsassistent med inriktning på att värva forskningsdeltagare, så förvisso behövs Extraversion här. Men intelligens och målmedvetenhet spelade ingen som helst roll för rekommendationen.

Även om studien har en del brister (litet urval, specifkt arbete) tycker jag att den är ytterst intressant för det bekräftar delvis min hypotes att det spelar mindre roll vilken testpoäng kandidaten har på de viktigaste egenskaperna (intelligens och målmedvetenhet), för om hen ska bli rekommenderad. En helt annan fråga är naturligtvis om historieberättarna verkligen presterat bättre på jobbet i jämförelse med dem som inte får ihop sin ”story”. Kommer osökt in på en person som jag lärde känna för många år sedan, hen hade alltid en bra historia om sin egen förträfflighet att berätta, men om det var sant eller inte spelade mindre roll.

Så nästa gång du söker jobb öva på ditt historieberättande då har du större chans att få jobbet.

Referens

Bangerter, A., Corvalan. P, & Cavin, C. (2014). Storytelling in the selection interview? How applicants respond to past behavior questions. Journal of Business and Psychology, 29, 593-604. DOI 10.1007/s10869-014-9350-0.

Hur reliabla är egentligen intervjuer vid urval?

För några veckor sedan fick jag frågan om vilken reliabilitet som gäller för intervjuer vid urval. Som jag tidigare nämnt så säger sig många sig använda strukturerade intervjuer för att det har en hög validitet, dvs förutsäger arbetsprestation. En övre gräns för validiteten i detta sammanhang är den sk interbedömarvaliditeten, dvs hur överensstämmelsen är mellan två olika intervjuer/intervjuare. Om reliabiliteten är låg så är inte två intervjuare överens och då är resultatet opålitligt. Ur ett kandidatperspektiv är det naturligtvis ohållbart att ett urvalsbeslut är beroende vilken intervjuare man får.

Redan 1995 genomfördes en metanalys som berör reliabiliteten i anställningsintervjun. Det övergripande resultatet visade på en enorm variation i reliabilitet med ett medelvärde på .70 (.39-1.00). I detta värde ingick alla typer av urvalsintervjuer, men det intressantaste resultatet är att intervjun som de flesta använder sig av – en ostrukturerad sådan – hamnade så lågt som .37. Den strukturerade intervjun (med fasta frågor och svarsalternativ) låg på .59. Den mest frekvent använda intervjun (i denna studie) med en frågebank där intervjuaren själv väljer frågor och där följdfrågor tillåts, hamnade på .56. Detta torde vara det som många hänvisar till är en strukturerad intervju. Så slutsatsen är att det trots den goda intentionen hos rekryterare när de använder sig av kompetensbaserade strukturerade intervjuer är att reliabiliteten är tämligen låg. Det positiva som tas upp i forskningen är att det går att träna upp förmågan, att reliabiliteten ökar om du använder dig av fler intervjuare och kombinerar informationen mekaniskt (inte diskuterar resultatet av intervjuerna). Även en noggrann arbetsanalys ökar reliabiliteten. Detta resultat måste naturligtvis diskuteras i ljuset av kostnaden för intervjun, och ibland måste det ifrågasättas om intervjun ska användas för urvalsbeslut?

För ett antal år sedan var jag inblandad i en studie där jag beräknade reliabiliteteten mellan två oberoende intervjuare vi urvalet till läkarlinjen vid Karolinska Institutet, sammanlagt 544 intervjuer utfördes i skarpt läge. Den övergripande reliabiliteten landade på .77, vilket är väldigt bra. Det var när flera frågeområden summerades till ett övergripande mått på lämplighet för att komma in på utbildningen som denna höga reliabilitet framkom. Däremot när vissa specifika egenskaper bedömdes sjönk reliabiliteten betänkligt. Nedan visas resultatet för de specifika egenskaperna.

Intellektuell förmåga=.47
Stresstålighet=.49
Empati=.56
Social förmåga=.52
Mognad=.55
Motivation=.62

Detta resultat visar att det är förmodligen är så att vi överskattar vår förmåga att skatta specifika egenskaper hos kandidaten i intervjun, men om vi tränas ordentligt kan vi vara överens på en övergripande nivå vem som är bäst lämpad för jobbet/utbildningen. Reliabiliteten gäller dock endast rangordningen av kandidater, validiteten i detta sammanhang handlar om intervjun verkligen kan förutsäga vem som blev bäst läkare, det är en annan match.

Referenser

Conway, R, Jako, R., & Goodman, D (1995). A meta-analysis of interrater and internal consistency reliability of selection interviewa. Journal of Applied Psychology, 80, 565-579.

Sjöberg, A. (2004). Psychometric properties of interview ratings and self reports. Are we measuring getting along and getting ahead? Presented at the Hogan Assessment Annual Convention, Prag. Aug 2004.

Poliser använder magkänslan vid riskbedömning

Tidigare har jag påpekat att vid urvalet till polishögskolan finns det vissa oklarheter vad rekryteringsmyndigheten och polisen egentligen fattar sitt urvalsbeslut på. Nu visar det sig att magkänslan även styr när polisen genomför sin riskbedömning.

– Vi har undersökt tre av de metoder som polisen använder. De är lika dåliga allihop. Det har inte att gått att få till det inom polisorganisationen, så det fungerar på slumpnivå. Man kan lika gärna köpa en tärning, säger Sten Levander, professor i psykiatri, som är en av den som utrett riskbedömningarna åt Rikspolisstyrelsen.

Lyssna på intervjun nedan eller klicka här

Diskriminering i urvalsprocessen när du använder magkänsla

Gästblogg av Björn Elowson

Oavsett hur våra fördomar ser ut så har vi preferenser om vad vi tycker om och vad vi inte riktigt gillar. De flesta skulle nog hålla med om att människor är lika mycket värda och förtjänar samma chans. Etnisk ursprung, kön, ålder, sexuell läggning eller utseende har ingenting med kompetens att göra. Även personer som jobbar med rekrytering skulle nog hålla med om att exempelvis hudfärg är helt irrelevant i en urvalsprocess. Men efter att ha jämfört olika urvalsprocesser kan man dra följande slutsatser.

Om du både eftersträvar ett rättvist och effektivt urval så är metoden avgörande
Använder du ostrukturerade metoder som exempelvis djupintervju och CV granskning är risken överhängande att du som rekryterare kommer att fatta fel beslut

Sammanfattning av studien

Summary (English)

Hela studien finns att ladda ned här (klicka på länken nedan)

Björn Elowson – Att välja rätt och rättvist