DN skriver om psykologiska test i rekrytering

selectionPersonlighetstester och andra färdighetsprov blir allt vanligare vid anställningsintervjuer. DN:s journalist har skrivit om detta förra veckans jobb bilaga. Där försöker hen beskriva för kandidater vad test är och sedan kommer några tips för att ”klara” testen. Nedan kommer jag med några förtydligande.

I Sverige används en lång rad personlighetstester. Merparten baseras på teorin om ”big five”, med skattningar på de fem skalorna målmedvetenhet, känslomässig stabilitet, utåtriktning, öppenhet/kreativitet och vänlighet.

Öppenhet och kreativitet är inte samma sak inom forskning, att vara kreativ handlar om att få ur sig saker som som får ”impact” för andra människor, det kan vara upplevelsebaserad och/eller funktionellt. Ofta hänger kreativitet ihop med god kognitiv förmåga.

Förespråkarna menar att bra tester gynnar alla inblandade, genom att förebygga en undermedvetet fördomsfull rekrytering på basis av utseende och andra ytliga och i sammanhanget irrelevanta egenskaper.

Absolut, om de som adminstrerar test verkligen följer det som står i manualer till testen, tyvärr är det ofta inte fallet. I de fall jag undersökt detta är det skrämmande lite av urvalsbeslutet som baseras på kandidatens testresultat

Hos professionella rekryteringsföretag plockas personlighetstestet fram först i slutfasen. Men vissa företag lägger även ett enklare test i början av processen för att redan då försöka gallra bort en del sökande.

Att använda personlighetstest och även begåvningstest är tämligen uddlöst i slutfasen av urvalsprocessen, test bör användas tidigt i processen, det är där de har mest nytta. Vad som menas med enklare test är här oklart, ett personlighetstest kan inte vara mer eller mindre enkelt. Som kandidat ska du fråga varför man använder test och hur det kommer att påverka ett urvalsbeslut.

Att förbereda sig på något särskilt sätt går inte. Det viktiga för en så rättvisande bild som möjligt är att fundera över hur man fungerar i främst arbetssituationer, och att välja det svar man först kommer att tänka på – även om det inte nödvändigtvis är det för en själv mest smickrande.

En del test har mer eller mindre situationsbaserade. Det viktiga är att läsa instruktionerna innan du genomför testet.

Även om många frågor är rätt lätta att genomskåda har du enligt proffsen föga att vinna på att försöka frisera bilden av dig själv. Testet har ofta något slags indikator som kan ge utslag när ett testresultat framstår som mindre pålitligt. Det kan handla om såväl alltför många motsägelser som en alltför stor enhetlighet.

Det finns vissa företag som marknadsför att det går att hitta ”fuskare” som genomför personlighetstest, men forskningen är kluven inför detta, jag lutar åt att det är omöjligt. (vän av ordning undrar också vilka proffsen är)

Men motsägelser kan det ändå vara gott om. När man på kort tid gjort en handfull så kallat vetenskapligt utformade tester blir det tydligt hur ens egna inneboende motsägelser mellan till exempel impulsivitet/spontanitet respektive kritiskt granskande/noggrannhet ger utslag ungefär som i ett detaljerat horoskop. De enklare, mer psykologiskt ovetenskapliga testerna utmynnar i beskrivningar som lätt kan stämma på de flesta – som ett kvällstidningshoroskop.
Många har uttalat skarp kritik mot testandet. Vissa tester är rent hokuspokus. Många på marknaden saknar bakomliggande forskning. Och samma test passar heller inte alla yrkesgrupper eller arbetsplatser.

Förvisso finns det en del skräp på marknaden, men med tanke på alla skräpintervjuer som genomförs är det i sammanhanget försumbart, särskilt då intervjuresultatet nästa alltid fäller avgörandet om du får jobbet eller ej.

Vissa tester granskas av Stiftelsen för tillämpad psykologi, STP, en ideell förening grundad av Sveriges Psykologförbund, som tittar på hur testet hänger ihop med det som det säger sig vilja mäta. STP:s stickprov visar att testresultaten över lag bara går att lita på i runt hälften av fallen.

STP (Stiftelsen för Tillämpad Psykologi) är inte längre ansvarig för att granska test i Sverige. Istället är det ett certifieringsinstitut som heter DNV-GL som är ansvariga. I alla de granskningar som jag läst från STP går det ej att utläsa att hälften av fallen skulle vara värdelösa. Samtliga granskningar gör en nyanserad värdering vad testet kan och inte kan användas till.

Fem bra tips inför ett personlighetstest
1. Svara snabbt. De flesta tester är utformade så att man inte ska hinna tänka efter för mycket. Börjar du fundera länge på en fråga hinner du inte klart.

OBS Detta gäller personlighetstest men inte begåvningstest

2 Du ska vara utvilad. När du gör testet ska du se till att vara utvilad och inte hungrig.

Innan prestation är det alltid bra att vara utvilad och inte hungrig.
3 Ta det lugnt. Du ska inte ”tävla”. Försöker du svara ”rätt” avslöjas du under den följande djupintervjun.

NEJ NEJ NEJ, det finns inget inom forskningen som talar för att ”djupintervjun” skulle kunna avslöja något. Ett test ska aldrig vara underlag för en intervju, om det används på detta sätt finns det stor risk att validiteten sänks kraftigt. Alla validitetsmått i manualer bygger på att bedömaren “inte rör” testresultatet.

4. Koncentrera dig. Se till att du inte blir avbruten medan du svarar på frågorna.

Bra förslag

5. Ta på ”jobbhatten”. Utgå från hur du fungerar i jobbsituationer snarare än privat.

Nej, vissa test utgår från hur du är i situationer även utanför arbetet. Personlighet är en stabil faktor hos individen som inte nämnvärt ändras pga av situationen, tex är målmedvetna personer på jobbet även målmedvetna på fritiden.

Psykologiska egenskaper och metoder för att förutsäga arbetsprestation

selectionOfta får jag frågor om hur några olika urvalsmetoder fungerar inom urval. Ett exempel är assessment center och ett annat är personlighets test. För att besvara dessa frågor behövs det att man definerar dels vad vi mäter och hur vi mäter. I ett assessment-center utförs simuleringsövningar som så nära som möjligt ska spegla kandidatens förmåga att utföra sina arbetsuppgifter, medan i ett personlighetstest ska en viss psykologisk egenskap mätas. I ett assessment-center är det bedömaren som avgör poängsättningen, i ett personlighetstest är det istället individen själv som svarar på frågor. Nedan ska jag ge exempel på en ny riktning av forskningen kring urval som delar in olika sätt att bedöma kandidater i olika metod moduler.

I forskningen skiljer man på begrepp (vad vi mäter) och på prediktor metod (hur vi mäter). Ofta blandas de sakerna ihop särskilt när det gäller sitiuationsbaserade bedömningar såsom i ett situationsbaserat test eller i en kompetensbaserad intervju. Nedan presenterar jag en modell som föreslagits hur kommande forskning (Lievens, & Sackett, 2016) kommer behandla validitet i urvalssammanhang. Nedan ser du ett exempel på hur detta kan illustreras. I figuren nedan redovisas både begrepp som ska bedömas (sympatiskhet och extraversion) och med vilken metod data ska samlas in.

figur-1

 

 

 

 

Begrepp

Grad av sympatiskhet ger en bild av vilken stil en person tenderar att ha i sina interpersonella relationer snarare än omfattningen av, eller vilket fokus man lägger på den sociala omgivningen, vilket fångas av skalan Extraversion (se nedan). En persons sympatiskhet eller sociala stil präglas av i vilken utsträckning personen känner tillit till mänsklighetens natur och har som utgångspunkt att människan i allmänhet är god. Denna grundläggande tillit påverkar samspelet med andra,
både genom den verbala kommunikationen och genom kroppsspråket, och lägger grunden till i vilken utsträckning man utstrålar omtanke, tillgivenhet och värme gentemot andra.

Extraversion kännetecknas i huvudsak av graden av sällskaplighet och energi som riktas mot den yttre världen. Sällskapligheten inbegriper de båda aspekterna att orka med och att vara intresserad av social interaktion samt behovet av kontinuerlig och omfattande social kontakt med andra. Den absoluta graden av energi och i vilken utsträckning den riktas mot den externa världen inbegrips i detta begrepp. Extraverta personer har ofta ett behov av och tycker om att omge sig med andra människor. Dessa personer trivs i situationer som, liksom de själva, håller ett högt tempo och de trivs med att vara i centrum för andras uppmärksamhet och att ta ledarrollen i olika grupper. Karaktäristiska drag är att de är pratsamma, entusiastiska, livliga, optimistiska, sociala, lättsinniga
och glada men kan ibland uppfattas som frispråkiga, besvärliga, aggressiva, djärva, arroganta eller ytliga.

Metoder

I kolumnerna redovisas två sätt att samla in information för att kartlägga sympatiskhet och extraversion. I intervjun ställer bedömaren frågor som ska spegla begreppen och i den självrapporterande versionen svarar ofta kandidaten på en mängd standardiserade frågor.

Att säga att intervjun och självrapportering är valida metoder ter sig ganska innehållslöst om det inte samtidigt relateras till vad vi mäter och vad som kan samvariera med arbetsprestation. Men detta är precis vad som händer i den klassiska meta analys-sammanställningen (Schmidt & Hunter, 1998) där både begrepp och metoder redovisas i samma tabell. Tex är den strukturerade intervjun lika valid som intelligensmätningen (r=.51) för att förutsäga arbetsprestation. Problemet är att det är som att jämföra äpplen och päron. Intelligens är ett psykologisk begrepp som visat sig förutsäga lärande som sin tur predicerar prestation medan intervjun inte mäter ett särskilt begrepp utan varierar från situation till situation, alltså kan man tänka sig intervjun som ett siuationsbaserat test. Med andra ord blir det ganska meningslöst att prata om att en intervju kan förutsäga något som vi inte vet vad det mäter. Intervjun blir därför mycket beroende av situationen, tex föregående arbetsanalys och en särkild enskild valideringsstudie för att bedöma intervjuns tillförlitlighet.

Kontextualisering
En bedömning kan också vara mer eller mindre kontextualiserad, dvs stimuli en fråga i en intervju eller i ett test kan vara mer eller mindre beroende av en situation. Detta kan illustreras i nedan figur.

figur-2

 

 

 

 

Ej kontext betyder att frågan (som kan komma från en intervju eller ett test) är ställd utan att en situation är inblandad. Ett exempel på en EJ kontextualiserad fråga; Är du en vänlig person? Om det ska betraktas lågt kontextualiserad fråga skulle samma fråga lyda; betraktas du av andra som en vänlig person? Mellannivån kan lyda; betraktas du på dina arbetsplats av andra som en vänlig person? Och högt kontextualiserad; När du på din arbetsplats jobbar som projektledare och betraktas av andra under ett projektmötet, betraktas du då som en sympatisk och vänlig person?

Om man också betraktar intervjun och det självrapporterade testet som två olika sätt att samla information uppkommer en komplex situation där 2 begrepp (Sympatiskhet och Extraversion) * 4 (nivåer av kontextualiering) * 2 metoder (Intervju och test) samvarierar. Sammanlagt har vi 16 unika kombinationer. Frågan blir vilken kombination har högst validitet?

Ny modell för bedömning av urvalmetoder

Det är just detta som uppmärksammas i en alldeles ny artikel av författarna Filip Lievens och Paul Sackett (Lievens, & Sackett, 2016). Författarna poängterar att det är dags att dela upp bedömningsmetoder i moduler för att undersöka vad i en bedömningen som driver att validiteten ökar eller minskar. När de går igenom var forskningen står idag kan de konstatera att det är mycket vi inte vet. När de delar in en bedömning i moduler kan de dock konstatera detta.
Stimuli format

Denna modul handlar om hur informationen i tex i ett test presenteras (information, frågor, påståenden). Inom denna modul har man funnit att audio visuella stimuli fungerar bättre i jämförelse med text stimuli. Ett problem är att text-stimuli iställer mäter kognitiv förmåga istället för förmåga att lösa tex känslomässiga problem. Ett annat forskningsresultat är att det är inte samma sak att intervjua genom tex skype och en vanlig intervju. Det är betydligt rikare stimuli i en vanlig intervju vilket gör att bedömningen blir annorlunda.

Kontextualisering

Kontextualisering betyder hur lite eller mycket situations-stimuli sätts in i en situation (se ovan exempel). Här säger forskningen att du hellre ska ställa frågor i en intervju till kandidaten om tidigare beteenden på arbetsplatsen istället för att formulera frågor om situationer som ska lösas. När det gäller situtationsrelaterade test visar forskningen att upp till 70% av problemlösningsfrågor kan lösas utan att situationen är inblandad i frågan, vilket gör att situationen i frågan blir ointressant ur validitetssynvinkel, dock kan kandidaten uppleva det som mer relevant.

Standardisering av både stimuli och respons

I vilken grad stimuli i en bedömning är standardiserat. Inom detta område har det först och främst varit anställningsintervjun som varit i fokus där högre grad av standardisering av frågor leder till vilket kan variera från helt öppna svar till färdigt formulerade svar där kandidaten får välja. Här forskningsresultatet oklara och det behövs mycket mer forskning om detta.

Tydlighet i instruktioner

Detta kan variera från att bedömaren är helt tydlig vad bedömningen ska mäta till att inte lämna någon information om vad bedömningen går ut på. Även här behövs det mer forskning för att säga hur det påverkar kandiaten, begreppet som ska mätas och urvalsbeslutet.

Det ska bli spännande att följa denna forskning och kanske bidra till den själv då jag har tillgång till en hel del data på test avseende många av de aspekter som berörs ovan.

Referenser
Leivens, F., & Sackett, P.R. (September 2016 online version). The effects of predictor method factors on selection outcomes: A modular approach to personnell selection. Journal of Applied Psychology, http://dx.doi.org/10.1037/apl0000160

Schmidt, F. L., & Hunter, J. E. (1998). The validity and utility of selection methods in personnel psychology: Practical and theoretical implications of 85 years of research findings. Psychological Bulletin, 124, (2), 262–274.

Ett mått på hur väl leverantörer av urvalstjänster är evidensbaserade

ebu1Även om en urvalsprocess använder standardiserade bra metoder är det inte säkert att själva rekommendationen från leverantören och urvalsbeslutet i sig ger det avsedda resultatet för organisationen. Det är därför jag har utvecklat Evidensbaserat urval (EBU™). EBU™ ersätter den subjektiva bedömningen i slutet av urvalsprocessen med en objektiv metod för att fatta beslut. EBU™ innehåller en statistisk algoritm som kan stödja leverantören och uppdragsgivaren så att de uppfyller kraven som ställs i ISO 10667 standarden, bedömningstjänster i arbetslivet, och på detta sätt gör organisationer mer effektiva. Nedan kommer jag berätta hur en leverantör av urvalstjänster kan få ett objektivt mått på hur väl de följer EBU™ och på detta sätt förfina sin urvalsprocess.

En utmärkt urvalsprocess kan innehålla några standardiserade test och en standardiserad intervju, men i slutskedet verkar det för vissa indvider vara otänkbart att väga ihop dessa olika informationskällor på maximalt sätt. Det är ofta just i slutklämmen som de flesta strular till det.

Ett råd jag ger till rekryterare (både uppdragsgivare och leverantör) är att.

1) Samla in information med reliabla och valida bedömningsmetoder
2) Väg ihop dessa reliabla och valida metoder med hjälp av EBU™

Det första steget handlar om att alla kandidater bedöms på samma parametrar. När detta inte sker kan det vara olika typer av information om kandidaterna som styr urvalsbeslutet. Om tex psykologiska test ska användas ska alla göra samma test under samma förhållanden under samma tid. Deta första steg verkar de flesta leverantörer genomföra. CV bedöms enligt en mall, psykologiska test används och standardiserad intervju genomförs, men detta steg handlar inte om de enskilda metodernas reliabilitet och validitet i den enskilda urvalsprocessen. Det är riktigt att dessa metoder uppvisat reliabilitet och validitet i många studier, men det betyder inte att detta kan omsättas i praktiken till enskild situation utan att helt mekaniskt tolka resultatet.

Det andra steget är att väga ihop denna information där EBU™ algoritmen appliceras på den information som samlats in för varje kandidat. Detta ger en poäng för varje kandidat.

Dessa två steg är teoretiska, i praktiken händer en hel del under processen. Några expempel som kan hända under steg 1 (insamling av information)

 • en kandidat får göra ett test under kontollerade förhållanden en annan på distans
 • en kandidat intervjuas av två personer en annan intervjuas av en person
 • en kandidat har lämnat två referenser en annan bara en referens

Och några exempel på avvikelser för steg 2 (väga ihop informationen) kan vara

 • Bedömningsmetoderna vägs ihop med EBU™ men resultatet används inte vid beslut
 • Ostrukturerad information vägs ihop i EBU™ vilket sänker validiteten
 • Bedömningsmetoderna vägs ihop med EBU™ och resultatet används vid beslut men de kandidater som väljs för jobbet tackar nej till jobbet efter löneförhandlingen.

Genom undersöka hela urvalsprocessn kan en organisation en diagnos ställas hur väl organisationen följer EBU™. Diagnosen kontrollerar först hur väl man följer det första steget, vilket är en förutsättning att gå vidare till steg 2.

För att få ett mått på hur väl leverentören av urvalstjäsnten följer EBU™ i det andra steget behövs ett kriterie. Detta kriterie kan vara vilka som rekommenderas av leverenatören att anställas. Frågeställning är; om första steget uppfyllts genom att använda schyssta metoder när insamling av information samtidigt som den informationen vägs ihop med en algoritm (EBU™), är det verkligen de som får högst poäng som rekommenderas till tjänsten?

Tyvärr inte skulle jag vilja säga i flertalet fall, många organisationer anser att de har valt en evidensbaserad väg, men de hänvisar bara till första steget, när informationen samlas in, inte när beslut om rekommendation ska göras. Till syvende sist är det uppdragsgivaren (enligt ISO, individ eller organisation som uppdrar åt en leverantör att leverera bedömning och de delar som ingår i en bedömningsprocess) som ta urvalsbeslutet, men om det ska kunna vara evidensbaserat måste leverantören (enligt ISO, person eller organisation som levererar bedömningstjänster till uppdragsgivaren) följa ISO 10667.

Så här står det i ISO 10667 ”Om flera bedömningsmetoder används för att dra slutsatser ska rationalen (den logiska grunden) för den integrering av data som utgör grund för slutsatserna anges liksom evidensen för slutsatserna.”

Med ”flera bedömningsmetoder” menas i mitt exempel intervjuer- och testresultat. Med ”rationalen” menas de bevis som finns att det fungerar att göra som leverantören föreslår och med ”evidensen” menas att den rekommendation som leverantören gör stämmer inom en specifik kontext i ett specifikt syfte.

Så fort denna kedja av händelser bryts så sjunker evidensen i urvalsprocessen.

Låt mig ta ett exempel på hur två leverantör kan utvärderas. Men innan exemplet måste det klargöras att även om leverantören följer EBU™ kan uppdragsgivare helt strunta i rekommendationen, men då ligger ansvaret helt och hållet på uppdragsgivaren. Om detta sker följer leverantören ISO 10667 men EJ uppdragsgivaren.

Nu tillbaka till mitt fiktiva exemepl. Dessa två organisationer har under 5 år följt EBU™ processens två steg. Det är helt klart att det första steget följs där alla kandidater bedöms på samma sätt. Leverantörerna bedömer alla sökande under 1 dag på ett och samma fysiska ställe med exakt samma metoder under exakt samma tid. När all data är insamlad går de enskilda poängen från test, intervjuer och simuleringsövningar in i en EBU™ algoritm som sedan överlämnas till uppdragsgivaren som sedan tar själva urvalsbelutet. EBU™ algoritmen bygger på forskningsresultat från både meta analyser och egna valideringsstudier som leverentörerna genomfört.

Om EBU™ följs bör detta speglas i ett mått som mäter sambandet mellan EBU™ och rekommendationen, eller hur?

För att räkna detta mått behövs resultatet från EBU™ (alltså resultatet från den statistiska algoritmen), och leverantörens rekomendation av kandidater (urvalsbeslutet ligger hos uppdragsgivaren, detta kommer jag problematisera i kommande inlägg). I detta exempel kan EBU™ poängen variera från 0 till 10. 0 betyder låg arbetsprestation och 10 betyder hög arbetsprestation. Om leverantören till 100% skulle följa EBU™ skulle det representera den svarta linjen i diagrammet nedan.

curve2

På X axeln har ni EBU™ poängen och på Y axeln sannolikhet att bli rekommenderad uttryckt i procent (%). Ni ser att det är 0 % sannolikhet för rekommendation om kandidaten har en EBU™ under 4 (kolla den svarta linjen) och ligger kandidaten över 5 har kandidaten 100% chans att bli rekommenderad. Detta fall är unikt men ibland har jag stött på leverentörer som har detta förfarande i första screeningförfarande. Den enda gången det sker är när leverenatören bestämt på förväg ett gränsvärde för rekommendation (i detta fall över 4). Den svarta linjen representerar således att Leverantören följer EBU™ till 100%.
Leverantör A (grön linje) följer EBU™ till 46% och Leverantör B (Blå linje) följer endast EBU™ till 16%. Konsekvenser för kandidaterna som bedöms av Leverantör A blir att desto högre poäng på EBU™ desto högre sannolikhet att blir rekommenderad. Tex ger en EBU™ poäng på 5 poäng endast en sannolikhet på 25% att bli rekommenderad medan en EBU™ poäng på 9 ökar sannolikheten till närmare 95% att bli rekommenderad.

Leverantör B följer EJ EBU™ poängen och därmed EJ ISO 10667. Även om chansen ökar ser ni att en poäng på 10 knappast ger en chans över 50%  att bli rekommenderad, alltså knappt bättre chans än om man slumpade in kandidaterna. Leverantör B kan lika bra singla slant vilket är betydligt billigare än att använda standardiserade metoder och EBU™ för att välja vilka som ska rekommenderas.

Sammanfattning

Ett grundläggande antagande bakom all rekryterings- och urvalsverksamhet, är att människor skiljer sig från varandra, även när det gäller andra faktorer än utbildning och erfarenhet. Vore det inte så, skulle man kunna anställa vem som helst med rätt yrkesmässig kompetens. Men i och med antagandet att det också finns andra skillnader som påverkar människors arbetsprestationer, blir dessa intressanta att bedöma. Förutom den yrkesmässiga kompetensen är man i allmänhet intresserad av faktorer som motivation, begåvning, den sökandes personliga egenskaper, värderingar och så vidare. Detta bedöms ofta med standardiserade metoder som visat sig reliabla och valida. Problemet är inte längre, med dagens teknik, att samla information, utan problemet består av att rekyterare har en övertro på sin egen förmåga att väga ihop denna information. EBU™ är ett sätt att bli mer professionell i sin yrkesutövning, att ta statistikens hjälp för att fatta nyktra belslut. Min förhoppning är detta mått som jag redovisat ovan ska hjälpa till att ge bättre urvalsbeslut som bygger på logiskt tänkande istället för magkänsla.

Copyright Psychometrics Sweden AB. Evidensbaserat urval (EBU™) är varumärkesskyddat.

Ytterligare kommentarer avseende betyg

lära

 

 

Jag fick mail från en av psychometrics uppmärksamma läsare som skickade mig kompletterande information avseende betygsbedömning. Detta står i läroplanen (Kursivt). Efter det som står som instruktionerna för betygssättning finns mina egna kommentarer (i fet stil).

Kunskapskraven har en tydlig koppling till målen i ämnets syfte och anger med vilken kvalitet eleven ska visa sitt kunnande i förhållande till målen.

OK för mig jag förstår ,det är ett absolut nivå system utan jämförelser mellan elever.

Eleven ska uppfylla hela kunskapskravet för betygen E, C eller A. Betygen D och B har inte preciserade kunskapskrav. Dessa betygssteg grundar sig på vad som anges i kunskapskraven för betygen över och under.

Här blir det lite svårare att följa, men OK jag tror jag förstår det finns ingen definition av betygen D och B.

Underlagen för betygen D och B kan se olika ut för olika elever. En elev uppfyller vissa delar av kunskapskravet för det överliggande betyget medan en annan elev uppfyller andra delar.

Här smyger det sig in en jämförelse mellan elever i ett absolut system och det börjar likna en kompensatorisk modell där det ena kan överväga det andra. 

Båda eleverna kan dock bedömas uppfylla det överliggande betyget till övervägande del.

Antingen petas man upp eller ned i bedömningen med begreppet “övervägande del”. Nu börjar det bli flummigt.

Eftersom “till övervägande del” är en bedömning som kan se olika ut från elev till elev kan dessa kunskapskrav inte preciseras vare sig på nationell eller på lokal nivå.

Spännande, det går inte att precisera, men vi lärare ska ändå tvingas bedöma om man petar upp eller ned en elev. Det här börjar bli otroligt diffust.

Vid bedömningen av “till övervägande del” gör läraren en helhetsbedömning av de
kunskaper eleven visar jämfört med överliggande kunskapskrav.

Och här kommer den berömda “helhetsbedömningen” även kallad magkänsla som vi vet inte fungerar. 

I jämförelsen identifierar läraren vilka delar av kunskapskraven som eleven uppfyller och bedömer med stöd i ämnesplanens syfte och kursens centrala innehåll om elevens kunskaper sammantaget uppfyller kravet på “till övervägande del”.

Slutkommentar

Detta fungerar sådär, hela makten för bedömningen ligger hos läraren som måste avgöra ett betyg ibland på nivåer som inte går att definiera. Detta är en skandal, jag undrar varför man helt bortsett från samhällsvetenskaplig forskning av psykologer, pedagoger och ekonomer om vilken “bias” vi petar in i våra tolkningar (särskilt om vi redan från början medger att de inte går att precisera). Och framförallt var matematiklektorn Fritz Wigforss inne på samma linje för 60-70 år sedan. Tycker man ska tillsätta en krisgrupp (Wigforss gruppen) som får reda ut denna härva, det är inte rimligt att detta ska hända 2016.

Betyg2

 

Mätning av kunskap och betygsbeslut, ett debattinlägg

SOUJag har länge intresserat mig för hur betygsättning går till i Sverige, från grundskolan till universitetet. Inte minst för att en stor del av tyngden i betygsbeslutet grundar sig på prov, och prov emanerar från psykologiska test, dvs en teori hur vi kan mäta egenskaper och kunskaper. I skolan handlar det om att mäta kunskap, och denna mätning blir sedan vägledande till det betyget eleven/studenten får. Nu har det kommit en ny Statlig Offentlig Utredning (SOU 2016:25) som utmynnar i en mängd förslag där ett är att vi ska gå över från papper och penna prov till digitaliserade prov (kanske inte så konstigt). Men det är inte det som jag tänkte fokusera på här utan två av bilagorna till utredningen som handlar om hur prov i skolan växt fram över de senaste 80 åren och provens mätteori. Jag kommer först sammanfatta utredarens beskrivning av betygens framväxt och sedan komma med några förslag på vad jag tycker är viktigt att fokusera på i framtiden för att få ordning på denna betygsröra.

I dessa bilagor till SOU 2016:25 finns det en helt suverän beskrivning hur vi kommit hit där vi är idag med början med en tidsresa från 1940-talet. Författarna till bilagorna (misstänker att Jan-Erik Gustafsson är en) menar att tiden från 1940-talet kan indelas i tre perioder.

 1. En första period med definitiv start i och med Lgr 62 som dominerades av grupprelaterade prov
  och betyg.
 2. En andra period med avstamp i 1994 års läroplaner då kriterierelaterade prov och betyg blev framskrivna.
 3. Och slutligen dagens läge där man kan tala om standardsrelaterade eller standardsbaserade prov och betyg.

De två första perioderna är tämligen klart åtskiljbara, säger författarna, men när det gäller kriterierelaterade prov och betyg i relation till de som gäller i den nuvarande tredje perioden blir det mer diffust (och där är jag också lost, därför kommer jag hålla mig till de första faserna).

Period 1. SOU 1942:11
Om vi börjar i 40-talet när dåvarande regeringen (en samlingsregering som bestod av representanter för socialdemokraterna, Bondeförbundet, Folkpartiet och Högern) gav matematiklektorn Fritz Wigforss i uppdrag att utreda förutsättningarna för att fixa till ett nytt prov- och betygssystem. Wigforss betänkande kan sägas vara startpunkten för att införa ett prov- och betygssystem som byggde på en sund (för den tiden) psykometrisk teori som vi idag känner som den klassiska testteorin. Dessförinnan sattes betyg av ”erfarna och omdömesgilla personer med allmänt gott renommé”, sk censorer. Wigforss prov utgick från en normalfördelning med medelvärdet 3, standardavvikelsen 1, och fem betygssteg. Normen användes på nationell nivå för att fastställa poänggränser på nationella prov. I själva verket är detta vad vi inom psykologin kallar för indviduella differenser och inom tex psykologisk testing pratar vi om hur det individuella värdet förhåller sig till en normgrupps värde.

Betygssättningen styrdes hårt av de nationella proven och lärarnas slutgiltiga betyg var därför styrda av provresultaten, dock inte till 100%. Elevens medelvärde fick inte avvika med mer än 0,2 betygssteg i relation till betygsmedelvärdet för provet. Om det gjorde detta, var det dags för läraren som avvikit från normen att förklara sig för rektor och kollegiet. Betyget baserades på en logisk grund att mätningen ska vara reliabel. Därför utvecklades proven utifrån den klassiska testteorin där mått på reliabilitet kan beräknas som internt konsistens, att provet ska kunna rangordna elever på en förmåga eller kunskap. Om provet var reliabelt är denna modell mekanisk och kräver ingen bedömning utöver den bedömning som eventuellt ingick i själva bedömningen av proven. Testpoängen angav rangordning av eleverna och elevens betyg på provet bestämdes av de poänggränser som angavs för olika betyg. Glasklart, eller hur?

Wigforss prov vägledde sedan utvcecklingen fram till 60-talet. Värdeord av typen godkänd, väl godkänd etc. fanns inte i det femgradiga betygssystemet som sjösattes på 60-talet, även om det i praktiken kunde utvecklas gränsvärde av av de som skulle välja elever till utbildning, tex gränsen 3 i medelbetyg.

Det är självklart för mig att denna syn på prov i skolan, det norm- eller grupprelaterade systemet har sina rötter i de test som utvecklades i USA under det tidiga 1900-talet för att användas i militära urval. I urval är den prognostiska validiteten central, dvs de egenskaper som mäts ska kunna förutsäga senare beteende (tex lärande eller prestation). Även om psykometrin har utvecklats betydligt idag så är det detta synsätt som lever kvar när vi rangordnar personer till utbildningar och jobb, högst poäng vinner (jag vet att några av mina läsare inte håller med, men även om man struntar i testpoängen så kommer kandidaterna bli valda eller inte, 1 eller 0). Detta system är vi 50+ uppväxta med, och min personliga åsikt var att detta system (även om jag var kritisk att jag själv fick så hemskt låga betyg!) var ganska oproblematsikt, medelbetyget sa något om hur bra jag var om jag jämfördes med andra, i mitt fall inte så jättebra, men jag kände mig OK ändå.

Period 2 – kriterierelaterade prov och betyg

Men på 80-talet växte kritiken om denna ”hemska” rangordning eller sortering av elever. Och själva kärnan i kritiken var att proven, även om de var reliabla, inte speglade själva kunskapsnivån, som beslutsfattare ville att barn skulle ha. Istället ville man att eleven visade att hen i tillräcklig utsträckning klarade av uppgifter som bedömdes ligga på en viss nivå, givet ett visst kriterie. I praktiken började man resonera sig bort från den kontiuerliga skalan (1-5), som beskrev eleven i ett relativt system, till ett absolut system, där eleven skulle upp till en viss nivå för att få ett visst betyg, tex G (godkänt). På 90-talet vann detta kriterierelaterade synsätt gehör hos alla beslutsfattare, ut med det gamla och in med det nya, MYCKET BÄTTRE systemet. Detta började med att man behöll 1-5 betyget men det blev mer svävande, i jamförelse med tidigare hårdare regler (läs Wigforss reglerna). Rekommendationen var istället att betyget 3 skulle vara det vanligaste betyget och att andelen 2:or och 4:or skulle vara större än andelen 1:or och 5:or.

Och här börjar det flumma till sig rejält enligt mig.

Tanken var nog god och särskilt i USA började man prata om sk kriterierelaterade test. Samtidigt utvecklades psykometrin betydligt, bla fick Item Resonse Theory fäste, en psykometrisk tradition som är tillämplig att använda för att bla fastställa gränsvärden.

Samtidigt i Sverige, som beskrivs på ett ypperligt sätt i bilaga 3 (SOU2016), introducerades ett nytt kunskapsbegrepp ”de fyra f:en: fakta, förståelse, färdighet och förtrogenhet”. Utan att närmare gå in på detta här, fastslår författarna att denna teori inte kunde leva med att proven rangordnade elever baserat på individuella differenser. Nu handlade det inte längre om att relatera resultaten till en skala med förutbestämda egenskaper (medelvärde och standardavvikelse) och inte heller om att jämföra eleverna med varandra. I det nya systemet handlade det om att bedöma elevernas kunskaper i relation till i text framskrivna kriterier om vilka kunskaper som skulle visas för att berättiga till de olika betygen. Detta mycket bättre systemet visade sig dock vara väldans problematiskt eftersom ingen hade tänkt på att det är inte helt enkelt att bestämma vilka kriterier som skulle visas (alltså mätas) för att berättiga ett visst betyg. Men politikerna var positiva där uppfattades de nya textbaserade betygskriterierna i sig tillräckliga, och ut slängdes de gamla dammiga nationella betygsstödjande proven.

MEN, som sagts ovan, bestämningen av kriteriegränser (betygsgränser) visade sig vara en betydligt knepigare uppgift än förväntat. Detta hade psykologiska forskare redan bevisat 30 år tidigare men det verkar som drivet att förändra var större än att luta sig mot vetenskap. I sjäva verket utvecklade samma psykollog som utvecklade det vanliga måttet Cronbach Alpha en koefficient som visade att sätta absoluta betyg alltid resulterar i att dessa betygs reliabilitet sjunker betänkligt. Och även Wigforss var inne på samma linje enligt författarna. Wigforss menade att såååå precisa formuleringar, som sådana system antar, kan inte formuleras att de skulle bli entydigt tolkningsbara för olika användare. Wigforss förslag blev därför ett system baserat på relativa betyg, vilket också blev vad som infördes på 40-talet (se ovan).

Men nu tilbaka till 90-tal. Vad är du svårigheten i ett system som ska sätta skarpa gränser, jo det kriterierelaterade systemet är det såååå noga med den exakta nivån och då blir själva bedömningen mycket mer komplicerad i jämförelse med det normrelaterade. Med andra ord om vi psykometriskt ska bestämma reliabiliteten i ett prov utifrån om vi ska rangordna studenter är det mycket lättare att få hög reliabilitet i jämförelse om vi exakt ska säga vad gränsen går om en elev ska ha ett A eller B i sitt betyg.

Vad som hände i praktiken, som författarna beskriver i sin text, var att inte bara bedömningen av provresultaten utan även de beslut om betygen som skulle fattas blev skakiga. Mycket pga att lärarna skulle tolka kriterier för olika betyg där det högsta betyget mycket väl godkänt (MVG) saknades de första fem åren! Snacka om taskigt mot lärarna, tycker jag.

Jag tycker att den nya kunskapssynen, baserad på de fyra f:en, där de olika
kunskapsformerna inte var rangordnade utan snarare växelverkade är sund, men som förrfattarna skriver, så bygger otveksamt betygssättning på en rangordnande verksamhet. Om en elev betygsätts, och detta sedan ska ligga till grund för ett urval, då ska den information så långt som möjligt underlätta rangordningen som ligger till grund för själva urvalsbeslutet.

Period 3 – standardsbaserade prov och betyg

Hur ser då ut idag? Här beskriver författarna ett teoretiskt absolut system där kunskapsnivåer bestäms av kunskapsprogression i ämnet. Denna progression är mer eller mindre godtycklig och är beroende av ämnets karaktär. Vissa ämnen har i sig en tydlig hierarkisk ordning (kan t.ex. gälla vissa moment i matematik), medan andra ämnen har en progression som mer innebär en vidgning av kunskapsfältet (kan t.ex. gälla psykologisk behandling).

Och här blir det jobbigt. Vi har en utgångspunkt när eleverna ska ska lära sig något, men så har vi verkligheten när de slutar skolan där de ska rangordnas när de söker till nya utbildningar eller ska ut i arbetslivet.

Så här är det idag om jag fattar rätt. För att eleven ska få ett visst betyg (E, C eller A) måste respektive kunskapskrav vara uppfyllt i sin helhet. Det betyder en icke-kompenserande modell. Om en förmåga ligger på E-nivå har det ingen betydelse om övriga förmågor ligger på högre nivå. Det sammanfattande betyget blir E. Men för de nationella proven gäller inte detta, och inte heller i praktiken (undrar vad Wogforss hade tänkte om detta?).

Detta faktum, säger författarna, skapar en osäkerhet hos lärarna. Konsekvensen av detta är att läraren sätter ett betyg på nationella provet (som bygger på rangordning) men eleven får inte veta detta betyg eftersom det är en annan sorts betyg än det slutliga (som bygger på ett absolut gränsvärde), detta är naturligtvis är djupt olyckligt, inte minst för att den stackars läraren måste med sin egen förmåga bestämma detta. Och då är vi väl tillbaka till att den slutliga bedömningen ges av ”erfarna och omdömesgilla personer med allmänt gott renommé”, dvs lärarna.

Det absoluta systemet funkar inte heller i praktiken. Låt mig ta ett exempel, när urval sker är modellen kompensatorisk, dvs när vi anställer en kandidat så bestämmer vi sällan en absolut nivå. Beroende på urvalet väljer vi personer med kunskap vad som passar bäst (tex bra i en sak men kanske lite sämre i en annan sak).

Jag tycker att man blandar och ger just nu i det svenska utbildningssystemet. Om man tittar på den internationella forskningen så står det klart att prov i sig inte ger ett lärande (vilket inte Wigforss var inne på heller, vad jag förstår). Bara för att man mäter saker med precision betyder det inte att studenterna lär sig mer. Igår rättade jag 26 tentor, och en kritisk kommentar som jag fick från en student (tentan handlade bland annat om validitet i mätningen), var att att förvisso var det finurliga frågor men att denna tenta (läs prov, test) i själva verket mätte hur väl förberedd man var vid tentatillfället och framförallt förmågan att inte få skrivkramp (ja det var ett papper och penna test för att min institution har inte råd att införa digitala tentor).

Jag håller med studenten att detta är ett problem, men eftersom jag måste sätta ett betyg från E till A, måste en mätning av kunskap ske med så god reliabilitet som möjligt, men jag kan faktiskt inte bevisa att mina bedömning är reliabel, tyvärr. Det hade varit betydligt bättre om jag hade en normbaserat prov att förlita mina betyg på.

När det gäller inlärning lutar jag mig mot forskningen och anser den formativa ansatsen funkar bäst, dvs när det finns en interaktion mellan läraren och eleven, där jag kan ställa frågor, där studenten kan ställa frågor, där jag kan svara, där studenten kan rätta mig och där vi båda kan lära av varandra. Där är det upp till eleven många gånger (nu pratar jag om universitetsstuderande) att själv sätta ambitionsnivån (vilken tyvärr är skrämmande låg ibland) och därefter försöker jag anpassa min lärarstil inför detta. Men att göra formativa prov för att sätta betyg, detta ser jag som ”mission impossible”.

I slutet menar författarna till SOU att det viktiga i det här sammanhanget är att den som konstruerar provet får ett tydligt och avgränsat syfte med provet. Frågan är vad mätningen är till för?

Är det ett betygsstödjande summativt prov?
Är det ett formativt prov?
Är det ett utvärderande prov?
Är det ett uppföljande prov?
Är det ett examinerande prov?
Är det ett validerande prov?
Ska provet mäta förändring över tid?

Detta tycker jag är en utmärkt utgångspunkt för nästa steg, om någon kan ge mig ett antal miljoner kan jag ägna resten av min forskningskarriär för att undersöka utveckla detta.

Här kommer några förslag från mig

 • För varje ämne i skolan (för varje årskurs) utveckla en databas med kunskapsfrågor. Normera (och sätt gränsvärden) för olika nivåer av kunskap.
 • Testa alla i slutet av terminerna, detta utgör deras kunskapsnivå just nu (med en viss osäkerhet i mätningen). Med modern psykometri kan vi då få en utvecklingskurva för varje år från 6 år upp till vuxen ålder.
 • För varje nivå ta fram formativa arbetssätt som stödjer inlärningen av kunskapen som sedan ska testas.
 • Slopa dagens betyg, ge återföring till föräldrar och elever på utvecklingskurvan.
 • Slutbedömningen för urval som ska ge rangordningen bestäms av den senaste mätningen på de årsbaserade proven. Slutbetyget för högre utbildning utgör ett värde för varje ämne (en beskrivning) och ett medelvärde för hela utbildningen (beslutsunderlag för urval).

Forskningsbaserade bedömningstjänster?

Stämpel assessmentNär det gäller bedömningstjänster i arbetslivet marknadsförs ofta dessa metoder som vetenskapliga. Men ordet vetenskapligt verkar användas på ett sätt av många som ord utan innehåll. Ett exempel som jag har stött på är VerksamhetensDNA™ och ArbetsrelateratDNA™. Leverantören av metoden hänvisar till att det är vetenskapligt eller forskningsbaserat. På hemsidan kan man läsa:

”Kriterierna är baserade på vidimerad forskning kring vad som avgör gemensam framgång och prestation av bland annat Elliot Jaques, Scott Bristol och William Moulton Marston.”

Observera att detta är bara ett exempel jag har stött på många liknande fall senaste åren.

Med vetenskap menas att det finns en teori. Denna teori är sedan vägledande för hur en bedömning går till. I detta exempel finns det begrepp som benämns VerksamhetensDNA™ och ArbetsrelateratDNA™. Hemsidan hänvisar till tre framstående forskare, för mig helt okända inom urvalsforskningen.

När jag googlar på Elliot Jaques, Scott Bristol och William Moulton Marston hittar jag inga direkta kopplingar till begreppet DNA (kanske för att det inte fanns när några av dem levde). Och när jag tittar vidare så hittar jag detta:

Elliott Jaques (Januari 18, 1917 – Mars 8, 2003) som  jag stött på tidigare inom branschen. Elliot var en kanadensisk psykoanalytiker som bland mycket annat föreslog en teori om hur personer kan väljas för olika roller i en organisation. Jaques utvecklade en metod som kallas Speech Analysis. Metoden gick ut på att en anställd fick genomgå en intervju där det bedömdes vilken potential denna person har för en viss nivå i en organisation. Resultatet fastställde på vilken komplexitetsnivå personen kan fungera i organisationen. Så vitt jag vet har inte detta lämnat något större avtryck i den internationella forskningen om urval eller organisationsutveckling. Har inte stött på hans teorier i de ”tyngsta” vetenskapliga tidskrifterna om organisationspsykologi. Men Elliot verkar poppis hos en hel del konsultfirmor.

Scott Bristol är lektor inom ämnet organisationspsykologi och har utvecklat ett instrument som mäter olika värdeingar, Life Journey Map®. Dessa 130 värderingar kategoriserar han sedan i tre cykler, Journey of Self-Worth. Journey of Self-Expression. Journey of Selfless-Expression. Verkar vara någon fasteori om utvecklingen av individer. Inget om Scotts teori eller mätning hittar jag i vetenskapliga tidskrifter.

Slutligen, William Moulton Marston (Maj 9, 1893 – Maj 2, 1947) var en amerikansk psykolog och jurist mest känd för att skapat seriefiguren Wonder Woman! Dessutom uppfann han lögndetekotorn (som vi idag vet inte fungerar). För oss som arbetar med urval så är han också upphovsman till DISC teorin som används som utgångspunkt för vissa test som används på den svenska marknaden. William har inte dykt upp som en frontfigur inom den organisationspsykologiska forskningen i vetenskapliga tidskrifter. Han verkar ha varit en högst kreativ person men att basera en bedömningsteori 2016 på hans teoretiska bidrag ter sig lite udda,

Argumentationen att detta är forskningsbaserat är inte ens svagt, det är obefintligt. Jag har tidigare skrivit om hur man bör tänka kring detta som uppdragsgivare (klicka här) och denna bedömning klarar inte ens av ett JA på den första frågan man ska ställa sig som upphandlare av bedömningstjänster.

Finns begreppet beforskat som avses att bedömas? Svaret är NEJ (vad jag vet)

Även om dessa forskare skulle ha erövrat världen med sina forskningsresultat är problemet att den “vidimerade forskningen” inte ens har definierat VerksamhetensDNA™ och ArbetsrelateratDNA™.

Säljs det bedömningstjänster av denna typ till företag? Nja, osäker, men en av Sveriges största banker verkar gå igång på VerksamhetensDNA™ och ArbetsrelateratDNA™. Detta säger en hel del om kunskapen hos dem som upphandlar bedömningstjänster på banken.

Läs gärna vad som står i ISO10667  vad  en leverantör bör kunna presentera som säljer bedömningstjänster, innan ni upphandlar nästa gång.

Evidensen för metoden eller processen bör vara beskriven i tillfredsställande detalj och bör innehålla:

 • en beskrivning av den modell, teori eller logik som bedömningsmetoden eller processen grundar sig på, t.ex. en teori om organisationskultur, en modell för arbetstillfredsställelse, en teori om individuella intelligensskillnader eller en modell för profilering av arbetsrelaterade kompetenskrav,
 • när och var evidensen anskaffades och senast uppdaterades,
 • information om vilken typ av data som samlats in, t.ex. testpoäng, skattningar av assessment-centerövningar, intervjuvskattningar, och kollegieskattningar,,
 • information om vad som utmärker bedömningsdeltagarna och huruvida de är tillräckligt representativa och tillräckligt många för att stödja eventuella slutsatser som dras utifrån deras resultat,,
 • innebörden av slutsatser för användning av metoden eller processen vid bedömningar, inklusive begränsningar i användningen.

Vilket test är bäst? Validitet i arbetspsykologisk testning

validity2En av de vanligaste frågorna jag får är – vilket test är bäst? Men frågan går inte att svara på utan att ge frågan ett kontext. Hur ska testet användas, vilket syfte har testningen?

De flesta beteendevetenskapliga program som har metod och statistik på schemat undervisar fortfarande om den klassiska definitionen av validitet, dvs att validitet är det vi mäter verkligen mäter det som avses mätas. I denna definition blandar man sällan in den situation där testpoängen ska användas. Istället undervisas om olika typer av validitet, diskriminerande validitet, begreppsvaliditet, kriterievaliditet, extern validitet och intern validitet. Men i praktiken är denna syn förlegad. Att rabbla upp att ett test har validitet utan att berätta vad man ska ha testpoängen till leder bara till förvirring, enligt min mening. Den krångliga definitionen av validitet idag är:

I vilken utsträckning tolkningen och användningen av testpoängen överensstämmer med det föreslagna syftet med testningen, och i vilken utsträckning tolkningen och användningen stöds av evidens och teori.

Den enklare definitionen är:

Funkar testpoängen för det jag vill använda testpoängen till?

Jag menar, ska en testpoäng användas i forskningsändamål för att förklara ett psykologiskt fenomen som tex emotionell intelligens bör naturligtvis fokus vara på att bevisa att instrumentet mäter vad som avses att mäta. Men om istället samma testpoäng ska användas för att ta ett urvalsbeslut måste detta stödjas av evidens för att det finns ett samband mellan testpoäng och arbetsprestation.

Självklart, tycker kanske ni. Ja men i praktiken frågar ofta uppdragsgivarna, i sin upphandling, leverantörerna om valditet, och leverantören svarar, JA vi kan visa validitet, men frågan är om det funkar för din situation?

Ett vanligt förfarande är att testpoängen tolkas tillsammans med en kompetensprofil. Om leverantören endast kan visa att testpoängen mäter vad som avses att mäta, faller hela arbetsanalysen som tagit fram kompetensmodellen. Arbetsanalysen måste och också vara valid för annars vet vi ju inte vad vi bedömer. Har råder en stor förvirring ibland tycker jag att svaret på en fråga om validitet liknar ”goddag yxskaft”.

Om ni som uppdragsgivare ska köpa psykologiska test bör ni i nämnd ordning ställa följande frågor

1. Finns begreppet som avses att bedömas i en testpoäng?

Om begreppet som avses att ingå i en urvalsprocess finns handlar om att det går att definiera som ett teoretiskt begrepp. Inom psykologin, till skillnad om man mäter längd och vikt, så vägleds ofta mätningen av psykologiska fenomen av en teoretisk utgångspunkt. Längd och vikt är direkt observerbara mått på något, medan ett mått på personlighet inte kan ske på samma direkta sätt. Många gånger uppfinns nya begrepp inom urvalstjänsterna. Om dessa ska över huvudtaget finns ska dokumentationen på ett tydligt sätt definiera dessa begrepp, särskilja detta från andra liknande begrepp och dokumentationen ska också vägleda hur detta begrepp ska effektivisera urvalsprocessen. Det räcker inte att säga att värderingar är viktiga, eller att den sociala förmågan ska ingå i urvalsprocessen. Istället ska värderingen och den sociala förmågan definieras tydligt innan man ställer nästa fråga?

2. Går det att mäta begreppet?

När personlighet mäts måste en omväg tas genom indirekta mätningar. Personlighet utgör ett sk latent (eller icke-observerbara) begrepp. När instrument av denna typ utvecklas vägleds framtagandet av dessa instrument av en teori hur personlighet fungerar. Tex om en forskare vill kartlägga vilken personlighetsstruktur (latent variabel) som döljer sig hos människor som visar ett visst arbetsbeteende så kan forskaren mäta personligheten med ett formulär. Personerna får besvara ett antal frågor (indikatorer) som antas mäta olika aspekter av personligheten. Indikatorerna är således det vi kan observera, dessa indikatorer kan sedan räknas ihop till en poängsumma som utgör vårt personlighetsmått. Denna summa kan sedan utgöra beslutsunderlaget i en urvalsprocess. Frågeställningen som bör besvaras här är således om poängsumman verkligen speglar det som avses och definierats i teorin (se fråga 1). Att kritiskt utvärdera vilken teoretisk modell som en bedömningsmetod vilar på är därför av yttersta vikt.

3. Går det av resultatet att förutsäga olika arbetsrelaterade beteenden?

I urvalssammanhang är det väsentligt med metodens prediktiva eller förutsägbara kraft, det vill säga förmågan att förutsäga ett framtida beteende, tex arbetsprestation. När det gäller personlighetsexemplet ovan kan både fråga 1 och 2 besvaras med ett JA, det går att definiera teoretiskt och det går att mäta, men i urvalssammanhang är instrumentet inte att betraktat som validerat om inte själva testpoängen har ett samband med det beteende som avses förutsägas.

Även om både fråga 1 och 2 är av stort intresse för de bedömningsmetoder som används vid urval så har fokus inom urvalsforskningen till mångt och mycket försökt besvara fråga 3, går det att använda för att förutsäga hur det kommer gå för en enskild person. För att konkretisera, går det av bedömningsunderlaget säga om person A eller person B är lämpad för jobbet.

Denna fråga besvaras ofta med ett statistikt mått, korrelationen. Korrelationen uttrycks som ett värde mellan 1 och -1, där 0 anger inget samband, 1 anger maximalt positivt samband och -1 anger maximalt negativt samband. För att ta ett exempel, säg att vi vill uttrycka sambandet mellan intelligens och arbetsprestation, och att vi har lyckats mäta detta begrepp på en numerisk skala. En stark positiv korrelation, till exempel 0,9, betyder då att ju intelligentare man är, desto bättre prestation. En stark negativ korrelation, som -0,9, betyder i stället att ju intelligentare man är, desto lägre prestation. En korrelation på eller nära 0 betyder att det inte finns något linjärt samband mellan intelligens och prestation. Däremot är ett korrelationsvärde på eller nära 0 möjligt att få när det finns ett icke-linjärt samband. Ett exempel på detta vore om både höga och låga värden på intelligens hade samband med höga värden prestation. Det innebär att även om samband och korrelation ibland används som synonymer, så är egentligen korrelation en specialsituation av samband.

Det är viktigt att komma ihåg att en korrelation säger ingenting om orsakssamband, eller kausalitet. I det ovan nämnda exemplet säger en stark positiv korrelation alltså inte att det finns en kausalitet mellan intelligens och prestation, i själva verket finns det en tredje faktor inblandad och det är lärande, dvs intelligens påverkar lärande som i sin tur påverkar prestation. I urvalspraktiken behöver vi inte förklara samband, därför utgör korrelationen ett bra mått på styrkan mellan ett urvalsinstrument och senare beteende, men om man som forskare vill ”förklara” vad som påverkar vad, krävs mer avancerad statistik.

Fram till denna punkt kommer en del leverantörer av test. Det finns en manual som berättar om teorin, det finns dokumentation som kan visa att det går att mäta begreppet, det finns fog för att begreppet kan vara avgörande för arbetsrelaterat beteende och det finns en redovisad korrelation mellan begrepp och beteende. Men räcker inte detta? Nej, enligt mig, även om dessa krav är uppfyllda måste den sista frågan besvaras.

4. Är testpoängen avgörande för urvalsbeslutet?

Tolkningen och användningen av bedömningsresultatet ska finna stöd i den teori och evidens som presenteras. En process betraktas inte som validerat om inte dessa riktlinjer som bygger på att evidens verkligen följs. Ett exempel kan vara att det finns en god teori och evidens för att personlighetsdraget målmedvetenhet tillsammans med intelligens utgör en god prediktionsförmåga för arbetsprestation. Två kandidater finns att välja på där den ena har höga poäng på både målmedvetenhet och intelligens och den andra kandidaten har låga poäng på samma test. Evidensen talar för att den som har höga poäng kommer lyckas bättre i arbetet i jämförelse med den andra kandidaten. Istället väljs kandidaten som har höga poäng på en intervju som genomförts (ingen teori eller evidens finns presenterad för intervjun) men låga poäng på målmedvetenhet och intelligens. Även om punkt 1 (begreppet finns), 2 (begreppet går att mäta), och 3 (det finns evidens för korrelation) med råge uppfyllts, kan inte processen betraktas som valid eftersom urvalsbeslutet inte stöds av varken teori eller evidens.

Tyvärr är det fråga fyra som bryter kedjan av logik för många. Det framkommer ofta annan information som, inte nödvändigtsvis är validerat i sig, ges vikt i urvalsbeslutet. Gång på gång hör jag talas om organistioner som har ”validerade test” men inte följer upp om organisationen vägleds av testresultatet. Ett vanligt sätt att komma runt den sista fråga är att hänvisa till att testresultatet ingår i ett större sammanhang, eller testpoängen är ett diskussionunderlag till intervjun. Men det är bara bortförklaringar till att inte använda testpoängen som beslutsunderlag.

Så här kommer mitt förslag:

1. Bestäm i förväg hur testpoängen ska vägas in i urvalsbeslutet
2. Och håll dig till det, även om magkänslan säger något annat.

Intervju med Sofia Sjöberg, ny R&D-chef på Assessio.

20140421_DB83635_FotoDavidBrohedeText från Assessiobloggen. Sofia Sjöberg är psykometrikern som var med och byggde hela Assessios egna testarsenal. Nu är hon tillbaka på Assessio i rollen som R&D-chef. I dag berättar hon om hur hon kom in på testkonstruktion, sin bild av framtidens testanvändning – och hur man lyckas utveckla fem test på fyra år

Foto. David Brohede.

Sofia Sjöberg intresserade sig för psykologiska test tidigt under sina studier.

– Redan min C-uppsats i psykologi handlade om test, berättar hon. När jag skulle skriva min magisteruppsats kontaktade jag Anders Sjöberg på dåvarande Psykologiförlaget (senare Assessio) och frågade om fick använda något av deras verktyg. Där började vårt samarbete.

Lite längre fram hörde Anders av sig till Sofia och föreslog att hon skulle söka en tjänst som psykometriker hos Psykologiförlaget. Hon fick jobbet, men det blev ingen enkel start.

– Allt jag kunde om test var det man lärde sig upp till magisternivå, minns Sofia. Det tog några år av hårt slit, mycket engagemang och stort tålamod att lära sig hur test fungerar. Men jag förstod att om jag lärde mig det här skulle jag ha en unik kompetens.

På den tiden hade Assessio inga egenutvecklade verktyg, men desto fler andra test i sitt bibliotek – runt 130 stycken. När Assessio sedermera beslutade att fokusera verksamheten på arbetspsykologi var Anders och Sofia starka förespråkare för idén att utveckla egna test.

– Det är väldigt ovanligt att man utvecklar egna verktyg från grunden, konstaterar Sofia. Det är en stor investering i både tid och pengar att utveckla dem. Men vi insåg värdet av att äga våra egna verktyg, tyckte att vi hade tillräcklig kompetens i huset och dessutom bra idéer som ingen konkurrent av arbetspsykologiska gjort kommersiellt tillgängliga.

När man väl bestämt sig gick det undan. Anders och Sofias team utvecklade egenhändigt testerna PJP, MINT, MAP, WSI och Matrigma – inom loppet av fyra år.

– När jag ser tillbaka är det ganska otroligt att vi lyckades utveckla så många verktyg av så hög kvalitet med så gedigen dokumentation på så kort tid, konstaterar Sofia. Men alla som jobbade med det här var extremt skickliga specialister på just sitt område, det var därför det gick.

Efter detta har Sofia både hunnit jobba med testutveckling på annat håll och disputera vid Stockholms universitet. Nu är hon tillbaka på Assessio som R&D-chef, samt ansvarig för IT.

– Det är jättekul att komma tillbaka och se att testen vi utvecklade har kommit upp på banan, säger hon. Dessutom finns det fortfarande stor utvecklingspotential. När man bygger ett test finns det oftast en mycket mer långtgående tanke än vad som kan realiseras i den första fasen av användning. Nu ser jag fram emot att fortsätta resan med de här verktygen.

En av Sofias viktiga uppgifter att utvärdera produkterna i relation till visionen för den nya plattformen Ascend by Assessio. Sofia berättar att fröet till den här visionen fanns redan när hon och kollegorna utvecklade Assessios egna test i början av 2000-talet.

– Men man måste komma ihåg att IT fortfarande var i sin linda. Vi förstod att det var ditåt vi skulle gå men det var omöjligt att veta hur det skulle se ut. I dag erbjuder Ascend just det som vi tänkte oss då: Ett processtänk, där testen är motorn i en evidensbaserad helhetskedja från rekrytering, urval till utveckling,succession som driver affärsinriktad HR. Det är en djärv vision – men nödvändig. Någon måste gå först och flytta fram positionerna om det ska hända något.

I dag har vi en gedigen grund i vad vi bör mäta i urval och med vilka verktyg, konstaterar Sofia. Den stora utvecklingen framåt kommer att ligga i hur verktygen levereras i en IT-miljö som en lösning.

– Det är det som är det nya. IT-lösningarna gör det möjligt att applicera mer avancerade psykometriska metoder och få mer exakta mått, berättar Sofia. Plus förstås att vi kan förbättra användarupplevelsen, både för kund och kandidat.