Normering av arbetspsykologiska test: En introduktion

Allt som oftast så tolkas ett testresultat på ett psykologiskt test för en individ i förhållande till hur andra svarat på ett test. Förfarandet vid testutveckling benämns normering. För normeringen av testresultat behövs en normgrupp. För normgruppen beräknas ett medelvärde och en standardavvikelse (spridning). Dessa två värden fungerar sedan som referenspunkt för individens resultat. En vanlig fråga jag får är hur normer ska bedömas och användas vid arbetspsykologisk testning? Nedan försöker jag bringa klarhet i frågeställningen, behövs det normgrupper vid testning? Svaret är både JA och NEJ.

Först en definition:

”de åtgärder som direkt syftar till att möjliggöra för användaren av testet att jämföra det enskilda testresultatet med resultaten i en referensgrupp, det vill säga en normgrupp. I normeringen ingår således definition och urval av normgrupper, beräkning av medeltal och standardavvikelser i råpoängsfördelningarna för normgrupper, transformering av råpoängskalor till Z-poäng samt upprättande av standardiserade poäng (tex stanine, T-poäng, C-poäng). Normeringen av ett test är ett led i standardiseringen av testet”

Normeringen av test kan se olika ut för olika typer av test, men här kommer jag fokusera på personlighetstest. Men innan vi går in på själva normgruppens betydelse för användningen av resultat måste först syftet med testningen bestämmas, och det finns två olika sätt att använda personlighetstest på, ett beskrivande syfte och ett prognostisk syfte. När ett test används i beskrivande syfte är ”tolkningen” av testpoängen i fokus, ett exempel kan vara när testpoängen användas som underlag för personlig utveckling. I det prognostiska syftet ska testpoängen användas för att säga något om hur individens kommer agera i framtiden, ett exempel är när rekryteraren ska välja mellan ett antal personer om vem som ska rekommenderas till den nya chefspositionen.

Beskrivande syfte

Personlighetstest genererar information av beskrivande karaktär. Individens egenskaper uttrycks i en standardiserad testpoäng (se ovan) vars nivå bestäms i förhållande till en relevant jämförelsegrupp, en så kallad normgrupp för att poängen ska bli meningsfulla och begripliga för testadministratörer och testpersoner. En normgrupp som motsvarar en population kan beskrivas som en grupp människor som också besvarat frågorna i testet och som är representativ för populationen beträffande relevanta variabler, som tex ålder, kön och utbildningsnivå. För testtagaren blir jämförelsen med tillhörande beskrivning begriplig när den görs i förhållande till ”andra” personer. Traditionellt handlar det beskrivande syftet om begreppsvaliditet, dvs individens resultat ska spegla den personlighetsfaktor som antas bedömas.

Prognostiskt syfte

I det prognostiska syftet ska testpoängen ställas i relation den kriterierelaterade validiteten, dvs sambandet mellan testpoäng och det kriterie som ska förutsägas, tex arbetsprestation. Även om normgruppen är tillräckligt stor och representativ så är det oväsentligt om inte sambandet mellan testpoängen och kriteriet kan bekräftas genom empiriska studier. Behövs en normgrupp även för detta syfte,? Svaret är både JA och NEJ. Om syftet endast är att rangordna kandidater på en given egenskap behövs EJ en normgrupp, det går lika bra att bara summera alla svar på en skala och ta de som ligger på högsta poängen (om sambandet mellan testpoäng och kriterie är positivt). Men så fort det beskrivande syftet kommer in i bilden, tex när återkoppling till testtagaren ska ske efter genomförd bedömning behövs en normgrupp för att relativisera resultatet i förhållande till ”andra” personer.

Tolkning av psykologiska test och normering av test

Psykologiska test har funnits länge långt innan datorer, surfplattor och mobiltelefoner inträdande i vårt liv. Vid de första normeringarna av psykologiska användes papper och penna. En stor mängd personer fick besvara testet och sedan beräknades ett medelvärde och en standardavvikelse (spridning) för gruppen. Denna nivå och spridning kunde sedan jämföras mot individens resultat. Psykologen (som endast var tillåten att administrera dessa test på den tiden) tolkade sedan resultatet med hjälp av normgruppens resultat. På den tiden fanns inte standardiserade återkopplingstexter utan det var psykologen själv som var ansvarig att tolka resultatet. Den sk kliniska tolkningen i arbetspsykologiska sammanhang populariserade av psykologen Arne Trankell på 60-talet, då professor vid Stockholms universitet. Trankell var ansvarig för att psykologens tolkning var central när stridspiloter skulle väljas, ut. Eftersom militären alltid har varit central för utvecklingen av urvalsprocesser tog det inte lång tid innan övriga arbetslivet tog kunskapen till sig, psykologiska test på den tiden tolkades av psykologen i beskrivande syfte, även när syftet är prognostiskt. Trankell hade således inte koll på skillnaden mellan prognos och beskrivning.

Idag vet vi bättre, forskning visar tydligt att användandet av psykologiska test ska vara så standardiserad som möjligt utan inblandningen av tolkaren, särskilt för det prognostiska syftet. Så fort tolkaren är inblandad i tolkningen försämras både begrepps-och kriterierelaterade validiteten för testpoängen. Att testadministratören lägger sig i hur testpoängen ska tolkas är ett mycket större problem i jämförelse med vilken normgrupp som används. Att marknaden fortfarande betalar för att någon ska tolka testpoängen i rekryteringssammanhang (prognostisk syfte) är en gåta för mig, min rekommendation är att sluta betala för detta.

Normgruppen

Fram till 90-talet publicerades normer i form av normtabeller i manualer, idag publiceras inte normer utan resultatet finns i web-plattformen. När detta fungerar bra representerar normgruppen avsedd population där låga respektive höga testpoäng resulterar i en standardiserad rapport som väl beskriver personens test resultat. Men att ett personlighetstest har förmågan att ge en övergripande och/eller detaljerad beskrivning av en individs personlighet kan vara relevant men detta ska inte förväxlas med, och det ska inte per automatik antas, att testpoöngen har en prognostisk kapacitet (se ovan).

Om det finns möjlighet att samla data från hela populationen, tex hela sveriges befolkning, så skulle detta vara det absolut bästa sättet. Då skulle medelvärdet och standardavvikelsen representera ”sanna” värden. Det näst bästa sättet är att ta ett slumpmässigt stickprov från normalpopulationen (hela Norge), det skulle också representera ett ”sant” värde (med en viss felmarginal) givet att alla tillfrågade svarar på testet.

Men dessa förfaringssätt är väldigt tidskrävande och dyra att genomföra, även om det förekommer ibland. Iställer använder sig leverantörer av test sig av den data de har samlat in i sin egen webplattform.
Det är därför sällan som en testpoäng talar om för oss hur personen förhåller sig till ”folk i allmänhet”. Istället säger testpoängen hur resultatet förhåller sig till en liknande grupp personer som söker liknande arbete.

Vi kan ta ett exempel, om du som kandidat får ett medelpoäng på skalan emotionell stabilitet och normgruppen är representativ för hela befolkning ligger du på medelvärdet. Men utgör normgruppen istället av chefskandidater så utgör medelvärdet sannolikt en underskattning av din emotionella stabilitet, då chefer i allmänhet brukar ligga nästa 1.5 SD över medelvärdet i populationen. Detta utgör således det beskrivande syftet, om du istället är testadministratör och ska välja de som har högst emotionell stabilitet så spelar inte normgruppen någon som helst roll, du väljer den som har högst poäng (se ovan).

Problemet med normgrupper idag är att testleverantörer inte längre tar kostnaden att genomföra stickprovs normeringar på normalpopulationen. Även om jag har förståelse för att det utgör en mängd problem att genomföra en bra normering skulle mycket lösas om det genomfördes i större utsträckning än vad det görs idag. Rekommendationen att använda en normgrupp som representerar normalpopulationen betyder inte att jämförelser med andra grupper aldrig kan vara informativa eller låter sig göras utan betyder enbart att den grundläggande beskrivningen av en testperson alltid bör göras i förhållande till en normalpopulation. Individens absoluta resultatbeskrivning behålls på så sätt intakt och både testtagare och testadministratör undviker en förvirrande diskussion av karaktären ”men är jag extravert eller inte?” som en konsekvens av att man byter normgrupp mellan rapporter, mellan testtillfällen eller använder olika test och metoder med olika typer av normgrupper. Efter en beskrivning av individs personlighet är det vanligtvis lättare att bygga på med att relatera individens resultat med andra, för syftet relevanta grupper.

Jag kan försvara att testleverantörer använder den data de får in, fördelen med detta förfarande är att det med dagens teknik går det att i realtid uppdatera normer, och att normgrupperna blir stora. Har själv normerat test med över 200 000 testningar vilket gör att resultaten blir ytterst stabila, men på bekostnad av att resultatet inte kan generaliseras till normalpopulationen, för det beskrivande syftet.

Konsekvensen att testleverantörer inte normerar mot normalpopulation tillsammans att testadministratörer blandar ihop beskrivande- med prognostisk syfte med testningen gör att förvirring blir stor. Det faktum att ett vanligt förfarande är att uppdragsgivaren ber en leverantör av en personbedömning att rekommendera några få sökande. Istället för att på förhand bestämma hur testpoäng ska vägas ihop (Evidensbaserat urval) utan en mänsklig tolkare, använder leverantören testpoängen som ett diskussionsunderlag i den stundande djupintervjun. Uppdragsgivaren litar på ”experten”, dvs tolkaren av testpoängen, och på det sättet blandas det beskrivande syftet ihop med det prognostiska syftet. Över tid blir tolkaren, inte bara kär i sitt test, utan också i sin normgrupp. Hela referensramen ändras för experten om en poäng ändras vid en normuppdatering. Som en expert sa till mig, ”jag har en känsla av vad en 7:a betyder”.

Det är också viktigt att normerna, oavsett om det är från normalpopulation eller inte, är insamlat på ”rätt” språk. Det är inte ovanligt att normerna är insamlade på ett språk för att sedan användas på andra språkversioner. Det finns två felkällor i detta. Den första felkänslan är språket, dvs lydelsen i fråga på ett språk kan skilja sig från lydelsen i det andra språket. Den andra felkänslan är kulturen, dvs olika regioner där folk testas har olika personlighet. En kollega till mig Dave Bartram, anställd hos dåvarande SHL, visade mig att skillnaden i standardiserade poäng (Sten poäng, 1-10) mellan språkversioner i testet OPQ kan variera upp till 15% mellan språkversioner. Detta betyder att en 3 på en skala för ett språk kan betyda en 6 för ett annat språk, vilket gör det knepigt att uttala sig en persons absoluta nivå på tex en skala som mäter emotionell stabilitet.

Nedan är uppgifter man bör ha koll på avseende normgruppen:

  • En fullständig beskrivning av hur normgruppen samlats in (normalpopulation eller inte)
  • En fullständig beskrivning av bakgrundsinformation om de personer som ingår i normgruppen (tex ålder, kön, utbildningsnivå). Om testleverantören använder sig av egen databas ska det tydligt framgå vilka yrken, arbetsroller som testtagarna sökt.
  • Reliabilitet för varje testpoäng (när testpoängen används för beskrivande syfte)
  • Reliabilitet för varje testpoäng (när testpoängen används för prognostiskt syfte)
  • Validitet för varje testpoäng (när testpoängen används för beskrivande syfte)
  • Validitet för varje testpoäng (när testpoängen används för prognostiskt syfte)
  • Rekommendation hur testpoängen ska användas för både beskrivande- och prognostiskt syfte
    Medel, standardavvikelse för varje testpoäng
  • Samband mellan kön, ålder, utbildningsnivå för respektive testpoäng.
  • En beskrivning hur den standardiserade texten förhåller sig till normgruppen
  • Eventuell skillnad mellan tidigare normgrupp och den nya normgruppen
  • Varje språkversion ska ha normer som baseras på att personerna som genomfört testet har det språket som hemspråk. OBS använd aldrig enbart andra språkversioners normgrupp (tex använd ej svenska normer när testpersonerna testats på andra språk).

Nedan är rekommendationer för användning testpoängen

  • Undvik matchningsförfarande, sk kompetensmodeller (oftast uttryckt i %), dessa resultat är betydligt mindre reliabla i förhållande till den standardiserade poängen, vilket gör att normerna inte går ”att lita på” även om de kommer från en normalpopulation.
  • Undvik gränsvärden, att använda gränsvärden på enskilda skalor är ytterst känsligt för vilken normgrupp som används. Vid byte av normgrupp måste alltid gränsvärdena beräknas om. Om det finns gränsvärden ska det finnas en rational varför just detta gränsvärde.
  • Undvik att experten tolkar testresultatet, genom att experten tolkar resultatet själv byggs flera felkällor in i den standardiserade poängen som inte behöver ha med normgruppen att göra.
  • Används algoritmer för att ta beslut av fler än en testpoäng (Evidensbaserat urval)
  • Används algoritmer för att ta beslut av fler än en testpoäng tillsammans med annan information, tex intervju (Evidensbaserat urval)

Om du vill lära dig mer om stickprov och normgrupper rekommenderar jag att läsa 

Mabon, H (2014). Arbetspsykologisk testning. Stockholm. Assessio. ISBN 978-91-7418-366-5. Artikelnummer 778-000.

Kommentera

E-postadressen publiceras inte. Obligatoriska fält är märkta *