Vilket test är bäst? Validitet i arbetspsykologisk testning

Anders SjöbergBedömningstjänsterSkriv en kommentar

validity2En av de vanligaste frågorna jag får är – vilket test är bäst? Men frågan går inte att svara på utan att ge frågan ett kontext. Hur ska testet användas, vilket syfte har testningen?

De flesta beteendevetenskapliga program som har metod och statistik på schemat undervisar fortfarande om den klassiska definitionen av validitet, dvs att validitet är det vi mäter verkligen mäter det som avses mätas. I denna definition blandar man sällan in den situation där testpoängen ska användas. Istället undervisas om olika typer av validitet, diskriminerande validitet, begreppsvaliditet, kriterievaliditet, extern validitet och intern validitet. Men i praktiken är denna syn förlegad. Att rabbla upp att ett test har validitet utan att berätta vad man ska ha testpoängen till leder bara till förvirring, enligt min mening. Den krångliga definitionen av validitet idag är:

I vilken utsträckning tolkningen och användningen av testpoängen överensstämmer med det föreslagna syftet med testningen, och i vilken utsträckning tolkningen och användningen stöds av evidens och teori.

Den enklare definitionen är:

Funkar testpoängen för det jag vill använda testpoängen till?

Jag menar, ska en testpoäng användas i forskningsändamål för att förklara ett psykologiskt fenomen som tex emotionell intelligens bör naturligtvis fokus vara på att bevisa att instrumentet mäter vad som avses att mäta. Men om istället samma testpoäng ska användas för att ta ett urvalsbeslut måste detta stödjas av evidens för att det finns ett samband mellan testpoäng och arbetsprestation.

Självklart, tycker kanske ni. Ja men i praktiken frågar ofta uppdragsgivarna, i sin upphandling, leverantörerna om valditet, och leverantören svarar, JA vi kan visa validitet, men frågan är om det funkar för din situation?

Ett vanligt förfarande är att testpoängen tolkas tillsammans med en kompetensprofil. Om leverantören endast kan visa att testpoängen mäter vad som avses att mäta, faller hela arbetsanalysen som tagit fram kompetensmodellen. Arbetsanalysen måste och också vara valid för annars vet vi ju inte vad vi bedömer. Har råder en stor förvirring ibland tycker jag att svaret på en fråga om validitet liknar ”goddag yxskaft”.

Om ni som uppdragsgivare ska köpa psykologiska test bör ni i nämnd ordning ställa följande frågor

1. Finns begreppet som avses att bedömas i en testpoäng?

Om begreppet som avses att ingå i en urvalsprocess finns handlar om att det går att definiera som ett teoretiskt begrepp. Inom psykologin, till skillnad om man mäter längd och vikt, så vägleds ofta mätningen av psykologiska fenomen av en teoretisk utgångspunkt. Längd och vikt är direkt observerbara mått på något, medan ett mått på personlighet inte kan ske på samma direkta sätt. Många gånger uppfinns nya begrepp inom urvalstjänsterna. Om dessa ska över huvudtaget finns ska dokumentationen på ett tydligt sätt definiera dessa begrepp, särskilja detta från andra liknande begrepp och dokumentationen ska också vägleda hur detta begrepp ska effektivisera urvalsprocessen. Det räcker inte att säga att värderingar är viktiga, eller att den sociala förmågan ska ingå i urvalsprocessen. Istället ska värderingen och den sociala förmågan definieras tydligt innan man ställer nästa fråga?

2. Går det att mäta begreppet?

När personlighet mäts måste en omväg tas genom indirekta mätningar. Personlighet utgör ett sk latent (eller icke-observerbara) begrepp. När instrument av denna typ utvecklas vägleds framtagandet av dessa instrument av en teori hur personlighet fungerar. Tex om en forskare vill kartlägga vilken personlighetsstruktur (latent variabel) som döljer sig hos människor som visar ett visst arbetsbeteende så kan forskaren mäta personligheten med ett formulär. Personerna får besvara ett antal frågor (indikatorer) som antas mäta olika aspekter av personligheten. Indikatorerna är således det vi kan observera, dessa indikatorer kan sedan räknas ihop till en poängsumma som utgör vårt personlighetsmått. Denna summa kan sedan utgöra beslutsunderlaget i en urvalsprocess. Frågeställningen som bör besvaras här är således om poängsumman verkligen speglar det som avses och definierats i teorin (se fråga 1). Att kritiskt utvärdera vilken teoretisk modell som en bedömningsmetod vilar på är därför av yttersta vikt.

3. Går det av resultatet att förutsäga olika arbetsrelaterade beteenden?

I urvalssammanhang är det väsentligt med metodens prediktiva eller förutsägbara kraft, det vill säga förmågan att förutsäga ett framtida beteende, tex arbetsprestation. När det gäller personlighetsexemplet ovan kan både fråga 1 och 2 besvaras med ett JA, det går att definiera teoretiskt och det går att mäta, men i urvalssammanhang är instrumentet inte att betraktat som validerat om inte själva testpoängen har ett samband med det beteende som avses förutsägas.

Även om både fråga 1 och 2 är av stort intresse för de bedömningsmetoder som används vid urval så har fokus inom urvalsforskningen till mångt och mycket försökt besvara fråga 3, går det att använda för att förutsäga hur det kommer gå för en enskild person. För att konkretisera, går det av bedömningsunderlaget säga om person A eller person B är lämpad för jobbet.

Denna fråga besvaras ofta med ett statistikt mått, korrelationen. Korrelationen uttrycks som ett värde mellan 1 och -1, där 0 anger inget samband, 1 anger maximalt positivt samband och -1 anger maximalt negativt samband. För att ta ett exempel, säg att vi vill uttrycka sambandet mellan intelligens och arbetsprestation, och att vi har lyckats mäta detta begrepp på en numerisk skala. En stark positiv korrelation, till exempel 0,9, betyder då att ju intelligentare man är, desto bättre prestation. En stark negativ korrelation, som -0,9, betyder i stället att ju intelligentare man är, desto lägre prestation. En korrelation på eller nära 0 betyder att det inte finns något linjärt samband mellan intelligens och prestation. Däremot är ett korrelationsvärde på eller nära 0 möjligt att få när det finns ett icke-linjärt samband. Ett exempel på detta vore om både höga och låga värden på intelligens hade samband med höga värden prestation. Det innebär att även om samband och korrelation ibland används som synonymer, så är egentligen korrelation en specialsituation av samband.

Det är viktigt att komma ihåg att en korrelation säger ingenting om orsakssamband, eller kausalitet. I det ovan nämnda exemplet säger en stark positiv korrelation alltså inte att det finns en kausalitet mellan intelligens och prestation, i själva verket finns det en tredje faktor inblandad och det är lärande, dvs intelligens påverkar lärande som i sin tur påverkar prestation. I urvalspraktiken behöver vi inte förklara samband, därför utgör korrelationen ett bra mått på styrkan mellan ett urvalsinstrument och senare beteende, men om man som forskare vill ”förklara” vad som påverkar vad, krävs mer avancerad statistik.

Fram till denna punkt kommer en del leverantörer av test. Det finns en manual som berättar om teorin, det finns dokumentation som kan visa att det går att mäta begreppet, det finns fog för att begreppet kan vara avgörande för arbetsrelaterat beteende och det finns en redovisad korrelation mellan begrepp och beteende. Men räcker inte detta? Nej, enligt mig, även om dessa krav är uppfyllda måste den sista frågan besvaras.

4. Är testpoängen avgörande för urvalsbeslutet?

Tolkningen och användningen av bedömningsresultatet ska finna stöd i den teori och evidens som presenteras. En process betraktas inte som validerat om inte dessa riktlinjer som bygger på att evidens verkligen följs. Ett exempel kan vara att det finns en god teori och evidens för att personlighetsdraget målmedvetenhet tillsammans med intelligens utgör en god prediktionsförmåga för arbetsprestation. Två kandidater finns att välja på där den ena har höga poäng på både målmedvetenhet och intelligens och den andra kandidaten har låga poäng på samma test. Evidensen talar för att den som har höga poäng kommer lyckas bättre i arbetet i jämförelse med den andra kandidaten. Istället väljs kandidaten som har höga poäng på en intervju som genomförts (ingen teori eller evidens finns presenterad för intervjun) men låga poäng på målmedvetenhet och intelligens. Även om punkt 1 (begreppet finns), 2 (begreppet går att mäta), och 3 (det finns evidens för korrelation) med råge uppfyllts, kan inte processen betraktas som valid eftersom urvalsbeslutet inte stöds av varken teori eller evidens.

Tyvärr är det fråga fyra som bryter kedjan av logik för många. Det framkommer ofta annan information som, inte nödvändigtsvis är validerat i sig, ges vikt i urvalsbeslutet. Gång på gång hör jag talas om organistioner som har ”validerade test” men inte följer upp om organisationen vägleds av testresultatet. Ett vanligt sätt att komma runt den sista fråga är att hänvisa till att testresultatet ingår i ett större sammanhang, eller testpoängen är ett diskussionunderlag till intervjun. Men det är bara bortförklaringar till att inte använda testpoängen som beslutsunderlag.

Så här kommer mitt förslag:

1. Bestäm i förväg hur testpoängen ska vägas in i urvalsbeslutet
2. Och håll dig till det, även om magkänslan säger något annat.

Dela detta inlägg

Kommentera

E-postadressen publiceras inte. Obligatoriska fält är märkta *

Denna webbplats använder Akismet för att minska skräppost. Lär dig hur din kommentardata bearbetas.