Psykometribabbel

Med psykobabbel avses ”Användning av psykologiska termer och i synnerhet av dagens modeord inom psykologin på ett sätt som bara delvis eller inte alls stämmer med ordens vetenskapliga innebörd”. Sedan mer än 20 år har jag arbetat med att anpassa och utveckla psykologiska test som idag används inom klinisk psykologi (utredning av kognitiva svårigheter hos barn), skolpsykologi (tex läs- och skrivdiagnostik, utredning av dyslexi) och arbetspsykologi (test som används för urval och vägledning). Under dessa år har jag stött på ett antal ”buzzwords” inom dessa områden, här kommer jag dock fokusera på begrepp som används inom arbetspsykologisk testning, dvs psykometribabbel inom arbetslivets psykologi.

Som alla ser här är detta en tre parameters IRT modell

Artificiell intelligens (AI)

Artificiell intelligens (AI) eller maskinintelligens är förmågan hos datorprogram och robotar att efterlikna människors och andra djurs naturliga intelligens, främst kognitiva funktioner såsom förmågan att lära sig saker av tidigare erfarenheter, förstå naturligt språk, lösa problem, planera en sekvens av handlingar och att generalisera. AI är förmodligen ett av psykometribabbel som används mest osorterat idag. Det kan i stort sätt betyda vad som helst. När man skrapar på ytan hos vissa leverantörer av test kan det vara att summera en skala.

Maskininlärning

Maskininlärning (engelska: machine learning) är ett område inom AI, och därmed inom datavetenskapen. Det handlar om metoder för att med data ”träna” datorer att upptäcka och ”lära” sig regler för att lösa en uppgift, utan att datorerna har programmerats med regler för just den uppgiften. Detta är inget nytt! På ett teoretiskt plan uppfanns detta för många år sedan, men datakraften att räkna på detta sätt saknades. Idag säger flera leverantörer av test att de använder sig av ”machine learning” och det låter ju häftigt!
Har själv prövat detta och jämfört med betydligt enklare och mer kostnadseffektiva metoder, och de ger i princip samma resultat. Det finns stora fördelar med maskininlärning på en mängd olika områden, men på testområdet har jag inte funnit stöd för detta, dvs avseende hur väl en testpoäng förutsäger senare arbetsprestation.

Kompetensmodeller

Runt 2005 började olika sk kompetensmodeller dyka upp hos traditionella leverantörer av psykologiska test. Dessförinnan var ett personlighetstest ett test som mäter personlighet (tex Extraversion), och ett kompetenstest ett test som mäter en färdighet som är något annat än personlighet (tex kunskap i programmering). Idag finns det leverantörer som har ett personlighetstest med ofta goda psykometriska egenskaper men kunder förleds tro att testet mäter kompetenser, oftast efter en hemmasnickrad modell som inte är kvalitetssäkrad. Ibland kan till och med användare få sätta ihop sin egen kompetensmodell! Detta är helt klart ett cirkelresonemang. Jag har själv varit med att utveckla ett personlighetstest som idag säljs tillsammans med en mycket diffus kompetensmodell; de psykometriska egenskaperna har blivit godkända av DNV:s granskning enligt EFPA:s kriterier gäller för evidensen och kvalitet som ett personlighetstest. Trots det marknadsförs och användes detta test tillsammans med en helt ovaliderad kompetensmodell, något som inte framgår i marknadsföringen.

Fem Faktor Modellen

FFM är det modell av personlighet som idag har tydligast stöd inom forskningen, många testleverantörer säger sig ha ett FFM test. Vid närmare granskning av hur test utvecklats är det inte många test på den arbetspsykologiska marknaden som uppfyller kravet på att verkligen mäta FFM av den anledningen att det inte framgår hur item (frågorna eller påståendena i testet) konstruerats och hur varje item är länkat till respektive konstrukt som ligger till grund för facetter, aspekter och faktorer. Idag finns det, enligt min mening, tre-fyra test på marknaden som har manualer som beskriver att det var FFM som låg till grund när item (frågor och påståenden) utvecklades och testet med dess skalor konstruerades. Än värre är det när man påstår att intervjuer mäter FFM utan att ha någon som helst dokumentation på vilka grunder den utsagan kan bekräftas. Jag har även hört att vissa påstå att deras kompetensmodeller vilket säkert är ett framgångsrikt marknadsföringsknep som skänker legitimitet.

Att validera ett testresultat

Detta psykometri-babbel hörde jag första gången på 90-talet. Med detta menas att bedömaren (rekryteraren) ska bekräfta att de resultat som kandidaten fått på ett personlighetstest ska verifieras eller förkastas i en intervju med kandidaten. Jag har aldrig sett någon forskning om detta, men risken att den validitet som finns i en testpoäng försvinner då man ställer dessa frågor är betydande. Om man vill ”kontrollera” resultatet bör man istället utveckla intervjufrågor som mäter FFM, dessa intervjuer genomförs sedan helt oberoende av testresultatet. Det mest ”sanna” är sedan medeltalet av dessa två bedömningar. För att detta ska fungera så krävs dock en hel del utvecklingsarbete, något som få är villiga att göra eller har kompetensen till, tyvärr. Sannolikheten är därför stor att man fortsätter att ställa frågor till kandidater som sannolikt ger mer skada än nytta.

Adaptiva test

Adaptiva test bygger på en psykometrisk modell som benämns item respons theory (IRT). Om IRT används på ett korrekt sätt finns en fördel i att man inte behöver administrera exakt samma item till alla personer som ska jämföras. En annan fördel är att du inte behöver ställa lika många frågor i jämförelse med ett traditionellt test, det räcker med att administrera de för den enskilda individen mest relevanta itemen. Ett exempel är ett begåvningstest, där person 1 får 34 uppgifter att besvara medan person 2 endast får 24 uppgifter. Trots detta kan des båda personernas begåvningsnivå jämföras, och till och med utgöra en bättre jämförelse än om båda fått samma antal frågor. På detta sätt kan en leverantör utveckla en ”itembank” med många uppgifter (eller frågor) som sedan kan användas på olika sätt vid testning. Det låter ju fantastiskt, men vad är nackdelen? (I ett poddavsnitt hörde jag enleverantör ondgöra sig över alla andra okunniga psykometriker som inte fattade detta, förutom att hen naturligtvis som hade utvecklat ett adaptivt personlighetstest).

Jo nackdelen (för sådana finns det alltid flera av även om de sällan nämns) är att när man använder IRT så görs en mängd mycket starka antaganden. Dessa antaganden måste alltså uppfyllas för att modellen ska fungera i praktiken. Ett av de viktigaste (men långt ifrån det enda) antagandena är det sk ”lokala oberoendet”. Antagandet om lokalt oberoende innebär att det statistiska sambandet mellan item kan förklaras endast av det latenta begreppet som vi avser att mäta med en skala, tex en frågor i en skala som mäter Extraversion ska förklaras av begreppet Extraversion. Om så inte är fallet, faller IRT modellen modellen totalt. Den är helt enkelt inte längre giltig. Naturligtvis går detta att testa, men det struntar man ofta i när man pratar IRT.

Jag har själv varit med att utveckla test som tillämpar IRT och som testutvecklare anser jag att IRT INTE fungerar i praktiken såsom teorin förutspår. IRT kan fungera med begåvningstest, men jag har tills dags datum inte läst om något personlighetstest som mäter FFM och som uppfyller alla krav som ställs på IRT för att det praktiskt ska fungera. Så säger din testleverantör att de har ett adaptivt personlighetstest så ställ frågan om alla antaganden som finns verkligen uppfylls för den svenska version (eller annan språkversion) som ska användas och låt dem redogöra för det skriftligt. Jag har läst en manual som ser lovande men det är inte ett test som finns på svenska.

Textanalys

Detta begrepp är nära knutet till Maskinlärning, skillnaden är att innan själva analysen omvandlas textmassan till siffror. I ett pilotprojekt jag ledde analyserades öppna enkätsvar med sk ”latent semantisk analys”. Resultatet såg lovande ut men det var ett enormt jobb att göra data analyserbart. Och analysen i sig tog väldigt lång tid. Det finns också lovande resultat inom forskningen där man uppnått minst lika bra resultat av text analys som av att använda numeriska värden för att tex mäta livstillfredställelse (https://psycnet.apa.org/record/2018-31467-001). Tror mycket på detta i framtiden, men hitintills har jag inte sett någon studie som stödjer att textanalys skulle addera någon validitet till ett begåvningstest eller ett personlighetstest som använder traditionell poängsättning.

Användningen av normgrupper

Går det att använda ett test utan normgrupper? Normgruppens funktion är att relatera den individuella testpoängen till en absolut nivå. Låt mig ta ett exempel, om du har testat en person och fått en summapoäng på skalan Sympatiskhet i ett personlighetstest, då vill du veta om denna summa är förhållandevis låg eller hög i jämförelse med andra personer. ”Babblet” här jag har hört är att det finns test på marknaden utan normgrupper? Eller att vi ”inte har normgrupper, vi har stickprov”. Ett annat babbel jag hört är att i den moderna psykometrin inte behövs några normgrupper. Det är sant att man mycket väl kan strunta i normgrupper, om syftet med testningen är att endast rangordna dessa individer längs skalan Sympatiskhet (som exempel) utan att vara intresserad av att säga om en individs summavärde är låg, medel eller högt i förhållande till något. Men så fort du ska uttala dig om en individs absoluta nivå på Sympatiskhet måste ALLTID en normgrupp användas. Det spelar inte någon roll om du använder ”gammal” psykometri från början av 1900-talet eller ”modern psykometri” (som för övrigt inte bör kallas modern psykometri eftersom IRT kan spåras tillbaka till 1940-talet, eller kanske t om tillbaka till 1920-talet när Thurstone lanserade sin absoluta skalning som var inspirerad av psykofysiken).

Detta är bara några exempel på babbel som många gånger har svagt stöd i forskningen. Om du vill att jag ska skriva om mer psykometribabbel så maila mig på info@psychometrics.se