ITC konferensen avslutad, här kommer en sammanfattning

Anders SjöbergOkategoriserade2 Comments

International Test Comission, ITC, höll sin vartannat år återkommande konferens på Deltagarna, som var över 550 till antalet, representerade över 40 länder. Jämfört med tidigare ITC-konferenser så är denna den i särklass mest välbesökta. De allra flesta deltagarna var forskare eller representanter från testförlag och/eller konsultverksamheter. De två sistnämnda var även representerade i utställningen. Programmet innehöll traditionsenligt både symposier och posters. Följande är ett utdrag i korthet.

The assessment of critical thinking: Cross-cultural and validity Issues
Samtliga fyra papers presenterade resultat från studier där man använt Halpern Critical Thinking Assessment, HCTA. Resultaten visar att de med höga poäng rapporterar färre negativa “life-events” såsom att man betalat förseningsavgift på en hyrd film eller ansökt om personlig konkurs. Vidare visar resultaten att fasta svarsalternativ är bättre än öppna eftersom de senare ställer krav på personens förmåga att även verbalisera sitt logiska tänkande, något som inte ingår i konstruktet critical thinking. Man kunde även leda i bevis att skillnader i kritiskt tänkande mellan asiater och västlänningar beror på hur väl förtrogen man är med i det här fallet det engelska språket och inte på kulturella skillnader.

Testing resources help promote test develoment and use in emerging countries
Ett välbesökt seminarium som inleddes av Hazel Weldon från MHS. Hon pratade om hur MHS arbetat med att på olika sätt göra test tillgängliga på ett kostnadseffekivt sätt i olika delar av världen, att olika kulturer och länder har behov av olika lösningar och hur detta ska balanseras med skyddet av IP. Paul McKeown (Pearson Assessment) fortsatte med att prata om problem med copyright i “emerging countries” och att tekniska lösningar kan underlätta detta arbete. Han påtalade även att utvecklingen av test i denna typ av länder är komplicerat eftersom man exempelvis i Indien har en mycket stor andel av befolkningen som är i huvudsak engelsktalande, vilka normer och hur ska de samlas in för gruppen på 220 miljoner indier som har engelska som första språk? Dragos Iliescu från Testcentral i Bukarest, Rumänien, pratade om vad som driver testanvändning i utvecklingsländer. Den låga kompetensen hos testanvändare gör det möjligt för leverantörer med mindre bra test att ta stora marknadsandelar. Detta symosium avslutades av Ilke Inceouglo från SHL som betonade bristen på lokal expertis, avsaknad av infrastruktur och ovana testtagare som potentiella utmaningar i utvecklingsländer.

Development in the Netherlands (COTAN)
Detta symposium arrangerades av COTAN och inleddes av Bas Hemker från Cito som pratade om effekten av motivation vid framför allt olika typer av ability-testing. Hans forskning visar att effekten av motivation ligger på d=.38 och d=.36 på matematik respektive läsprov. Han påtalade även vikten av forskning på effekten av motivation på low respektive high effort item. Wilco Emons bidrag gällde problematiken med att göra kortversioner av längre test. Det handlade i huvudsak om bristen på reliabilitet i förkortade skalor som en följd av de metoder man använder för att ta bort, eller välja ut, item till kortversionen men även validitetsproblemen nämndes och då i huvudsak bristen på argument om begreppsstvaliditet. Remko van den Berg från NOA i Nederländerna berättade om sin forskning gällande skillnader mellan etniska grupper i intelligens. Han kunde påvisa att skillnaderna mellan etniska minoriteter och majoriteten minskar med varje generation som en effekt av integration och den tid man sependerat i landet. Klas Sijtsma avslutade med att förkasta den klassiska testteorins antaganden och peka på flertalet sätt som framför allt reliabilitetsbegreppet har missförståtts. Han förespråkade Baysian statistics och talade om vad han vill att testförlagen ska inkludera i sina manualer nämligen IRT-baserade standard error of measurement-estimat och “means for individual decison-making”. Vad det är i detalj framgick inte.

Network psychometrics
Detta symposium var den stora behållningen med konferensen. Dennis Borsboom, psykometriker och forskare vid universitetet i Amsterdam (och som skrivit en underbart provocerande artikeln med titeln The attack of the psychometricians för några år sedan) presenterade tillsammans med sina doktorander ett nytt sätt för att studera dynamiken i system, att analysera arkitekturen i nätverk som består av många delar och att visualisera samband som finns i sådana nätverk. Bland annat har man genom att studera depression. Den gällande, läs DSM, modellen för depression är att det finns ett latent konstrukt, depression, och att det finns flera indikatorer, symptom, på det latenta konstruktet. I modellen antas indikatorerna, eller symptomen, ha direkta linjära samband med det underliggande konstruktet, de antas inte ha några samband sinsemellan eller kunna påverka eller utlösa varandra (även om man naturligtvis är meveten om comorbiditet så har man inte kunnat hantera det i modellen).
Den modell som Borsboom föreslår är att det latenta konstruktet depression inte existerar, istället finns det att nätverk av symptom som hänger ihop på olika sätt och som påverkar varandra i olika utsträckning givet olika ”life events” och för en specifik person. Effekten av olika ”life events” antas dessutom variera mellan olika symptom. Exempelvis är det rimligt att personer med insomnia, som är ett av symptomen för depression, orsakar trötthet istället för att betrakta insomnia och trötthet som två olika oberoende symptom. Ett nätverk kan således illustrera individuella differenser för varje enskild individ men även för en grupp eller för ett antal variabler som t ex femfaktormodellen (across people, across time, across people within time). I framtiden är tanken att en nätverksanalys av en person även ska kunna ge förslag på vilken behandling som en specifik person sannolikt behöver. De visades ett nätverk gjord på FFM och det var imponerande hur tydligt man såg all den komplexitet som finns i modellen – och att Openness var som vanligt all ”over the place”. De arbetar som sagt mycket med DSM och nätverk för diagnos men detta är absolut tillämpbart för andra delar av psykologin. Deras program, som är freeware, innehåller även en välutvecklad grafisk modul som på olika sätt illustrerar nätverken och deras förhållanden. Man får alltså för första gången psykometriskt ihop både individ, variabler och situation. Mycket spännande!

The hierarchical structure of personality and performance
Dimitri van den Linden gjorde en mycket bra presentation av ”the general factor of personaliy, GFP, som faktiskt var uppe på agendan vid flertalet tillfällen under konferensen både bland posters och symposier (se tidigare inlägg om detta på Psychometrics.se). Detta forskningsområde är nu tudelat; de som anser att GFP finns och är meningsfull och de som menar att det enbart är mätfel. Van den Linden gav svar på tal, bland annat om att social desirability (SD) inte är ett problem i urvalssammanhang eftersom; (1) alla ägnar sig åt det i ungefär lika stor utsträckning så rang- ordningen mellan kandidater påverkas inte och, (2) SD bär prediktiv kraft, det innebär att behandlar man detta som felvarians så tar vi bort relevant information om kandidaterna. Alltså, alla förställer sig men ungefär lika mycket, kanske liknar det allt annat vi gör i livet!

Personality assessment across and within cultures: Adressing some methodological issues
Marise Borns redovisade forskning om effekten av hur olika referens grupper påverkar svarsresultaten. Framför allt med avseende på olika etniska minoriteter i förhållande till majoritetspopulationen. Resultaten varierade beroende på om man uppmanades jämföra sig med sin etniska minoritet eller om man uppmanades identifiera sig med majoritetspopulationen. Mycket forskning kvarstår innan några slutsatser kan dras, avslutade Maries. SHL (Dave Bartram, Ilke Inceoglu, Mathijs Affourtit) redovisade data från OPQ:s databas med över 1 miljon testningar, samtliga deras presentationer gav stöd för att OPQ fungerar på samma sätt i många länder, med opponenten Fons van de Vijver påpekade att det inte är klarlgat hur OPQs ipsativa system påverkar resultaten, många frågetecken kvarstår. Detta kunde Anne Herrmann bekräfta när hon analyserade den tyska och engelska versionen av 16PF, en betydligt mer vanlig anpassning av modeller, den som oftast framträder i självrapporterande personlighetsformulär.

ISO 10667 Test Review Systems and Test validation for 21st century tests
På ISO 10667 seminariet argumenterades att själva processen av testning kan säkerställa att det blir en valid bedömning. Eftersom det var en testkonferens så gled naturligtvis diskussionen över på validitet; Sverre Nielsen från Norge avslutade sitt anförande om ISO 10667 genom att meddela att Norge kommer att föreslå en ISO (världsstandard) för psykologisk testning. Jag (Anders Sjöberg) pratade om hur Sverige ser på certifieringsfrågan av ISO 10667 men berörde också risken att enbart fokusera på certifiering, ISO 10667 är ett dokument som kan och redan används av kommuner och föreatg för att förbättra interna processer. Marise Born beskrev hur universitetet i Rotterdam på uppdrag från offentliga myndigheter utvärderar rekryteringprocesser, där styrdokumentet är ISO 10667. Nårgra i publikeb var tveksamma till ISO 10667, men detta var mest beroende av att ISO 10667 inte funnits ute på markanden så länge. Sverige var först ut översätta standarden (ca 70 ex sålda), nederländerna var två (22 sålda ex av ISO 10667). Konferensen avslutades med en” State-of-the-Art Speech” och gavs av Stephen Sireci som är verksam vid University of Massachusetts. Han pratade om att testet i sig inte är det som ska valideras utan att användningen av testresultaten måste sättas in i ett sammanhang för att kunna valideras på ett relevant sätt. Egentligen inget nytt, även om det är kritik mot det traditionella sättet att betrakta och hantera testkvalitet på (läs EFPA och liknande kvalitetskriterier). Detta berördes också av Dragos Iliescu från Rumänien som menar att testförlag inte redovisar evidensen för tolkningen av testpoängen, vid en granskaning av 9 testmanualer kunde Dragos visade att det saknades beskrivning av vilka konsekvenser som testpoängen har för den som testas och organisationen som beställer testninge, själva “huvudpoängen” med testning!

Det framkom också på konferensen att även om det finns en modell för hur test ska granskas i Europa så finns det inte något land som gör likadant. Det har inte heller varit meningen, säger Dave Bartram från SHL, EFPA review model ska ses som guidelines och inte som en standard. Som exempel kan nämnas att UK sätter olika många stjärnor för varje test, Norge har ett system där man godkänner eller underkänner test, Sverige har ett system där man både betygsättar och beskriver testets kvalitet, medan US har en modell som närmast kan beskrivas som ett samarbete mellan förlag och granskare där slutprodukten beskriver testet fördelar och nackdelar beskrivs, förlagen (utvecklarna) kan använda detta som ett underlag för att vidareuteveckla testet. US systemet är det klar äldsta systemet, har funnits sedan 50-talet och intressant att det är endast Ryssland som numera har samma system. Värt att notera är att det är endast i Norge och Sverige som man tar betalt av förlagen (50 000 kronor i Sverige och 100 000 kronor i Norge), i resterande länder så är det gratis för förlagen. I Nederländerna bestämmer granskarna själva om de ska granska ett test (närmare att betrakta som konsumentupplysningen i Sverige). Hur Sveriges system ska se ut kommer att beslutas om i höst av STP och Psykologernas fackförbund, tyck gärna till ni som är i branschen?

Till sist ska alla frivilliga ha en stor eloge om gjorde att denna ITC konferens blev riktigt lyckad, särskilt Marise Born och Arne Evers som jobbat dygnet runt för att få ihop ett strålande program, världsklass.

Anders Sjöberg

Dela detta inlägg

2 kommentarer på “ITC konferensen avslutad, här kommer en sammanfattning”

Kommentera

E-postadressen publiceras inte. Obligatoriska fält är märkta *

Denna webbplats använder Akismet för att minska skräppost. Lär dig hur din kommentardata bearbetas.