Wartegg, en kommentar till kommentaren

Jarna Soilevuo Grønnerød and Cato Grønnerød kommenterar på sin egen Wartegg blogg Psychometrics inlägg om att det är tveksamt att använda Wartegg som beslutsunderlag vid urval. Jarna och Cato håller med om att det är tveksamma bevis för att Wartegg kan användas vid urval.

”We agree that these studies do not provide an adequate base for the use of the WZT as a selection instrument” (http://wartegg.tumblr.com/post/28405225737/recent-discussion-on-the-wartegg-as-a-selection).

Som Psychometrics påpekat är underlaget bristfälligt, endast 122 individer ingår i det underlag som som ligger till grund för evidens. Detta håller författarna med om, dock håller de inte med psychometrics att det är ett problem med så gamla studier publicerade för ca 40-50 år sedan. Författarna förvarar också de kriterier som används i studierna (skattning av prestation och skolbetyg).

I det förra inlägget om Wartegg skrev psychometrics

”Med tanke på det begränsade urvalet i studierna, kriteriena i studierna och att studierna är relativt gamla rekommenderar psychometrics att ifrågasätta Wartegg i urvalssammanhang. Betydligt fler studier behövs av Warteggs prediktiva validitet innan poängen på Wartegg kan användas som beslutsunderlag i urvalssammanhang. Leverantörer och uppdragsgivare av bedömningstjänster rekommenderas ta hänsyn till dessa resultat och ifrågasätta de beslut som tas med vägledning av poängen på Wartegg”

Några förtydligande kan vara på plats. För det första, kriterierna som utgörs av skolbetyg och prestationsskattning, bör ca 40-50 år senare tolkas med försiktighet. Att använda prestationsskattning som kriterie är ett bra sätt att mäta ett kriterie, dock är det frågan om skattningen är relevant för hur man idag använder Wartegg idag, tex som underlag för att välja chefer. Att använda skolbetyg som kriterie kan vara bra om urvalet handlar om att prestera i skolan, dock kan det ifrågasättas om det är arbetsprestation som ska förutsägas. Eftersom Wartegg, åtminstone i Sverige, används för urval  arbetssammanhang har en studie med skolbetyg som kriterie begränsad relevans. Slutsatsen blir att studiens ålder tillsammans med kriteriernas karaktär och det begränsade urvalet gör det tveksamt att att Wartegg ska användas i urvalssammanhang.

Om Wartegg jämförs med andra metoder som kan användas i urval ter sig resultatet än svagare. När det gäller begåvningtestning så visar den senaste meta analysen en operationell validitet på .65 för medelkomplexa arbeten (Schmidt, Schaffer & Oh, 2008; Appendix D). Urvalsstorleken är i jämförelse med Wartegg studien är enorm, bara i en meta analys som ingår i underlaget finns över 15 000 individer (Schmidt, Schaffer & Oh, 2008; Tabell 2). Även självrapporterad personlighet i form av målmedvetenhet har en stark evidens i jämförelse med Wartegg. Den senaste meta analysen visar på en operationell validitet på .22 för denna personlighetsfaktor (Schmidt, Schaffer & Oh, 2008; Appendix D), bara i en meta analys ingår 48 000 individer (Hough, 1992).
Så slutsatsen kvarstår, vilket också Jarna och Cato håller med om, evidensen är svag för att använda Wartegg för urvalsbeslut.

Referenser

Hough LM. (1992). The Big Five personality variables—construct confusion: Description
versus prediction. Human Performance, 5, 139–155.
Schmidt, F. L., Schaffer, J. A. & Oh, I. (2008). Increased accuracy for range restriction corrections: Implications for the role of personality and general mental ability in job and training performance. Personnel Psychology, 61, 827–868.
Soilevuo Grønnerød, J., & Grønnerød, C. (2011, November 7). The Wartegg Zeichen Test: A Literature Overview and a Meta-Analysis of Reliability and Validity. Psychological Assessment. Advance online publication. doi: 10.1037/a0026100

Publicerat av Anders Sjöberg

Anders Sjöberg är docent i psykologi och har lång erfarenhet av bedömningsmetoder in arbetslivet. Anders har utvecklat psykologiska bedömningssystem som används av både privata och offentliga organisationer. Anders har publicerat böcker och vetenskapliga artiklar inom organisationspsykologi och psykologisk metodutveckling.

Delta i diskussionen

2 kommentarer

  1. Jag skulle vilja kommentera att performancebaserade tester i urval enligt min mening spelar en särskild roll.

    Inom rekrytering till t ex bolagsledningar, ett område som studerats mycket på grund av den högsta ledningens inflytande på affärsvärdeskapandet, har man börjat inse att det kan vara en bättre investering att i urval fokusera på att undvika risker och möjlig urspårning som kan inträffa under ökad press. Även inom urval till potentiellt stressande, riskfyllda och farliga arbeten, kan det vara lika viktigt att kunna identifiera svagheter så väl som styrkor, utifrån ett riksperspektiv.

    Enligt bästa praxis använder vi tester som en del av ett batteri. Validiteten hos den information vi kan få ifrån olika test och hur resultaten ifrån dessa belyser varandra är större än validiteten hos ett enskilt test.

    Det är just de personer vi behöver identifiera ur ett riskperspektiv, som är de minst troliga eller ens förmögna att visa upp sina brister I en intervju eller i ett självskattningstest. En styrka hos performancebaserade personlighetstest i allmänhet är då att de inte är transparanta – det är svårt att se vad som är “bra” svar. De är därför svåra, för att inte saga omöjliga, att manipulera. Kandidaten har stor frihet, men är också tvungen att, utan närmare ledning utveckla form och innehåll i sina svar. Resultaten erbjuder kompletterande information till vad personen rapporterar i intervjuer och självskattningstest.

    Förutom att performancebaserade personlighetstest tillåter personligheten att framträda på ett mindre styrt sätt och därigenom kan skapa en djupare förståelse för individens drivkrafter och motiv för sitt beteende, kan den viktigaste rollen för performancebaserade personlighetstester i urval vara att upptäcka sårbarheter i personligheten som är svåra att avslöja i en intervju, och som inte självklart förmedlas i ett självskattningstest.

    Dessa kvaliteter bygger också på testens kliniska egenskaper, i detta fall Wartegg, som också är bättre beforskade.

    McCartney, W. W. & Campbell, C. R. (2006). Leadership, management, and derailment: A model of individual success and failure, Leadership and Organization Development Journal, 27(3), 190-202.

    Pienaar, C. (2009). The role of self-deception in leadership ineffectiveness — a theoretical overview, South African Journal of Psychology, 39(1), 133-141.

    Soilevuo Grønnerød, J., & Grønnerød, C. (2012). The Wartegg Zeichen Test : A Literature Overview and a Meta-Analysis of Reliability and Validity. Psychological Assessment, 24(2), 476–489.

    Viswesvaran, C. (1999). Meta-Analyses of Fakability Estimates: Implications for Personality Measurement. Educational and Psychological Measurement April 1999 vol. 59 no. 2 197-210.

  2. Tack Malin för ditt inlägg, fler är välkomna att kommentera i ett ämne som jag ser av besökare som engagerar.

    Jag håller med om att rekrytering och urval också bör inkludera en riskbedömning där svagheter lyfts fram som beslutsunderlag. Men att Wartegg skulle vara ett bra alternativ för att bedöma om en chef skulle spåra ur ställer jag mig frågande till. Såvitt jag vet finns det inte en enda studie i urvalssammanhang som har testat detta (här kan jag ha fel), detta betyder naturligtvis inte att Wartegg är värdelöst, men avsaknaden av studier ger ingen styrka i dina argument.

    Att Wartegg har en styrka i att det inte är transparant kan naturligtvis vara en fördel, men en nackdel är att det är så ”icke transparant” så att utövarna inte är överens hur det ska tolkas, därav en mängd olika poängsättningssystem. Detta i sig gör det än svårare att argumentara för att Wartegg ska användas i urval. Och inte minst svårigheter att generalisera studiers resultat.

    Men låt nu säga att dina argument är korrekta, dvs Wartegg är en valid metod att använda som beslutsunderlag vid en riskbedömning. Enligt meta analysen har Wartegg en kriterie relaterad validitet på .33, detta ger en sannolikhet 2,39 gånger större än slumpen att upptäcka bra kontra dåliga kandidater. Om vi sedan beaktar att reliabiliteten i poängsättningen är .73, dvs i 27% är bedömarna inte överens om poängsättningen av Wartegg. Detta ger ett lite skakigt mått på riskbedömningen. Men om vi ändå accepterar att Wartegg är ett bra mått att använda så hur vet man när det är en hög risk att anställa en individ, alltså vilken "cut off score" ska användas? När är resultatet tillräckligt dåligt för att säga att denna individ har en hög sannolikhet att spåra ur?

    Att som du säger Wartegg ska ses som "kompletterande information till vad personen rapporterar i intervjuer och självskattningstest", men hur då? För att väga ihop informationen från flera test krävs information inte bara om hur väl Wartegg samvarierar med sitt kriterie (urspårning) utan också vilket samband som finns med andra test (t.ex begåvning) eller metoder (intervju), detta finns inte gjort (eller?). Ett av de saker som ISO 10667 så tydligt pekar på är att om flera bedömningsmetoder används för att dra slutsatser ska rationalen (den logiska grunden) för den integrering av data som utgör grund för slutsatserna anges liksom evidensen för slutsatserna. Var finns den?

    Så Malin det är en lång väg för Wartegg att bli en evidensbaserad metod vid urval, ingen skulle bli gladare än jag om det visade att jag hade helt fel och att vi kan lägga till Wartegg i vår arsenal med bra urvalsmetoder.

Lämna en kommentar

Lämna ett svar till Anders Sjöberg Avbryt svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *

Denna webbplats använder Akismet för att minska skräppost. Lär dig hur din kommentardata bearbetas.