Lägesrapport från Psychometrics

trash2Organisationer både privata och offentliga anlitar mig som konsult eller fonderar pengar till Stockholms universitet för att vässa deras urvalsmodeller. Det senaste året har varit fullt upp med dessa uppdrag i att kombinera forskning med praktik. I dessa uppdrag har jag noga följt forskningen om personalekonomiska modeller och psykometri. Själva leveransen som organisationen får är en algoritm som maximerar validiteten i hela processen. Algoritmen är ett sätt att väga ihop information så att vi på bästa möjliga sätt väger informationen för att få ut bästa möjliga beslutsunderlag, och inte minst i urvalssituationen vara säkra på att informationen vägs på identiskt sätt för alla sökande.

Det är spännande och roligt att berätta att det idag finns en betydligt större öppenhet för att urvalsprocessen ska vara både transparant och rättvis. Att gå ifrån magkänsla och använda mekaniska modeller för att väga ihop information. Nedan kommer jag berätta hur många tillsammans bidragit till detta, både studenter och uppdragsgivare.

Under det senaste året har jag på olika program i Stockholms universitet regi (psykologiska institutionen) genomfört urvalsutbildningar. Både nationella och internationella studenter har examinerats, det har blivit ca 70 studenter som klarat kravet att teoretiskt förklara och argumentera för en evidensbaserd urvalsprocess. Studenterna är blivande psykologer och HR personal, och överlag har det enligt min mening varit en nyttig process både för mig som lärare och studenterna att diskutera urvalspsykologi. Jag har fått många goda uppslag av er för att vässa urvalsprocessen. Detta är utbildningens lärandemål:

• Beskriva hur en arbetsanalys kan ligga till grund för urvalsprocessen
• Välja lämpliga processer metoder/instrument som ska ligga till grund för urvalsbeslut.
• Bedöma effektiviteten i urvalet baserat på nyttoberäkningar
• Bedöma effektiviteten i urvalet baserat på jämställdhet
• Förstå vilka psykologiska processer som ligger till grund för beslutsfattande vid anställning.

Litteraturen (se nedan) anpassas efter hur lång kursen är (mellan 2 till 7 veckor), men inlämningsuppgiften är densamma och består av att dokumentera hela urvalsprocessen. Studenten får en fallbeskrivning författad av en fiktiv uppdragsgivare. Studentens uppgift är att sedan med hjälp av litteratur och föreläsningsanteckningar skriftligen och muntligen argumentera hur urvalsprocessen ska gå till utifrån leveransperspektiv (läs rekryteringskonsult), vilka metoder som ska användas, och hur urvalsbeslut ska verkställas för att balansera individens- och organisationens mål med urvalsprocessen. Studentens arbete ramas in av ISO 10667, bedömningstjänster i arbetslivet.

En viktigt del är att omsätta forskningsbaserade resultat till en verklig situation, studenten ingående beskriva hur validitet kan omvandlas till nytta för uppdragsgivaren. Nytta uttrycks ofta i kronor och ören, alltså vad får uppdragsgivaren tillbaka om hen satsar X antal kronor på en urvalsprocess?

Studenterna kommer med väldigt bra analyser där baskvot, urvalskvot och validitet uppskattas för att bilda beslutsunderlag för uppdragsgivaren. En del har använt regressionsanalys baserat på meta-analyser för att få fram hur deras bedömningsmetoder ska vägas samman för att hindra att allt slutar med en intuitiv tolkning.

Tre intressanta uppsatser kommer under denna termin (eller nästa) att försvaras som berör bedömning och urvalsbeslut, en uppsats om beslutstilar i arbetslivet, en uppsats där studenten intervjuat tunga beslutsfattare i organisationer om hur de fattar urvalsbeslut, samt en uppsats som jämför psykologisk testning med stationära datorer och mobila enheter.

Sex deltagare följer nu kursen European Federation of Psychologists’ Association.
(EFPA) Certifieringsutbildning. Syftet med denna utbildning är att ge deltagarna teoretiska och praktiska kunskaper i arbetspsykologisk testning som leder till en internationell certifiering enligt EFPA.Utbildningen vänder sig till personalvetare, psykologer, ekonomer, m.fl. som arbetar med psykologisk testning vid rekrytering. Målet med utbildningen är att ge testanvändare de kunskaper om psykologiska test och testanvändning i arbetslivet som leder fram till en certifiering i enlighet med de kriterier som är fastställda av European Federation of Psychologists’ Association.

Till alla studenter och uppdragsgivare jag träffat under det senaste året, ni gör ett så BRA JOBB, jag har en känsla av (kalla det intuition) att en förändring är på gång. Även om det finns ett stort motstånd att förändra rådande urvalsmodeller där magkänsla härskar, finns det idag ett gäng som arbetar för stora förändringar. Häng i och hjälp mig förändra, för snart kan vi ha en jämställd och ekonomisk försvarbar urvalsprocess i Sverige.

Litteratur

Diskrimineringslagen (2008:567).

The Oxford Handbook of Personnel Assessment and Selection edited by Schmitt, Neal (Ed.), Michigan State University, Department of Psychology, East Lansing, MI, US: The Oxford Handbook of Personnel Assessment and Selection. Oxford University Press, Oxford, New York/NY, USA.

Kuncel, N. R., Klieger, D. M., Connelly, B. S., & Ones, D. S. (2013, September 16). Mechanical versus clinical data combination in selection and admissions decisions: A meta-analysis. Journal of Applied Psychology. Advance online publication. doi: 10.1037/a0034156

Morris, S. B., Daisley, R. L., Wheeler, M., & Boyer, P. (2014, May 26). A meta-Analysis of the relationship between individual assessments and job performance. Journal of Applied Psychology. Advance online publication. http://dx.doi.org/10.1037/a0036938

Sjöberg, S. (2014). Utilizing research in the practice of personnel selection: General mental ability, personality, and job performance. Doctoral Thesis in psychology at Stockholm university.

Sjöberg, A., Sjöberg, S., & Forssén, K. (2007). PJP: Predicting Job Performance. Kapitel 4. Ekonomiska aspekter på och urval och arbetsprestation. Psykologiförlaget. Stockholm.

Sjöberg, S., Sjöberg, A., Näswall, K., & Sverke, M. (2012). Using individual differences to predict job performance: Correcting for direct and indirect restriction of range. Scandinavien Journal of Psychology, 53, 368–373.

Intervju i Chefstidningen nr 3 2016

Chefstidningen2

 

Läs hela artikeln här

Anders Sjöberg forskar kring rekrytering och urvalsbeslut vid psykologiska institutionen på Stockholms universitet. Enligt honom tjänar arbetsgivaren i de flesta fall pengar på att lägga ut rekryteringen, eftersom det ofta är en tidskrävande process som de flesta inte har en struktur för. Det blir lönsamt att anlita rekryteringsföretagen för att de har en bra kandidatbank. Som arbetsgivare slipper du gå ut och leta själv.

Däremot går det inte att säga att det skulle vara bättre eller sämre för det slutgiltiga resultatet att rekrytera med extern hjälp, menar han. Till syvende och sist är det ofta magkänslan hos den som rekryterar som avgör vem som får jobbet. Och det är en känsla man inte bör lita på.

– Ofta låter man de personliga egenskaper eller mellanmänskliga kompetenser som man upplever att kandidaten har väga tyngre än dess utbildning och tidigare erfarenheter. En del säger att de vet direkt när någon kommer in i ett rum om det är en bra person eller inte, men det är trams, säger han.

Han tror inte att det är möjligt att bedöma en persons potential eller värderingar under en intervju.

– Även om byråerna faktiskt skulle kunna det, hur vet de att det är just de värderingarna som sedan är avgörande för om personen lyckas i sitt arbete?

Enligt Anders Sjöberg bör man alltid utgå från formella krav och kognitiv förmåga vid en rekrytering. Visst kan intervjuer vara värdefulla, men man bör inte lägga för stor vikt vid de mjuka värden som framkommer.

– Där handlar det mer om okulärbesiktningen. Är personen hel och ren, kommer den i tid?

För att hitta personer med god problemlösningsförmåga är i stället personlighetstest och intelligenstest tidigt i processen att föredra. Det kan enligt hans forskning öka träffsäkerheten med 40-50 procent.

– Det finns inget bättre än ett intelligenstest för att se vem som presterar bäst. Men det blir för enkelt och billigt för rekryteringsbyråerna att bara administrera tester. Att prata om potential och värderingar är ett sätt för dem att resonera om att de behövs. Sitta i grupper och analysera värderingar… Nej, då kan du lika gärna använda slumpen. Det är bättre för slumpen diskriminerar inte.

SIOP Dag 3

Seminariet ”Using metaBUS for Literature Searches and Generating Instant Meta-Analys” var dagens höjdpunkt, kanske SIOP 2016 bästa föreläsning. Metabus som jag berättat om tidigare ligger i framkant. MetaBus kombinerar forskningsdata i form av variabler (tex arbetstrivsel, personlighet, begåvning, arbetsprestation, teamprestation etc etc etc). Sammanlagt finns det resultat från närmare 1 miljon resultat baserat på 4900 olika psykologiska begrepp. Är du intresserad av sambandet mellan två eller fler variabler kan du söka i denna databas, som är helt gratis. Men detta är bara början berättade forskarna bakom detta enorma projket. Nu går de in i fas två och släpper en ny version (i juni) som uppdaterar både antal sökfunktioner men också gränssnittet, det kommer bli lättare för praktiker att använda denna databas för att söka svar bland all forskning som idag är väldigt svåråtkomligt, även för oss akademiker. Idag kan det ta fyra år att genomföra en metanalys.

Bakom ytan finns det ett enormt arbete, inte minst av programmerarna som fått ihop hela systemet men också alla doktorander och studenter på olika universitet som helt enkelt har suttit och matat in alla siffror efter de har sökt i alla ”journals”. Bara tanken på att hitta en taxonomi gör en helt överväldigad.

Vad som också kommit till min kännedom den senaste tiden att mycket av framtiden inom detta område drivs på icke kommersiell basis. Bakom MetaBUS och flera andra nya metoder för att analysera BIG DATA finns ”open source”, dvs helt gratis programmering som kan laddas ned och börja användas. Statistikprogram som SPSS och SAS kommer vara stendöda om 10 år, vissa program kan dock länkas till open source idag, men det är bara en tidsfråga när alla funktioner som idag finns i de kommersiella program kommer vara gratis (professor Oswald berättade att de betalar 2,5 miljoner på hans universitet per år för att använda SPSS).

Framtiden ligger i att kunna söka rätt information gratis, naturligtvis förstå vad de psykologiska begreppen betyder, och att sedan föra ut den kunskapen i praktiken. Som sades på seminaiet, MetaBUS och open source kommer ändra spelplanen bland både forskare och praktiker de närmaste åren.

Det var roligt att se en sådan ”dedicated” forskar grupp (blev lite magisk stämning i rummet klockan 8 en lördag morgon). Frank Bosco, Krista Uggerslev
Piers Steel var på sina egna sätt helt strålande. De hade 80 minuter på sig och de lyckades med detta.

1. Describe the metaBUS database structure and protocols;
2. Explain the hierarchical taxonomy of constructs;
3. Demonstrate literature search capabilities using metaBUS;
4. Demonstrate how to conduct an instant meta-analysis using metaBUS; and
5. Discuss limitations of the metaBUS approach.

De frågade till och men publiken om vad de ville veta och redovisade en meta analys på 20 sekunder.

Stående ovationer.

Resten av dagen sprang jag på en mängd olika poster sessions om O*net som jag tidigare skirvit om här på psychometrics. Även detta en helt fantastisk databas att använda för rekryterare avseende arbetsanalys. Nedan ser du några av ämnena som berördes.

An O*NET-Based Framework of Personality-Related Job Characteristics.

Using O*NET to Create an Occupational Family-Friendliness Index.

An O*NET Based Framework of Personality Related Job Characteristics.

När jag kommer hem ska jag fixa så att du kan ladda nedapporterna

Efter detta tog jag en eftermiddag off och åkte till Santa Monica Beach (obs säg inget), istället skickade jag ut mina mer samvetsgranna kollegor som bevakade eftermiddagens attraktioner på SIOP, plus den avslutande mottagningen (med lite bubbel).

Nu sitter jag och sammanfattar mina intryck på planet hem, klockan visar på 23.00 för mig men hemma i Svedala är klockan 08.00.

SIOP i år, utifrån mitt perspektiv bjöd på både höjdpunkter men även mindre bra saker. Var på några seminarier där äldre forskare inte hade förberett sig. Bland annat på ett där mycket meriterade forskare mer yrade om några löst sammanhängande idéer om hur man kan ta saker vidare, än att ta ämnet framåt. Samtidigt som det infinner sig en förnöjsamhet hos dessa forskare om hur bra de är (lite klubben för inbördes beundran) gör det än mer tråkigt. Det var, som jag tidigare kommenterat, från tidgare år, en hel del seminarier där företag ”köpt in sig”. Detta resulterar ofta i paneldebatter där vissa konsulters erfarenhet debatteras. Detta kan vara intressant, men på denna typ av en konferans resulterar det i ett stort JASSÅ. Det är helt enkelt fel forum. Jag vill lära mig något nytt.

Fick också en ”magkänsla” att det är ett generationsskifte på gång, och att delvis saknas några färgstarka personer som kan tänkas ta över stafettpinnen från tex Frank Landy, Deniz Ones, Frank Schmidt, Kevin Murphy, Nancy Tippins, Dave Bartram, alla dessa personer som gjort SIOP till en ganska unik konferens. Å andra sidan, detta är mitt trettonde SIOP ….har jag delvis följt något av samma spår, dvs bedömningstjänster inriktat på urval. De senaste åren har det blivit mycket team forskning på SIOP, ett ämne jag bara snuddat på genom min kollegor Maria Åkerlund och Annika Lantz, detta ämne verkar också var hetare idag än för 13 år sedan. Min av summering av SIOP 2016, överlag helt OK, för min egen del väldigt bra eftersom det ofta räcker att det är två givande seminarier på tre dagar som ger mig ny kunskap, och det fick jag verkligen (nya statistiska metoder och metaBUS. När jag kommer hem kommer jag jobba vidare med dessa saker.

Statistik programmering i R
metaBUS
O*net

På torsdag börjar min kurs i urval på psykologprogrammet, då delar jag med mig av denna kunskap.

over and out från SIOP 2016

(ber om ursäkt för lite skakig text skriver på min Ipad mini)

SIOP Dag 2

BIG DATAIdag har jag fokuserat på BIG DATA och vad som är nytt på detta område. Big data utgörs av digitalt lagrad information av sådan storlek att det är svårt att bearbeta den med traditionella statistiska metoder som används av psykologer. Big data innefattar tekniker för very large databases (VLDB), datalager (data warehouse) och informationsutvinning (data mining).

Termen big data fick sitt genomslag under början av 2000-talet. Dessa stora datamängder skapas inom en mängd olika områden som meteorologi, bioinformatik, genomik, fysik och naturligtvis även inom området bedömningsmetoder inom urval.

Big data för mig fram tills nu har varit att det är stora datamängder, men att det är samma statistiska analyser som genomförs i form av olika korrelationsstudier. En annan del, som jag förstått, är också att data kan samlas in i realtid, för varje person som gör ett test kan normer uppdateras. Efter dagens seminarier och en utbildningseftermiddag kan jag konstatera att det hänt en del utanför psykologin som kan vara användbart inom bedömning och urval.

Framförallt har nya varianter på analyser utvecklats för att förutsäga beteenden i organisationer. Dessa statistiska metoder används idag för att analysera data där det inte finns några svar från början. Skillnaden mellan den psykologiska forskningen och detta angreppssätt är att vi inom urvalspsykologin för det första vet hyfsat vad vi mäter och att vi oftast inte har så många variabler i samma analys som vi är intresserade av. Inom många andra områden har man ingen aning av vad som predicerar vad, och det är där de nya metoderna först och främst kommit till användning.

Under de senaste åren har jag utvecklat algoritmer för att väga ihop data om kandidater (från test, assessment center och intervjuer) genom att förlita mig på traditionella analyser såsom tex regressionsanalys, och logistisk regression. Inom big data har dessa regressioner utvecklats och generaliserats för att inte övertolka vissa samband.

När man gör en lokal vailideringstudie (en studie där man har data på bedöming och minst ett kriterie) finns det risk för att en sammanvägning av data den traditionella analysen visar övertolkar sambanden, eller väljer fel variabler som prediktorer. De nya analyserna som professorerna Oswald och Putka redovisade med hjälp av programmerinsspråket R (som är ett helt gratis statisk program, kan man säga) råder delvis bot mot denna svaghet.

Det finns egentligen två saker som avgör om en kombination av variabler, tex personlighet och intelligens, kan förutsäga relevanta beteenden i organistioner; korrelationen med kriteriet och korrelationen mellan prediktorerna (i detta fall Big Five och intelligens). De traditionella metoderna har svårt att på ”rätt sätt” ta hand om sambanden mellan variablerna när algoritmer ska byggas, vilket på ett pedagiskt sätt professorna visade hur detta tas om hand av dessa nya analyser.

Efter tre timmars föreläsning var jag helt slut, men kunde konstatera att detta var den stora behållningen hitintills på SIOP. Hann också med att köpa en bok om beslutsfattande i organisationer som Scott Highhouse har varit redaktör för som ser väldans intressant ut. Träffade även Scott i en paus för en snabb diskussion om den nya boken och kommande marknadsföring av denna. Ska läsa den och återkomer med en rapport (Scott var på SU och var opponent på Kristina Langhammers avhandling för två år sedan). Avslutade dagen med en utmärkt middag på Mortons Steakhouse med några amerikanska kollegor från Hogan Assessment, nya friska tag imorgon.

 

 

SIOP dag 1

IMG_0325Idag startade SIOP 2016 med rivstart. Vid öppningen hyllades alla duktiga forskare och bland många andra fick min favorit Dave Bartram pris för ett enastående forskningsarbete under många år, grattis Dave (se bild). Efter öppningscermonin landade jag på en föreläsning om att mäta arbetsminneskapaciteten för att använda resultatet för urvalsbeslut. ”The Overlooked Cognitive Ability—Working Memory: Research and Practical Considerations”.

Arbetsminne är de mekanismer eller processer som är involverade i styrning, reglering och aktivt upprätthållande av uppgiftsrelevant information som är nödvändig för komplex kognition, både för nya och redan bekanta uppgifter. Arbetsminnet är förmågan att upprätthålla och manipulera information under en kortare tidsperiod. Arbetsminnet ses som centralt i förmågor som till exempel språkinlärning, läsförmåga, problemlösning och matematiskt resonerande. Arbetsminnesförmåga korrelerar med generell intelligens

Arbetsminnet ses som bestående av fyra olika komponenter med respektive funktioner: Den fonologiska loopen hanterar auditiv information, till exempel vad någon säger. Vid läsning är bokstäverna från början visuell information men kodas om och hanteras därmed av den fonologiska loopen. Det visuospatiala skissblocket hanterar visuospatial information, till exempel en bild av en frukt (visuell) eller en väg genom en labyrint (spatial). Centralexekutiven koordinerar och styr de andra delarna. den episodiska bufferten hanterar interaktionen med långtidsminnet.

Allt som ska till långtidminnet måste igenom arbetsminnet.

Problemet är detta, vi vet att generell intelligens förutsäger arbetsprestation, nackdelen är att intelligenspoängen (om den används vid urvalsbeslut) diskrimenerar vissa grupper i USA. Frågan är om man istället använder arbetsminnestest, kan man behålla validiteten samtidigt som diskrimeringsrisken minskar?

Detta resonemang är inte nytt, vissa menar att arbetssminnet är samma sak som generell itnelligens. Efter 1,5 timme blev svaret: kanske. Vissa resultat kan tyda på att diskrimineringsrisken minskar men det är fortfarande mycket mer effektivt att administrera ett test som mäter flera olika förmågor (där arbetsminne kan vara en förmåga bland många andra) för att förutsäga prestation i både utbildning och arbete. Jag tror detta kan vara en återvändsgränd, men jag har haft fel förut.

Nästa session handlade om detta.

”This session provides an opportunity to listen to four experts (two academics and two practitioners) in the field of computer-adaptive testing (CAT) discuss advantages and disadvantages for using CAT and forced choice methods for assessing personality. Topics will include psychometric characteristics and potential problems associated with CAT”

Jag fick lyssna på följande experter inom området adaptiv testning.

William L. Farmer
U.S. Food and Drug Administration
Alan D. Mead
Talent Algorithms Inc
Stephen Stark
University of South Florida

Det hetaste just nu är en nygammalt sätt att se på poängsättningen (skalningen) i personlighetstest. Den traditionella skalningen är att varje respondent får ta ställning till ett antal påstående om sig själv och ange hur väl detta överensstämmer eller ej med det man tycker om sig själv (tex jag gillar att gå på fest). Detta är det klart dominerande sättet att mäta personlighet. Ett annat sätt är det ipsativa sättet, dvs att respondenten får ta ställning mellan två beteenden vilka som bäst överenstämmer med vad man tycker stämmer (jag gillar att gå på fest eller jag gillar att läsa en god bok). Nu har dock nya psykometriska modeller använts fär att råda bot mot detta, dvs att använda sk ”forced choice scale, eller ”att tvingas ta ställning till skalor” så att även dessa typer av skalor går att använda i urval. Detta kallas för ”ideal point scaling”, eller Thurstone scaling efter hen som lanserade idén. Thurstone menade att individer tenderar att instämma i påståenden (JA eller NEJ) som bäst liknar dem själva, inte som i Likert skalning, mer eller mindre. Panelen diskuterade komplicerade psykometriska modellers tillämpning för att minska testtiden och minska risken för socialt önskvärda svar. Och där var panelen överens, denna typ av skalning minskar problematiken med social önsvärdhet. Det finns också vissa tendenser att validiteten kan öka, men det är lite tidigt att dra några slutsatser. Det är dyra system att utveckla och hitintills är det bara amerikanska militären som lycktats fullt ut. Å andra sidan höjdes röster från panelen att kandidaterna tycker att det är svårt att svara på frågorna eftersom testen inte är logiska. Så frågan är hur mycket nytta det är att satsa på ett system som kandidaterna (och kanske de som administrerar testen) tycker är helt ologiskt. Men jag tror att mycket på detta område kommer att hända de närmaste åren.

Innan Sofia och min egen presentation hann jag prata med Hogan Assessment, delar av Cut-e, och OPP (MBTI). Både Cut-e och Hogans har flera presentationer på SIOP om ny testutveckling. Dessutom fick vi en pratsstund med Stephen Dilchert som presenterade en studie om kontraproduktivt beteende bland poliser. Dilchert & Co hade följt över 8000 poliser i fyra år och kartlagt avvikande beteende bland poliser i USA. Även om man använder test för att inte anställa dessa personer verkar inte psykologerna ta hänsyn till resultatet utan lyckas anställa dessa poliser som har förhöjd risk för dessa beteenden. Men de är dock ganska snabba när det uppdagas att de inte sköter sitt jobb, då får de sparken. Dilchert kunde beskriva samma fenomen i USA som i Sverige, det adminstreras psykologiska test som är valida, men sedan intervjuar poliserna och tar andra beslut, poliserna vet själva när de träffar en bra poliskvinna/man, inget nytt men ändå intressant att höra.
Avslutade dagen att prata med Nathan Kuncel om hans forskning om amerikanarnas högskoleprov. Data från över 1 miljon testningar kunde bekräfta att det fungerar. Intressant att Sverige ska utreda att lägga ned högskoleprovet! Nathan är intresserad att komma och föreläsa om sin forskning och vi lovade att undersöka saken, vore trevligt att få honom till Sverige för några föreläsningar om både högskoleprov och mekanisk tolkning av testresultat.

Ny spännande dag imorgon.

SIOP Start på torsdag

siop

 

 

 

På torsdag startar SIOP i Anaheim California, världens största kongress för arbets- och organisationspsykologer. Vi är ett gäng svenskar som kommer vara på plats. Det är ett intressant program med föreläsningar, posters och workshops. Vid en genomgång av programmet kan jag konstatera att BIG DATA är ett hett ämne. Ur forskningssynpunkt med möjlighet att göra egna analyser av stor mängd data, ur tillämpad synvinkel att fatta bättre beslut och ur juridisk synvinkel, är det lagligt? Ett annat ämne jag tänkte följa är personlighetsestning, ett ämne som det nästan alltid finns ny forskning om. Det är lite mindre med begåvning, men några intressant presentationer har jag hittat. Själv kommer jag och Sofia Sjöberg presentera en poster på torsdagen som berör den ekonomiska nyttan av att inte lita på rekryteringsexperter. På fredagen är det workshop, då ska jag få lära mig mer om prediktiva analyser utförda i programmeringsspråket R. Det är Dr. Fred Oswald at Rice University och Dr. Dan J. Putka at the Human Resources Research Organization (HumRRO) som håller i denna workshop. Detta är lärandemålen.

  • Compare traditional data analysis/models with innovative algorithms/models that are useful for big data.
  • Use the RStudio program to apply innovative algorithms/models in predicting outcomes using sample data sets.
  • Use RStudio to help interpret and compare results from various modern prediction methods.
  • Write results from these innovative algorithms/models in a manner that is clear and compelling to both researchers and practitioners

Så håll kolla på psychometrics.se genom att anmäla dig som prenumerant (om du inte redan gjort det) jag kommer skriva om intressanta ämnen, göra egna reflektioner och lägga upp filmer och bilder under hela kongressen. Klicka här för att läsa mer om SIOP.

Ytterligare kommentarer avseende betyg

lära

 

 

Jag fick mail från en av psychometrics uppmärksamma läsare som skickade mig kompletterande information avseende betygsbedömning. Detta står i läroplanen (Kursivt). Efter det som står som instruktionerna för betygssättning finns mina egna kommentarer (i fet stil).

Kunskapskraven har en tydlig koppling till målen i ämnets syfte och anger med vilken kvalitet eleven ska visa sitt kunnande i förhållande till målen.

OK för mig jag förstår ,det är ett absolut nivå system utan jämförelser mellan elever.

Eleven ska uppfylla hela kunskapskravet för betygen E, C eller A. Betygen D och B har inte preciserade kunskapskrav. Dessa betygssteg grundar sig på vad som anges i kunskapskraven för betygen över och under.

Här blir det lite svårare att följa, men OK jag tror jag förstår det finns ingen definition av betygen D och B.

Underlagen för betygen D och B kan se olika ut för olika elever. En elev uppfyller vissa delar av kunskapskravet för det överliggande betyget medan en annan elev uppfyller andra delar.

Här smyger det sig in en jämförelse mellan elever i ett absolut system och det börjar likna en kompensatorisk modell där det ena kan överväga det andra. 

Båda eleverna kan dock bedömas uppfylla det överliggande betyget till övervägande del.

Antingen petas man upp eller ned i bedömningen med begreppet ”övervägande del”. Nu börjar det bli flummigt.

Eftersom ”till övervägande del” är en bedömning som kan se olika ut från elev till elev kan dessa kunskapskrav inte preciseras vare sig på nationell eller på lokal nivå.

Spännande, det går inte att precisera, men vi lärare ska ändå tvingas bedöma om man petar upp eller ned en elev. Det här börjar bli otroligt diffust.

Vid bedömningen av ”till övervägande del” gör läraren en helhetsbedömning av de
kunskaper eleven visar jämfört med överliggande kunskapskrav.

Och här kommer den berömda ”helhetsbedömningen” även kallad magkänsla som vi vet inte fungerar. 

I jämförelsen identifierar läraren vilka delar av kunskapskraven som eleven uppfyller och bedömer med stöd i ämnesplanens syfte och kursens centrala innehåll om elevens kunskaper sammantaget uppfyller kravet på ”till övervägande del”.

Slutkommentar

Detta fungerar, hela makten för bedömningen ligger hos läraren som måste avgöra ett betyg ibland på nivåer som inte går att definiera. Detta är en skandal, jag undrar varför man helt bortsett från samhällsvetenskaplig forskning av psykologer, pedagoger och ekonomer om vilken ”bias” vi petar in i våra tolkningar (särskilt om vi redan från början medger att de inte går att precisera). Och framförallt var matematiklektorn Fritz Wigforss inne på samma linje för 60-70 år sedan. Tycker man ska tillsätta en krisgrupp (Wigforss gruppen) som får reda ut denna härva, det är inte rimligt att detta ska hända 2016.

Betyg2

 

Mätning av kunskap och betygsbeslut, ett debattinlägg

SOUJag har länge intresserat mig för hur betygsättning går till i Sverige, från grundskolan till universitetet. Inte minst för att en stor del av tyngden i betygsbeslutet grundar sig på prov, och prov emanerar från psykologiska test, dvs en teori hur vi kan mäta egenskaper och kunskaper. I skolan handlar det om att mäta kunskap, och denna mätning blir sedan vägledande till det betyget eleven/studenten får. Nu har det kommit en ny Statlig Offentlig Utredning (SOU 2016:25) som utmynnar i en mängd förslag där ett är att vi ska gå över från papper och penna prov till digitaliserade prov (kanske inte så konstigt). Men det är inte det som jag tänkte fokusera på här utan två av bilagorna till utredningen som handlar om hur prov i skolan växt fram över de senaste 80 åren och provens mätteori. Jag kommer först sammanfatta utredarens beskrivning av betygens framväxt och sedan komma med några förslag på vad jag tycker är viktigt att fokusera på i framtiden för att få ordning på denna betygsröra.

I dessa bilagor till SOU 2016:25 finns det en helt suverän beskrivning hur vi kommit hit där vi är idag med början med en tidsresa från 1940-talet. Författarna till bilagorna (misstänker att Jan-Erik Gustafsson är en) menar att tiden från 1940-talet kan indelas i tre perioder.

  1. En första period med definitiv start i och med Lgr 62 som dominerades av grupprelaterade prov
    och betyg.
  2. En andra period med avstamp i 1994 års läroplaner då kriterierelaterade prov och betyg blev framskrivna.
  3. Och slutligen dagens läge där man kan tala om standardsrelaterade eller standardsbaserade prov och betyg.

De två första perioderna är tämligen klart åtskiljbara, säger författarna, men när det gäller kriterierelaterade prov och betyg i relation till de som gäller i den nuvarande tredje perioden blir det mer diffust (och där är jag också lost, därför kommer jag hålla mig till de första faserna).

Period 1. SOU 1942:11
Om vi börjar i 40-talet när dåvarande regeringen (en samlingsregering som bestod av representanter för socialdemokraterna, Bondeförbundet, Folkpartiet och Högern) gav matematiklektorn Fritz Wigforss i uppdrag att utreda förutsättningarna för att fixa till ett nytt prov- och betygssystem. Wigforss betänkande kan sägas vara startpunkten för att införa ett prov- och betygssystem som byggde på en sund (för den tiden) psykometrisk teori som vi idag känner som den klassiska testteorin. Dessförinnan sattes betyg av ”erfarna och omdömesgilla personer med allmänt gott renommé”, sk censorer. Wigforss prov utgick från en normalfördelning med medelvärdet 3, standardavvikelsen 1, och fem betygssteg. Normen användes på nationell nivå för att fastställa poänggränser på nationella prov. I själva verket är detta vad vi inom psykologin kallar för indviduella differenser och inom tex psykologisk testing pratar vi om hur det individuella värdet förhåller sig till en normgrupps värde.

Betygssättningen styrdes hårt av de nationella proven och lärarnas slutgiltiga betyg var därför styrda av provresultaten, dock inte till 100%. Elevens medelvärde fick inte avvika med mer än 0,2 betygssteg i relation till betygsmedelvärdet för provet. Om det gjorde detta, var det dags för läraren som avvikit från normen att förklara sig för rektor och kollegiet. Betyget baserades på en logisk grund att mätningen ska vara reliabel. Därför utvecklades proven utifrån den klassiska testteorin där mått på reliabilitet kan beräknas som internt konsistens, att provet ska kunna rangordna elever på en förmåga eller kunskap. Om provet var reliabelt är denna modell mekanisk och kräver ingen bedömning utöver den bedömning som eventuellt ingick i själva bedömningen av proven. Testpoängen angav rangordning av eleverna och elevens betyg på provet bestämdes av de poänggränser som angavs för olika betyg. Glasklart, eller hur?

Wigforss prov vägledde sedan utvcecklingen fram till 60-talet. Värdeord av typen godkänd, väl godkänd etc. fanns inte i det femgradiga betygssystemet som sjösattes på 60-talet, även om det i praktiken kunde utvecklas gränsvärde av av de som skulle välja elever till utbildning, tex gränsen 3 i medelbetyg.

Det är självklart för mig att denna syn på prov i skolan, det norm- eller grupprelaterade systemet har sina rötter i de test som utvecklades i USA under det tidiga 1900-talet för att användas i militära urval. I urval är den prognostiska validiteten central, dvs de egenskaper som mäts ska kunna förutsäga senare beteende (tex lärande eller prestation). Även om psykometrin har utvecklats betydligt idag så är det detta synsätt som lever kvar när vi rangordnar personer till utbildningar och jobb, högst poäng vinner (jag vet att några av mina läsare inte håller med, men även om man struntar i testpoängen så kommer kandidaterna bli valda eller inte, 1 eller 0). Detta system är vi 50+ uppväxta med, och min personliga åsikt var att detta system (även om jag var kritisk att jag själv fick så hemskt låga betyg!) var ganska oproblematsikt, medelbetyget sa något om hur bra jag var om jag jämfördes med andra, i mitt fall inte så jättebra, men jag kände mig OK ändå.

Period 2 – kriterierelaterade prov och betyg

Men på 80-talet växte kritiken om denna ”hemska” rangordning eller sortering av elever. Och själva kärnan i kritiken var att proven, även om de var reliabla, inte speglade själva kunskapsnivån, som beslutsfattare ville att barn skulle ha. Istället ville man att eleven visade att hen i tillräcklig utsträckning klarade av uppgifter som bedömdes ligga på en viss nivå, givet ett visst kriterie. I praktiken började man resonera sig bort från den kontiuerliga skalan (1-5), som beskrev eleven i ett relativt system, till ett absolut system, där eleven skulle upp till en viss nivå för att få ett visst betyg, tex G (godkänt). På 90-talet vann detta kriterierelaterade synsätt gehör hos alla beslutsfattare, ut med det gamla och in med det nya, MYCKET BÄTTRE systemet. Detta började med att man behöll 1-5 betyget men det blev mer svävande, i jamförelse med tidigare hårdare regler (läs Wigforss reglerna). Rekommendationen var istället att betyget 3 skulle vara det vanligaste betyget och att andelen 2:or och 4:or skulle vara större än andelen 1:or och 5:or.

Och här börjar det flumma till sig rejält enligt mig.

Tanken var nog god och särskilt i USA började man prata om sk kriterierelaterade test. Samtidigt utvecklades psykometrin betydligt, bla fick Item Resonse Theory fäste, en psykometrisk tradition som är tillämplig att använda för att bla fastställa gränsvärden.

Samtidigt i Sverige, som beskrivs på ett ypperligt sätt i bilaga 3 (SOU2016), introducerades ett nytt kunskapsbegrepp ”de fyra f:en: fakta, förståelse, färdighet och förtrogenhet”. Utan att närmare gå in på detta här, fastslår författarna att denna teori inte kunde leva med att proven rangordnade elever baserat på individuella differenser. Nu handlade det inte längre om att relatera resultaten till en skala med förutbestämda egenskaper (medelvärde och standardavvikelse) och inte heller om att jämföra eleverna med varandra. I det nya systemet handlade det om att bedöma elevernas kunskaper i relation till i text framskrivna kriterier om vilka kunskaper som skulle visas för att berättiga till de olika betygen. Detta mycket bättre systemet visade sig dock vara väldans problematiskt eftersom ingen hade tänkt på att det är inte helt enkelt att bestämma vilka kriterier som skulle visas (alltså mätas) för att berättiga ett visst betyg. Men politikerna var positiva där uppfattades de nya textbaserade betygskriterierna i sig tillräckliga, och ut slängdes de gamla dammiga nationella betygsstödjande proven.

MEN, som sagts ovan, bestämningen av kriteriegränser (betygsgränser) visade sig vara en betydligt knepigare uppgift än förväntat. Detta hade psykologiska forskare redan bevisat 30 år tidigare men det verkar som drivet att förändra var större än att luta sig mot vetenskap. I sjäva verket utvecklade samma psykollog som utvecklade det vanliga måttet Cronbach Alpha en koefficient som visade att sätta absoluta betyg alltid resulterar i att dessa betygs reliabilitet sjunker betänkligt. Och även Wigforss var inne på samma linje enligt författarna. Wigforss menade att såååå precisa formuleringar, som sådana system antar, kan inte formuleras att de skulle bli entydigt tolkningsbara för olika användare. Wigforss förslag blev därför ett system baserat på relativa betyg, vilket också blev vad som infördes på 40-talet (se ovan).

Men nu tilbaka till 90-tal. Vad är du svårigheten i ett system som ska sätta skarpa gränser, jo det kriterierelaterade systemet är det såååå noga med den exakta nivån och då blir själva bedömningen mycket mer komplicerad i jämförelse med det normrelaterade. Med andra ord om vi psykometriskt ska bestämma reliabiliteten i ett prov utifrån om vi ska rangordna studenter är det mycket lättare att få hög reliabilitet i jämförelse om vi exakt ska säga vad gränsen går om en elev ska ha ett A eller B i sitt betyg.

Vad som hände i praktiken, som författarna beskriver i sin text, var att inte bara bedömningen av provresultaten utan även de beslut om betygen som skulle fattas blev skakiga. Mycket pga att lärarna skulle tolka kriterier för olika betyg där det högsta betyget mycket väl godkänt (MVG) saknades de första fem åren! Snacka om taskigt mot lärarna, tycker jag.

Jag tycker att den nya kunskapssynen, baserad på de fyra f:en, där de olika
kunskapsformerna inte var rangordnade utan snarare växelverkade är sund, men som förrfattarna skriver, så bygger otveksamt betygssättning på en rangordnande verksamhet. Om en elev betygsätts, och detta sedan ska ligga till grund för ett urval, då ska den information så långt som möjligt underlätta rangordningen som ligger till grund för själva urvalsbeslutet.

Period 3 – standardsbaserade prov och betyg

Hur ser då ut idag? Här beskriver författarna ett teoretiskt absolut system där kunskapsnivåer bestäms av kunskapsprogression i ämnet. Denna progression är mer eller mindre godtycklig och är beroende av ämnets karaktär. Vissa ämnen har i sig en tydlig hierarkisk ordning (kan t.ex. gälla vissa moment i matematik), medan andra ämnen har en progression som mer innebär en vidgning av kunskapsfältet (kan t.ex. gälla psykologisk behandling).

Och här blir det jobbigt. Vi har en utgångspunkt när eleverna ska ska lära sig något, men så har vi verkligheten när de slutar skolan där de ska rangordnas när de söker till nya utbildningar eller ska ut i arbetslivet.

Så här är det idag om jag fattar rätt. För att eleven ska få ett visst betyg (E, C eller A) måste respektive kunskapskrav vara uppfyllt i sin helhet. Det betyder en icke-kompenserande modell. Om en förmåga ligger på E-nivå har det ingen betydelse om övriga förmågor ligger på högre nivå. Det sammanfattande betyget blir E. Men för de nationella proven gäller inte detta, och inte heller i praktiken (undrar vad Wogforss hade tänkte om detta?).

Detta faktum, säger författarna, skapar en osäkerhet hos lärarna. Konsekvensen av detta är att läraren sätter ett betyg på nationella provet (som bygger på rangordning) men eleven får inte veta detta betyg eftersom det är en annan sorts betyg än det slutliga (som bygger på ett absolut gränsvärde), detta är naturligtvis är djupt olyckligt, inte minst för att den stackars läraren måste med sin egen förmåga bestämma detta. Och då är vi väl tillbaka till att den slutliga bedömningen ges av ”erfarna och omdömesgilla personer med allmänt gott renommé”, dvs lärarna.

Det absoluta systemet funkar inte heller i praktiken. Låt mig ta ett exempel, när urval sker är modellen kompensatorisk, dvs när vi anställer en kandidat så bestämmer vi sällan en absolut nivå. Beroende på urvalet väljer vi personer med kunskap vad som passar bäst (tex bra i en sak men kanske lite sämre i en annan sak).

Jag tycker att man blandar och ger just nu i det svenska utbildningssystemet. Om man tittar på den internationella forskningen så står det klart att prov i sig inte ger ett lärande (vilket inte Wigforss var inne på heller, vad jag förstår). Bara för att man mäter saker med precision betyder det inte att studenterna lär sig mer. Igår rättade jag 26 tentor, och en kritisk kommentar som jag fick från en student (tentan handlade bland annat om validitet i mätningen), var att att förvisso var det finurliga frågor men att denna tenta (läs prov, test) i själva verket mätte hur väl förberedd man var vid tentatillfället och framförallt förmågan att inte få skrivkramp (ja det var ett papper och penna test för att min institution har inte råd att införa digitala tentor).

Jag håller med studenten att detta är ett problem, men eftersom jag måste sätta ett betyg från E till A, måste en mätning av kunskap ske med så god reliabilitet som möjligt, men jag kan faktiskt inte bevisa att mina bedömning är reliabel, tyvärr. Det hade varit betydligt bättre om jag hade en normbaserat prov att förlita mina betyg på.

När det gäller inlärning lutar jag mig mot forskningen och anser den formativa ansatsen funkar bäst, dvs när det finns en interaktion mellan läraren och eleven, där jag kan ställa frågor, där studenten kan ställa frågor, där jag kan svara, där studenten kan rätta mig och där vi båda kan lära av varandra. Där är det upp till eleven många gånger (nu pratar jag om universitetsstuderande) att själv sätta ambitionsnivån (vilken tyvärr är skrämmande låg ibland) och därefter försöker jag anpassa min lärarstil inför detta. Men att göra formativa prov för att sätta betyg, detta ser jag som ”mission impossible”.

I slutet menar författarna till SOU att det viktiga i det här sammanhanget är att den som konstruerar provet får ett tydligt och avgränsat syfte med provet. Frågan är vad mätningen är till för?

Är det ett betygsstödjande summativt prov?
Är det ett formativt prov?
Är det ett utvärderande prov?
Är det ett uppföljande prov?
Är det ett examinerande prov?
Är det ett validerande prov?
Ska provet mäta förändring över tid?

Detta tycker jag är en utmärkt utgångspunkt för nästa steg, om någon kan ge mig ett antal miljoner kan jag ägna resten av min forskningskarriär för att undersöka utveckla detta.

Här kommer några förslag från mig

  • För varje ämne i skolan (för varje årskurs) utveckla en databas med kunskapsfrågor. Normera (och sätt gränsvärden) för olika nivåer av kunskap.
  • Testa alla i slutet av terminerna, detta utgör deras kunskapsnivå just nu (med en viss osäkerhet i mätningen). Med modern psykometri kan vi då få en utvecklingskurva för varje år från 6 år upp till vuxen ålder.
  • För varje nivå ta fram formativa arbetssätt som stödjer inlärningen av kunskapen som sedan ska testas.
  • Slopa dagens betyg, ge återföring till föräldrar och elever på utvecklingskurvan.
  • Slutbedömningen för urval som ska ge rangordningen bestäms av den senaste mätningen på de årsbaserade proven. Slutbetyget för högre utbildning utgör ett värde för varje ämne (en beskrivning) och ett medelvärde för hela utbildningen (beslutsunderlag för urval).

Vilken är din beslutsstil?

keywordPå psykologprogrammet handleder jag två duktiga studenter, Markus Nordgren och Andreas Ohlsson. Syftet med deras undersökning är att testa de psykometriska egenskaperna i ett nytt instrument för att mäta beslutsstil.

Nu har du chansen att hjälpa Markus och Andreas genom att besvara några frågor som tar endast 6-10 minuter av din tid.

KLICKA HÄR

Du kommer först att få svara på några korta bakgrundsfrågor. Efter det följer påståenden som handlar om hur du tar beslut i en arbetssituation.

Dina svar är helt anonyma och resultaten studeras och redovisas endast på gruppnivå. Ditt deltagande är helt frivilligt och du kan när som helst avbryta ditt ifyllande av enkäten.

Tack för din medverkan, ditt bidrag är viktigt!

Effekter av validitet i urvalsbeslut: att välja rätt är inte svårt

ClassificationI mitt förra inlägg om samvariation och förklarad varians föreslog jag att använda korrelationen som effektmått. Korrelationen kan enkelt översättas i hur stor andel i procent som kommer prestera under respektive över medel. I metaanalyser kan man hämta dessa korrelationer för att uppskatta validiteten i en urvalsproccess som du har. Tex kan ett personlighetstest ha en korrelation på 0.30 med arbetsprestation. I tabellen till höger ser du att detta ger 62% rätt beslut. Detta är ofta en underskattning sa en duktig kollega till mig igår. Varför? skriver jag om nedan.

Ett urval föregås i allmänhet av någon form av process (annonsering, search etc etc) det vill säga de strategier och metoder man använder för att värva sökande till de aktuella tjänsterna. När man ska tillsätta komplexa befattningar, som till exempel en tjänst som vd vid ett stort eller mellanstort företag, är de formella kraven förmodligen tämligen höga och välspecificerade.

Allt ”förjobb” som genomförs innan själva bedömning syftar till att generera en hög baskvot. Detta personalekonomiska begrepp anger den andel av de sökande (oftast uttryckt i procent) som skulle bli framgångsrika medarbetare även om man inte tillämpade någon urvalsmetod alls. Ett antagande är att ungefär hälften av kandidaterna skulle göra ett bra jobb om de blev anställda, en baskvot på 50%. Men ibland kan det se betydligt bättre ut. I en organisation jag har kontakt med uppskattas att så många som fyra av fem presterar bra i arbetet, dvs en baskvot på 80%.

I detta fall börjar man inte från noll, själva processen innan ett personlighetstest har gjort att du har goda odds att lyckas om du singlar slant när du ska välja mellan två kandidater. Ett personlighetstest i slutprocessen ter sig som bortkastade pengar om du har 80% chans att lyckas utan någon bedömningsmetod. Det är därför som personlighetstest ska användas så tidigt som möjligt i processen när du har fler kandidater att välja mellan. Det mest gynnsamma är alltid att testa så många som möjligt så att urvalskvoten är så låg som möjligt (urvalskvoten avser den andel av alla sökande vid ett visst tillfälle som ska anställas), alltså att du ska välja ut få personer ur en större pool av kandidater. I själv verket är sannolikheten att lyckas med ett urvalsbeslut när korrelationen är 0.30, baskvoten är 80% och urvalkvoten är 10%  så hög som 92%

Så en korrelation på 0.30 kan ge en stor effekt i praktiken även om med rent numeriskt är ett relativt lågt värde.

Men varför pesonlighetstestas det på slutkandidater? Svårt att säga, men det är nog många samverkande faktorer såsom svårigheten att tänka statistisk men också testanvändarnas övertro på att kunna tolka saker i ett personlighetsresultat. Inte minst ser vi det i branschen idag i form av otaliga (några helt osannolika) resultat rapporter som kommer ut när man svarar på ca 150 frågor om sig själv. Och inte minst de sk kompetensmodellerna som ibland kan vara uppdeladet på ett 50-tal olika kompetenser. Så mitt råd till er testanvändare av personlighetstest:

– Använd inte i slutet av processen när det bara är ett par kandidater kvar att välja på

– Använd tidigt i processen tillsammans med ett begåvningtest

– Köp inte massa tolkningsrapporter, om levernatören erbjuder en mekanisk tolkning av tesresultat be leverantören att förklara vilken rational hen har för att väga ihop resultatet.

– Vikta upp begåvning och målmedvetenhet i din slutpoäng, välj dem som har högst poäng.

Nedan ser du effekter av olika Baskvoter (BK), Urvalskvoter (UK) och validitet (val). Siffrorna i mitten kan tolkas som procent rätt beslut (dvs över medelpresterare) om du multiplicerar siffrorna med 100.

TR