Mätning av kunskap och betygsbeslut, ett debattinlägg

Jag har länge intresserat mig för hur betygsättning går till i Sverige, från grundskolan till universitetet. Inte minst för att en stor del av tyngden i betygsbeslutet grundar sig på prov, och prov emanerar från psykologiska test, dvs en teori hur vi kan mäta egenskaper och kunskaper. I skolan handlar det om att mäta kunskap, och denna mätning blir sedan vägledande till det betyget eleven/studenten får. Nu har det kommit en ny Statlig Offentlig Utredning (SOU 2016:25) som utmynnar i en mängd förslag där ett är att vi ska gå över från papper och penna prov till digitaliserade prov (kanske inte så konstigt). Men det är inte det som jag tänkte fokusera på här utan två av bilagorna till utredningen som handlar om hur prov i skolan växt fram över de senaste 80 åren och provens mätteori. Jag kommer först sammanfatta utredarens beskrivning av betygens framväxt och sedan komma med några förslag på vad jag tycker är viktigt att fokusera på i framtiden för att få ordning på denna betygsröra.

I dessa bilagor till SOU 2016:25 finns det en helt suverän beskrivning hur vi kommit hit där vi är idag med början med en tidsresa från 1940-talet. Författarna till bilagorna (misstänker att Jan-Erik Gustafsson är en) menar att tiden från 1940-talet kan indelas i tre perioder.

En första period med definitiv start i och med Lgr 62 som dominerades av grupprelaterade prov
och betyg.
En andra period med avstamp i 1994 års läroplaner då kriterierelaterade prov och betyg blev framskrivna.
Och slutligen dagens läge där man kan tala om standardsrelaterade eller standardsbaserade prov och betyg.

De två första perioderna är tämligen klart åtskiljbara, säger författarna, men när det gäller kriterierelaterade prov och betyg i relation till de som gäller i den nuvarande tredje perioden blir det mer diffust (och där är jag också lost, därför kommer jag hålla mig till de första faserna).

Period 1. SOU 1942:11
Om vi börjar i 40-talet när dåvarande regeringen (en samlingsregering som bestod av representanter för socialdemokraterna, Bondeförbundet, Folkpartiet och Högern) gav matematiklektorn Fritz Wigforss i uppdrag att utreda förutsättningarna för att fixa till ett nytt prov- och betygssystem. Wigforss betänkande kan sägas vara startpunkten för att införa ett prov- och betygssystem som byggde på en sund (för den tiden) psykometrisk teori som vi idag känner som den klassiska testteorin. Dessförinnan sattes betyg av ”erfarna och omdömesgilla personer med allmänt gott renommé”, sk censorer. Wigforss prov utgick från en normalfördelning med medelvärdet 3, standardavvikelsen 1, och fem betygssteg. Normen användes på nationell nivå för att fastställa poänggränser på nationella prov. I själva verket är detta vad vi inom psykologin kallar för indviduella differenser och inom tex psykologisk testing pratar vi om hur det individuella värdet förhåller sig till en normgrupps värde.

Betygssättningen styrdes hårt av de nationella proven och lärarnas slutgiltiga betyg var därför styrda av provresultaten, dock inte till 100%. Elevens medelvärde fick inte avvika med mer än 0,2 betygssteg i relation till betygsmedelvärdet för provet. Om det gjorde detta, var det dags för läraren som avvikit från normen att förklara sig för rektor och kollegiet. Betyget baserades på en logisk grund att mätningen ska vara reliabel. Därför utvecklades proven utifrån den klassiska testteorin där mått på reliabilitet kan beräknas som internt konsistens, att provet ska kunna rangordna elever på en förmåga eller kunskap. Om provet var reliabelt är denna modell mekanisk och kräver ingen bedömning utöver den bedömning som eventuellt ingick i själva bedömningen av proven. Testpoängen angav rangordning av eleverna och elevens betyg på provet bestämdes av de poänggränser som angavs för olika betyg. Glasklart, eller hur?

Wigforss prov vägledde sedan utvcecklingen fram till 60-talet. Värdeord av typen godkänd, väl godkänd etc. fanns inte i det femgradiga betygssystemet som sjösattes på 60-talet, även om det i praktiken kunde utvecklas gränsvärde av av de som skulle välja elever till utbildning, tex gränsen 3 i medelbetyg.

Det är självklart för mig att denna syn på prov i skolan, det norm- eller grupprelaterade systemet har sina rötter i de test som utvecklades i USA under det tidiga 1900-talet för att användas i militära urval. I urval är den prognostiska validiteten central, dvs de egenskaper som mäts ska kunna förutsäga senare beteende (tex lärande eller prestation). Även om psykometrin har utvecklats betydligt idag så är det detta synsätt som lever kvar när vi rangordnar personer till utbildningar och jobb, högst poäng vinner (jag vet att några av mina läsare inte håller med, men även om man struntar i testpoängen så kommer kandidaterna bli valda eller inte, 1 eller 0). Detta system är vi 50+ uppväxta med, och min personliga åsikt var att detta system (även om jag var kritisk att jag själv fick så hemskt låga betyg!) var ganska oproblematsikt, medelbetyget sa något om hur bra jag var om jag jämfördes med andra, i mitt fall inte så jättebra, men jag kände mig OK ändå.

Period 2 – kriterierelaterade prov och betyg

Men på 80-talet växte kritiken om denna ”hemska” rangordning eller sortering av elever. Och själva kärnan i kritiken var att proven, även om de var reliabla, inte speglade själva kunskapsnivån, som beslutsfattare ville att barn skulle ha. Istället ville man att eleven visade att hen i tillräcklig utsträckning klarade av uppgifter som bedömdes ligga på en viss nivå, givet ett visst kriterie. I praktiken började man resonera sig bort från den kontiuerliga skalan (1-5), som beskrev eleven i ett relativt system, till ett absolut system, där eleven skulle upp till en viss nivå för att få ett visst betyg, tex G (godkänt). På 90-talet vann detta kriterierelaterade synsätt gehör hos alla beslutsfattare, ut med det gamla och in med det nya, MYCKET BÄTTRE systemet. Detta började med att man behöll 1-5 betyget men det blev mer svävande, i jamförelse med tidigare hårdare regler (läs Wigforss reglerna). Rekommendationen var istället att betyget 3 skulle vara det vanligaste betyget och att andelen 2:or och 4:or skulle vara större än andelen 1:or och 5:or.

Och här börjar det flumma till sig rejält enligt mig.

Tanken var nog god och särskilt i USA började man prata om sk kriterierelaterade test. Samtidigt utvecklades psykometrin betydligt, bla fick Item Resonse Theory fäste, en psykometrisk tradition som är tillämplig att använda för att bla fastställa gränsvärden.

Samtidigt i Sverige, som beskrivs på ett ypperligt sätt i bilaga 3 (SOU2016), introducerades ett nytt kunskapsbegrepp ”de fyra f:en: fakta, förståelse, färdighet och förtrogenhet”. Utan att närmare gå in på detta här, fastslår författarna att denna teori inte kunde leva med att proven rangordnade elever baserat på individuella differenser. Nu handlade det inte längre om att relatera resultaten till en skala med förutbestämda egenskaper (medelvärde och standardavvikelse) och inte heller om att jämföra eleverna med varandra. I det nya systemet handlade det om att bedöma elevernas kunskaper i relation till i text framskrivna kriterier om vilka kunskaper som skulle visas för att berättiga till de olika betygen. Detta mycket bättre systemet visade sig dock vara väldans problematiskt eftersom ingen hade tänkt på att det är inte helt enkelt att bestämma vilka kriterier som skulle visas (alltså mätas) för att berättiga ett visst betyg. Men politikerna var positiva där uppfattades de nya textbaserade betygskriterierna i sig tillräckliga, och ut slängdes de gamla dammiga nationella betygsstödjande proven.

MEN, som sagts ovan, bestämningen av kriteriegränser (betygsgränser) visade sig vara en betydligt knepigare uppgift än förväntat. Detta hade psykologiska forskare redan bevisat 30 år tidigare men det verkar som drivet att förändra var större än att luta sig mot vetenskap. I sjäva verket utvecklade samma psykollog som utvecklade det vanliga måttet Cronbach Alpha en koefficient som visade att sätta absoluta betyg alltid resulterar i att dessa betygs reliabilitet sjunker betänkligt. Och även Wigforss var inne på samma linje enligt författarna. Wigforss menade att såååå precisa formuleringar, som sådana system antar, kan inte formuleras att de skulle bli entydigt tolkningsbara för olika användare. Wigforss förslag blev därför ett system baserat på relativa betyg, vilket också blev vad som infördes på 40-talet (se ovan).

Men nu tilbaka till 90-tal. Vad är du svårigheten i ett system som ska sätta skarpa gränser, jo det kriterierelaterade systemet är det såååå noga med den exakta nivån och då blir själva bedömningen mycket mer komplicerad i jämförelse med det normrelaterade. Med andra ord om vi psykometriskt ska bestämma reliabiliteten i ett prov utifrån om vi ska rangordna studenter är det mycket lättare att få hög reliabilitet i jämförelse om vi exakt ska säga vad gränsen går om en elev ska ha ett A eller B i sitt betyg.

Vad som hände i praktiken, som författarna beskriver i sin text, var att inte bara bedömningen av provresultaten utan även de beslut om betygen som skulle fattas blev skakiga. Mycket pga att lärarna skulle tolka kriterier för olika betyg där det högsta betyget mycket väl godkänt (MVG) saknades de första fem åren! Snacka om taskigt mot lärarna, tycker jag.

Jag tycker att den nya kunskapssynen, baserad på de fyra f:en, där de olika
kunskapsformerna inte var rangordnade utan snarare växelverkade är sund, men som förrfattarna skriver, så bygger otveksamt betygssättning på en rangordnande verksamhet. Om en elev betygsätts, och detta sedan ska ligga till grund för ett urval, då ska den information så långt som möjligt underlätta rangordningen som ligger till grund för själva urvalsbeslutet.

Period 3 – standardsbaserade prov och betyg

Hur ser då ut idag? Här beskriver författarna ett teoretiskt absolut system där kunskapsnivåer bestäms av kunskapsprogression i ämnet. Denna progression är mer eller mindre godtycklig och är beroende av ämnets karaktär. Vissa ämnen har i sig en tydlig hierarkisk ordning (kan t.ex. gälla vissa moment i matematik), medan andra ämnen har en progression som mer innebär en vidgning av kunskapsfältet (kan t.ex. gälla psykologisk behandling).

Och här blir det jobbigt. Vi har en utgångspunkt när eleverna ska ska lära sig något, men så har vi verkligheten när de slutar skolan där de ska rangordnas när de söker till nya utbildningar eller ska ut i arbetslivet.

Så här är det idag om jag fattar rätt. För att eleven ska få ett visst betyg (E, C eller A) måste respektive kunskapskrav vara uppfyllt i sin helhet. Det betyder en icke-kompenserande modell. Om en förmåga ligger på E-nivå har det ingen betydelse om övriga förmågor ligger på högre nivå. Det sammanfattande betyget blir E. Men för de nationella proven gäller inte detta, och inte heller i praktiken (undrar vad Wogforss hade tänkte om detta?).

Detta faktum, säger författarna, skapar en osäkerhet hos lärarna. Konsekvensen av detta är att läraren sätter ett betyg på nationella provet (som bygger på rangordning) men eleven får inte veta detta betyg eftersom det är en annan sorts betyg än det slutliga (som bygger på ett absolut gränsvärde), detta är naturligtvis är djupt olyckligt, inte minst för att den stackars läraren måste med sin egen förmåga bestämma detta. Och då är vi väl tillbaka till att den slutliga bedömningen ges av ”erfarna och omdömesgilla personer med allmänt gott renommé”, dvs lärarna.

Det absoluta systemet funkar inte heller i praktiken. Låt mig ta ett exempel, när urval sker är modellen kompensatorisk, dvs när vi anställer en kandidat så bestämmer vi sällan en absolut nivå. Beroende på urvalet väljer vi personer med kunskap vad som passar bäst (tex bra i en sak men kanske lite sämre i en annan sak).

Jag tycker att man blandar och ger just nu i det svenska utbildningssystemet. Om man tittar på den internationella forskningen så står det klart att prov i sig inte ger ett lärande (vilket inte Wigforss var inne på heller, vad jag förstår). Bara för att man mäter saker med precision betyder det inte att studenterna lär sig mer. Igår rättade jag 26 tentor, och en kritisk kommentar som jag fick från en student (tentan handlade bland annat om validitet i mätningen), var att att förvisso var det finurliga frågor men att denna tenta (läs prov, test) i själva verket mätte hur väl förberedd man var vid tentatillfället och framförallt förmågan att inte få skrivkramp (ja det var ett papper och penna test för att min institution har inte råd att införa digitala tentor).

Jag håller med studenten att detta är ett problem, men eftersom jag måste sätta ett betyg från E till A, måste en mätning av kunskap ske med så god reliabilitet som möjligt, men jag kan faktiskt inte bevisa att mina bedömning är reliabel, tyvärr. Det hade varit betydligt bättre om jag hade en normbaserat prov att förlita mina betyg på.

När det gäller inlärning lutar jag mig mot forskningen och anser den formativa ansatsen funkar bäst, dvs när det finns en interaktion mellan läraren och eleven, där jag kan ställa frågor, där studenten kan ställa frågor, där jag kan svara, där studenten kan rätta mig och där vi båda kan lära av varandra. Där är det upp till eleven många gånger (nu pratar jag om universitetsstuderande) att själv sätta ambitionsnivån (vilken tyvärr är skrämmande låg ibland) och därefter försöker jag anpassa min lärarstil inför detta. Men att göra formativa prov för att sätta betyg, detta ser jag som ”mission impossible”.

I slutet menar författarna till SOU att det viktiga i det här sammanhanget är att den som konstruerar provet får ett tydligt och avgränsat syfte med provet. Frågan är vad mätningen är till för?

Är det ett betygsstödjande summativt prov?
Är det ett formativt prov?
Är det ett utvärderande prov?
Är det ett uppföljande prov?
Är det ett examinerande prov?
Är det ett validerande prov?
Ska provet mäta förändring över tid?

Detta tycker jag är en utmärkt utgångspunkt för nästa steg, om någon kan ge mig ett antal miljoner kan jag ägna resten av min forskningskarriär för att undersöka utveckla detta.

Här kommer några förslag från mig

För varje ämne i skolan (för varje årskurs) utveckla en databas med kunskapsfrågor. Normera (och sätt gränsvärden) för olika nivåer av kunskap.
Testa alla i slutet av terminerna, detta utgör deras kunskapsnivå just nu (med en viss osäkerhet i mätningen). Med modern psykometri kan vi då få en utvecklingskurva för varje år från 6 år upp till vuxen ålder.
För varje nivå ta fram formativa arbetssätt som stödjer inlärningen av kunskapen som sedan ska testas.
Slopa dagens betyg, ge återföring till föräldrar och elever på utvecklingskurvan.
Slutbedömningen för urval som ska ge rangordningen bestäms av den senaste mätningen på de årsbaserade proven. Slutbetyget för högre utbildning utgör ett värde för varje ämne (en beskrivning) och ett medelvärde för hela utbildningen (beslutsunderlag för urval).

Mätning av kunskap och betygsbeslut, ett debattinlägg

Publicerat av Anders Sjöberg

Lämna en kommentar

Avbryt svar