Aanmelden

​12.0. Analyse van toetsen

 

  •     Het analyseren van toetsen kan veel informatie geven over de kwaliteit van
        tentamens.

  •     Analyse is geen doel op zich. Je wilt met toetsstatistiek een vraag beantwoorden.

  •    Toetsvragen moeten allereerst betrouwbaar en valide zijn. Statistiek is behulpzaam
        bij analyse daarvan.

  •     In deze module vind je een schets van de mogelijkheden en aandachtspunten.

12.1. Beoogde leeropbrengsten

De analyse van toetsresultaten kunnen uitvoeren en interpreteren voor een eigen tentamen.

12.2. Voorbeeld kennisklip


Het analyseren van toetsen kan veel informatie geven over de kwaliteit van tentamens.
Analyse is geen doel op zich. Je wilt met toetsstatistiek een vraag beantwoorden.
Toetsvragen moeten allereerst betrouwbaar en valide zijn. Statistiek is behulpzaam bij
analyse daarvan. In deze module vind je een schets van de mogelijkheden en
aandachtspunten.

12.3. Tentamenresultaten/vragen analyseren:

Betrouwbaarheid, validiteit en transparantieHet analyseren van een toets geeft informatie
over de kwaliteit van de toets en daarmee over verbetermogelijkheden. Enkele statistische technieken geven veel inzicht in de kwaliteit van de toets. We formuleren dat expres zo, want toetsstatistiek is geen doel op zich. 

Betrouwbaarheid geeft aan hoe betrouwbaar een instrument iets toetst.
Als een toetsvraag consequent door studenten die goed hebben geleerd goed wordt
beantwoord, is de toetsvraag betrouwbaar. Alleen weten we dan niet of de toetsvraag
goed wordt beantwoord OMDAT de student goed heeft geleerd.

Daarvoor moeten we analyseren of de toetsvraag valide is: meten we met de toetsvraag
werkelijk of de student de beoogde leeropbrengst heeft behaald? Of meten we iets anders?
Dat ‘meten we iets anders’ is bijvoorbeeld: hoe goed studenten moeilijke woorden kennen
(als de vraag onnodig ingewikkelde taal bevat), of studenten een bepaalde cultuur goed
kennen (als toetsvragen niet-relevante verwijzingen naar een bepaalde cultuur bevatten),
algemene kennis, of studenten de meestgebruikte toetssleutelvolgorde kennen
(als toetsvragen allemaal a als juist antwoord of a-b-c-d als volgorde van juiste antwoorden
hebben).

Naast betrouwbaarheid en validiteit wil je sowieso een voor student en docent heldere toets
opstellen. Helderheid behelst dat de toetsvraag (en antwoordmogelijkheden bij een
meerkeuzevraag) niet voor meerderlei uitleg vatbaar.

12.4. Verdeling van van de cijfers voor een
tentamen

De verdeling van scores op een tentamen kan interessante informatie geven over
de beoordeling van de toets en de kwaliteit van de toetsvragen.
Zo geeft het te denken als heel veel studenten bijna alle vragen goed hebben, maar ook
als maar heel weinig studenten alle vragen goed hebben.
Ook als heel veel de scores dicht bij het middelpunt liggen (centrale tendentie).
Als veel cijfers tussen 5 en 7 liggen, kan dat een aanwijzing zijn voor de nakijk-criteria
en/of manier van nakijken.

 

12.5. De p-waarde

De basis van de analyse is de vraag welk percentage van de studenten de vraag goed
heeft beantwoord of aan het criterium voldoet (p-waarde).

  • Bij een multiple choice vraag kan worden vastgesteld hoeveel procent van de
    studenten het goede antwoord heeft aangekruist.

  • Bij een open vraag waarbij een student een aantal punten kan halen, kan het
    percentage goede antwoorden worden vastgesteld door het aantal behaalde punten op te tellen en af te zetten tegen het maximaal aantal te behalen punten.

  • Bij het resultaat van een opdracht of vaardigheidstoets die wordt beoordeeld aan
    de hand van een aantal criteria, kan per criterium vastgesteld worden welk percentage van de studenten aan het criterium voldoet.

Voor de analyse van multiple choice tentamens zijn programma’s als Sonate beschikbaar.

Omdat maar een klein deel van het toetsprogramma bestaat uit multiple choice tentamens
en multiple choice toetsen weinig zeggen over kennis, vaardigheden, attitudes en competenties op een hoger niveau (zoals analyseren, evalueren, ontwerpen, probleem oplossen, redeneren) is het voor de borging van de kwaliteit van de toetsing nodig dat alle tentamens worden geanalyseerd op basis van de resultaten

Bij het beoordelen van de kwaliteit van een item moet worden vastgesteld wat de ideale
p-waarde is (de norm). De norm is geen statistisch gegeven. Ze is ten eerste gebaseerd
op verwachtingen over het studiegedrag van studenten en ten tweede afhankelijk van het
doel van het tentamen. Als het tentamen concurreert met andere tentamens of
onderwijsactiviteiten zal een deel van de studenten zich onvoldoende voorbereiden op het
tentamen. De mogelijkheid om het tentamen snel te herkansen leidt ook tot meer studenten
die zich onvoldoende voorbereiden. Als er geen sprake is van concurrentie, er een strenge
herkansingsregeling is en het onderwijs de student motiveert dan mag verwacht worden
dat de meeste studenten zich goed voorbereiden. In het laatste geval kan een hoge
p-waarde als norm worden genomen.

De norm wordt ten tweede bepaald door de vraag hoe betrouwbaar het tentamen moet zijn.
Als één tentamenmoet selecteren tussen geschikte en ongeschikte studenten moet het
tentamen voldoen aan hoge kwaliteitseisen. Als de selectie plaats vindt op basis van
meerdere (deel)tentamens met de mogelijkheid te compenseren of wanneer het gaat om
formatieve toetsen, dan kunnen de kwaliteitseisen minder streng zijn.

Een lage p-waarde kan verschillende oorzaken hebben. Ten eerste moet worden nagegaan
of het item (de vraag en antwoordalternatieven, de vraag en het antwoordmodel, het
criterium) helder en eenduidig is geformuleerd. Als hier geen probleem is te vinden dan is het item te moeilijk voor de (meeste) studenten of heeft een aanzienlijk deel van de studenten zich onvoldoende op dit onderwerp
voorbereid.

Een opdracht omvat een onderzoeksgedeelte. Bij het onderzoeksgedeelte is ‘het formuleren van goede onderzoeksvragen’ een beoordelingscriterium. Het blijkt dat zestig procent van de studenten niet aan dit criterium voldoet (p-waarde 0.40). De lage p-waarde is aanleiding voor nader onderzoek. Is de opdracht goed geformuleerd? Zijn de beoordelingscriteria bekend bij studenten? Hebben studenten voldoende kunnen oefenen met het formuleren van onderzoeksvragen? Is het criterium te hoog gegrepen in deze fase van de opleiding? Enzovoort.

Voorbeeld lage p-waarde bij de beoordeling van een opdracht


In de hoofdfase van een opleiding, waarbij studenten door de propedeuse zijn geselecteerd
op geschiktheid is een hoge p-waarde (0.80 of 0.90) de norm. Alleen te weinig inzet, persoonlijke omstandigheden of tekortkomingen in het onderwijs kunnen een oorzaak zijn van een lagere p-waarde. In de propedeuse kan het tentamen ook de functie hebben om de geschiktheid van de student vast te stellen en kan bijvoorbeeld een norm van 0.70 worden
gesteld.

12.6. De rir en rit-waarde

Naast de analyse van de p-waarden kan per item ook het onderscheidend vermogen (Rit)
worden bekeken. Statistische maten als Rit en betrouwbaarheid zijn alleen betekenisvol
bij voldoende grote aantallen studenten. Meestal wordt als norm meer dan vijftig studenten
aangehouden.

Een vraag heeft een hoog onderscheidend vermogen (Rit meer dan 0.25) als studenten
met een hoge score de vraag goed maken en de studenten met een lage score fout.
Het item differentieert tussen de goed presterende en minder goed presterende studenten.
Als studenten van alle niveaus hetzelfde scoren op een vraag dan is er geen onderscheidend vermogen (Rit is 0). Als laagscorende studenten de vraag goed hebben en hoogscorende studenten niet (Rit is negatief), dan is
er waarschijnlijk iets aan de hand, zoals een foute sleutel of bij een open vraag of opdracht
een onduidelijke formulering.

​Hoge(re) p-waarde, hoge Rit
Makkelijk item, die door een kleine groep
laag scorende studenten fout is gemaakt
​Hoge(re) p-waarde, lage Rit
Makkelijk item, die geen onderscheid maakt tussen beter en minder goed presterende studenten
Lage(re) p-waarde, hoge Rit
Moeilijk item, die alleen door de goed scorende
studenten goed is gemaakt
Lage(re) p-waarde, lage Rit
Moeilijk item, die geen onderscheid maakt tussen beter en minder goed presterende studenten
Kwaliteit is voldoende​Twijfel aan de kwaliteit
Onderzoek van p-waarde en Rit per item

12.7. Opdrachten Toetsdossier

Toetsstatistiek is een specifiek aandachtsgebied. Omdat beslissingen op basis van
toetsstatistiek verstrekkende gevolgen hebben, worden de beslissingen altijd in teamverband genomen. Het raadplegen van een deskundige is vaak noodzakelijk. Onderstaande opdracht kan een (eerste) aanzet zijn voor het gebruiken van toetsstatistiek.

  •    Is toetsstatistiek uitgevoerd voor een tentamen waar je een bijdrage aan leverde?
       Beschrijf hoe toetsstatistiek voor een van jouw tentamens is ingezet.
       Doe dat in maximaal 1 A4 en maak gebruik van de termen ‘rir/rit’, ‘p-waarde’
       en ‘validiteit/betrouwbaarheid’.

  •     Is er geen toetsstatistiek uitgevoerd voor een tentamen waar je een bijdrage aan
        leverde?    

  •    Raadpleeg de toetsdeskundige/onderwijskundige of kwaliteitszorgmedewerker en
       schrijf in maximaal 1 A4 welke bijdrage toetsstatistiek zou kunnen leveren aan de
       kwaliteit van toetsing in jouw onderwijseenheid. Maak daarbij gebruik van de termen
       ‘rir/rit’, ‘p-waarde’ en ‘validiteit/betrouwbaarheid’

12.0. Analyse van toetsen

  • Het analyseren van toetsen kan veel informatie geven over de kwaliteit van tentamens.
  • Analyse is geen doel op zich. Je wilt met toetsstatistiek een vraag beantwoorden.
  • Toetsvragen moeten allereerst betrouwbaar en valide zijn. Statistiek is behulpzaam bij analyse daarvan.
  • In deze module vind je een schets van de mogelijkheden en aandachtspunten.

12.1. Beoogde leeropbrengsten

  • De analyse van toetsresultaten kunnen uitvoeren en interpreteren voor een eigen tentamen.

12.2. Voorbeeld kennisklip

12.3. Tentamenresultaten/vragen analyseren: Betrouwbaarheid, validiteit en transparantie

Het analyseren van een toets geeft informatie over de kwaliteit van de toets en daarmee over verbetermogelijkheden. Enkele statistische technieken geven veel inzicht in de kwaliteit van de toets. We formuleren dat expres zo, want toetsstatistiek is geen doel op zich.  

Betrouwbaarheid geeft aan hoe betrouwbaar een instrument iets toetst. Als een toetsvraag consequent door studenten die goed hebben geleerd goed wordt beantwoord, is de toetsvraag betrouwbaar. Alleen weten we dan niet of de toetsvraag goed wordt beantwoord OMDAT de student goed heeft geleerd.

Daarvoor moeten we analyseren of de toetsvraag valide is: meten we met de toetsvraag werkelijk of de student de beoogde leeropbrengst heeft behaald? Of meten we iets anders? Dat ‘meten we iets anders’ is bijvoorbeeld: hoe goed studenten moeilijke woorden kennen (als de vraag onnodig ingewikkelde taal bevat), of studenten een bepaalde cultuur goed kennen (als toetsvragen niet-relevante verwijzingen naar een bepaalde cultuur bevatten), algemene kennis, of studenten de meestgebruikte toetssleutelvolgorde kennen (als toetsvragen allemaal a als juist antwoord of a-b-c-d als volgorde van juiste antwoorden hebben).

Naast betrouwbaarheid en validiteit wil je sowieso een voor student en docent heldere toets opstellen. Helderheid behelst dat de toetsvraag (en antwoordmogelijkheden bij een meerkeuzevraag) niet voor meerderlei uitleg vatbaar is.

12.4. Verdeling van van de cijfers voor een tentamen

De verdeling van scores op een tentamen kan interessante informatie geven over de beoordeling van de toets en de kwaliteit van de toetsvragen.
Zo geeft het te denken als heel veel studenten bijna alle vragen goed hebben, maar ook als maar heel weinig studenten alle vragen goed hebben.
Ook als heel veel de scores dicht bij het middelpunt liggen (centrale tendentie). Als veel cijfers tussen 5 en 7 liggen, kan dat een aanwijzing zijn voor de nakijk-criteria en/of manier van nakijken.

12.5. De p-waarde

De basis van de analyse is de vraag welk percentage van de studenten de vraag goed heeft beantwoord of aan het criterium voldoet (p-waarde).

  • Bij een multiple choice vraag kan worden vastgesteld hoeveel procent van de studenten het goede antwoord heeft aangekruist.
  • Bij een open vraag waarbij een student een aantal punten kan halen, kan het percentage goede antwoorden worden vastgesteld door het aantal behaalde punten op te tellen en af te zetten tegen het maximaal aantal te behalen punten.
  • Bij het resultaat van een opdracht of vaardigheidstoets die wordt beoordeeld aan de hand van een aantal criteria, kan per criterium vastgesteld worden welk percentage van de studenten aan het criterium voldoet.

Voor de analyse van multiple choice tentamens zijn programma’s als Sonate beschikbaar. Omdat maar een klein deel van het toetsprogramma bestaat uit multiple choice tentamens en multiple choice toetsen weinig zeggen over kennis, vaardigheden, attitudes en competenties op een hoger niveau (zoals analyseren, evalueren, ontwerpen, probleem oplossen, redeneren) is het voor de borging van de kwaliteit van de toetsing nodig dat alle tentamens worden geanalyseerd op basis van de resultaten

Bij het beoordelen van de kwaliteit van een item moet worden vastgesteld wat de ideale p-waarde is (de norm). De norm is geen statistisch gegeven. Ze is ten eerste gebaseerd op verwachtingen over het studiegedrag van studenten en ten tweede afhankelijk van het doel van het tentamen. Als het tentamen concurreert met andere tentamens of onderwijsactiviteiten zal een deel van de studenten zich onvoldoende voorbereiden op het tentamen. De mogelijkheid om het tentamen snel te herkansen leidt ook tot meer studenten die zich onvoldoende voorbereiden. Als er geen sprake is van concurrentie, er een strenge herkansingsregeling is en het onderwijs de student motiveert dan mag verwacht worden dat de meeste studenten zich goed voorbereiden. In het laatste geval kan een hoge p-waarde als norm worden genomen.

De norm wordt ten tweede bepaald door de vraag hoe betrouwbaar het tentamen moet zijn. Als één tentamenmoet selecteren tussen geschikte en ongeschikte studenten moet het tentamen voldoen aan hoge kwaliteitseisen. Als de selectie plaats vindt op basis van meerdere (deel)tentamens met de mogelijkheid te compenseren of wanneer het gaat om formatieve toetsen, dan kunnen de kwaliteitseisen minder streng zijn.

Een lage p-waarde kan verschillende oorzaken hebben. Ten eerste moet worden nagegaan of het item (de vraag en antwoordalternatieven, de vraag en het antwoordmodel, het criterium) helder en eenduidig is geformuleerd. Als hier geen probleem is te vinden dan is het item te moeilijk voor de (meeste) studenten of heeft een aanzienlijk deel van de studenten zich onvoldoende op dit onderwerp voorbereid.

Een opdracht omvat een onderzoeksgedeelte. Bij het onderzoeksgedeelte is ‘het formuleren van goede onderzoeksvragen’ een beoordelingscriterium. Het blijkt dat zestig procent van de studenten niet aan dit criterium voldoet (p-waarde 0.40). De lage p-waarde is aanleiding voor nader onderzoek. Is de opdracht goed geformuleerd? Zijn de beoordelingscriteria bekend bij studenten? Hebben studenten voldoende kunnen oefenen met het formuleren van onderzoeksvragen? Is het criterium te hoog gegrepen in deze fase van de opleiding? Enzovoort.

Voorbeeld lage p-waarde bij de beoordeling van een opdracht


In de hoofdfase van een opleiding, waarbij studenten door de propedeuse zijn geselecteerd op geschiktheid is een hoge p-waarde (0.80 of 0.90) de norm. Alleen te weinig inzet, persoonlijke omstandigheden of tekortkomingen in het onderwijs kunnen een oorzaak zijn van een lagere p-waarde. In de propedeuse kan het tentamen ook de functie hebben om de geschiktheid van de student vast te stellen en kan bijvoorbeeld een norm van 0.70 worden gesteld.

12.6. De rir en rit-waarde

Naast de analyse van de p-waarden kan per item ook het onderscheidend vermogen (Rit) worden bekeken. Statistische maten als Rit en betrouwbaarheid zijn alleen betekenisvol bij voldoende grote aantallen studenten. Meestal wordt als norm meer dan vijftig studenten aangehouden.

Een vraag heeft een hoog onderscheidend vermogen (Rit meer dan 0.25) als studenten met een hoge score de vraag goed maken en de studenten met een lage score fout. Het item differentieert tussen de goed presterende en minder goed presterende studenten. Als studenten van alle niveaus hetzelfde scoren op een vraag dan is er geen onderscheidend vermogen (Rit is 0). Als laagscorende studenten de vraag goed hebben en hoogscorende studenten niet (Rit is negatief), dan is er waarschijnlijk iets aan de hand, zoals een foute sleutel of bij een open vraag of opdracht een onduidelijke formulering.

Hoge(re) p-waarde, hoge Rit
Makkelijk item, die door een kleine groep laag scorende studenten fout is gemaakt

Hoge(re) p-waarde, lage Rit
Makkelijk item, die geen onderscheid maakt tussen beter en minder goed presterende studenten

Lage(re) p-waarde, hoge Rit
Moeilijk item, die alleen door de goed scorende studenten goed is gemaakt

Lage(re) p-waarde, lage Rit
Moeilijk item, die geen onderscheid maakt tussen beter en minder goed presterende studenten

Kwaliteit is voldoende Twijfel aan de kwaliteit

Onderzoek van p-waarde en Rit per item

12.7. Opdrachten Toetsdossier

Toetsstatistiek is een specifiek aandachtsgebied. Omdat beslissingen op basis van toetsstatistiek verstrekkende gevolgen hebben, worden de beslissingen altijd in teamverband genomen. Het raadplegen van een deskundige is vaak noodzakelijk. Onderstaande opdracht kan een (eerste) aanzet zijn voor het gebruiken van toetsstatistiek.

 

  • Is toetsstatistiek uitgevoerd voor een tentamen waar je een bijdrage aan leverde?
    • Beschrijf hoe toetsstatistiek voor een van jouw tentamens is ingezet. Doe dat in maximaal 1 A4 en maak gebruik van de termen ‘rir/rit’, ‘p-waarde’ en ‘validiteit/betrouwbaarheid’.
  • Is er geen toetsstatistiek uitgevoerd voor een tentamen waar je een bijdrage aan leverde?
    • Raadpleeg de toetsdeskundige/onderwijskundige of kwaliteitszorgmedewerker en schrijf in maximaal 1 A4 welke bijdrage toetsstatistiek zou kunnen leveren aan de kwaliteit van toetsing in jouw onderwijseenheid. Maak daarbij gebruik van de termen ‘rir/rit’, ‘p-waarde’ en ‘validiteit/betrouwbaarheid’