.
Voor de slagingspercentages van tentamens is het aan te raden om voor de propedeuse 60% aan te houden. Dit is op basis van de volgende overwegingen:
Als meer dan 40% van de studenten bij de eerste kans zakt, dan is het waarschijnlijk dat dit vooral veroorzaakt wordt door de kwaliteit van het tentamen, het onderwijs of andere omstandigheden. Deze score is aanleiding voor de toetscommissie om nader te (laten) onderzoeken wat er aan de hand is. De examencommissie kan op basis daarvan een verbeteradvies geven.
Studenten die hun propedeuse-examen hebben gehaald zijn geschikt bevonden voor de hoofdfase van de opleiding. Van hen mag verwacht worden dat ze, als ze zich voldoende inspannen, slagen voor hun tentamens. Een slagingspercentage van 80% of hoger is in de hoofdfase daarom normaal.
Het is hierbij belangrijk te vermelden dat de streefcijfers voor slagingspercentages per faculteit en per opleiding kunnen verschillen. De opleiding kan zich het beste vergelijken met een zelfde opleiding bij een vergelijkbare hogeschool.
Kwantitatieve analyse toetskwaliteit
Toetsbeoordelaars kunnen de kwaliteit van een tentamen onderzoeken aan de hand van de resultaten van het tentamen (de scores van de studenten). De analyse kan plaatsvinden op twee niveaus, namelijk het individuele item (vraag, opdracht) en het tentamen als geheel.
Analyse van individuele items
De toets (beoordelings) commissie kan bij alle toetsvormen informatie (laten) verzamelen over de scores van studenten. De basis van de analyse is de vraag welk percentage van de studenten de vraag goed heeft beantwoord of aan het criterium voldoet (p-waarde).
- Bij een multipe choice vraag kan worden vastgesteld hoeveel procent van de studenten het goede antwoord heeft aangekruist en hoe vaak de afleiders zijn gekozen bij drie- of vierkeuzevragen (a-waarde).
- Bij een open vraag waarbij een student een aantal punten kan halen, kan het percentage goede antwoorden worden vastgesteld door het aantal behaalde punten op te tellen en af te zetten tegen het maximaal aantal te behalen punten.
- Bij het resultaat van een opdracht of vaardigheidstoets die wordt beoordeeld aan de hand van een aantal criteria, kan per criterium vastgesteld worden welk percentage van de studenten aan het criterium voldoet.
P-Waarde
De p-waarde is het eerste waar een toetsbeoordelaar naar kijkt. Als een p-waarde (zeer) laag is kan dat verschillende oorzaken hebben. Ten eerste moet worden nagegaan of het item (de vraag en antwoordalternatieven, de vraag en het antwoordmodel, het criterium) helder en eenduidig is geformuleerd. Als hier geen probleem is te vinden dan is het item te moeilijk voor de (meeste) studenten.
Een opdracht omvat een onderzoeksgedeelte. Bij het onderzoeksgedeelte is ‘het formuleren van goede onderzoeksvragen’ een beoordelingscriterium.
Het blijkt dat zestig procent van de studenten niet aan dit criterium voldoet (p-waarde 0.40). De lage p-waarde is aanleiding voor nader onderzoek. Is de opdracht goed geformuleerd? Zijn de beoordelingscriteria bekend bij studenten? Hebben studenten voldoende kunnen oefenen met het formuleren van onderzoeksvragen? Is het criterium te hoog gegrepen in deze fase van de opleiding? Enzovoort. |
Voorbeeld lage p-waarde bij de beoordeling van een opdracht
In de hoofdfase van een opleiding, waarbij studenten door de propedeuse zijn geselecteerd is een hoge p-waarde (0.80 of 0.90) de norm. Van studenten die geschikt zijn bevonden voor de opleiding mag verwacht worden dat ze allemaal het tentamen halen. Alleen te weinig inzet, persoonlijke omstandigheden of tekortkomingen in het onderwijs kunnen een oorzaak van een lagere p-waarde. In de propedeuse kan het tentamen ook de functie hebben om de geschiktheid van de student vast te stellen en kan bijvoorbeeld een norm van 0.70 worden gesteld.
Bij meerkeuzevragen kan gekeken worden naar de afleiders (de a-waarden). Bij andere toetsvormen kan dat niet. De a-waarden geven aan hoe vaak een afleider is gekozen. Als een afleider niet of nauwelijks is gekozen, dan is de kwaliteit daarvan waarschijnlijk onvoldoende.
opgave p-waarde O/D frequentie alternatieven
A B C D
11 0,75 0 7 10 8 75*
12 0,25 10 23 27 26* 24
13 0,27 0 27* 0 45 28
14 0,11 6 71 11* 10 8
Het alternatief met een * is het goede antwoord. O/D is het percentage studenten dat meerdere alternatieven of geen alternatief heeft aangekruist.
Vraag 11 voldoet aan de ideale p-waarde voor een toets in de propedeuse. Alle alternatieven zijn door een kleine groep studenten gekozen, hetgeen betekent dat ze even plausibel waren.
De p-waarde van vraag 12 is laag. Dat de afleiders en het goede antwoord dezelfde waarde hebben kan duiden op gokgedrag. Deze indruk wordt versterkt door het feit dat 10% van de studenten meerdere alternatieven of geen alternatieven heeft aangekruist. Dit item is misschien te moeilijk of te verwarrend.
Bij vraag 13 kiezen veel meer studenten voor het foute antwoord C dan het goede antwoord A. Alternatief B is waarschijnlijk geen goede afleider, omdat geen enkele student deze heeft gekozen. Met dit item is duidelijk iets aan de hand.
Opgave 14 geeft een beeld dat waarschijnlijk makkelijk is te veranderen. Misschien is hier een fout gemaakt met de sleutel en is door een vergissing antwoord B als het goede antwoord aangegeven |
Voorbeelden p-waarden en a-waarden bij een multipe choice toets
RIT - Waarde
Naast de analyse van de p-waarden kan per item ook het onderscheiden vermogen (Rit) worden bekeken. Statistische maten als Rit en betrouwbaarheid zijn alleen betekenisvol bij voldoende grote aantallen studenten. Meestal wordt als norm meer dan vijftig studenten aangehouden.
Een vraag heeft een hoog onderscheidend vermogen (Rit meer dan 0.25) als studenten met een hoge score de vraag goed maken en de studenten met een lage score fout. Het item differentieert tussen de goed presterende en minder goed presterende studenten.
Als studenten van alle niveaus hetzelfde scoren op een vraag dan is er geen onderscheidend vermogen (Rit is 0). Als laag scorende studenten de vraag goed hebben en hoogscorende studenten niet (Rit is negatief), dan is er waarschijnlijk iets aan de hand, zoals een foute sleutel of bij een open vraag of opdracht een onduidelijke formulering.
Hoge(re) p-waarde, hoge Rit.
Makkelijk item, dat door een kleine groep laag scorende studenten fout is gemaakt. |
Hoge(re) p-waarde, lage Rit.
Makkelijk item, dat geen onderscheid maakt tussen beter en minder goed presterende studenten. |
Lage(re) p-waarde, hoge Rit.
Moeilijk item, dat alleen door de goed scorende studenten goed is gemaakt. |
Lage(re) p-waarde, lage Rit.
Moeilijk item, dat geen onderscheid maakt tussen beter en minder goed presterende studenten. |
Kwaliteit is voldoende. |
Twijfel aan de kwaliteit. |
Onderzoek van p-waarde en Rit per item
ANALYSE VAN DE HET TENTAMEN ALS GEHEEL
Bij de analyse van het tentamen als geheel kijkt de toetsbeoordelaar naar de volgende kengetallen:
1. Percentage voldoendes
2. Gemiddelde score van de 5% beste studenten
3. Betrouwbaarheid (KR-20 of coëfficiënt alfa)
4. Verschillen tussen beoordelaars
Percentage voldoendes
Bij het percentage voldoendes speelt de vraag hoeveel (on)voldoendes het docententeam normaal vindt, in samenspraak met de examencommissie. Volgens een lang geleden uitgevoerd onderzoek vinden docenten het aanvaardbaar dat driekwart van de studenten slaagt en een kwart van de studenten zakt (Posthumus, 1940). De veronderstelling daarbij is dat in iedere fase van de opleiding een deel van de studenten zich onvoldoende inspant of ongeschikt is. De bekende toetsdeskundige A.D. de Groot (1966) zet hierbij vraagtekens; Als studenten vanwege hun vooropleiding (bijvoorbeeld havo) of hun laatste examen (propedeuse) geschikt zijn bevonden voor de opleiding, dan zou iedereen voor het tentamen moeten slagen. Het percentage onvoldoendes wordt veroorzaakt door studenten die zich onvoldoende hebben ingespannen en door tekortkomingen in het tentamen of in het onderwijs. In de propedeuse wijst een tentamen met meer dan 30% onvoldoendes op niet aan studenten elateerde tekortkomingen in het tentamen of in het voorafgaande onderwijs. In de hoofdfase zou 90% van de studenten voor een tentamen moeten slagen.
Gemiddele score van 5% beste studenten
Bij een goed tentamen moeten de beste studenten (bijna) alle vragen goed hebben. Omdat de beste student een uitschieter kan zijn is de gemiddelde score van de 5% beste studenten een goede indicatie voor de kwaliteit van het tentamen. Als de beste studenten er niet in slagen (bijna) alle vragen goed te beantwoorden, dan is er waarschijnlijk een probleem met het tentamen of het onderwijs. De cesuurbepaling van Cohen-Schotanus, waarbij de gemiddelde score van de 5% beste studenten als referentiepunt wordt genomen, corrigeert voor dit probleem.
Een tentamen bestaat uit 60 invulvragen. Alle vragen wegen even zwaar. De gemiddelde score van de 5% beste studenten is 54 goed antwoorden. De cesuur wordt gelegd bij 55% van 54, dat is 30 goede antwoorden. |
Voorbeeld Cesuurbepaling Cohen Schotanus
Betrouwbaarheid
De betrouwbaarheid van een tentamen geeft antwoord op de vraag in welke mate studenten bij twee gelijkwaardige tentamens hetzelfde zouden scoren. Een hoge betrouwbaarheid betekent dat het tentamen de werkelijke kennis en vaardigheid van de student goed heeft gemeten. De norm voor de betrouwbaarheid van een tentamen is afhankelijk van het doel van het tentamen. Als het tentamen bedoeld is om de geschiktheid van een student te bepalen is een betrouwbaarheid van 0.80 of hoger gewenst. Als toetsen onderdeel zijn van een conjunctieve examenregeling is dat het geval. Bij een conjunctieve examen- of tentamenregeling moet de student alle tentamens halen om te slagen.
Bij een compensatorische examen- of tentamenregeling kan de student een onvoldoende voor één tentamen compenseren met een goed cijfer voor een ander tentamen. Voor formatieve toetsen, die het leren activeren door feedback en waarmee docenten hun doceren kunnen bijde voortgang kunnen monitoren, is een betrouwbaarheid van 0.60 voldoende.
Een betrouwbaarheid van 0.80 betekent dat 80% van de variantie van de scores toegeschreven kan worden aan de werkelijke verschillen tussen studenten en 20% van de variantie aan het toeval. Kanttekeningen bij de betrouwbaarheid als kengetal voor de kwaliteit van een tentamen zijn:
- De betrouwbaarheid is lager naarmate het tentamen heterogener is, dat wil zeggen dat het verschillende soorten kennis en vaardigheden meet. Bij voorbeeld aan de hand van MC-vragen, open vragen en een schrijfopdracht (mixed methods).
- De betrouwbaarheid wordt lager naarmate de groep studenten homogener is, dat wil zeggen als de onderlinge niveauverschillen klein zijn. Dit is vast te stellen door het verschil in scores tussen de 5% beste en 5% slechtste studenten.
- Het kengetal voor de betrouwbaarheid is de ondergrens. In werkelijkheid kan de betrouwbaarheid hoger zijn. Als de betrouwbaarheid bijvoorbeeld 0.50 is, dan is tenminste 50% van de variantie tussen studenten toe te schrijven aan het tentamen. Dit kan hoger zijn, maar helaas is niet vast te stellen of dit het geval is.
- De betrouwbaarheid wordt groter naarmate het tentamen meer items omvat.
In de praktijk van het hoger onderwijs is de betrouwbaarheid van een tentamen zelden 0.80 of hoger. Een betrouwbaarheid van 0.60 is waarschijnlijker. Bij het beoordelen van de kwaliteit van een tentamen is het belangrijk om te realiseren dat een deel van de studenten onterecht een onvoldoende (en onterecht een voldoende) heeft gehaald. Het percentage van deze misclassificaties wordt hoger naarmate de betrouwbaarheid lager is en is afhankelijk van de cesuur.
De regel is dat hoe meer studenten een onvoldoende halen, hoe meer studenten een onterechte onvoldoende halen. Bijvoorbeeld: bij een betrouwbaarheid van 0.70 en een cesuur bij 70% geslaagde studenten is het percentage misclassificaties rond 20%.
Onterechte onvoldoendes leiden tot onnodige studievertraging. Dit is ongewenst voor zowel de student als de opleiding. Bij de conjunctieve examen- of tentamenregelingen leidt dit tot een groot percentage onterecht ongeschikt bevonden studenten en (zeer) lage examenrendementen.
Verschillen tussen beoordelaars
Bij de beoordeling van de resultaten van opdrachten, vaardigheidstoetsen, mondelinge toetsen, presentaties enz., zijn meestal meerdere examinatoren betrokken. Het is gewenst om te grote verschillen tussen examinatoren - met name rond de beslissing of een student is geslaagd of gezakt - te voorkomen. Door middel van het vergelijken van de beoordelingen van de examinatoren kan nagegaan worden of er geen te grote verschillen zijn.
MOGELIJKE MAATREGELEN
Op basis van de resultaten van een tentamen kunnen uiteenlopende maatregelen worden genomen. De meest ingrijpende beslissing is het ongeldig verklaren van het tentamen.
Als een tentamen van belang is voor de beoordeling van de (on)geschiktheid van een student, dan dient het van goede kwaliteit te zijn, met een betrouwbaarheid van ten minste 0.80 of hoger.
Als een tentamen (net) niet voldoet aan de kwaliteits norm dan kan een relatieve of gecombineerde methode van
cesuurbepaling voorkomen dat te veel studenten een onterechte onvoldoende krijgen.
Een andere maatregel is het schrappen van items die na analyse niet blijken te voldoen aan de kwaliteitsnorm. Dit bergt wel het risico dat de validiteit van het tentamen achteruit gaat, omdat er door het schrappen geen of onvoldoende vragen worden gesteld over bepaalde leerdoelen.
Als een tentamen deel uitmaakt van een programma van meerdere tentamens en er tussen toetsen compensatiemogelijkheden zijn, dan is de kwaliteit van een afzonderlijk tentamen minder belangrijk dan de leer- en feedbackfunctie.Dan is een lagere betrouwbaarheid acceptabel, omdat studenten onterechte onvoldoendes kunnen compenseren met betere resultaten op een ander tentamen over vergelijkbare leerdoelen. Wel blijft het belangrijk om te kijken naar de kwaliteit van de individuele items.
Na constatering dat de toetskwaliteit niet voldoet aan de norm, kan de examencommissie direct een aantal maatregelen adviseren aan het opleidingsmanagement: een tentamen afkeuren, een andere methode van cesuurbepaling kiezen, items schrappen. Het is ook belangrijk om te werken aan de voortdurende kwaliteitsverbetering van de tentamens, door de resultaten van de analyse te bespreken met de verantwoordelijke examinatoren.
Mogelijke aanpak van de evaluatie van de toetskwaliteit op basis van de resultaten
Het evalueren van de kwaliteit van een tentamen vergt het nodige werk. Multiple choice toetsen kunnen met een softwareprogramma als Sonate worden geanalyseerd. De analyse van tentamens met open vragen, resultaten van opdrachten, vaardigheidstoetsen, assessments enz. vereisen een handmatige invoer van de toetsresultaten. Om de efficiëntie te vergoten kunnen tentamens in verschillende stappen worden geëvalueerd aan de hand van de volgende regels. Doelen zijn: a) Het voorkomen van onterechte onvoldoendes, de cesuurbepaling b) Het op goede manier differentiëren tussen studenten (geven van cijfers) is het tweede doel.
1. Selecteer de tentamens met een (te) hoog percentage onvoldoendes (meer dan 30%).
2. Pas bij deze tentamens, als gebruik is gemaakt van een absolute methode van cesuurbepaling, een andere methode van
cesuurbepaling toe om het aantal onterechte onvoldoendes te verminderen.
3. Selecteer de tentamens met een te lage betrouwbaarheid (bij compensatiemogelijkeden 0.60, anders 0.80).
4. Ga na of er items van slechte kwaliteit in het tentamen zitten (lage p-waarde en lage Rit waarde).
5. Onderzoek mogelijke oorzaken.
6. Repareer eventuele fouten of verwijder items.
7. Controleer het effect van het schrappen van items op de betrouwbaarheid en het percentage onvoldoendes.
8. Controleer of er te grote verschillen zijn tussen examinatoren bij de beoordeling van resultaten van opdrachten, vaardigheidstoetsen, assessments enz.
9. Ga aan de hand van de Rit-waarden na welke items goed differentiëren tussen studenten en welke minder.
Laatst gewijzigd: 2 juli 2018