Aanmelden

 TOETSKWALITEIT

Kwaliteitscriteria voor toetsen zijn:

 • Validiteit  - meet de toets wat gemeten moet worden
 • Betrouwbaarheid - de toets levert onder dezelfde omstandigheden hetzelfde resultaat
 • Transparantie - er is helderheid over inhoud en proces
 • Leer- en feedback functie - de toets geeft inzicht in de studievoortgang en is motiverend voor het verdere leerproces
Per toetsvorm verschillen de vragen die je kunt stellen om de toets te analyseren. Hieronder vind je per kwaliteitscriterium vragen die helpen om een toets te analyseren/evalueren en -indien nodig- aan te passen.


Analyse vragen VALIDITEIT

Algemeen (geldt voor

 alle onderstaande toetsvormen)

Past de toetsing bij de leerdoelen en het onderwijs ? In hoeverre is er sprake van constructive alignment tussen leerdoelen en de vorm(en), inhoud(en) en niveau van het onderwijs en van de toets? Dit geldt ook voor deeltoetsen, met als aandachtpunt: zijn de compensatie en weging in het eindcijfer passend? Wat kan nog beter?

schriftelijke tentamens
bijv: kennistoets
casustoets
Zie je alle onderwerpen uit de leerdoelen/toetsmatrijs/gegeven onderwijs terug in de toetsvragen? Waarom wel/niet?
Hoe is daarbij rekening gehouden met 'belangrijkheid' van onderwerpen en wat is effect op het gemaakte werk? Is het de bedoeling dat studenten bepaalde onderwerpen beter beheersen dan andere? Is de toets representatief?
Past het antwoordmodel (bij open vragen) bij de gegeven antwoorden? Wat valt op?

opdracht
bijv. projectopdracht
essaytoets

onderzoeksopdracht

Zie je de onderwerpen en het niveau van de leerdoelen terug in de opdracht en het beoordelingsmodel, bijvoorbeeld in een rubric?
Zijn de onderwerpen door de student(en) ook opgepakt op het juiste niveau? Wat valt daarin op in het gemaakte werk?
Krijgt iedere student een individuele beoordeling bij groepswerk?

Vaardigheden

vaardigheden toets 

Zijn de te observeren vaardigheden vooraf vastgelegd?

Is er een instrument voor observatie en beoordeling?

Zijn de beoordelaars geoefend / getraind in het observeren en beoordelen met behulp van een instrument of systematiek?

Slagen de examinatoren erin om de waarnemingen vast te leggen en te beoordelen?
Is er bij hands-off methode (weten wat gedaan moe(s)t worden ipv daadwerkelijk handelen) voldoende waarborg van voorbeelden waarin handelen wel heeft plaatsgevonden?

Is geborgd dat alle vaardigheden in de toetssituatie kunnen worden gemeten?

Gedrag

gedragsassessment

Is de kritische situatie waarin de student werd gebracht representatief? Is het gedrag uitgewerkt in valide en betrouwbare indicatoren of ankers?
Praktijk
stage/praktijktoetsing
Zijn de geformuleerde leerdoelen toetsbaar? Wat valt op?
Zorgt de opleiding ervoor dat iedere student een praktijkplek heeft waar (minimaal) op het vereiste niveau kan worden geleerd? Biedt de toetsing voldoende ruimte aan variatie van praktijkplaatsen en aan zelfstandigheid en complexiteit, en is er voor studenten gelegenheid om aan persoonlijke leerdoelen te werken?

Afstuderen

portfolio assessment

afstudeeropdracht

Worden alle eindkwalificaties getoetst?
Zijn de opdrachten relevant voor de beroepsuitoefening?

Biedt de toetsing voldoende ruimte aan zelfstandigheid en complexiteit, en is er voor studenten gelegenheid om aan persoonlijke leerdoelen te werken?

analyse vragen betrouwbaarheid

Algemeen (geldt voor alle onderstaande toetsvormen)

Is er een duidelijk beoordelingsmodel vooraf?

Als er meerdere beoordelaars zijn betrokken hoe is dan gezorgd voor interbeoordelaarsbetrouwbaarheid?

Wat valt op bij gemaakt werk dat door verschillende docenten is nagekeken? Is er in het beoordelingsmodel ruimte voor feedback / verantwoording van het eindcijfer?
Is voorkomen dat de beoordeling toeval is? Wat valt op?

Is geborgd dat een betere prestatie leidt tot een hoger oordeel? Wat valt op?

schriftelijke tentamens
bijv: kennistoets
casustoets

Kan alleen een student die 'heeft gestudeerd' de toets halen?
 In hoeverre werkt het antwoordmodel als vooraf was bedoeld?
Leidt de verdeling van de punten over de vragen tot een correcte beoordeling?

opdracht
bijv. projectopdracht
essaytoets

onderzoeksopdracht

Is aantoonbaar dat student de opdracht zelf heeft uitgevoerd?

Vaardigheden

vaardigheden toets 

Is er afstemming tussen examinatoren over de wijze van beoordelen?

Komen beoordelaars tot 'gelijkwaardige' beoordelingen? Wat valt op?

Gedrag

gedragsassessment

Is bekend/vastgelegd hoe de student in andere situaties het gewenste gedrag heeft getoond / heeft gehandeld en is dat meegewogen in het oordeel?

Praktijk
stage/praktijktoetsing

Is vastgelegd wie beoordeelt?

Hoe is gegarandeerd dat de beoordelaar voldoende bekwaam is om te oordelen?

Afstuderen

portfolio assessment

afstudeeropdracht

Zijn begeleiders en beoordelaars met elkaar in gesprek over de wijze van beoordelen, bijvoorbeeld door te kalibreren?

analyse vragen transparantie

Algemeen (geldt voor alle onderstaande toetsvormen)

Was de informatievoorziening over wijze van toetsing en beoordeling adequaat, ook bij inzage en herkansing? Wat vinden studenten hiervan?
Zijn vastgelegde protocollen e.d. gevolgd? Waarom wel/niet?

Vormt taal geen belemmering bij maken van de toets?

Zijn studenten vooraf bekend gemaakt met de toetsvorm als het voor hen een nieuwe toetsvorm is?

Zijn puntverdeling, normering en cesuur duidelijk voor de student en vooraf vastgelegd?

Als er klachten zijn over de toets wat zeggen deze dan over de kwaliteit van de toets?

schriftelijke tentamens
bijv: kennistoets
casustoets
Vormt opmaak van de toets geen belemmeringen?

opdracht
bijv. projectopdracht
essaytoets

onderzoeksopdracht

Zijn de kaders waarbinnen de opdracht wordt uitgevoerd bekend?

Is de rolverdeling van alle betrokkenen helder, bijvoorbeeld voor de externe opdrachtgever?

Is bij opleveren van meerdere producten duidelijk hoe onderdelen meewegen in de beoordeling?

Zijn de beoordelingscriteria vooraf bekend bij studenten?

Vaardigheden

vaardigheden toets

Is er voldoende gelegenheid geweest om de vaardigheid te oefenen?
Zijn de beoordelingscriteria vooraf bekend bij studenten?

Gedrag

gedragsassessment

Hoe is de organisatie rondom het assessment verlopen?

Zijn de beoordelingscriteria vooraf bekend bij studenten?

Praktijk
stage/praktijktoetsing

Is voor alle betrokkenen duidelijk waarop de student wordt beoordeeld en wat ieders rol daarin is?
Zijn praktijkbegeleiders in staat om te begeleiden/observeren en eventueel te oordelen?

Afstuderen

portfolio assessment

afstudeeropdracht

Bevat de handleiding alle informatie en is deze eenduidig?
Is bij gebruik van een portfolio voor de student duidelijk welke eisen aan de vorm worden gesteld?

Zijn de beoordelingscriteria vooraf bekend bij studenten?

analyse vragen leer- en feedback functie

Algemeen (geldt voor

alle onderstaande toetsvormen)

Is voor de student inzichtelijk gemaakt wat goed ging in de (deel)toets en wat niet? Levert de feedback de student informatie voor toekomstig handelen?

is er consistentie tussen feed up, feed back en feed forward? (oa leerdoelen, criteria)

schriftelijke tentamens
bijv: kennistoets
casustoets
Zijn vragen en antwoorden/toelichting te raadplegen, online of via inzage moment?

opdracht
bijv. projectopdracht
essaytoets

onderzoeksopdracht

Laat de student zien wat met tussentijdse feedback is gedaan?
Is bij groepsopdrachten feedback van medestudenten vanzelfsprekend? Wat valt op?

Vaardigheden

vaardigheden toets

Bestaat de feedback ook uit voorbeelden van correct handelen?

Gedrag

gedragsassessment

Is vastgelegd door examinatoren (of student) wat goed gaat en waar in vervolg aan gewerkt gaat worden?

Praktijk
stage/praktijktoetsing

Laat de student zien wat met tussentijdse feedback is gedaan?

Afstuderen

portfolio assessment

afstudeeropdracht

Heeft de afstudeerbegeleider tussenproducten gezien en deze van feedback voorzien?
Is vanzelfsprekend dat studenten eerder ontvangen feedback verwerken in het portfolio?


 

CESUUR

De vraag waar de grens tussen zakken en slagen moet liggen, kan vanuit verschillende invalshoeken worden benaderd [Cohen-Schotanus, 1996; Lankveld & Draaijer, 2010; Sluijsmans, 2008; Van Berkel en Bax, 2002; Van Berkel,  Jansen & Bax, 2012]

 
Absoluut
De mate van beheersing van de leerdoelen.
De standaard kan op verschillende niveaus worden gelegd: 100%, 70%, 60% of, zoals veel gebruikt 55% beheersing van de leerdoelen. Bij kwalitatieve beoordelingen gaat het om één of meerdere standaards bij de criteria waarop de student wordt beoordeeld.
Relatief
Een cesuur die wordt berekend op basis van de resultaten van de toets.
De cesuur is afhankelijk van de prestaties van de studenten. Er zijn verschillende methoden om deze cesuur vast te stellen (bijvoorbeeld de methode Wijnen).
Combinatie
Een combinatie van beide benaderingen.
Een bekende methode is die van Cohen-Schotanus (1996), waarbij de gemiddelde score van 5% van de beste studenten als hoogst mogelijke score  wordt genomen en op basis daarvan de cesuur met de absolute methode wordt bepaald.
 
Tabel 1. Methoden van cesuurbepaling
 
 
Een argument om gebruik te maken van een relatieve cesuurbepaling is dat deze methode studenten behoedt voor onterechte onvoldoendes die veroorzaakt worden door gewijzigde omstandigheden of wisselende  kwaliteit van het tentamen of het onderwijs.. Een nadeel van deze methode is dat de cesuur wordt beïnvloed door studenten die zich niet of onvoldoende op het tentamen voorbereiden. Bij de combinatiemethode Van Cohen-Schotanus (1996) wordt die invloed voorkomen en toch rekening gehouden met niet studentgerelateerde factoren.
 

De methode van cesuurbepaling heeft een grote invloed op de studievoortgang. Dit blijkt uit een onderzoek van Cohen-Schotanus (2010). Studenten van de geneeskundeopleiding in Groningen, die de absolute methode gebruikt, deden een jaar langer over hun studie dan studenten van de geneeskundeopleiding in Maastricht, die de relatieve methode gebruikte. Het kennisniveau van de studenten van beide opleiding werd aan de hand van een voortgangstoets gemeten en bleek hetzelfde te zijn.


SLAGINGSPRECENTAGES

Studenten met een diploma van havo-, vwo- of mbo-4 zijn toelaatbaar tot een hbo-opleiding. Iedere instromende student zou daarom in principe het propedeuse-examen kunnen halen. In de prestatieafspraken met OCW heeft de HvA voor het rendement van propedeuse en hoofdfase een streefcijfer van 60% afgesproken.

Het behalen van deze rendementen HvA breed, is een grote uitdaging. Dat geldt zeker voor de propedeuse, waar het niet behalen van tentamens een belangrijke reden is voor uitvat, naast een verkeerde studiekeuze, moeite met de overgang naar het hbo, het studentenleven of persoonlijke omstandigheden.​.

Voor de slagingspercentages van tentamens is het aan te raden om voor de propedeuse 60% aan te houden. Dit is op basis van de volgende overwegingen:

 • De propedeuse heeft een selecterende functie; hoewel studenten beschikken over de vereiste vooropleiding kan het niveau toch te hoog zijn. 

 • Als meer dan 40% van de studenten bij de eerste kans zakt, dan is het waarschijnlijk dat dit vooral veroorzaakt wordt door de kwaliteit van het tentamen, het ond​erwijs of andere omstandigheden. Deze score is aanleiding voor de toetscommissie om nader te (laten) onderzoeken wat er aan de hand is. De examencommissie kan ​op basis daarvan een verbeteradvies  geven.   

Studenten die hun propedeuse-examen hebben gehaald zijn geschikt bevonden voor de hoofdfase van de opleiding. Van hen mag verwacht worden dat ze, als ze zich voldoende inspannen, slagen voor hun tentamens. Een slagingspercentage van 80% of hoger is in de hoofdfase daarom normaal.

Het is hierbij belangrijk te vermelden dat de streefcijfers voor slagingspercentages per faculteit en per opleiding kunnen verschillen. De opleiding kan zich het beste vergelijken met een zelfde opleiding bij een vergelijkbare hogeschool.

 

Kwantitatieve analyse toetskwaliteit

Toetsbeoordelaars kunnen de kwaliteit van een tentamen onderzoeken aan de hand van de resultaten van het tentamen (de scores van de studenten). De analyse kan plaatsvinden op twee niveaus, namelijk het individuele item (vraag, opdracht) en het tentamen als geheel.
 

Analyse van individuele items

De toets (beoordelings) commissie kan bij alle toetsvormen informatie (laten) verzamelen over de scores van studenten. De basis van de analyse is de vraag welk percentage van de studenten de vraag goed heeft beantwoord of aan het criterium voldoet (p-waarde).

 • Bij een multipe choice vraag kan worden vastgesteld hoeveel procent van de studenten het goede antwoord heeft aangekruist en hoe vaak de afleiders zijn gekozen bij drie- of vierkeuzevragen  (a-waarde).
 • Bij een open vraag waarbij een student een aantal punten kan halen, kan het percentage goede antwoorden worden vastgesteld door het aantal behaalde punten op te tellen en af te zetten tegen het maximaal aantal te behalen punten.
 •  Bij het resultaat van een opdracht of vaardigheidstoets die wordt beoordeeld aan de hand van een aantal criteria, kan per criterium vastgesteld worden welk percentage van de studenten aan het criterium voldoet.

 

P-Waarde

De p-waarde is het eerste waar een toetsbeoordelaar n​aar kijkt​. Als een p-waarde (zeer) laag is kan dat verschillende oorzaken hebben. Ten eerste moet worden nagegaan of het item (de vraag en antwoordalternatieven, de vraag en het antwoordmodel, het criterium) helder en eenduidig is geformuleerd.  Als hier geen probleem is te vinden dan is het item te moeilijk voor de (meeste) studenten.
 
Een opdracht omvat een onderzoeksgedeelte. Bij het onderzoeksgedeelte is ‘het formuleren van goede onderzoeksvragen’ een beoordelingscriterium.
Het blijkt dat zestig procent van de studenten niet aan dit criterium voldoet (p-waarde 0.40). De lage
p-waarde is aanleiding voor nader onderzoek. Is de opdracht goed geformuleerd? Zijn de beoordelingscriteria bekend bij studenten? Hebben studenten voldoende kunnen oefenen met het formuleren van onderzoeksvragen? Is het criterium te hoog gegrepen in deze fase van de opleiding? Enzovoort.
Voorbeeld lage p-waarde bij de beoordeling van een opdracht
 
In de hoofdfase van een opleiding, waarbij studenten door de propedeuse zijn geselecteerd is een hoge p-waarde (0.80 of 0.90) de norm. Van studenten die geschikt zijn bevonden voor de opleiding mag verwacht worden dat ze allemaal het tentamen halen. Alleen te weinig inzet, persoonlijke omstandigheden of tekortkomingen in het onderwijs kunnen een oorzaak van een lagere p-waarde. In de propedeuse kan het tentamen ook de functie hebben om de geschiktheid van de student vast te stellen en kan bijvoorbeeld een norm van 0.70 worden gesteld.
 
Bij meerkeuzevragen kan gekeken worden naar de afleiders (de a-waarden). Bij andere toetsvormen kan dat niet. De a-waarden geven aan hoe vaak een afleider is gekozen. Als een afleider niet of nauwelijks is gekozen, dan is de kwaliteit daarvan waarschijnlijk onvoldoende.
 
opgave            p-waarde         O/D      frequentie alternatieven
                                               A          B          C          D
11                    0,75                 0          7          10        8          75*
12                    0,25                 10        23        27        26*      24
13                    0,27                 0          27*      0          45        28
14                    0,11                 6          71        11*      10        8
 
Het alternatief met een * is het goede antwoord. O/D is het percentage studenten dat meerdere alternatieven of geen alternatief heeft aangekruist.
Vraag 11 voldoet aan de ideale p-waarde voor een toets in de propedeuse. Alle alternatieven zijn door een kleine groep studenten gekozen, hetgeen betekent dat ze even plausibel waren.
 
De p-waarde van vraag 12 is laag. Dat de afleiders en het goede antwoord dezelfde waarde hebben kan duiden op gokgedrag. Deze indruk wordt versterkt door het feit dat 10% van de studenten meerdere alternatieven of geen alternatieven heeft aangekruist. Dit item is misschien te moeilijk of te verwarrend.
 
Bij vraag 13 kiezen veel meer studenten voor het foute antwoord C dan het goede antwoord A. Alternatief B is waarschijnlijk geen goede afleider, omdat geen enkele student deze heeft gekozen. Met dit item is duidelijk iets aan de hand.
Opgave 14 geeft een beeld dat waarschijnlijk makkelijk is te veranderen. Misschien is hier een fout gemaakt met de sleutel en is door een vergissing antwoord B als het goede antwoord aangegeven
Voorbeelden p-waarden en a-waarden bij een multipe choice toets
  

RIT - Waarde

Naast de analyse van de p-waarden kan per item ook het onderscheiden vermogen (Rit) worden bekeken. Statistische maten als Rit en betrouwbaarheid zijn alleen betekenisvol bij voldoende grote aantallen studenten. Meestal wordt als norm meer dan vijftig studenten aangehouden.
 
Een vraag heeft een hoog onderscheidend vermogen (Rit meer dan 0.25) als studenten met een hoge score de vraag goed maken en de studenten met een lage score fout. Het item differentieert tussen de goed presterende en minder goed presterende studenten.
 
Als studenten van alle niveaus hetzelfde scoren op een vraag dan is er geen onderscheidend vermogen (Rit is 0). Als laag scorende studenten de vraag goed hebben en hoogscorende studenten niet (Rit is negatief), dan is er waarschijnlijk iets aan de hand, zoals een foute sleutel of bij een open vraag of opdracht een onduidelijke formulering.  
 
Hoge(re) p-waarde, hoge Rit.
Makkelijk item, dat door een kleine groep laag scorende studenten fout is gemaakt.
Hoge(re) p-waarde, lage Rit.
Makkelijk item, dat geen onderscheid maakt tussen beter en minder goed presterende studenten.
Lage(re) p-waarde, hoge Rit.
Moeilijk item, dat alleen door de goed scorende studenten goed is gemaakt.
Lage(re) p-waarde, lage Rit.
Moeilijk item, dat geen onderscheid maakt tussen beter en minder goed presterende studenten.
Kwaliteit is voldoende.
Twijfel aan de kwaliteit.
Onderzoek van p-waarde en Rit per item 
 

 

ANALYSE VAN DE HET TENTAMEN ALS GEHEEL

Bij de analyse van het tentamen als geheel kijkt de toetsbeoordelaar naar de volgende kengetallen:
 
1.    Percentage voldoendes
​ 
2.    Gemiddelde score van de 5% beste studenten
 
3.    Betrouwbaarheid (KR-20 of coëfficiënt alfa)
 
4.    Verschillen tussen beoordelaars
 

Percentage voldoendes

Bij het percentage voldoendes speelt de vraag hoeveel (on)voldoendes het docententeam normaal vindt, in samenspraak met de examencommissie. Volgens een lang geleden uitgevoerd onderzoek vinden docenten het aanvaardbaar dat driekwart van de studenten slaagt en een kwart van de studenten zakt (Posthumus, 1940). De veronderstelling daarbij is dat in iedere fase van de opleiding een deel van de studenten zich onvoldoende inspant of ongeschikt is. De bekende toetsdeskundige  A.D. de Groot (1966) zet hierbij vraagtekens; Als studenten vanwege hun vooropleiding (bijvoorbeeld havo) of hun laatste examen (propedeuse) geschikt zijn bevonden voor de opleiding, dan zou iedereen voor het tentamen moeten slagen. Het percentage onvoldoendes wordt veroorzaakt door studenten die zich onvoldoende hebben ingespannen en door tekortkomingen in het tentamen of in het onderwijs. In de propedeuse wijst een tentamen met meer dan 30% onvoldoendes op niet aan studenten elateerde tekortkomingen in het tentamen of in het voorafgaande onderwijs. In de hoofdfase zou 90% van de studenten voor een tentamen moeten slagen.    
 

Gemiddele score van 5% beste studenten

Bij een goed tentamen moeten de beste studenten (bijna) alle vragen goed  hebben. Omdat de beste student een uitschieter kan zijn is de gemiddelde score van de 5% beste studenten een goede indicatie voor de kwaliteit van het tentamen. Als de beste studenten er niet in slagen (bijna) alle vragen goed te beantwoorden, dan is er waarschijnlijk een probleem met het tentamen of het onderwijs. De cesuurbepaling van Cohen-Schotanus, waarbij de gemiddelde score van de 5% beste studenten als referentiepunt wordt genomen,  corrigeert voor dit probleem.
 
Een tentamen bestaat uit 60 invulvragen. Alle vragen wegen even zwaar. De gemiddelde score van de 5% beste studenten is 54 goed antwoorden. De cesuur wordt gelegd bij 55% van 54, dat is 30 goede antwoorden.
​Voorbeeld Cesuurbepaling Cohen Schotanus
 

Betrouwbaarheid

De betrouwbaarheid van een tentamen geeft antwoord op de vraag in welke mate studenten bij twee gelijkwaardige tentamens hetzelfde zouden scoren. Een hoge betrouwbaarheid betekent dat het tentamen de werkelijke kennis en vaardigheid van de student goed heeft gemeten. De norm voor de betrouwbaarheid van een tentamen is afhankelijk van het doel van het tentamen. Als het tentamen bedoeld is om de geschiktheid van een student te bepalen is een betrouwbaarheid van 0.80 of hoger gewenst. Als toetsen onderdeel zijn van een conjunctieve examenregeling is dat het geval. Bij een conjunctieve examen- of tentamenregeling moet de student alle tentamens halen om te slagen.
 
Bij een compensatorische examen- of tentamenregeling kan de student een onvoldoende voor één tentamen compenseren met een goed cijfer voor een ander tentamen. Voor formatieve toetsen, die het leren activeren door feedback en waarmee docenten hun doceren kunnen bijde voortgang kunnen​​ monitoren, is een betrouwbaarheid van 0.60 voldoende. 
 
Een betrouwbaarheid van 0.80 betekent dat 80% van de variantie van de scores toegeschreven kan worden aan de werkelijke verschillen tussen studenten en 20% van de variantie aan het toeval. Kanttekeningen bij de betrouwbaarheid als kengetal voor de kwaliteit van een tentamen zijn: 
 • De betrouwbaarheid is lager naarmate het tentamen heterogener is, dat wil zeggen dat het verschillende soorten kennis en vaardigheden meet. Bij voorbeeld aan de hand van MC-vragen, open vragen en een schrijfopdracht (mixed methods).
 • De betrouwbaarheid wordt lager naarmate de groep studenten homogener is, dat wil zeggen als de onderlinge  niveauverschillen klein zijn. Dit is vast te stellen door het verschil in scores tussen de 5% beste en 5% slechtste studenten.
 • Het kengetal voor de betrouwbaarheid is de ondergrens. In werkelijkheid kan de betrouwbaarheid hoger zijn. Als de betrouwbaarheid bijvoorbeeld 0.50 is, dan is tenminste 50% van de variantie tussen studenten toe te schrijven aan het tentamen. Dit  kan hoger zijn, maar helaas is niet vast te stellen of dit het geval is.
 • De betrouwbaarheid wordt groter naarmate het tentamen meer items omvat.
 
In de praktijk van het hoger onderwijs is de betrouwbaarheid van een tentamen zelden 0.80 of hoger. Een betrouwbaarheid  van 0.60 is waarschijnlijker. Bij het beoordelen van de kwaliteit van een tentamen is het belangrijk om te realiseren dat een deel van de studenten onterecht een onvoldoende (en onterecht een voldoende) heeft gehaald. Het percentage van deze misclassificaties wordt hoger naarmate de betrouwbaarheid lager is en is afhankelijk van de cesuur.  
 
De regel is dat hoe meer studenten een onvoldoende halen, hoe meer studenten een onterechte onvoldoende halen. Bijvoorbeeld: bij een betrouwbaarheid van 0.70 en een cesuur bij 70% geslaagde studenten is het percentage misclassificaties rond 20%. 
 
Onterechte onvoldoendes leiden tot onnodige studievertraging. Dit is ongewenst voor zowel de student als de opleiding. Bij de conjunctieve examen- of tentamenregelingen leidt dit tot een groot percentage onterecht ongeschikt bevonden studenten en (zeer) lage examenrendementen.
 

 

Verschillen tussen beoordelaars

Bij de beoordeling van de resultaten van opdrachten, vaardigheidstoetsen, mondelinge toetsen, presentaties enz., zijn meestal meerdere examinatoren betrokken. Het is gewenst om te grote verschillen tussen examinatoren - met name rond de beslissing of een student is geslaagd of gezakt - te voorkomen. Door middel van het vergelijken van de beoordelingen van de examinatoren kan nagegaan worden of er geen te grote verschillen zijn.
 

 

MOGELIJKE MAATREGELEN

Op basis van de resultaten van een tentamen kunnen uiteenlopende maatregelen worden genomen. De meest ingrijpende beslissing is het ongeldig verklaren van het tentamen

 
Als een tentamen van belang is voor de beoordeling van de (on)geschiktheid van een student, dan dient het van goede kwaliteit te zijn, met een betrouwbaarheid van ten minste  0.80 of hoger.  
 
Als een tentamen (net) niet voldoet aan de kwaliteits norm dan kan een relatieve of gecombineerde methode  van
cesuurbepaling voorkomen dat te veel studenten een onterechte onvoldoende krijgen.  
 
Een andere maatregel is het schrappen van items die na analyse niet blijken te voldoen aan de kwaliteitsnorm. Dit bergt wel het risico dat de validiteit van het tentamen achteruit gaat, omdat er door het schrappen geen of onvoldoende vragen worden gesteld over bepaalde leerdoelen.
 
Als een tentamen deel uitmaakt van een programma van meerdere tentamens en er tussen toetsen compensatiemogelijkheden zijn, dan is de kwaliteit van een afzonderlijk tentamen minder belangrijk dan de leer- en feedbackfunctie.Dan is een lagere betrouwbaarheid acceptabel, omdat studenten onterechte onvoldoendes kunnen compenseren met betere resultaten op een ander tentamen over vergelijkbare leerdoelen. Wel blijft het belangrijk om te kijken naar de kwaliteit van de individuele items.
 
Na constatering dat de toetskwaliteit niet voldoet aan de norm, kan de examencommissie direct een aantal maatregelen adviseren aan het opleidingsmanagement: een tentamen afkeuren, een andere methode van cesuurbepaling kiezen, items schrappen.  Het is ook  belangrijk om te werken aan de voortdurende kwaliteitsverbetering van de tentamens, door de resultaten van de analyse te bespreken met de verantwoordelijke examinatoren.
 

Mogelijke aanpak van de evaluatie van de toetskwaliteit op basis van de resultaten

Het evalueren van de kwaliteit van een​ tentamen vergt het nodige werk. Multiple choice toetsen kunnen met een softwareprogramma als Sonate worden geanalyseerd. De analyse van tentamens met open vragen, resultaten van opdrachten, vaardigheidstoetsen, assessments enz. vereisen een handmatige invoer van de toetsresultaten. Om de efficiëntie te vergoten kunnen tentamens in verschillende stappen worden geëvalueerd aan de hand van de volgende regels. Doelen zijn: a) Het voorkomen van onterechte onvoldoendes, de cesuurbepaling  b)  Het op goede manier differentiëren tussen studenten (geven van cijfers)  is het tweede doel. 
 
1.    Selecteer de tentamens met een (te) hoog percentage onvoldoendes (meer dan 30%).
 
2.    Pas bij deze tentamens, als gebruik is gemaakt van een absolute methode van cesuurbepaling, een andere methode van  ​
cesuurb​epaling toe om het aantal onterechte onvoldoendes te verminderen.
 
3.    Selecteer de tentamens met een te lage betrouwbaarheid (bij compensatiemogelijkeden 0.60, anders 0.80).
 
4.    Ga na of er items van slechte kwaliteit in het tentamen zitten (lage p-waarde en lage Rit waarde).
 
5.    Onderzoek mogelijke oorzaken.
 
6.    Repareer eventuele fouten of verwijder items. 
 
7.    Controleer het effect van het schrappen van items op de betrouwbaarheid en het percentage onvoldoendes.
 
8.    Controleer of er te grote verschillen zijn tussen examinatoren bij de beoordeling van resultaten van opdrachten, vaardigheidstoetsen, assessments enz.
 
9.    Ga aan de hand van de Rit-waarden na welke items goed differentiëren tussen studenten en welke minder.
 

 
Laatst gewijzigd: 2 juli 2018