Aanmelden

 TOETSKWALITEIT VOORAF

Tentamens moeten voldoen aan de kwaliteitseisen validiteit, betrouwbaarheid, transparantie en leerfunctie/feedback functie:

Criterium
Omschrijving
Validiteit
Het tentamen meet wat ook daadwerkelijk gemeten moet worden.
Betrouwbaarheid
Het tentamen levert in dezelfde omstandigheden dezelfde resultaten op.
Transparantie
Er is helderheid over inhoud en proces.
Leerfunctie en Feedbackfunctie
Het tentamen geeft inzicht in de studievoortgang en is motiverend voor het verdere leerproces.
 

De  betekenis van deze criteria voor de  toetskwaliteit hangt af van de  aard van de beoordeling: analytisch of holistisch. 

Bij analytisch beoordelen is de kwaliteit van de toets en het beoordelinginstrument doorslaggevend. Bij holistisch beoordelen daarentegen is de kwaliteit van de prrocedure en van de examinatoren  bepalend. Daarom worden bij competentie beoordelingen bij voorkeur gecertificeerde assessoren ingezet. Zij zijn aantoobaar bekwaam in de methode , de procedure en de standaard van de opleiding.

Als  toets en beoordeling niet aan  een of meer van de kwaliteitscriteria  voldoen, dan kan een student  ten onterecht een onvoldoende halen. De oorzaken kunnen bij de student liggen, bij de kwaliteit van het tentamen  en/of beoordelingsinstrument, bij het onderwijs of de omstandigheden:

  • De inhoud van het tentamen sluit onvoldoende aan bij het voorgaande onderwijs. 
  • De leerstof is te omvangrijk.
  • Het is voor de student onduidelijk wat er van hem wordt verwacht.
  • Vragen, opdrachten of cases zijn niet helder en eenduidig geformuleerd of bevatten te moeilijke woorden of te complexe zinnen. 
  • De beoordeling is te streng.
  • De toetsomstandigheden hebben een negatieve invloed op de prestatie.
  • De student heeft toetsangst.
  • De student heeft onvoldoende tijd besteed aan de voorbereiding.


VALIDITEIT

Validiteit  heeft betrekking op de juistheid en accuraatheid van tentamen en beoordelingsinstrument. De inhoud van de toets moet congruent zijn met de beoogde leerresultaten. De toets beoordelings) commissie checkt  of  de toets  de beoogde leerresultaten / leerdoelen dekt: is de toets representatief?  Ook toetst zij het niveau: heeft de toets het juiste moeilijkheidsniveau? Een toetsmatrijs maakt dit inzichtelijk voor  een schriftelijk tentamen. Voor  een vaardigheden:tentamen checkt de toetscommissie of het tentamen de juiste vaardigheden op het juiste niveau meet.
 

Kenmerken van een valide tentamen

Schriftelijk tentamen en opdrachten
  • De leerdoelen zijn adequaat geformuleerd,  toetsbaar/aantoonbaar en op passend niveau.
  • De toetsvorm past bij de aard van de leerdoelen (kennis, vaardigheid, houding, competentie).
  • De vragen zijn qua moeilijkh​eid afgestemd op (cognitieve) niveau van de leeruitkomsten.
  • De leeractiviteiten en de formatieve toetsing​ bereiden voor op het tentamen.
  • Het aantal vragen of opgaven per leerdoel stemt overeen met de zwaarte van het leerdoel.
  • Vragen zijn geen strikvragen.


BETROUWBAARHEID

Betrouwbaarheid verwijst naar de mate waarin een tentamen[1] voor een bepaalde groep studenten onder dezelfde omstandigheden leidt tot hetzelfde eindoordeel. Betrouwbaarheid heeft betrekking op:
  • De eenduidigheid van het tentamen: de opgaven, de opdrachten of de instructies moeten helder en eenduidig geformuleerd zijn; er mag geen twijfel bestaan over welk antwoord of welke prestatie verwacht wordt. De grens tussen een voldoende en onvoldoende prestatie moet helder zijn. De beoordeling moet ook een onderscheid maken tussen  goede en zwakke prestaties. De betrouwbaarheid wordt mede beïnvloed door de omvang van een tentamen.
  • De omstandigheden waaronder het tentamen wordt afgenomen: Belangrijk is dat er zo veel mogelijk sprake is van standaardisatie en objectiviteit. Omstandigheden kunnen op velerlei zaken betrekking hebben. Bij  een schriftelijk tentamen of vaardigheidstoets  zijn dit o.a. de omstandigheden tijdens afname, het gebruik van hulpmiddelen, de beschikbare toetstijd. Bij opdrachten zijn dit de beschikbare tijd, de  omstandigheden gedurende de uitvoering en de kwaliteit van de begeleiding en tussentijdse feedback. Bij groepsopdrachten zijn dit ook de groepsgrootte en -samenstelling.
  • De wijze waarop de resultaten worden beoordeeld: Ook hierbij zijn standaardisatie en objectiviteit belangrijk. Zo is uit onderzoek gebleken dat een beoordelaar kan worden beïnvloed door eerdere beoordelingen en door zijn relatie met de student. Mogelijke oplossingen voor beoordelingsfouten zijn: werken met overzichtelijke en hanteerbare beoordelingsformats (b.v. rubrics) en correctievoorschriften; twee beoordelaars of een beoordelingscommissie, zodat 'vier of meer ogen' naar de geleverde prestatie kijken; regelmatige onderlinge afstemming tussen alle beoordelaars en begeleiders over de interpretatie van de beoordelingscriteria in de vorm van kalibreersessies, met als doel de interbeoordelaars betrouwbaarheid te verhogen.  

[1] De term 'tentamen' heeft betrekking op alle toetsvormen. Voor de leesbaarheid worden twee grote categorieën gehanteerd; schriftelijke tentamens en opdrachten.


Kenmerken van een betrouwbaar tentamen

Schriftelijk tentamen
  • De vragen zijn zo geformuleerd dat alleen studenten die de beoogde leerresulltaten beheersen, deze goed beantwoorden.
  • De vragen hebben geen onderlinge relatie.
  • De vragen zijn eenduidig geformuleerd en op één manier te interpreteren.
  • Het aantal vragen is groot genoeg om toevalstreffers uit te sluiten.
  • Het tentamen als geheel maakt het mogelijk om een onderscheid te maken tussen voldoende en onvoldoende, tussen goede en minder goede prestaties.
Opdrachten
  • De opdracht is zo ontworpen dat alleen studenten die de beoogde leerresulltaten beheersen, deze goed kunnen uitvoeren. 
  • De opdracht is eenduidig geformuleerd en op één manier te interpreteren.
  • De opdracht is qua moeilijkheid afgestemd op het beoogde prestatieniveau. 
  • Bij deelopdrachten is duidelijk waar en hoe de beoogde leeruitkomsten worden getoetst, of er onderlinge samenhang  is en hoe elke opdracht meeweegt in het eindcijfer. 


TRANSPARANTIE

Transparantie heeft betrekking op het volledig en tijdig informeren van studenten over de toetsing en beoordeling, zodat zij zich adequaat kunnen voorbereiden. Zij moeten tijdig op de hoogte zijn van en inzicht hebben in de toetsvorm, in de beoogde leerresultaten, de beoordelingscriteria, de normering en de cesuur. Ook moeten zij op de hoogte zijn van voorwaarden voor deelname aan het tentamen, inlevertermijn, afspraken over toetsafname en procedures (fraude, studenten met beperkingen, verzoek en bezwaar, e.d.) en de wijze van feedback. De meeste opleidingen leggen dit vast in studiegids en studiehandleidingen.

Transparantie heeft ook betrekking op de toetsafname; studenten hebben ervaring met de toetsvorm en de opdracht of opgaven zijn begrijpelijk voor alle studenten.

 

Kenmerken van transparantie

Schriftelijk tentamen

Voorafgaand aan de afname:

  • De opmaak van het tentamen is overzichtelijk.
  • De inleiding is duidelijk onderscheiden van de vragen/opdrachten.
  • Taal vormt voor de student geen struikelblok bij het begrijpen van de tentamenvragen.
  • De formulering van vragen / opdrachtenleidt niet tot misverstanden.
  • Vragen bevatten geen dubbele ontkenningen of overbodige informatie.
  • De puntenverdeling, de normering en cesuur zijn duidelijk.

Na afloop van het tentamen:

  • Er is een modelantwoord met puntenverdeling beschikbaar.
  • Het is duidelijk bij wie, hoe en wanneer bezwaar kan worden gemaakt tegen de uitslag. 

Opdrachten

Voor inlevering:

  • Er zijn duidelijke richtlijnen en/of criteria waaraan de opdracht moet voldoen.
  • Taal vormt voor de student geen struikelblok bij het begrijpen van de tentamenvragen/opdrachtomschrijving.
  • De beoordelingscriteria zijn duidelijk, hanteerbaar en niet onnodig complex.
  • De beoordelingscriteria (indien van toepassing; rubrics) zijn vooraf bij de studenten bekend. Bij voorkeur door ervaring  met vergelijkbare vragen en opdrachten (feed up, tussentijdse toetsing met feedback).
  • Er zijn duidelijke afspraken over het inleveren van de opdracht (op welke wijze, deadlines).
  • Studenten zijn tijdig en adequaat geïnformeerd over de beoordelingsprocedure.

Na beoordeling:

  • Er is een feedbackformulier of de feedback is opgenomen in het beoordelingsformulier.
  • Het is duidelijk bij wie, hoe en wanneer bezwaar kan worden gemaakt tegen de beoordeling. 

CESUUR

De vraag waar de grens tussen zakken en slagen moet liggen, kan vanuit verschillende invalshoeken worden benaderd [Cohen-Schotanus, 1996; Lankveld & Draaijer, 2010; Sluijsmans, 2008; Van Berkel en Bax, 2002; Van Berkel,  Jansen & Bax, 2012]

 
Absoluut
De mate van beheersing van de leerdoelen.
De standaard kan op verschillende niveaus worden gelegd: 100%, 70%, 60% of, zoals veel gebruikt 55% beheersing van de leerdoelen. Bij kwalitatieve beoordelingen gaat het om één of meerdere standaards bij de criteria waarop de student wordt beoordeeld.
Relatief
Een cesuur die wordt berekend op basis van de resultaten van de toets.
De cesuur is afhankelijk van de prestaties van de studenten. Er zijn verschillende methoden om deze cesuur vast te stellen (bijvoorbeeld de methode Wijnen).
Combinatie
Een combinatie van beide benaderingen.
Een bekende methode is die van Cohen-Schotanus (1996), waarbij de gemiddelde score van 5% van de beste studenten als hoogst mogelijke score  wordt genomen en op basis daarvan de cesuur met de absolute methode wordt bepaald.
 
Tabel 1. Methoden van cesuurbepaling
 
 
Een argument om gebruik te maken van een relatieve cesuurbepaling is dat deze methode studenten behoedt voor onterechte onvoldoendes die veroorzaakt worden door gewijzigde omstandigheden of wisselende  kwaliteit van het tentamen of het onderwijs.. Een nadeel van deze methode is dat de cesuur wordt beïnvloed door studenten die zich niet of onvoldoende op het tentamen voorbereiden. Bij de combinatiemethode Van Cohen-Schotanus (1996) wordt die invloed voorkomen en toch rekening gehouden met niet studentgerelateerde factoren.
 

De methode van cesuurbepaling heeft een grote invloed op de studievoortgang. Dit blijkt uit een onderzoek van Cohen-Schotanus (2010). Studenten van de geneeskundeopleiding in Groningen, die de absolute methode gebruikt, deden een jaar langer over hun studie dan studenten van de geneeskundeopleiding in Maastricht, die de relatieve methode gebruikte. Het kennisniveau van de studenten van beide opleiding werd aan de hand van een voortgangstoets gemeten en bleek hetzelfde te zijn.


SLAGINGSPRECENTAGES

Studenten met een diploma van havo-, vwo- of mbo-4 zijn toelaatbaar tot een hbo-opleiding. Iedere instromende student zou daarom in principe het propedeuse-examen kunnen halen. In de prestatieafspraken met OCW heeft de HvA voor het rendement van propedeuse en hoofdfase een streefcijfer van 60% afgesproken.

Het behalen van deze rendementen HvA breed, is een grote uitdaging. Dat geldt zeker voor de propedeuse, waar het niet behalen van tentamens een belangrijke reden is voor uitvat, naast een verkeerde studiekeuze, moeite met de overgang naar het hbo, het studentenleven of persoonlijke omstandigheden.​.

Voor de slagingspercentages van tentamens is het aan te raden om voor de propedeuse 60% aan te houden. Dit is op basis van de volgende overwegingen:

  • De propedeuse heeft een selecterende functie; hoewel studenten beschikken over de vereiste vooropleiding kan het niveau toch te hoog zijn. 

  • Als meer dan 40% van de studenten bij de eerste kans zakt, dan is het waarschijnlijk dat dit vooral veroorzaakt wordt door de kwaliteit van het tentamen, het ond​erwijs of andere omstandigheden. Deze score is aanleiding voor de toetscommissie om nader te (laten) onderzoeken wat er aan de hand is. De examencommissie kan ​op basis daarvan een verbeteradvies  geven.   

Studenten die hun propedeuse-examen hebben gehaald zijn geschikt bevonden voor de hoofdfase van de opleiding. Van hen mag verwacht worden dat ze, als ze zich voldoende inspannen, slagen voor hun tentamens. Een slagingspercentage van 80% of hoger is in de hoofdfase daarom normaal.

Het is hierbij belangrijk te vermelden dat de streefcijfers voor slagingspercentages per faculteit en per opleiding kunnen verschillen. De opleiding kan zich het beste vergelijken met een zelfde opleiding bij een vergelijkbare hogeschool.

 

EVALUATIE VAN DE TOETSKWALITEIT ACHTERAF

Toetsbeoordelaars kunnen de kwaliteit van een tentamen onderzoeken aan de hand van de resultaten van het tentamen (de scores van de studenten). De analyse kan plaatsvinden op twee niveaus, namelijk het individuele item (vraag, opdracht) en het tentamen als geheel.
 

Analyse van individuele items

De toets (beoordelings) commissie kan bij alle toetsvormen informatie (laten) verzamelen over de scores van studenten. De basis van de analyse is de vraag welk percentage van de studenten de vraag goed heeft beantwoord of aan het criterium voldoet (p-waarde).

  • Bij een multipe choice vraag kan worden vastgesteld hoeveel procent van de studenten het goede antwoord heeft aangekruist en hoe vaak de afleiders zijn gekozen bij drie- of vierkeuzevragen  (a-waarde).
  • Bij een open vraag waarbij een student een aantal punten kan halen, kan het percentage goede antwoorden worden vastgesteld door het aantal behaalde punten op te tellen en af te zetten tegen het maximaal aantal te behalen punten.
  •  Bij het resultaat van een opdracht of vaardigheidstoets die wordt beoordeeld aan de hand van een aantal criteria, kan per criterium vastgesteld worden welk percentage van de studenten aan het criterium voldoet.

P-Waarde

De p-waarde is het eerste waar een toetsbeoordelaar n​aar kijkt​. Als een p-waarde (zeer) laag is kan dat verschillende oorzaken hebben. Ten eerste moet worden nagegaan of het item (de vraag en antwoordalternatieven, de vraag en het antwoordmodel, het criterium) helder en eenduidig is geformuleerd.  Als hier geen probleem is te vinden dan is het item te moeilijk voor de (meeste) studenten.
 
Een opdracht omvat een onderzoeksgedeelte. Bij het onderzoeksgedeelte is ‘het formuleren van goede onderzoeksvragen’ een beoordelingscriterium.
Het blijkt dat zestig procent van de studenten niet aan dit criterium voldoet (p-waarde 0.40). De lage
p-waarde is aanleiding voor nader onderzoek. Is de opdracht goed geformuleerd? Zijn de beoordelingscriteria bekend bij studenten? Hebben studenten voldoende kunnen oefenen met het formuleren van onderzoeksvragen? Is het criterium te hoog gegrepen in deze fase van de opleiding? Enzovoort.
Voorbeeld lage p-waarde bij de beoordeling van een opdracht
 
In de hoofdfase van een opleiding, waarbij studenten door de propedeuse zijn geselecteerd is een hoge p-waarde (0.80 of 0.90) de norm. Van studenten die geschikt zijn bevonden voor de opleiding mag verwacht worden dat ze allemaal het tentamen halen. Alleen te weinig inzet, persoonlijke omstandigheden of tekortkomingen in het onderwijs kunnen een oorzaak van een lagere p-waarde. In de propedeuse kan het tentamen ook de functie hebben om de geschiktheid van de student vast te stellen en kan bijvoorbeeld een norm van 0.70 worden gesteld.
 
Bij meerkeuzevragen kan gekeken worden naar de afleiders (de a-waarden). Bij andere toetsvormen kan dat niet. De a-waarden geven aan hoe vaak een afleider is gekozen. Als een afleider niet of nauwelijks is gekozen, dan is de kwaliteit daarvan waarschijnlijk onvoldoende.
 
opgave            p-waarde         O/D      frequentie alternatieven
                                               A          B          C          D
11                    0,75                 0          7          10        8          75*
12                    0,25                 10        23        27        26*      24
13                    0,27                 0          27*      0          45        28
14                    0,11                 6          71        11*      10        8
 
Het alternatief met een * is het goede antwoord. O/D is het percentage studenten dat meerdere alternatieven of geen alternatief heeft aangekruist.
Vraag 11 voldoet aan de ideale p-waarde voor een toets in de propedeuse. Alle alternatieven zijn door een kleine groep studenten gekozen, hetgeen betekent dat ze even plausibel waren.
 
De p-waarde van vraag 12 is laag. Dat de afleiders en het goede antwoord dezelfde waarde hebben kan duiden op gokgedrag. Deze indruk wordt versterkt door het feit dat 10% van de studenten meerdere alternatieven of geen alternatieven heeft aangekruist. Dit item is misschien te moeilijk of te verwarrend.
 
Bij vraag 13 kiezen veel meer studenten voor het foute antwoord C dan het goede antwoord A. Alternatief B is waarschijnlijk geen goede afleider, omdat geen enkele student deze heeft gekozen. Met dit item is duidelijk iets aan de hand.
Opgave 14 geeft een beeld dat waarschijnlijk makkelijk is te veranderen. Misschien is hier een fout gemaakt met de sleutel en is door een vergissing antwoord B als het goede antwoord aangegeven
Voorbeelden p-waarden en a-waarden bij een multipe choice toets
  

RIT - Waarde

Naast de analyse van de p-waarden kan per item ook het onderscheiden vermogen (Rit) worden bekeken. Statistische maten als Rit en betrouwbaarheid zijn alleen betekenisvol bij voldoende grote aantallen studenten. Meestal wordt als norm meer dan vijftig studenten aangehouden.
 
Een vraag heeft een hoog onderscheidend vermogen (Rit meer dan 0.25) als studenten met een hoge score de vraag goed maken en de studenten met een lage score fout. Het item differentieert tussen de goed presterende en minder goed presterende studenten.
 
Als studenten van alle niveaus hetzelfde scoren op een vraag dan is er geen onderscheidend vermogen (Rit is 0). Als laag scorende studenten de vraag goed hebben en hoogscorende studenten niet (Rit is negatief), dan is er waarschijnlijk iets aan de hand, zoals een foute sleutel of bij een open vraag of opdracht een onduidelijke formulering.  
 
Hoge(re) p-waarde, hoge Rit.
Makkelijk item, dat door een kleine groep laag scorende studenten fout is gemaakt.
Hoge(re) p-waarde, lage Rit.
Makkelijk item, dat geen onderscheid maakt tussen beter en minder goed presterende studenten.
Lage(re) p-waarde, hoge Rit.
Moeilijk item, dat alleen door de goed scorende studenten goed is gemaakt.
Lage(re) p-waarde, lage Rit.
Moeilijk item, dat geen onderscheid maakt tussen beter en minder goed presterende studenten.
Kwaliteit is voldoende.
Twijfel aan de kwaliteit.
Onderzoek van p-waarde en Rit per item 
 

ANALYSE VAN DE HET TENTAMEN ALS GEHEEL

Bij de analyse van het tentamen als geheel kijkt de toetsbeoordelaar naar de volgende kengetallen:
 
1.    Percentage voldoendes
​ 
2.    Gemiddelde score van de 5% beste studenten
 
3.    Betrouwbaarheid (KR-20 of coëfficiënt alfa)
 
4.    Verschillen tussen beoordelaars
 

Percentage voldoendes

Bij het percentage voldoendes speelt de vraag hoeveel (on)voldoendes het docententeam normaal vindt, in samenspraak met de examencommissie. Volgens een lang geleden uitgevoerd onderzoek vinden docenten het aanvaardbaar dat driekwart van de studenten slaagt en een kwart van de studenten zakt (Posthumus, 1940). De veronderstelling daarbij is dat in iedere fase van de opleiding een deel van de studenten zich onvoldoende inspant of ongeschikt is. De bekende toetsdeskundige  A.D. de Groot (1966) zet hierbij vraagtekens; Als studenten vanwege hun vooropleiding (bijvoorbeeld havo) of hun laatste examen (propedeuse) geschikt zijn bevonden voor de opleiding, dan zou iedereen voor het tentamen moeten slagen. Het percentage onvoldoendes wordt veroorzaakt door studenten die zich onvoldoende hebben ingespannen en door tekortkomingen in het tentamen of in het onderwijs. In de propedeuse wijst een tentamen met meer dan 30% onvoldoendes op niet aan studenten elateerde tekortkomingen in het tentamen of in het voorafgaande onderwijs. In de hoofdfase zou 90% van de studenten voor een tentamen moeten slagen.    
 

Gemiddele score van 5% beste studenten

Bij een goed tentamen moeten de beste studenten (bijna) alle vragen goed  hebben. Omdat de beste student een uitschieter kan zijn is de gemiddelde score van de 5% beste studenten een goede indicatie voor de kwaliteit van het tentamen. Als de beste studenten er niet in slagen (bijna) alle vragen goed te beantwoorden, dan is er waarschijnlijk een probleem met het tentamen of het onderwijs. De cesuurbepaling van Cohen-Schotanus, waarbij de gemiddelde score van de 5% beste studenten als referentiepunt wordt genomen,  corrigeert voor dit probleem.
 
Een tentamen bestaat uit 60 invulvragen. Alle vragen wegen even zwaar. De gemiddelde score van de 5% beste studenten is 54 goed antwoorden. De cesuur wordt gelegd bij 55% van 54, dat is 30 goede antwoorden.
​Voorbeeld Cesuurbepaling Cohen Schotanus
 

Betrouwbaarheid

De betrouwbaarheid van een tentamen geeft antwoord op de vraag in welke mate studenten bij twee gelijkwaardige tentamens hetzelfde zouden scoren. Een hoge betrouwbaarheid betekent dat het tentamen de werkelijke kennis en vaardigheid van de student goed heeft gemeten. De norm voor de betrouwbaarheid van een tentamen is afhankelijk van het doel van het tentamen. Als het tentamen bedoeld is om de geschiktheid van een student te bepalen is een betrouwbaarheid van 0.80 of hoger gewenst. Als toetsen onderdeel zijn van een conjunctieve examenregeling is dat het geval. Bij een conjunctieve examen- of tentamenregeling moet de student alle tentamens halen om te slagen.
 
Bij een compensatorische examen- of tentamenregeling kan de student een onvoldoende voor één tentamen compenseren met een goed cijfer voor een ander tentamen. Voor formatieve toetsen, die het leren activeren door feedback en waarmee docenten hun doceren kunnen bijde voortgang kunnen​​ monitoren, is een betrouwbaarheid van 0.60 voldoende. 
 
Een betrouwbaarheid van 0.80 betekent dat 80% van de variantie van de scores toegeschreven kan worden aan de werkelijke verschillen tussen studenten en 20% van de variantie aan het toeval. Kanttekeningen bij de betrouwbaarheid als kengetal voor de kwaliteit van een tentamen zijn: 
  • De betrouwbaarheid is lager naarmate het tentamen heterogener is, dat wil zeggen dat het verschillende soorten kennis en vaardigheden meet. Bij voorbeeld aan de hand van MC-vragen, open vragen en een schrijfopdracht (mixed methods).
  • De betrouwbaarheid wordt lager naarmate de groep studenten homogener is, dat wil zeggen als de onderlinge  niveauverschillen klein zijn. Dit is vast te stellen door het verschil in scores tussen de 5% beste en 5% slechtste studenten.
  • Het kengetal voor de betrouwbaarheid is de ondergrens. In werkelijkheid kan de betrouwbaarheid hoger zijn. Als de betrouwbaarheid bijvoorbeeld 0.50 is, dan is tenminste 50% van de variantie tussen studenten toe te schrijven aan het tentamen. Dit  kan hoger zijn, maar helaas is niet vast te stellen of dit het geval is.
  • De betrouwbaarheid wordt groter naarmate het tentamen meer items omvat.
 
In de praktijk van het hoger onderwijs is de betrouwbaarheid van een tentamen zelden 0.80 of hoger. Een betrouwbaarheid  van 0.60 is waarschijnlijker. Bij het beoordelen van de kwaliteit van een tentamen is het belangrijk om te realiseren dat een deel van de studenten onterecht een onvoldoende (en onterecht een voldoende) heeft gehaald. Het percentage van deze misclassificaties wordt hoger naarmate de betrouwbaarheid lager is en is afhankelijk van de cesuur.  
 
De regel is dat hoe meer studenten een onvoldoende halen, hoe meer studenten een onterechte onvoldoende halen. Bijvoorbeeld: bij een betrouwbaarheid van 0.70 en een cesuur bij 70% geslaagde studenten is het percentage misclassificaties rond 20%. 
 
Onterechte onvoldoendes leiden tot onnodige studievertraging. Dit is ongewenst voor zowel de student als de opleiding. Bij de conjunctieve examen- of tentamenregelingen leidt dit tot een groot percentage onterecht ongeschikt bevonden studenten en (zeer) lage examenrendementen.
 

Verschillen tussen beoordelaars

Bij de beoordeling van de resultaten van opdrachten, vaardigheidstoetsen, mondelinge toetsen, presentaties enz., zijn meestal meerdere examinatoren betrokken. Het is gewenst om te grote verschillen tussen examinatoren - met name rond de beslissing of een student is geslaagd of gezakt - te voorkomen. Door middel van het vergelijken van de beoordelingen van de examinatoren kan nagegaan worden of er geen te grote verschillen zijn.
 

MOGELIJKE MAATREGELEN

Op basis van de resultaten van een tentamen kunnen uiteenlopende maatregelen worden genomen. De meest ingrijpende beslissing is het ongeldig verklaren van het tentamen

Als een tentamen van belang is voor de beoordeling van de (on)geschiktheid van een student, dan dient het van goede kwaliteit te zijn, met een betrouwbaarheid van ten minste  0.80 of hoger.  
 
Als een tentamen (net) niet voldoet aan de kwaliteits norm dan kan een relatieve of gecombineerde methode  van
cesuurbepaling voorkomen dat te veel studenten een onterechte onvoldoende krijgen.  
 
Een andere maatregel is het schrappen van items die na analyse niet blijken te voldoen aan de kwaliteitsnorm. Dit bergt wel het risico dat de validiteit van het tentamen achteruit gaat, omdat er door het schrappen geen of onvoldoende vragen worden gesteld over bepaalde leerdoelen.
 
Als een tentamen deel uitmaakt van een programma van meerdere tentamens en er tussen toetsen compensatiemogelijkheden zijn, dan is de kwaliteit van een afzonderlijk tentamen minder belangrijk dan de leer- en feedbackfunctie.Dan is een lagere betrouwbaarheid acceptabel, omdat studenten onterechte onvoldoendes kunnen compenseren met betere resultaten op een ander tentamen over vergelijkbare leerdoelen. Wel blijft het belangrijk om te kijken naar de kwaliteit van de individuele items.
 
Na constatering dat de toetskwaliteit niet voldoet aan de norm, kan de examencommissie direct een aantal maatregelen adviseren aan het opleidingsmanagement: een tentamen afkeuren, een andere methode van cesuurbepaling kiezen, items schrappen.  Het is ook  belangrijk om te werken aan de voortdurende kwaliteitsverbetering van de tentamens, door de resultaten van de analyse te bespreken met de verantwoordelijke examinatoren.
 

Mogelijke aanpak van de evaluatie van de toetskwaliteit op basis van de resultaten

Het evalueren van de kwaliteit van een​ tentamen vergt het nodige werk. Multiple choice toetsen kunnen met een softwareprogramma als Sonate worden geanalyseerd. De analyse van tentamens met open vragen, resultaten van opdrachten, vaardigheidstoetsen, assessments enz. vereisen een handmatige invoer van de toetsresultaten. Om de efficiëntie te vergoten kunnen tentamens in verschillende stappen worden geëvalueerd aan de hand van de volgende regels. Doelen zijn: a) Het voorkomen van onterechte onvoldoendes, de cesuurbepaling  b)  Het op goede manier differentiëren tussen studenten (geven van cijfers)  is het tweede doel. 
 
1.    Selecteer de tentamens met een (te) hoog percentage onvoldoendes (meer dan 30%).
 
2.    Pas bij deze tentamens, als gebruik is gemaakt van een absolute methode van cesuurbepaling, een andere methode van  ​
cesuurb​epaling toe om het aantal onterechte onvoldoendes te verminderen.
 
3.    Selecteer de tentamens met een te lage betrouwbaarheid (bij compensatiemogelijkeden 0.60, anders 0.80).
 
4.    Ga na of er items van slechte kwaliteit in het tentamen zitten (lage p-waarde en lage Rit waarde).
 
5.    Onderzoek mogelijke oorzaken.
 
6.    Repareer eventuele fouten of verwijder items. 
 
7.    Controleer het effect van het schrappen van items op de betrouwbaarheid en het percentage onvoldoendes.
 
8.    Controleer of er te grote verschillen zijn tussen examinatoren bij de beoordeling van resultaten van opdrachten, vaardigheidstoetsen, assessments enz.
 
9.    Ga aan de hand van de Rit-waarden na welke items goed differentiëren tussen studenten en welke minder.
 

Laatst gewijzigd: 20 april 2017