Aanmelden

 TOETSKWALITEIT VOORAF

Tentamens moeten voldoen aan de kwaliteitseisen validiteit, betrouwbaarheid, transparantie en leerfunctie/feedback functie:

Criterium
Omschrijving
Validiteit
Het tentamen meet wat ook daadwerkelijk gemeten moet worden.
Betrouwbaarheid
Het tentamen levert in dezelfde omstandigheden dezelfde resultaten op.
Transparantie
Er is helderheid over inhoud en proces.
Leerfunctie en Feedbackfunctie
Het tentamen geeft inzicht in de studievoortgang en is motiverend voor het verdere leerproces.
 

Bij analytisch beoordelen is de kwaliteit van het tentamen en het beoordelinginstrument doorslaggevend. Bij holistisch beoordelen daarentegen is de kwaliteit van de examinatoren kritisch. Daarom worden bij competentie beoordelingen bij voorkeur gecertificeerde assessoren ingezet.

Er kunnen verschillende redenen zijn waarom de student onterecht een onvoldoende haalt. De oorzaken kunnen bij de student liggen, bij de kwaliteit van het tentamen en het onderwijs of in de omstandigheden:

  • De inhoud van het tentamen sluit onvoldoende aan bij het voorgaande onderwijs. De leerstof is te omvangrijk.
  • Het is voor de student onduidelijk wat er van hem wordt verwacht (gebrek aan transparantie).
  •  
  • Vragen, opdrachten of cases zijn niet helder en eenduidig geformuleerd of bevatten talig te moeilijke woorden of te complexe zinnen.
  •  
  • De beoordeling is te streng.
  •  
  • De toetsomstandigheden hebben een negatieve invloed op de prestatie.
  •  
  • De student heeft toetsangst.
  •  
  • De student heeft onvoldoende tijd besteed aan de voorbereiding.

VALIDITEIT

Validiteit betreft de juistheid en accuraatheid van een tentamen. De inhoud van de toetsing moet congruent zijn met de beoogde leerresultaten. Zowel wat betreft dekking van de leerresultaten; is de toets representatief?, als het niveau; heeft de toets het juiste moeilijkheidsniveau? Bij schriftelijke tentamen wordt dit aan de hand van een toetsmatrijs inzichtelijk gemaakt. In het geval van vaardigheden: meet het tentamen de juiste vaardigheden op het juiste niveau.

 
KENMERKEN VAN EEN VALIDE TENTAMEN

Schriftelijk tentamen en opdrachten

  • Er zijn adequaat geformuleerde leeruitkomsten, die toetsbaar/aantoonbaar zijn en op passend niveau.
  • De toetsvorm past bij de aard van de leeruitkomsten (kennis, vaardigheid, competentie).
  • De vragen zijn qua moeilijkheid afgestemd op (cognitieve) niveau van de leeruitkomsten.
  • De leeractiviteiten en de formatieve toets bereiden voor op het tentamen.
  • Schriftelijk tentamen
  • Het aantal vragen of opgaven per leerdoel stemt overeen met de zwaarte van het leerdoel.
  • Vragen zijn geen strikvragen.


BETROUWBAARHEID

Betrouwbaarheid verwijst naar de mate waarin een tentamen[1] onder dezelfde omstandigheden leidt tot hetzelfde eindoordeel. Betrouwbaarheid heeft betrekking op:

  • De eenduidigheid van het tentamen: de opgaven, de opdrachten of de instructies moeten helder en eenduidig geformuleerd zijn en er mag geen twijfel bestaan over welk antwoord of welke prestatie verwacht wordt. De beoordeling moet een onderscheid maken tussen de 'goede' en 'zwakke' studenten. De betrouwbaarheid wordt mede beïnvloed door de omvang van een tentamen.
  • De omstandigheden waaronder het tentamen wordt afgenomen of uitgevoerd: Belangrijk in dit kader is dat er zo veel mogelijk sprake is van standaardisatie en objectiviteit. Omstandigheden kunnen op velerlei zaken betrekking hebben. Bij schriftelijk tentamen zijn dat o.a. de omstandigheden tijdens afname, het gebruik van hulpmiddelen, de beschikbare toetstijd. Bij opdrachten: de omstandigheden tijdens de uitvoering, de kwaliteit van de begeleiding, en bij groepsopdrachten de groepssamenstelling.
  • De wijze waarop de resultaten worden beoordeeld: Bij de beoordeling van de resultaten spelen standaardisatie en objectiviteit een belangrijke rol. Zo is uit onderzoek gebleken dat een beoordelaar kan worden beïnvloed door eerdere beoordelingen en door zijn relatie met de student. Mogelijke oplossingen zijn: werken met overzichtelijke en hanteerbare beoordelingsformats (b.v. rubrics) en correctievoorschriften, twee beoordelaars, zodat 'vier ogen' naar de geleverde prestatie kijken, regelmatige onderlinge afstemming over de interpretatie van de beoordelingscriteria in de vorm van callibreersessies, met als doel de interbeoordelaars betrouwbaarheid te verhogen.  

[1] De term 'tentamen' heeft betrekking op alle toetsvormen. Voor de leesbaarheid worden twee grote categorieën gehanteerd; schriftelijke tentamens en opdrachten.


KENMERKEN VAN EEN BETROUWBAAR TENTAMEN

Schriftelijk tentamen

  • De vragen zijn zo geformuleerd dat alleen studenten die de leeruitkomsten beheersen deze goed beantwoorden.
  • De vragen hebben geen onderlinge relatie.
  • De vragen zijn eenduidig geformuleerd en op één manier te interpreteren.
  • Het aantal vragen is groot genoeg om toevalstreffers uit te sluiten.
  • Het tentamen als geheel maakt onderscheid tussen studenten die goed en minder goed presteren. 
Opdrachten
  • De opdracht is eenduidig geformuleerd en op één manier te interpreteren.
  • De opdracht is qua moeilijkheid afgestemd op niveau van student


TRANSPARANTIE

Transparantie heeft betrekking op het volledig en tijdig informeren van studenten over de toetsing en beoordeling, zodat zij zich adequaat kunnen voorbereiden. Zij moeten tijdig op de hoogte zijn van en inzicht hebben in de toetsvorm, waarmee de leerdoelen getoetst worden, de beoordelingscriteria, de normering en de cesuur. Ook moeten zij op de hoogte zijn van voorwaarden voor deelname aan het tentamen, inlevertermijn, afspraken over toetsafname en procedures (fraude, studenten met beperkingen, verzoek en bezwaar, e.d.) en de wijze van feedback. De meeste opleidingen leggen dit vast in studiegids of studiehandleidingen.

Transparantie heeft ook betrekking op de toetsafname; studenten hebben ervaring met de toetsvorm en de opdracht of opgaven zijn begrijpelijk voor alle studenten.

 
KENMERKEN VAN TRANSPARANTIE:

Schriftelijk tentamen

Voorafgaand aan de afname:

  • De opmaak van het tentamen is overzichtelijk.
  • De inleiding is duidelijk onderscheiden van de vragen/opdrachten.
  • Taal vormt voor de student geen struikelblok bij het begrijpen van de tentamenvragen.
  • De formulering van vragen leidt niet tot misverstanden.
  • Vragen bevatten geen dubbele ontkenningen of overbodige informatie.
  • De puntenverdeling, de normering en cesuur zijn duidelijk.

Na afloop van het tentamen:

  • Er is een modelantwoord met puntenverdeling beschikbaar.
  • Het is duidelijk bij wie, hoe en wanneer bezwaar kan worden gemaakt tegen de uitslag. 

Opdrachten

Voorafgaand aan de inleveren:

  • Er zijn duidelijke richtlijnen en/of criteria waaraan de opdracht moet voldoen.
  • Taal vormt voor de student geen struikelblok bij het begrijpen van de tentamenvragen/opdrachtomschrijving.
  • De beoordelingscriteria zijn duidelijk, hanteerbaar en niet onnodig complex
  • De beoordelingscriteria (indien van toepassing; rubrics) zijn vooraf bij de studenten bekend en met ze doorgenomen.
  • Er zijn duidelijke afspraken over het inleveren van de opdracht (op welke wijze, deadlines).
  • De studenten zijn adequaat geïnformeerd over de beoordelingsprocedure.

Na beoordeling:

  • Er is feedbackformulier of de feedback is opgenomen in de beoordelingsformulier.
  • Het is duidelijk bij wie, hoe en wanneer bezwaar kan worden gemaakt tegen de beoordeling. 

CESUUR
 
De vraag waar de grens tussen zakken en slagen moet liggen, kan vanuit verschillende invalshoeken worden benaderd [Cohen-Schotanus, 1996; Lankveld & Draaijer, 2010; Sluijsmans, 2008; Van Berkel en Bax, 2002; Van Berkel,  Jansen & Bax, 2012]
 
Absoluut
De mate van beheersing van de leerdoelen.
De standaard kan op verschillende niveaus worden gelegd: 100%, 70%, 60% of, zoals veel gebruikt 55% beheersing van de leerdoelen. Bij kwalitatieve beoordelingen gaat het om één of meerdere standaards bij de criteria waarop de student wordt beoordeeld.
Relatief
Een cesuur die wordt berekend op basis van de resultaten van de toets.
De cesuur is afhankelijk van de prestaties van de studenten. Er zijn verschillende methoden om deze cesuur vast te stellen (bijvoorbeeld de methode Wijnen).
Combinatie
Een combinatie van beide benaderingen.
Een bekende methode is die van Cohen-Schotanus (1996), waarbij de gemiddelde score van 5% van de beste studenten als hoogst mogelijke score  wordt genomen en op basis daarvan de cesuur met de absolute methode wordt bepaald.
 
Tabel 1. Methoden van cesuurbepaling
 
 
Een argument om gebruik te maken van een relatieve cesuurbepaling is dat deze methode studenten behoedt voor onterechte onvoldoendes die veroorzaakt worden door gewijzigde omstandigheden of wisselende  kwaliteit van het tentamen of het onderwijs.
 
Een nadeel van deze methode is dat de cesuur wordt beïnvloed door studenten die zich niet of onvoldoende op het tentamen voorbereiden. Bij de combinatiemethode Van Cohen-Schotanus (1996) wordt die invloed voorkomen en toch rekening gehouden met niet studentgerelateerde factoren.
 
De methode van cesuurbepaling heeft een grote invloed op de studievoortgang. Dit blijkt uit een onderzoek van Cohen-Schotanus (2010). Studenten van de geneeskundeopleiding in Groningen, die de absolute methode gebruikten, deden een jaar langer over hun studie dan studenten van de geneeskundeopleiding in Maastricht, die de relatieve methode gebruikte. Het kennisniveau van de studenten van beide opleiding werd aan de hand van een voortgangstoets gemeten en bleek hetzelfde te zijn.

SLAGINGSPRECENTAGES:
 
Studenten met een diploma van havo-, vwo- of mbo-4 zijn toelaatbaar tot een hbo-opleiding. Iedere instromende student zou daarom in principe het propedeuse-examen kunnen halen. In de prestatieafspraken met OCW heeft de HvA voor het rendement van propedeuse en hoofdfase een streefcijfer van 60% afgesproken.
 
Het behalen van deze rendementen HvA breed, is een grote uitdaging. Het niet behalen van tentamens is, naast verkeerde studiekeuze, moeite met het studentenleven of persoonlijke omstandigheden, een belangrijke reden voor uitval.
 
Voor de slagingspercentages van tentamens is het aan te raden voor de propedeuse 60% aan te houden, vanuit de volgende overwegingen:
  • De propedeuse heeft een selecterende functie; hoewel studenten beschikken over de vereiste vooropleiding kan het niveau toch te hoog zijn.
  • Als meer dan 40% van de studenten bij de eerste kans zakt, dan zal dat voor een deel veroorzaakt worden door de kwaliteit van het tentamen, het onderwijs of andere omstandigheden.
Studenten die hun propedeuse-examen hebben gehaald zijn geschikt bevonden voor de hoofdfase van de opleiding. Van hen mag verwacht worden dat ze, als ze zich voldoende inspannen, slagen voor hun tentamens. Een slagingspercentage van 80% of hoger is in de hoofdfase daarom normaal.
 
Het is hierbij belangrijk te vermelden dat de streefcijfers voor slagingspercentages per domein en per opleiding kunnen verschillen. De opleiding kan zich het beste vergelijken met eenzelfde opleiding bij een vergelijkbare hogeschool.

 
EVALUATIE VAN DE TOETSKWALITEIT ACHTERAF
 
Aan de hand van de resultaten van het tentamen (de scores van de studenten) is het mogelijk om  de kwaliteit van het tentamen te onderzoeken. De analyse kan plaatsvinden op twee niveaus, namelijk het individuele item (vraag, opdracht) en het tentamen als geheel.
 
ANALYSE VAN INDIVIDUELE ITEMS
 
Bij alle toetsvormen kan informatie over de  scores van studenten worden verzameld. De basis van de analyse is de vraag welk percentage van de studenten de vraag goed heeft beantwoord of aan het criterium voldoet
(p-waarde).

  • Bij een multipe choice vraag kan worden vastgesteld hoeveel procent van de studenten het goede antwoord heeft aangekruist  en hoe vaak bij drie- of vierkeuzevragen de afleiders zijn gekozen (a-waarde).
  • Bij een open vraag waarbij een student een aantal punten kan halen, kan het percentage goede antwoorden worden vastgesteld door het aantal behaalde punten op te tellen en af te zetten tegen het maximaal aantal te behalen punten.
  •  Bij het resultaat van een opdracht of vaardigheidstoets die wordt beoordeeld aan de hand van een aantal criteria, kan per criterium vastgesteld worden welk percentage van de studenten aan het criterium voldoet.
P-WAARDE
 
De p-waarde is het eerste waarnaar gekeken wordt. Als een p-waarde (zeer) laag is kan dat verschillende oorzaken hebben. Ten eerste moet worden nagegaan of het item (de vraag en antwoordalternatieven, de vraag en het antwoordmodel, het criterium) helder en eenduidig is geformuleerd.  Als hier geen probleem is te vinden dan is het item te moeilijk voor de (meeste) studenten.
 
Een opdracht omvat een onderzoeksgedeelte. Bij het onderzoeksgedeelte is ‘het formuleren van goede onderzoeksvragen’ een beoordelingscriterium.
Het blijkt dat zestig procent van de studenten niet aan dit criterium voldoet (p-waarde 0.40). De lage
p-waarde is aanleiding voor nader onderzoek. Is de opdracht goed geformuleerd? Zijn de beoordelingscriteria bekend bij studenten? Hebben studenten voldoende kunnen oefenen met het formuleren van onderzoeksvragen? Is het criterium te hoog gegrepen in deze fase van de opleiding? Enzovoort.
 
Voorbeeld lage p-waarde bij de beoordeling van een opdracht
 
In de hoofdfase van een opleiding, waarbij studenten door de propedeuse zijn geselecteerd is een hoge p-waarde (0.80 of 0.90) de norm. Van studenten die geschikt zijn bevonden voor de opleiding mag verwacht worden dat ze allemaal het tentamen halen. Alleen te weinig inzet, persoonlijke omstandigheden of tekortkomingen in het onderwijs kunnen een oorzaak van een lagere p-waarde. In de propedeuse kan het tentamen ook de functie hebben om de geschiktheid van de student vast te stellen en kan bijvoorbeeld een norm van 0.70 worden gesteld.
 
Bij meerkeuzevragen kan gekeken worden naar de afleiders (de a-waarden). Bij andere toetsvormen kan dat niet. De a-waarden geven aan hoe vaak een afleider is gekozen. Als een afleider niet of nauwelijks is gekozen, dan is de kwaliteit daarvan waarschijnlijk onvoldoende.
 
opgave            p-waarde         O/D      frequentie alternatieven
                                               A          B          C          D
11                    0,75                 0          7          10        8          75*
12                    0,25                 10        23        27        26*      24
13                    0,27                 0          27*      0          45        28
14                    0,11                 6          71        11*      10        8
 
Het alternatief met een * is het goede antwoord. O/D is het percentage studenten dat meerdere alternatieven of geen alternatief heeft aangekruist.
Vraag 11 voldoet aan de ideale p-waarde voor een toets in de propedeuse. Alle alternatieven zijn door een kleine groep studenten gekozen, hetgeen betekent dat ze even plausibel waren.
 
De p-waarde van vraag 12 is laag. Dat de afleiders en het goede antwoord dezelfde waarde hebben kan duiden op gokgedrag. Deze indruk wordt versterkt door het feit dat 10% van de studenten meerdere alternatieven of geen alternatieven heeft aangekruist. Dit item is misschien te moeilijk of te verwarrend.
 
Bij vraag 13 kiezen veel meer studenten voor het foute antwoord C dan het goede antwoord A. Alternatief B is waarschijnlijk geen goede afleider, omdat geen enkele student deze heeft gekozen. Met dit item is duidelijk iets aan de hand.
Opgave 14 geeft een beeld dat waarschijnlijk makkelijk is te veranderen. Misschien is hier een fout gemaakt met de sleutel en is door een vergissing antwoord B als het goede antwoord aangegeven
 
Voorbeelden p-waarden en a-waarden bij een multipe choice toets
  
RIT - WAARDE
 
Naast de analyse van de p-waarden kan per item ook het onderscheiden vermogen (Rit) worden bekeken. Statistische maten als Rit en betrouwbaarheid zijn alleen betekenisvol bij voldoende grote aantallen studenten. Meestal wordt als norm meer dan vijftig studenten aangehouden.
 
Een vraag heeft een hoog onderscheidend vermogen (Rit meer dan 0.25) als studenten met een hoge score de vraag goed maken en de studenten met een lage score fout. Het item  differentieert tussen de goed presterende en minder goed presterende studenten.
 
Als studenten van alle niveaus hetzelfde scoren op een vraag dan is er geen onderscheidend vermogen (Rit is 0). Als laagscorende studenten de vraag goed hebben en hoogscorende studenten niet (Rit is negatief), dan is er waarschijnlijk iets aan de hand, zoals een foute sleutel of bij een open vraag of opdracht een onduidelijke formulering.  
 
Hoge(re) p-waarde, hoge Rit.
Makkelijk item, dat door een kleine groep laag scorende studenten fout is gemaakt.
Hoge(re) p-waarde, lage Rit.
Makkelijk item, dat geen onderscheid maakt tussen beter en minder goed presterende studenten.
Lage(re) p-waarde, hoge Rit.
Moeilijk item, dat alleen door de goed scorende studenten goed is gemaakt.
Lage(re) p-waarde, lage Rit.
Moeilijk item, dat geen onderscheid maakt tussen beter en minder goed presterende studenten.
Kwaliteit is voldoende.
Twijfel aan de kwaliteit.
 
Onderzoek van p-waarde en Rit per item 
 
ANALYSE VAN DE HET TENTAMEN ALS GEHEEL
 
Bij de analyse van het tentamen als geheel kan gekeken worden naar de volgende kengetallen:
 
1.    Percentage voldoendes
 
2.    Gemiddelde score van de 5% beste studenten
 
3.    Betrouwbaarheid (KR-20 of coëfficiënt alfa)
 
4.    Verschillen tussen beoordelaars
 
 
PERCENTAGE VOLDOENDES
Bij het percentage voldoendes speelt de vraag hoeveel (on)voldoendes normaal wordt gevonden. Volgens een lang geleden uitgevoerd onderzoek vinden docenten het aanvaardbaar dat driekwart van de studenten slaagt en een kwart van de studenten zakt (Posthumus, 1940). De veronderstelling daarbij is dat in iedere fase van de opleiding een deel van de studenten zich onvoldoende inspant of ongeschikt is. A.D. de Groot (1966) zet hierbij de nodige vraagtekens. Als studenten vanwege hun vooropleiding (bijvoorbeeld havo) of laatste examen (propedeuse) geschikt zijn bevonden voor de opleiding, dan zouden ze allemaal voor een tentamen moeten slagen. Het percentage onvoldoendes wordt veroorzaakt door studenten die zich onvoldoende hebben ingespannen en door tekortkomingen in het tentamen of in het onderwijs. In de propedeuse wijst een tentamen met meer dan 30% onvoldoendes op niet studentgerelateerd tekortkomingen in het tentamen of in het voorafgaande onderwijs. In de hoofdfase zou 90% van de studenten voor een tentamen moeten slagen.    
 
 
GEMIDDELDE SCORE VAN 5% BESTE STUDENTEN
Bij een goed tentamen moeten de beste studenten (bijna) alle vragen goed  hebben. Omdat de beste student een uitschieter kan zijn is de gemiddelde score van de 5% beste studenten een goede indicatie voor de kwaliteit van het tentamen. Als de beste studenten er niet in slagen (bijna) alle vragen goed te beantwoorden, dan is er waarschijnlijk een probleem met het tentamen of het onderwijs. De cesuurbepaling van Cohen-Schotanus, waarbij de gemiddelde score van de 5% beste studenten als referentiepunt wordt genomen,  corrigeert voor dit probleem.
 
Een tentamen bestaat uit 60 invulvragen. Alle vragen wegen even zwaar. De gemiddelde score van de 5% beste studenten is 54 goed antwoorden. De cesuur wordt gelegd bij 55% van 54, dat is 30 goede antwoorden.
 
Voorbeeld Cesuurbepaling Cohen Schotanus
 
BETROUWBAARHEID
De betrouwbaarheid van een tentamen geeft antwoord op de vraag in welke mate studenten bij twee gelijkwaardige tentamens hetzelfde zouden scoren. Een hoge betrouwbaarheid betekent dat het tentamen de werkelijke kennis en vaardigheid van de student goed heeft gemeten. De norm voor de betrouwbaarheid van een tentamen is afhankelijk van het doel van het tentamen. Als het tentamen bedoeld is om de geschiktheid van een student te bepalen is een betrouwbaarheid van 0.80 of hoger gewenst. Als toetsen onderdeel zijn van een conjunctieve examenregeling is dat het geval. Bij een conjunctieve examen- of tentamenregeling moet de student alle tentamens hebben gehaald om te slagen.
 
Bij een compensatorische examen- of tentamenregeling kan de student een onvoldoende voor één tentamen compenseren met een goed cijfer voor een ander tentamen. Als het gaat om formatieve toetsen, die het leren ondersteunen en stimuleren en de prestaties van studenten meten en van feedback te voorzien, dan is een betrouwbaarheid van 0.60 voldoende. 
 
Een betrouwbaarheid van 0.80 betekent dat 80% van de variantie van de scores kan toegeschreven worden aan de werkelijke verschillen tussen studenten en 20% van de variantie aan het toeval.  Er zijn een aantal kanttekeningen te plaatsen bij de betrouwbaarheid als kengetal voor de kwaliteit van een tentamen: 
  • De betrouwbaarheid is lager naarmate het tentamen heterogener is, dat wil zeggen verschillende soorten kennis en vaardigheden meet.
  • De betrouwbaarheid wordt lager naarmate de groep studenten homogener is, dat wil zeggen als de verschillen in niveau van studenten klein zijn. Dat is vast te stellen door het verschil in scores tussen de 5% beste en 5% slechtste studenten.
  • Het kengetal voor de betrouwbaarheid is de laagste ondergrens. In werkelijkheid kan de betrouwbaarheid hoger zijn. Als de betrouwbaarheid bijvoorbeeld 0.50 is, dan is tenminste 50% van de variantie tussen studenten toe te schrijven aan het tentamen, maar dit kan hoger zijn. Helaas is niet vast te stellen of dit het geval is.
  • De betrouwbaarheid wordt groter als het tentamen meer items omvat.
 
In de praktijk van het hoger onderwijs is de betrouwbaarheid van een tentamen zelden 0.80 of hoger. Een betrouwbaarheid  van 0.60 is waarschijnlijker. Bij het beoordelen van de kwaliteit van een tentamen is het belangrijk om te realiseren dat een deel van de studenten onterecht een onvoldoende (en onterecht een voldoende) heeft gehaald. Het percentage van deze misclassificaties wordt hoger naarmate de betrouwbaarheid lager is en is afhankelijk van de cesuur.  
 
De regel is dat hoe meer studenten een onvoldoende halen, hoe meer studenten een onterechte onvoldoende halen. Bijvoorbeeld: bij een betrouwbaarheid van 0.70 en een cesuur bij 70% geslaagde studenten is het percentage misclassificaties rond 20%. 
 
Onterechte onvoldoendes leiden tot onnodige studievertraging. Dit is ongewenst voor zowel de student als de opleiding. Bij de conjunctieve examen- of tentamenregelingen leidt dit tot een groot percentage onterecht ongeschikt bevonden studenten en (zeer) lage examenrendementen.
 
VERSCHILLEN TUSSEN BEOORDELAARS 
 
Bij de beoordeling van de resultaten van opdrachten, vaardigheidstoetsen, mondelinge toetsen, presentaties enz., zijn meestal meerdere examinatoren betrokken. Het is gewenst om te grote verschillen tussen examinatoren - met name rond de beslissing of een student is geslaagd of gezakt - te voorkomen. Door middel van het vergelijken van de beoordelingen van de examinatoren kan nagegaan worden of er geen te grote verschillen zijn.
 
MOGELIJKE MAATREGELEN
 
Op basis van de resultaten van een tentamen kunnen uiteenlopende maatregelen worden genomen. De meest ingrijpende beslissing is het ongeldig verklaren. Als een tentamen een oordeel moet geven over de geschiktheid van een student, dan dient deze van goede kwaliteit te zijn en tenminste een betrouwbaarheid te hebben van 0.80 of meer.  
 
Ook de afzonderlijke items moeten aan de kwaliteitsnorm voldoen.
 
Als het tentamen (net) niet voldoet aan de norm dan kan door middel van de keuze van een relatieve of gecombineerde methode van cesuurbepaling worden voorkomen dat te veel studenten een onterechte onvoldoende krijgen.  
 
Een andere maatregel is het schrappen van items die na analyse niet voldoen aan de kwaliteitsnorm. Het schrappen van items bergt het risico in zich dat de validiteit van het tentamen achteruit gaat omdat er als gevolg van het schrappen over bepaalde onderdelen van de leerstof geen of onvoldoende vragen worden gesteld.
 
Als het tentamen een onderdeel is van een programma van meerdere tentamens en er tussen toetsen compensatiemogelijkheden zijn, dan is de kwaliteit van het tentamen minder belangrijk dan de leer- en feedbackfunctie. Een lagere betrouwbaarheid is dan acceptabel, omdat studenten onterechte onvoldoendes kunnen compenseren met betere resultaten op een ander tentamen. Wel blijft het belangrijk om te kijken naar de kwaliteit van de individuele items.
 
Naast de maatregelen die direct genomen kunnen worden, zoals het afkeuren van het tentamen, de keuze voor een andere methode van cesuurbepaling en het schrappen van items, is het belangrijk om te werken aan de voortdurende verbetering van de tentamens door de resultaten van de analyse te bespreken met de voor het tentamen verantwoordelijke examinatoren.
 
Mogelijke aanpak van de evaluatie van de toetskwaliteit op basis van de resultaten
 
Het evalueren van de kwaliteit van het tentamen vergt het nodige werk. Multiple choice toetsen kunnen met een softwareprogramma als Sonate worden geanalyseerd. De analyse van tentamens met open vragen, resultaten van opdrachten, vaardigheidstoetsen, assessments enz. vragen een handmatige invoer van de toetsresultaten. Om de efficiëntie te vergoten kunnen tentamens in verschillende stappen worden geëvalueerd aan de hand van de volgende regels. Daarbij is het voorkomen van onterechte onvoldoendes, de cesuurbepaling,  het eerste doel. Het op goede manier differentiëren tussen studenten (geven van cijfers)  is het tweede doel. 
 
1.    Selecteer de tentamens met een (te) hoog percentage onvoldoendes (meer dan 30%).
 
2.    Pas bij deze tentamens, als gebruik is gemaakt van een absolute methode van cesuurbepaling, een andere methode van cesuurbepaling toe om het aantal onterechte onvoldoendes te verminderen.
 
3.    Selecteer de tentamens met een te lage betrouwbaarheid (bij compensatiemogelijkeden 0.60, anders 0.80).
 
4.    Ga na of er items van slechte kwaliteit in het tentamen zitten (lage p-waarde en lage Rit waarde).
 
5.    Onderzoek mogelijke oorzaken.
 
6.    Repareer eventuele fouten of verwijder items. 
 
7.    Controleer het effect van het schrappen van items op de betrouwbaarheid en het percentage onvoldoendes.
 
8.    Controleer of er te grote verschillen zijn tussen examinatoren bij de beoordeling van resultaten van opdrachten, vaardigheidstoetsen, assessments enz.
 
9.    Ga aan de hand van de Rit-waarden na welke items goed differentiëren tussen studenten en welke minder.
 

Laatst gewijzigd: 20 april 2017