Inhoudsvaliditeit is iets anders dan gezichtsvaliditeit, die niet betrekking heeft op wat de test werkelijk meet, maar op wat hij oppervlakkig gezien lijkt te meten. Gezichtsvaliditeit beoordeelt of de test “geldig lijkt” voor de examinandi die hem afleggen, het administratieve personeel dat beslist over het gebruik ervan, en andere technisch ongetrainde waarnemers. Inhoudelijke validiteit vereist het gebruik van erkende deskundigen om te beoordelen of testonderdelen een bepaalde inhoud beoordelen en meer rigoureuze statistische tests dan de beoordeling van de face validiteit. Inhoudsvaliditeit komt het vaakst aan de orde bij academische en beroepsgerichte tests, waar de testonderdelen de kennis moeten weerspiegelen die daadwerkelijk vereist is voor een bepaald vakgebied (bv. geschiedenis) of een bepaalde beroepsvaardigheid (bv. boekhouden). In klinische settings verwijst inhoudsvaliditeit naar de overeenkomst tussen testonderdelen en de symptoominhoud van een syndroom.
Een veelgebruikte methode om inhoudsvaliditeit te meten werd ontwikkeld door C.H. Lawshe. Het is in wezen een methode om de overeenstemming te meten tussen beoordelaars of beoordelaars over hoe essentieel een bepaald item is. In een artikel over pre-employment testing, stelde Lawshe (1975) voor dat elk van de subject matter expert raters (KMO’s) in het beoordelingspanel voor elk item de volgende vraag beantwoorden: “Is de vaardigheid of kennis gemeten door dit item ‘essentieel,’ ‘nuttig, maar niet essentieel,’ of ‘niet noodzakelijk’ voor de uitvoering van de functie?” Volgens Lawshe, als meer dan de helft van de panelleden aangeeft dat een item essentieel is, heeft dat item op zijn minst enige inhoudsvaliditeit. Er is sprake van een grotere inhoudsvaliditeit naarmate meer panelleden het erover eens zijn dat een bepaald item essentieel is. Op basis van deze aannames ontwikkelde Lawshe een formule die de inhoudsvaliditeitsratio wordt genoemd: C V R = ( n e – N / 2 ) / ( N / 2 ) {\displaystyle CVR=(n_{e}-N/2)/(N/2)}
waarbij C V R = {\displaystyle CVR=}
inhoudsvaliditeitsratio, n e = {\displaystyle n_{e}=}
aantal mkb-panelleden dat “essentieel” aangeeft, N = {{displaystyle N=}
totaal aantal panelleden uit het MKB. Deze formule levert waarden op die variëren van +1 tot -1; positieve waarden geven aan dat ten minste de helft van de MKB-bedrijven het item als essentieel beoordeelde. De gemiddelde CVR over alle items kan worden gebruikt als een indicator voor de algemene inhoudsvaliditeit van de test. awshe (1975) heeft een tabel met kritische waarden voor de CVR opgesteld, aan de hand waarvan de beoordelaar voor een groep KMO’s van een bepaalde omvang kan bepalen hoe groot de berekende CVR moet zijn om de toevalsverwachting te overtreffen. Deze tabel was voor Lawshe berekend door zijn vriend, Lowell Schipper. Nader onderzoek van deze gepubliceerde tabel bracht een anomalie aan het licht. In de tabel van Schipper stijgt de kritische waarde voor de CVR monotoon van het geval van 40 KMO’s (minimumwaarde = .29) tot het geval van 9 KMO’s (minimumwaarde = .78) om dan onverwacht te dalen bij 8 KMO’s (minimumwaarde = .75) alvorens bij 7 KMO’s (minimumwaarde = .99) zijn plafondwaarde te bereiken. Wanneer de formule echter wordt toegepast op 8 beoordelaars, levert het resultaat van 7 essentiële en 1 andere beoordeling een CVR van .75 op. Als .75 niet de kritische waarde was, dan zouden 8 van de 8 beoordelaars van Essentials nodig zijn om een CVR van 1,00 te krijgen. In dat geval zou, om consistent te zijn met de oplopende volgorde van CVR’s, de waarde voor 8 beoordelaars 1,00 moeten zijn. Dat zou in strijd zijn met hetzelfde principe omdat u dan de “perfecte” waarde zou hebben die vereist is voor 8 beoordelaars, maar niet voor beoordelingen bij andere aantallen beoordelaars, hoger of lager dan 8 beoordelaars. Of deze afwijking van de verder monotone progressie van de tabel te wijten was aan een rekenfout van Schipper of aan een typefout of type-instelling is onduidelijk. Wilson, Pan en Schumsky (2012), die de fout wilden herstellen, vonden geen verklaring in de geschriften van Lawshe, noch in publicaties van Schipper waarin werd beschreven hoe de tabel met kritische waarden was berekend. Wilson en collega’s stelden vast dat de Schipper-waarden dicht aanleunden bij de normale benadering van de binomiale verdeling. Door de waarden van Schipper te vergelijken met de nieuw berekende binomiale waarden ontdekten zij ook dat Lawshe en Schipper hun gepubliceerde tabel abusievelijk hadden aangeduid als een eenstaartstoets, terwijl de waarden in feite overeenkwamen met de binomiale waarden voor een tweestaartstoets. Wilson en collega’s publiceerden een herberekening van de kritische waarden voor de inhoudsvaliditeitsratio met kritische waarden in stappen van een eenheid op meerdere alfa-niveaus.
De tabel met waarden is de volgende:
N° panelleden Min. Waarde
5 .99 6 .99 7 .99 8 .75 9 .78 10 .62 11 .59 12 .56 20 .42 30 .33 40 .29 From:http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.460.9380&rep=rep1&type=pdf