La validità di contenuto è diversa dalla validità di faccia, che si riferisce non a ciò che il test effettivamente misura, ma a ciò che superficialmente sembra misurare. La validità facciale valuta se il test “sembra valido” agli esaminati che lo fanno, al personale amministrativo che ne decide l’uso, e ad altri osservatori tecnicamente non addestrati. La validità del contenuto richiede l’uso di esperti riconosciuti in materia per valutare se gli articoli del test valutano un contenuto definito e test statistici più rigorosi rispetto alla valutazione della validità visiva. La validità di contenuto è più spesso affrontata nei test accademici e professionali, dove i test devono riflettere la conoscenza effettivamente richiesta per una data area tematica (per esempio, la storia) o un’abilità lavorativa (per esempio, la contabilità). In ambito clinico, la validità del contenuto si riferisce alla corrispondenza tra gli item del test e il contenuto dei sintomi di una sindrome.
Un metodo ampiamente utilizzato per misurare la validità del contenuto è stato sviluppato da C. H. Lawshe. È essenzialmente un metodo per misurare l’accordo tra i valutatori o i giudici su quanto sia essenziale un particolare item. In un articolo riguardante i test pre-impiego, Lawshe (1975) ha proposto che ognuno dei valutatori esperti in materia (PMI) nel pannello di giudizio rispondesse alla seguente domanda per ogni item: “L’abilità o la conoscenza misurata da questo item è “essenziale”, “utile, ma non essenziale” o “non necessaria” per lo svolgimento del lavoro? Secondo Lawshe, se più della metà dei panelisti indica che un item è essenziale, quell’item ha almeno una certa validità di contenuto. Livelli maggiori di validità del contenuto esistono quando un numero maggiore di membri del panel è d’accordo che un particolare item è essenziale. Usando questi presupposti, Lawshe ha sviluppato una formula chiamata rapporto di validità del contenuto: C V R = ( n e – N / 2 ) / ( N / 2 ) {\displaystyle CVR=(n_{e}-N/2)/(N/2)}
dove C V R = {\displaystyle CVR=}
rapporto di validità del contenuto, n e = {displaystyle n_{e}=}
numero di panelisti PMI che indicano “essenziale”, N = {\displaystyle N=}
numero totale di panelisti PMI. Questa formula produce valori che vanno da +1 a -1; i valori positivi indicano che almeno la metà delle PMI ha valutato l’elemento come essenziale. Il CVR medio tra le voci può essere usato come indicatore della validità complessiva del contenuto del test.
Lawshe (1975) ha fornito una tabella di valori critici per il CVR con cui un valutatore di test potrebbe determinare, per un gruppo di PMI di una data dimensione, la dimensione di un CVR calcolato necessario per superare le aspettative del caso. Questa tabella era stata calcolata per Lawshe dal suo amico Lowell Schipper. Un attento esame di questa tabella pubblicata ha rivelato un’anomalia. Nella tabella di Schipper, il valore critico per il CVR aumenta monotonicamente dal caso di 40 PMI (valore minimo = .29) al caso di 9 PMI (valore minimo = .78) solo per cadere inaspettatamente al caso di 8 PMI (valore minimo = .75) prima di raggiungere il suo valore massimo al caso di 7 PMI (valore minimo = .99). Tuttavia, quando si applica la formula a 8 valutatori, il risultato di 7 Essential e 1 altro valutatore produce un CVR di .75. Se .75 non fosse il valore critico, allora sarebbero necessari 8 di 8 valutatori di Essential che produrrebbero un CVR di 1.00. In questo caso, per essere coerenti con l’ordine ascendente dei CVR il valore per 8 valutatori dovrebbe essere 1.00. Questo violerebbe lo stesso principio perché avreste il valore “perfetto” richiesto per 8 valutatori, ma non per le valutazioni con altri numeri di valutatori più alti o più bassi di 8 valutatori. Non è chiaro se questa deviazione dalla progressione altrimenti monotona della tabella sia dovuta a un errore di calcolo da parte di Schipper o a un errore di battitura o di impostazione del tipo. Wilson, Pan e Schumsky (2012), cercando di correggere l’errore, non hanno trovato alcuna spiegazione negli scritti di Lawshe né alcuna pubblicazione di Schipper che descriva come la tabella dei valori critici sia stata calcolata. Wilson e colleghi hanno determinato che i valori di Schipper erano approssimazioni vicine all’approssimazione normale della distribuzione binomiale. Confrontando i valori di Schipper con i nuovi valori binomiali calcolati, hanno anche scoperto che Lawshe e Schipper avevano erroneamente etichettato la loro tabella pubblicata come rappresentante un test a una coda, quando in realtà i valori rispecchiavano i valori binomiali per un test a due code. Wilson e colleghi hanno pubblicato un ricalcolo dei valori critici per il rapporto di validità del contenuto fornendo valori critici in passi unitari a livelli alfa multipli.
La tabella dei valori è la seguente:
N° di panelisti Min. Valore
5 .99 6 .99 7 .99 8 .75 9 .78 10 .62 11 .59 12 .56 20 .42 30 .33 40 .29 From:http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.460.9380&rep=rep1&type=pdf