Ważność merytoryczna różni się od ważności twarzą w twarz, która odnosi się nie do tego, co test faktycznie mierzy, ale do tego, co pozornie wydaje się mierzyć. Trafność bezpośrednia ocenia, czy test „wygląda na trafny” dla przystępujących do niego egzaminowanych, personelu administracyjnego, który decyduje o jego użyciu, oraz innych technicznie nieprzeszkolonych obserwatorów. Trafność merytoryczna wymaga wykorzystania uznanych ekspertów w danej dziedzinie do oceny, czy pozycje testowe oceniają określone treści oraz bardziej rygorystycznych testów statystycznych niż w przypadku oceny trafności bezpośredniej. Trafność merytoryczna jest najczęściej rozpatrywana w testach akademickich i zawodowych, gdzie pozycje testowe muszą odzwierciedlać wiedzę rzeczywiście wymaganą dla danego obszaru tematycznego (np. historia) lub umiejętności zawodowych (np. księgowość). W warunkach klinicznych, trafność treściowa odnosi się do zgodności pomiędzy pozycjami testowymi a treścią symptomów zespołu chorobowego.
Jedna z szeroko stosowanych metod pomiaru trafności treściowej została opracowana przez C.H. Lawshe’a. Jest to zasadniczo metoda pomiaru zgodności między osobami oceniającymi lub sędziami co do tego, jak istotna jest dana pozycja. W artykule dotyczącym testów przed zatrudnieniem, Lawshe (1975) zaproponował, aby każdy z oceniających ekspertów przedmiotowych (SME) w panelu sędziowskim odpowiedział na następujące pytanie dla każdej pozycji: „Czy umiejętność lub wiedza mierzona przez tę pozycję jest „niezbędna”, „przydatna, ale nie niezbędna” lub „nie jest niezbędna” do wykonywania pracy?”. Według Lawshe’a, jeśli ponad połowa panelistów wskaże, że dana pozycja jest niezbędna, pozycja ta ma przynajmniej pewną trafność merytoryczną. Wyższy poziom trafności merytorycznej występuje, gdy większa liczba panelistów zgadza się, że dany element jest niezbędny. Korzystając z tych założeń, Lawshe opracował formułę zwaną współczynnikiem trafności merytorycznej: C V R = ( n e – N / 2 ) / ( N / 2 ) {{displaystyle CVR=(n_{e}-N/2)/(N/2)}
gdzie C V R = {displaystyle CVR=}
content validity ratio, n e = {displaystyle n_{e}=}
liczba panelistów MŚP wskazujących na „istotność”, N = {displaystyle N=}
całkowita liczba panelistów MŚP. Wzór ten daje wartości z zakresu od +1 do -1; wartości dodatnie wskazują, że co najmniej połowa MŚP oceniła daną pozycję jako istotną. Średnia CVR dla wszystkich pozycji może być użyta jako wskaźnik ogólnej ważności treści testu.
Lawshe (1975) przedstawił tabelę wartości krytycznych dla CVR, za pomocą której ewaluator testu mógł określić, dla puli MŚP o danej wielkości, wielkość obliczonego CVR niezbędną do przekroczenia oczekiwań przypadkowych. Tabela ta została obliczona dla Lawshe’a przez jego przyjaciela, Lowella Schippera. Dokładne zbadanie tej opublikowanej tabeli ujawniło anomalię. W tabeli Schippera, wartość krytyczna CVR wzrasta monotonicznie od przypadku 40 MSP (wartość minimalna = .29) do przypadku 9 MSP (wartość minimalna = .78) tylko po to, aby nieoczekiwanie spaść w przypadku 8 MSP (wartość minimalna = .75) przed osiągnięciem wartości granicznej w przypadku 7 MSP (wartość minimalna = .99). Jednakże, przy zastosowaniu formuły do 8 oceniających, wynik z 7 ocen zasadniczych i 1 innej oceny daje CVR równy .75. Jeśli .75 nie jest wartością krytyczną, wówczas potrzebnych byłoby 8 z 8 oceniających Essential, co dałoby CVR równe 1.00. W tym przypadku, aby być w zgodzie z rosnącą kolejnością CVR, wartość dla 8 oceniających musiałaby wynosić 1.00. To naruszyłoby tę samą zasadę, ponieważ miałbyś „doskonałą” wartość wymaganą dla 8 oceniających, ale nie dla ocen przy innych liczbach oceniających, zarówno wyższych jak i niższych niż 8 oceniających. Nie jest jasne, czy to odstępstwo od monotonicznej progresji tabeli było spowodowane błędem obliczeniowym ze strony Schippera, czy też błędem w pisowni lub ustawieniu czcionki. Wilson, Pan i Schumsky (2012), starając się skorygować ten błąd, nie znaleźli żadnego wyjaśnienia w pismach Lawshe’a ani w żadnych publikacjach Schippera opisujących, w jaki sposób obliczono tabelę wartości krytycznych. Wilson i współpracownicy ustalili, że wartości Schippera były bliskimi przybliżeniami do normalnego przybliżenia rozkładu dwumianowego. Porównując wartości Schippera z nowo obliczonymi wartościami dwumianowymi, stwierdzili również, że Lawshe i Schipper błędnie oznaczyli opublikowaną przez siebie tabelę jako reprezentującą test jednoogonowy, podczas gdy w rzeczywistości wartości te odzwierciedlały wartości dwumianowe dla testu dwuogonowego. Wilson i współpracownicy opublikowali ponowne wyliczenie wartości krytycznych dla współczynnika ważności treści, podając wartości krytyczne w krokach jednostkowych na wielu poziomach alfa.
Tabela wartości jest następująca:
Liczba panelistów Min. Wartość
5 .99 6 .99 7 .99 8 .75 9 .78 10 .62 11 .59 12 .56 20 .42 30 .33 40 .29 From:http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.460.9380&rep=rep1&type=pdf