La validez de contenido es diferente de la validez facial, que no se refiere a lo que el test mide realmente, sino a lo que parece medir superficialmente. La validez facial evalúa si el test «parece válido» para los examinados que lo realizan, el personal administrativo que decide su uso y otros observadores sin formación técnica. La validez de contenido requiere el uso de expertos reconocidos en la materia para evaluar si los ítems del test evalúan contenidos definidos y pruebas estadísticas más rigurosas que la evaluación de la validez facial. La validez de contenido se aborda con mayor frecuencia en las pruebas académicas y profesionales, en las que los ítems del test deben reflejar los conocimientos realmente necesarios para un área temática determinada (por ejemplo, historia) o una habilidad laboral (por ejemplo, contabilidad). En el ámbito clínico, la validez de contenido se refiere a la correspondencia entre los ítems del test y el contenido sintomático de un síndrome.
Un método muy utilizado para medir la validez de contenido fue desarrollado por C. H. Lawshe. Se trata esencialmente de un método para medir el acuerdo entre calificadores o jueces respecto a lo esencial que es un ítem en particular. En un artículo sobre las pruebas de preempleo, Lawshe (1975) propuso que cada uno de los calificadores expertos en la materia (PYMES) del panel de jueces respondiera a la siguiente pregunta para cada ítem: «¿La habilidad o el conocimiento medido por este ítem es ‘esencial’, ‘útil, pero no esencial’ o ‘no necesario’ para el desempeño del trabajo?» Según Lawshe, si más de la mitad de los panelistas indican que un ítem es esencial, ese ítem tiene al menos cierta validez de contenido. Los niveles de validez de contenido son mayores cuanto mayor es el número de panelistas que están de acuerdo en que un elemento concreto es esencial. Partiendo de estos supuestos, Lawshe desarrolló una fórmula denominada ratio de validez de contenido: C V R = ( n e – N / 2 ) / ( N / 2 ) {\displaystyle CVR=(n_{e}-N/2)/(N/2)}
donde C V R = {\displaystyle CVR=}
ratio de validez del contenido, n e = {\displaystyle n_{e}=}
número total de panelistas PYME. Esta fórmula produce valores que van de +1 a -1; los valores positivos indican que al menos la mitad de las PYMES calificaron el artículo como esencial. La media del CVR en todos los ítems puede utilizarse como indicador de la validez general del contenido del test.
Lawshe (1975) proporcionó una tabla de valores críticos para el CVR mediante la cual un evaluador de pruebas podía determinar, para un grupo de PYME de un tamaño determinado, el tamaño de un CVR calculado necesario para superar la expectativa de azar. Esta tabla había sido calculada para Lawshe por su amigo Lowell Schipper. Un examen minucioso de esta tabla publicada reveló una anomalía. En la tabla de Schipper, el valor crítico del CVR aumenta monótonamente desde el caso de 40 PYMES (valor mínimo = 0,29) hasta el caso de 9 PYMES (valor mínimo = 0,78), para caer inesperadamente en el caso de 8 PYMES (valor mínimo = 0,75) antes de alcanzar su valor máximo en el caso de 7 PYMES (valor mínimo = 0,99). Sin embargo, al aplicar la fórmula a 8 calificadores, el resultado de 7 Essential y 1 otra calificación arroja un CVR de 0,75. Si 0,75 no fuera el valor crítico, se necesitarían 8 de 8 calificadores de Essential que darían un CVR de 1,00. En ese caso, para ser coherente con el orden ascendente de los CVR, el valor de 8 calificadores tendría que ser 1,00. Esto violaría el mismo principio porque se tendría el valor «perfecto» requerido para 8 calificadores, pero no para las calificaciones de otros números de calificadores, ya sean superiores o inferiores a 8 calificadores. No está claro si esta desviación de la progresión monótona de la tabla se debe a un error de cálculo por parte de Schipper o a un error de escritura o de configuración del tipo. Wilson, Pan y Schumsky (2012), tratando de corregir el error, no encontraron ninguna explicación en los escritos de Lawshe ni ninguna publicación de Schipper que describiera cómo se calculó la tabla de valores críticos. Wilson y sus colegas determinaron que los valores de Schipper eran aproximaciones cercanas a la aproximación normal de la distribución binomial. Al comparar los valores de Schipper con los valores binomiales recién calculados, también descubrieron que Lawshe y Schipper habían etiquetado erróneamente su tabla publicada como si representara una prueba de una cola, cuando en realidad los valores reflejaban los valores binomiales de una prueba de dos colas. Wilson y sus colegas publicaron un nuevo cálculo de los valores críticos para la relación de validez del contenido proporcionando valores críticos en pasos unitarios a múltiples niveles de alfa.
La tabla de valores es la siguiente:
N° de panelistas Min. Valor
5 .99 6 .99 7 .99 8 .75 9 .78 10 .62 11 .59 12 .56 20 .42 30 .33 40 .29 From:http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.460.9380&rep=rep1&type=pdf