Validade do conteúdo é diferente da validade facial, que se refere não ao que o teste mede realmente, mas ao que parece medir superficialmente. A validade facial avalia se o teste “parece válido” para os examinadores que o tomam, o pessoal administrativo que decide sobre a sua utilização, e outros observadores tecnicamente não treinados. A validade do conteúdo requer a utilização de peritos reconhecidos na matéria para avaliar se os itens do teste avaliam conteúdo definido e testes estatísticos mais rigorosos do que a avaliação da validade facial. A validade do conteúdo é mais frequentemente abordada em testes académicos e profissionais, onde os itens de teste precisam de reflectir os conhecimentos realmente necessários para uma determinada área temática (por exemplo, história) ou perícia profissional (por exemplo, contabilidade). Em contextos clínicos, a validade do conteúdo refere-se à correspondência entre os itens do teste e o conteúdo dos sintomas de uma síndrome.
p>Um método amplamente utilizado para medir a validade do conteúdo foi desenvolvido por C. H. Lawshe. É essencialmente um método para aferir a concordância entre os avaliadores ou juízes relativamente ao quão essencial é um determinado item. Num artigo sobre testes pré-emprego, Lawshe (1975) propôs que cada um dos avaliadores especializados no assunto (PMEs) do júri respondesse à seguinte pergunta para cada item: “A competência ou conhecimento medido por este artigo é ‘essencial’, ‘útil, mas não essencial’, ou ‘não necessário’ para o desempenho do trabalho”? De acordo com a Lawshe, se mais de metade dos membros do painel indicar que um item é essencial, esse item tem pelo menos alguma validade de conteúdo. Existem maiores níveis de validade de conteúdo, uma vez que um maior número de membros do painel concordam que um determinado item é essencial. Utilizando estes pressupostos, Lawshe desenvolveu uma fórmula denominada rácio de validade do conteúdo: C V R = ( n e – N / 2 ) / ( N / 2 ) {\i1}displaystyle CVR=(n_{e}-N/2)/(N/2)}
onde C V R = {\displaystyle CVR=}
rácio de validade do conteúdo, n e = {\displaystyle n_{e}=}
número de painelistas de PMEs indicando “essencial”, N = {\displaystyle N=}
número total de painelistas de PMEs. Esta fórmula produz valores que vão de +1 a -1; valores positivos indicam que pelo menos metade das PMEs classificaram o item como essencial. O CVR médio entre itens pode ser utilizado como um indicador da validade global do conteúdo do teste.
Lawshe (1975) forneceu uma tabela de valores críticos para o CVR através da qual um avaliador de testes poderia determinar, para um conjunto de PMEs de uma determinada dimensão, a dimensão de um CVR calculado necessário para exceder as expectativas de probabilidade. Esta tabela tinha sido calculada para Lawshe pelo seu amigo, Lowell Schipper. O exame atento desta tabela publicada revelou uma anomalia. Na tabela de Schipper, o valor crítico para o CVR aumenta monotonicamente do caso de 40 PME (valor mínimo = .29) para o caso de 9 PME (valor mínimo = .78) apenas para cair inesperadamente no caso de 8 PME (valor mínimo = .75) antes de atingir o seu valor máximo no caso de 7 PME (valor mínimo = .99). No entanto, ao aplicar a fórmula a 8 avaliadores, o resultado de 7 Essential e 1 outra avaliação produz um CVR de .75. Se .75 não fosse o valor crítico, então seriam necessários 8 de 8 avaliadores de Essencial que produziriam um CVR de 1,00. Nesse caso, para ser consistente com a ordem ascendente dos CVRs, o valor para 8 avaliadores teria de ser de 1,00. Isso violaria o mesmo princípio, pois teria o valor “perfeito” exigido para 8 avaliadores, mas não para classificações em outros números de avaliadores com valores superiores ou inferiores a 8 avaliadores. Se este desvio da progressão monotónica da tabela foi devido a um erro de cálculo da parte de Schipper ou a um erro de dactilografia ou de definição do tipo, não é claro. Wilson, Pan, e Schumsky (2012), procurando corrigir o erro, não encontraram qualquer explicação nos escritos de Lawshe nem em quaisquer publicações de Schipper descrevendo como a tabela de valores críticos foi calculada. Wilson e colegas determinaram que os valores de Schipper eram aproximações próximas da aproximação normal à distribuição binomial. Ao comparar os valores de Schipper com os valores binomiais recentemente calculados, descobriram também que Lawshe e Schipper tinham rotulado erroneamente a sua tabela publicada como representando um teste de uma cauda quando de facto os valores espelhavam os valores binomiais para um teste de duas caudas. Wilson e colegas publicaram um recálculo dos valores críticos para a razão de validade do conteúdo, fornecendo valores críticos em etapas unitárias a vários níveis alfa.
A tabela de valores é a seguinte:
N° de Panelists Min. Valor
5 .99 6 .99 7 .99 8 .75 9 .78 10 .62 11 .59 12 .56 20 .42 30 .33 40 .29 From:http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.460.9380&rep=rep1&type=pdf