Teste de Chauvenet

Gaussiana de Chauvenet

O teste de Chauvenet (ou critério de Chauvenet) permite determinar se um valor amostral (resultante de uma medida) é discrepante (ou, no termo em inglês, outlier) em relação aos demais valores restantes da amostra, supondo-se que esta amostra é retirada de uma distribuição normal.[1]

Havendo n {\displaystyle n} medidas : x 1 {\displaystyle x_{1}} , x 2 {\displaystyle x_{2}} {\displaystyle \ldots } x n {\displaystyle x_{n}}

e tendo,

  • como valor médio : x ¯ {\displaystyle {\bar {x}}}
  • como desvio-padrão : σ x {\displaystyle \sigma _{x}}
  • e como valor "suspeito" : x s {\displaystyle x_{s}} ,

a probabilidade de existir um valor que se afaste de mais do que | x s x ¯ | {\displaystyle \vert x_{s}-{\bar {x}}\vert } em relação à média é:

P ( | X x ¯ | | x s x ¯ | ) {\displaystyle P(\vert X-{\bar {x}}\vert \geq \vert x_{s}-{\bar {x}}\vert )}

Com base numa lei de distribuição (distribuição normal), obtém-se o número de medida:

n A = n P ( | X x ¯ | | x s x ¯ | ) {\displaystyle n_{A}=n\cdot P(\vert X-{\bar {x}}\vert \geq \vert x_{s}-{\bar {x}}\vert )}

Se este número for inferior a 0,5, pode-se considerar x s {\displaystyle x_{s}} como valor aberrante (e eliminá-lo).

É necessário garantir que a aplicação deste teste não elimina demasiados valores da amostra.

Exemplo: lendo os valores 9, 10, 10, 10, 11, e 50, a média amostral é 16,7 e o desvio padrão 16,34.

50 difere de 16,7 em 33,3, o que é pouco mais que a média mais dois desvios padrão. A probabilidade de extrair valores nesta região (mais que média mais duas vezes o desvio padrão) consulta-se numa tabela, e é cerca de 0,05.

Com seis valores medidos, a estatística dá 6 × 0,05 = 0,3. Como 0,3 < 0,5, de acordo com o teste de Chauvenet, o valor de 50 deverá ser removido (passando a nova média amostra a ser de 10, e o desvio padrão de 0,7).

Aplicação prática em planilhas eletrônicas

O exemplo acima pode ser reproduzido em uma planilha eletrônica Excel da seguinte maneira:

Valor da Amostra (x) z-score (z) Distribuição normal padrão (N) índice
Fórmula = (x - μ) / σ = DIST.NORMP.N(z;FALSO) = N*n
9 -0,4691 0,3574 2,1442
10 -0,4079 0,3671 2,2025
10 -0,4079 0,3671 2,2025
10 -0,4079 0,3671 2,2025
11 -0,3468 0,3757 2,2540
50 2,0397 0,0498 0,2990
Nº de Amostras (n) 6
Média (μ) 16,667
Desvio Padrão* (σ) 16,342
Média Final (μf) 10,000
Desvio Padrão Final (σf) 0,707

* No exemplo citado, o cálculo de desvio padrão foi amostral (função DESVPAD.A). Por se tratar de um cálculo feito a partir de todas os valores disponíveis (o número de amostras é igual ao número da população), deveria ter sido aplicada a função DESVPAD.P, que retornaria 14,918 em vez de 16,342. O resultado continuaria excluindo o valor 50.

Referências

  1. Análise da variabilidade espacial de pontos amostrais da curva de retenção da água no solo, na Revista Brasileira de Ciência do Solo
Ícone de esboço Este artigo sobre matemática é um esboço. Você pode ajudar a Wikipédia expandindo-o.
  • v
  • d
  • e