Matemática

Identificando Outliers: Cerca Superior e Cerca Inferior

O que é um outlier?

Uma professora deu um teste em sua classe de estatística de nível avançado. As pontuações (em ordem numérica) foram:

20, 65, 72, 75, 77, 78, 80, 81, 82 e 83.

A Sra. Math descobriu que a média (média) das pontuações do teste foi de aproximadamente 71.

Isso a surpreendeu porque, como você pode ver, existem apenas duas pontuações em dez testes abaixo da média. A Sra. Matemática não achou apropriado usar uma média de 71 para avaliar seus alunos neste teste porque a grande maioria dos alunos na verdade teve uma pontuação mais alta do que a média.

Por que a média era tão pouco representativa das pontuações reais? A pontuação de 20 poderia ser um outlier distorcendo a média em uma direção negativa? Um outlier é qualquer pontuação que não se enquadre na faixa comum da maioria das pontuações em um conjunto de dados. Outliers são muito altos ou muito baixos para serem dados verdadeiramente representativos. Encontrar outliers é uma parte importante para garantir análises estatísticas justas de dados. Os valores discrepantes podem distorcer as avaliações estatísticas para cima ou para baixo, causando conclusões não representativas.

Quartis e intervalo interquartil

Para descobrir outliers, temos que encontrar o primeiro e o terceiro quartis do conjunto de dados e, em seguida, usá-los para encontrar o intervalo interquartil.

Quartis (Q) são os quartos de um conjunto de dados. Eles marcam cada segmento de 25% do conjunto de dados de forma que Q 1 seja o 25º percentil, Q 2 seja o 50º percentil, Q 3 seja o 75º percentil. Não há um quarto quartil, pois isso faria referência apenas a todo o conjunto.

Para encontrar os quartis de um conjunto de dados, você primeiro encontra a mediana do conjunto. Este é o segundo quartil, denotado como Q 2 .

Em seguida, você encontra a mediana da metade inferior e superior do conjunto de dados (itens abaixo e acima do segundo quartil).

Lembre-se de que a mediana é simplesmente o meio do conjunto. Para conjuntos de números pares, apenas encontre a média dos dois números do meio para obter a mediana.

Aqui estão os quartis para o conjunto de dados de pontuação do teste da Sra. Math:

Quartil

Para encontrar o intervalo interquartil e as cercas superior e inferior, precisamos apenas de Q 1 = 72 e Q 3 = 81.

O intervalo interquartil (IQR) é o intervalo entre o primeiro e o terceiro quartis de um conjunto. Para encontrá-lo, basta subtrair Q 1 de Q 3 .

Q 3 – Q 1 = 81 – 72 = 9.

IQR = 9.

Cerca superior e inferior

Agora que identificamos o marcador do primeiro quartil (72) e o marcador do terceiro quartil (81), e o IQR (9), podemos finalmente encontrar as cercas superior e inferior do conjunto de dados, ou seja, os limites de um dado conjunto além do qual quaisquer pontuações devem ser tratadas como outliers.

Para encontrar a cerca superior, adicione uma vez e meia o intervalo interquartil ao terceiro quartil.

Q 3 + 1.5 IQR, o que simplifica para. . .

81 + (1,5 * 9), que simplifica para. . .

81 + 13,5 = 94,5

Assim, a cerca superior é 94,5 e quaisquer pontuações superiores a esta devem ser consideradas outliers.

Para encontrar a cerca inferior, basta subtrair 1,5 vezes o interquartil do primeiro quartil.

Q 1 – 1,5 IQR, o que simplifica para. . .

72 – (1,5 * 9), o que simplifica para. . .

72 – 13,5 = 58,5

Portanto, qualquer pontuação no conjunto de dados inferior a 58,5 deve ser vista como um valor atípico e não deve ser usada na avaliação estatística do conjunto de dados.

Calculando outliers

Você pode ver neste visual que a pontuação do teste de 20 está abaixo da cerca inferior e é um valor atípico para este conjunto de dados. Não há outliers da cerca superior neste conjunto de dados.

Quartil 2

Em uma situação como essa, a professora matemática provavelmente recalcularia a média da turma, deixando de fora a pontuação baixa atípica de 20. Uma média de 77 (a média ao ignorar a pontuação mais baixa) é muito mais representativa do desempenho total da turma neste teste.

Mais um exemplo

A Sra. Matemática deu outro teste para sua classe. As pontuações dos alunos foram:

25, 55, 60, 70, 70, 71, 72, 88, 89 e 99.

Há alguma discrepância neste conjunto de pontuações? Vejamos os quartis e o intervalo interquartil:

  • A mediana do conjunto é 70,5.
  • Q 1 = 60
  • Q 3 = 88
  • IQR = 88 – 60 = 28

Agora vamos olhar para a cerca superior e inferior:

  • Cerca Superior = Q 3 + 1,5 IQR = 88 + (1,5 * 28) = 130
  • Cerca inferior = Q 1 – 1,5 IQR = 60 – (1,5 * 28) = 18

Não há pontuações abaixo ou acima das cercas para este conjunto de dados; portanto, não há outliers.

Resumo da lição

Tudo bem, vamos parar um momento para revisar o que aprendemos. Outliers são itens em um conjunto de dados que estão bem acima ou abaixo da maioria das pontuações do conjunto. Os valores discrepantes podem distorcer os resultados estatísticos, fornecendo uma imagem não representativa dos dados. Para identificar outliers, os limites superior e inferior podem ser usados ​​para definir os limites de um conjunto de dados além do qual quaisquer pontuações devem ser tratadas como outliers.

Para encontrar as cercas, os quartis (Q) são os quartos de um conjunto de dados e devem ser encontrados, levando ao intervalo interquartil (IQR), que é o intervalo entre o primeiro e o terceiro quartis de um conjunto. A fórmula para a cerca superior é Q 3 + 1,5 IQR, e a fórmula para a cerca inferior é Q 1 – 1,5 IQR.