Biología

Distribuição em conjuntos de dados: definição e exemplo

A propagação em conjuntos de dados

Tabatha é a diretora de teatro da comunidade local. Ela está montando folhas de teste para as peças da próxima temporada. Ela está preparando testes para duas peças. Um é chamado Wonky Willy: The Candy Maker , um musical sobre um misterioso fabricante de doces que cria um concurso para crianças e seus pais visitarem sua misteriosa fábrica de doces. Para esta peça, Tabatha precisará de um elenco com atores de várias categorias de idade. Tabatha conhece as idades médias para a brincadeira, mas como algumas das idades são tão diferentes, ela precisa de uma maneira melhor de identificar as variações nas categorias de idade.

Tabatha pode fazer isso observando a dispersão no conjunto de dados. A dispersão dos dados é a medida de quão longe os números em um conjunto de dados estão da média ou mediana. Podemos calcular o spread de várias maneiras, usando diferentes métodos conhecidos como medidas de spread.

Tabatha pega discos antigos da última vez que seu teatro apresentou Wonky Willy . Ela escreveu todas as idades dos atores para nós: 12, 64, 11, 42, 9, 57, 13, 38, 12, 47, 43, 29, 36.

Tabatha pode nos dizer que a média desse conjunto de dados é de aproximadamente 31,7 e a mediana é de aproximadamente 36. No entanto, ela não pode anunciar que precisa de atores entre 32 e 36 anos – isso seria impreciso. Existem três métodos que Tabatha pode usar para encontrar a dispersão em seus dados: intervalo, intervalo interquartil e variância.

Alcance

A maneira mais simples de encontrar a dispersão em um conjunto de dados é identificar o intervalo , que é a diferença entre os valores mais altos e mais baixos em um conjunto de dados. Vamos organizar as idades da última produção da menor para a maior: 9, 11, 12, 12, 13, 29, 36, 38, 42, 43, 47, 57, 64.

Agora pegue o número mais baixo e o número mais alto e encontre a diferença: 64 – 9 = 55. Há uma distribuição de 55 anos nas idades para esta produção. O intervalo é provavelmente a melhor medida de dispersão para esses dados. Tabatha pode anunciar que está procurando atores com idades entre 9 e 64 anos para esta produção. Vejamos outras maneiras pelas quais Tabatha pode encontrar a disseminação em seus dados.

Intervalo Interquartil

O intervalo interquartil é um valor que é a diferença entre o valor do quartil superior e o valor do quartil inferior. Para este método, teremos que encontrar cada quartil no conjunto de dados. Para encontrar os quartis, siga estas etapas:

  1. Ordene os dados do menor para o maior.
  2. Encontre a mediana do conjunto de dados e divida o conjunto de dados em duas metades.
  3. Encontre a mediana das duas metades.

Para uma análise mais aprofundada dos quartis, confira nossa lição sobre ‘Quartis e intervalo interquartil.’

Nossa mediana é 36, que é o quartil dois. Para cada metade do conjunto de dados, devemos encontrar a mediana, a mediana para o quartil um (a metade inferior do conjunto de dados) é 12 e a mediana para o quartil três (a metade superior do conjunto de dados) é 45.

Para encontrar o intervalo interquartil, simplesmente pegue o quartil superior e subtraia o quartil inferior: 45 – 12 = 33. O intervalo interquartil é 33. Isso significa que a maioria das idades neste conjunto de dados estão dentro de 33 anos uma da outra. Embora esta informação possa não dar a Tabatha a faixa etária específica que ela está procurando, pode ajudá-la a entender a variedade de idades que ela está procurando nesta produção.

Variância

Agora vamos examinar a variação neste conjunto de dados. A variância é o quanto um conjunto de números está espalhado. Para encontrar a variação, siga estas etapas:

  1. Encontre a média do conjunto de dados.
  2. Subtraia cada número da média.
  3. Quadrar o resultado.
  4. Some os números.
  5. Divida o resultado pelo número total de números no conjunto de dados.

Dê uma olhada no gráfico abaixo para encontrar a variação neste conjunto de dados:

Gráfico de exemplo

A primeira coluna contém todos os números do conjunto de dados, a segunda coluna mostra a média do conjunto de dados. Nas próximas colunas, pegamos os resultados da coluna número dois e elevamos ao quadrado cada número. Na quarta coluna, pegamos cada número da coluna três e os somamos, e na quinta e última coluna, dividimos o número da coluna quatro pelo número total de valores do conjunto de dados, que é 13. Nossa variação desse conjunto de dados é 329,72.

Quando você está analisando a variação de um conjunto de dados, quanto maior a variação, maior a dispersão. O número 329,72 nos diz que os dados têm uma grande dispersão e que os números são muito diferentes da média. Para obter mais informações sobre variância, consulte nossa lição sobre ‘População e Variância da Amostra’.

Você também pode usar o desvio padrão para encontrar a dispersão em um conjunto de dados. Para simplificar, o desvio padrão é a raiz quadrada da variância. Portanto, o desvio padrão deste conjunto de dados é de aproximadamente 18,15. Para ver esse conceito em profundidade, verifique nossa lição ‘Desvio padrão e mudanças na média’.

Resumo da lição

A dispersão dos dados é a medida de quão longe os números em um conjunto de dados estão da média ou mediana. A dispersão dos dados pode nos mostrar quanta variação existe nos valores do conjunto de dados. É útil para identificar se os valores no conjunto de dados estão relativamente próximos ou separados. Existem três métodos que você pode usar para encontrar a dispersão em um conjunto de dados: intervalo, intervalo interquartil e variância.

Intervalo é a diferença entre os valores mais altos e mais baixos em um conjunto de dados. Você pode encontrar o intervalo pegando o menor número no conjunto de dados e o maior número no conjunto de dados e subtraindo-os. Foi assim que Tabatha encontrou a faixa etária dos atores de que precisava para sua peça.

Você também pode encontrar a dispersão no conjunto de dados usando o intervalo interquartil , que é um valor que é a diferença entre o valor do quartil superior e o valor do quartil inferior. Para este método, você terá que encontrar cada quartil no conjunto de dados. Para encontrar os quartis, siga estas etapas:

  1. Ordene os dados do menor para o maior.
  2. Encontre a mediana do conjunto de dados e divida o conjunto de dados em duas metades.
  3. Encontre a mediana das duas metades.

Você também pode usar a variância , que é o quão longe um conjunto de números está espalhado. Para encontrar a variação, siga estas etapas:

  1. Encontre a média do conjunto de dados.
  2. Subtraia cada número da média.
  3. Quadrar o resultado.
  4. Some os números.
  5. Divida o resultado pelo número total de números no conjunto de dados.

Cada um desses métodos nos diz algo sobre a disseminação dos dados. O intervalo é melhor para conjuntos de dados em que você procura dados realmente distantes e abrangentes. O intervalo interquartil é melhor para quando você olha para um grupo de números e os compara com a média, como pontuações de testes ou dados baseados em desempenho, como pontuações de jogos. A variância é melhor para mostrar a que distância os números estão espalhados uns dos outros usando um único valor em comparação com a média. Quanto maior o valor da variância, mais longe os números estão espalhados da média.

Resultados de Aprendizagem

Após esta lição, você deverá ser capaz de:

  • Explique o que é a disseminação de dados e defina os três métodos para identificá-la
  • Liste as etapas envolvidas na descoberta do intervalo interquartil e variância
  • Descreva quando é melhor usar o intervalo, intervalo interquartil ou variância