Qual a altura desses arbustos?
Tony possui um viveiro de plantas e um de seus maiores vendedores são arbustos de mirtilo. Ele vende os arbustos para seus clientes quando eles têm pelo menos 45 centímetros de altura. Tony quer saber quanto tempo cada um de seus arbustos de mirtilo vai demorar para crescer o suficiente para ser vendido. Para obter uma estimativa desse tempo, ele seleciona dez plantas aleatoriamente e registra o número de dias que cada uma leva para crescer de uma semente para uma planta de 18 polegadas de altura.
Média da amostra
Uma amostra é um conjunto de medições tiradas de uma população maior. Nesse caso, a população seria todos os arbustos de mirtilo de Tony e a taxa de amostragem incluiria apenas os dez arbustos específicos que ele selecionou para observar. As medidas de Tony representam uma amostra aleatória porque foram selecionadas aleatoriamente da população. Cada semente teve a mesma chance de ser escolhida para a amostra. Para que uma amostra dê uma boa aproximação da população, ela deve ser selecionada aleatoriamente.
A média da amostra é simplesmente a média de todas as medições da amostra. Se a amostra for aleatória, a média da amostra pode ser usada para estimar a média da população.
Aparecendo aqui está a equação média da amostra:
Para os dados de Tony, usamos essa equação inserindo os valores; então somamos todos os dados (967/10 = 96,7), o que, como você pode ver aqui, nos dá a média da amostra de 96,7.
Variância de Amostra
Outra estatística importante que pode ser calculada para uma amostra é a variância da amostra. A variância mede a extensão dos dados em uma amostra. Duas amostras podem ter a mesma média, mas ser distribuídas de maneira muito diferente. A variância é uma forma de quantificar essas diferenças. A variância de uma amostra também está intimamente relacionada ao desvio padrão , que é simplesmente a raiz quadrada da variância. O símbolo normalmente usado para representar o desvio padrão é s , então o símbolo de variação é s 2 .
Para encontrar a variação da amostra, siga estas etapas:
- Primeiro, calcule a média da amostra.
- Em seguida, subtraia o valor médio do valor de cada medição.
- Quadrado os valores resultantes.
- Some os resultados para obter a soma dos desvios quadrados da média.
- Finalmente, divida isso pelo número de graus de liberdade, que é igual ao número total de medições menos um ( n -1)
Na forma de equação, isso se parece com:
A maneira mais fácil de fazer isso é fazer uma tabela como esta:
Como podemos ver, para os dados de Tony, a variância da amostra é igual a 43.344.
O desvio padrão geralmente fornece informações mais úteis do que a variação. Espera-se que cerca de 70% dos valores na população caiam dentro de um desvio padrão em cada lado da média. Para encontrar o desvio padrão da variância, basta obter a raiz quadrada.
Como o número médio de dias na amostra de Tony foi de 96,7, ele pode esperar que cerca de 70% de suas árvores atinjam 18 polegadas de altura entre 90 e 103 dias.
Amostras reais vs. ideais
Idealmente, as amostras são selecionadas aleatoriamente e, portanto, representam com precisão a população maior. No entanto, no mundo real, às vezes é muito difícil obter uma amostra verdadeiramente aleatória. Quase sempre há algum viés na amostra, mesmo que não seja intencional.
Mesmo no caso de Tony e seus arbustos de mirtilo, como ele está monitorando esses dez arbustos com cuidado, ele pode dar a eles mais água ou, de outra forma, verificá-los com mais frequência do que os outros. Ele pode até mesmo plantá-los perto um do outro e longe de outros arbustos. Essas pequenas diferenças podem distorcer os dados, mesmo que ele pretenda que a amostra seja aleatória!
Embora seja difícil obter uma amostra verdadeiramente aleatória, é importante fazer uma amostra o mais aleatória possível para que a média e a variância da amostra representem com precisão a média e a variância da população.
Resumo da lição
Tudo bem, vamos parar um momento para revisar o que aprendemos!
Uma amostra contém dados coletados de indivíduos selecionados de uma população maior. Também aprendemos que a média da amostra é a média aritmética de todos os valores da amostra.
A variância da amostra mede a distribuição dos dados e o desvio padrão da amostra é a raiz quadrada da variância.
Se a amostra for aleatória e normalmente distribuída, então a média da amostra deve ser uma boa aproximação da média da população e cerca de 70% da população deve estar dentro de um desvio padrão da média.