Medidas de Variabilidade
Eu ia escrever sobre inteligência e quocientes de inteligência, mas isso se complicou muito rápido. Então, vamos falar sobre obesidade, porque é mais provável que você ouça falar sobre o aumento das taxas de obesidade do que sobre o aumento do QI. Mas esta lição é sobre peso e compreensão das descrições disso.
O peso, como tantas outras coisas, não é estático ou imutável. Nem todo mundo com 1,80 metro de altura pesa 200 libras – há alguma variação. Ao relatar esses números ou revisá-los para um projeto, um pesquisador precisa entender quanta diferença há nas pontuações. É aqui que examinaremos as medidas de variabilidade , que são procedimentos estatísticos para descrever a dispersão dos dados. Eles são:
- Intervalo : definido como um único número que representa a disseminação dos dados
- Desvio padrão : definido como um número que representa a distância da média de cada pontuação
- Variância : definida como um número que indica como os dados estão espalhados
Ao tentar entender a dispersão dos dados, nós, como pesquisadores, precisamos diferenciar e saber a diferença entre população e amostra. Uma população é definida como o acervo completo a ser estudado, como todos os policiais de sua cidade. Uma amostra é definida como uma seção da população e seria uma seleção de policiais que você está estudando. Isso pode ser de 1% a 99% deles.
Quando os pesquisadores fazem experimentos psicológicos, muitas vezes precisam trabalhar com amostras, porque encontrar todos na população é quase impossível. Se você quiser um conjunto de dados populacionais, como o peso do mundo, por exemplo, seriam cerca de sete bilhões de pontos de dados. Se você quiser o conjunto de dados populacionais de todos na Califórnia, isso significa que precisa de cerca de 33 milhões de pontos de dados. Na minha própria cidade, são cerca de 100.000 pessoas. O truque é tentar fazer com que seus dados de amostra se pareçam com a população, o que significa que você precisa encontrar medidas sobre a variável de seus dados em comparação com a população estimada.
Alcance
Vamos voltar ao nosso estudo sobre obesidade. Qual é a faixa de pesos que veremos? Intervalo é simplesmente pegar a pontuação mais alta e subtrair a pontuação mais baixa dela. É muito simples de encontrar. Se a pessoa mais pesada pesa 800 libras e a menor pesa 100, então nossa faixa é de 700 libras. Lembre-se: para fazer o intervalo, você precisará ter pontuações que tenham alguma variabilidade. Por exemplo, o peso tem uma grande variabilidade nas pontuações e tem um intervalo significativo. Um teste de cinco perguntas não teria um intervalo muito significativo porque o maior intervalo possível é cinco.
O Range também tem um propósito simples e fácil de entender: nos informar de forma rápida e fácil sobre a amplitude (sem trocadilhos) das pontuações. Se estivermos fazendo um estudo e usando uma amostra, precisamos saber o quão representativa da população nossa amostra é. Por exemplo, se estamos olhando para peso e depressão e nossa variação é de 50 libras, então não temos uma variação muito ampla e não é representativa da população. Isso pode limitar as descobertas sobre como a depressão afeta o peso, porque estamos apenas olhando para os supermagros ou com sobrepeso, em vez de comparar os dois. Se nosso intervalo é de 500 libras, agora estamos olhando para uma amostra mais ampla e uma amostra provavelmente mais representativa de peso e como isso afeta a depressão.
Desvio padrão
Embora o intervalo se refira à cobertura dos dados, o desvio padrão tem mais a ver com a diferença entre as pontuações. Se todas as pontuações forem agrupadas em torno da média, seu desvio padrão será menor. Se suas pontuações estiverem espalhadas por todo o mapa e não estiverem agrupadas, então seu desvio padrão será enorme. As etapas para calculá-lo são:
- Calcule a média
- Calcule os desvios , que são as pontuações menos a média
- Quadrar os desvios
- Some os desvios quadrados
- Divida isso pelo número de pontuações em seu conjunto de dados (ou multiplique por 1 / N, a mesma coisa)
- Tire a raiz quadrada
O desvio padrão também pode ser encontrado no Excel usando os comandos STDDEV para um conjunto de dados.
A fórmula tira proveito da linguagem estatística e não é tão complicada quanto parece. A parte entre parênteses acima são as duas primeiras etapas, subtraindo a média (o x com a linha sobre ele) e a pontuação (representada por xi ). Então você eleva ao quadrado cada resultado. O grande e engraçado E (chamado sigma) significa que você soma todos os desvios quadrados. Em seguida, você multiplica a soma por um dividido pelo número de pontuações em sua amostra. A última etapa é o enraizamento quadrado para obter o desvio padrão, que é representado no lado esquerdo da equação pelo Sn .
Se você tiver um grupo de pontuações e todas estiverem agrupadas em torno da média, nossa segunda etapa de cálculo dos desvios quadrados resultaria em um número menor. Isso tornaria toda a matemática posterior muito menor e, portanto, nosso desvio padrão menor.
Quando todas as nossas pontuações estão agrupadas em torno do meio, seria semelhante ao gráfico abaixo, com todas as pontuações fazendo uma grande elevação no meio.
Se as pontuações estiverem todas espalhadas ou agrupadas em lugares estranhos, o desvio padrão será muito alto.
O desvio padrão é importante para a compreensão de amostras e populações porque permite que você saiba quão variadas são as pontuações. Em primeiro lugar, se você estiver olhando para um estudo envolvendo peso com a média sendo 200 e o desvio padrão sendo 50 libras, isso significa que cerca de 68% dos dados estão entre 150 e 250 libras (200 + 50 e 200 – 50) Isso não é ruim, dependendo da diferença de peso que você deseja. Muitos testes estatísticos podem ser comprometidos porque o conjunto de dados é muito difundido.
Para tornar as coisas um pouco mais complicadas, a fórmula do desvio padrão pode variar dependendo se você coletou todas as pessoas no grupo (uma população) ou algumas pessoas no grupo (uma amostra). A razão por trás disso é que existe um viés presumido, ou inclinação, na amostra. Se você tem uma população, você tem todos. Se você tem uma amostra, você perdeu um grupo que pode alterar seus resultados.
Variância
A variância é extremamente semelhante ao desvio padrão matematicamente. Na verdade, é a mesma matemática, exceto por uma etapa. Você consegue adivinhar qual?
- Primeiro, você calcula a média
- Então você calcula os desvios, que é a pontuação menos a média
- Você quadrou os desvios
- Você soma os desvios quadrados
- Em seguida, você divide a soma dos desvios quadrados pelo número de pontuações em seu conjunto de dados
A última etapa, o enraizamento quadrado, está faltando. Veja a fórmula?
A única diferença é que você não tira a raiz quadrada disso. Isso se traduz em uma pontuação maior do que o desvio padrão e não em uma que seja prontamente utilizável.
A variância é usada para tentar elucidar ou fazer uma estimativa estimada de qual é o parâmetro. Um parâmetro é definido como um valor numérico que representa a variabilidade total da população. Se você se lembra, a maioria dos estudos é feita olhando para amostras com a esperança de dizer algo sobre a população maior. Com a variância como uma estimativa, podemos começar a fazer suposições fundamentadas sobre como compreender e prever como será a aparência da população em geral, sem ter que fazer suposições incultas ou selvagens. Por causa disso, a variância não é muito usada.
Resumo da lição
Medidas de variabilidade são procedimentos estatísticos para descrever como os dados estão espalhados. Existem três maneiras principais de medir a variabilidade em um conjunto de dados. Eles são:
- Intervalo : definido como um único número que representa a disseminação dos dados
- Desvio padrão : definido como um número que representa a distância da média de cada pontuação
- Variância : definida como um número que indica como os dados estão espalhados
Um pesquisador freqüentemente usa uma amostra , que é definida como uma seção da população em um experimento. A esperança é que, ao compreendermos uma pequena amostra, possamos predizer algo sobre a população , que se define como o acervo completo a ser estudado. Com uma amostra, estamos tentando prever o que a população realmente é. Para este fim, uma variância é freqüentemente usada para ajudar a estimar um parâmetro , que é definido como um valor numérico para representar a variabilidade da população.
Resultados de Aprendizagem
A conclusão da vídeo aula pode permitir que você:
- Detalhe as três medidas de variabilidade: intervalo, desvio padrão e variância
- Ilustrar as fórmulas para desvio padrão e variância
- Lembre-se das definições de amostra, população e parâmetro e explique a importância desses termos para a pesquisa