Definição de Análise Estatística
Qualquer pessoa pode coletar dados, mas como você os analisa para que tenham algum significado, para que possam ajudá-lo a tirar conclusões ou tomar decisões com base neles? A análise estatística é a coleta e interpretação de dados e é empregada em praticamente todas as áreas. Tem sido usado por cientistas desde a invenção do método científico e hoje é tipicamente usado na política, marketing e educação, entre muitos outros.
Existem cinco métodos principais de análise estatística que realizam a maior parte do trabalho. Vamos entrar em mais detalhes.
O significativo
Em estatística, a média é a medida de centro mais comumente usada, também conhecida como tendência central. Existem vários tipos de meios; se o tipo não for fornecido, é considerado uma média aritmética. A média é freqüentemente referida fora das arenas estatísticas como a ‘média’.
![]() |
Para encontrar a média aritmética , some os itens do conjunto de dados e divida pelo número de itens. Você pode ver como isso funciona no exemplo abaixo:
Encontre a média: (14, 20, 26, 31, 31)
14 + 20 + 26 + 31 + 31 = 122
122/5 = 24,4
Mas vamos ver outro exemplo. Você já recebeu um exame de seu professor, viu sua pontuação e se perguntou como você se saiu em comparação com o resto da classe? A média pode ajudá-lo a fazer essa comparação. Se você acertou 81% no exame e a média da classe foi de 72%, você pode se sentir um pouco satisfeito por saber que se saiu melhor do que a maioria.
Uma vantagem de usar a média é que é simples de calcular. Uma desvantagem é que ele é sensível a valores extremos, chamados de outliers , nos dados. Outras maneiras de medir o centro são mediana, modo e faixa média.
Desvio padrão
Antes de ficar muito convencido sobre seus 81% no último exame, você deve perceber que é a segunda nota mais baixa da classe. Existem apenas oito alunos. Dois deles não fizeram o exame e tiraram zero. Cinco deles obtiveram 100%. Quase todas as notas para este exame foram extremas, zero ou centenas. Este cenário ilustra a necessidade de desvio padrão.
O desvio padrão é a média de quão longe cada item de seus dados está da média desses dados. É a medida de variação mais comumente usada. A regra empírica para o desvio padrão estabelece que se os dados tiverem uma distribuição basicamente em forma de sino, então 68% dos dados cairão dentro de um desvio padrão da média, 95% dentro de dois desvios padrão e 99,7% cairão dentro de 3 desvios padrão .
Regressão
Esta montanha-russa emocional em que você pode ter estado em relação à sua última nota no exame provavelmente o fez se perguntar: existe uma conexão entre o tempo de preparação e a nota no exame? Você cria um gráfico que mostra cada uma das notas do exame junto com o tempo gasto na preparação para esse exame. Você percebe que os pontos do exame parecem sugerir uma linha reta.
![]() |
Quando os dados são emparelhados e, em seguida, representados graficamente em uma grade xy , você pode usar a regressão para criar uma equação de uma linha que se aproximará do maior número possível desses pontos de dados. A linha é então atribuída a um coeficiente de correlação, que é uma medida de quão bem essa linha atende aos dados.
Coeficientes de correlação próximos de zero são fracos e não mostram correlação. Coeficientes de correlação de 1, -1 ou próximos a eles são fortes. Essas linhas de regressão podem ser usadas para prever o comportamento futuro dos dados e o valor dos dados não incluídos no conjunto.
Tamanho da amostra e teste de hipóteses
Digamos agora que sua curiosidade agora se volta para preocupações mais nacionais. Como o exame é feito por alunos de todo o país, você deseja saber se sua nota está acima da média nacional. Você não tem acesso à média da população, então tem que determinar o quão grande sua amostra deve ser para que a média da amostra seja um indicador decente da média da população.
Em muitos casos, o tamanho da população é muito grande para coletar dados de cada membro da população. Se for esse o caso, o coletor de dados terá que contar com uma amostra da população para realizar as estatísticas inferenciais.
A determinação do tamanho da amostra é descobrir o tamanho da amostra que é necessário para atingir uma média de amostra que seja razoavelmente próxima da média da população. O tamanho da amostra escolhido criará um intervalo de confiança em torno da média da amostra. O tamanho da amostra também determina o quão confiante (90%, 95%, etc.) você pode ter de que a média da população está de fato dentro do intervalo de confiança da média da amostra.
A menos que você esteja morando em uma caverna sozinho, não pode passar um dia sem ouvir alguém reclamar de algo. O teste de hipóteses é o processo de determinar se as reivindicações têm algum mérito para elas.
Por exemplo, Jason, outro aluno de sua classe (um dos que obteve 100%), afirma que sua pontuação forte se deve ao AlertNReady, que o ajuda a manter o foco durante os estudos. O teste de hipótese permite que você diga se o uso de AlertNReady resulta em pontuações mais altas no exame do que aqueles que não o utilizam.
A suposição de Jason é a hipótese nula (o caso presumido). Você acha que o verdadeiro motivo, ou hipótese alternativa, é que ele passou mais tempo se preparando para o teste. Essas hipóteses teriam de ser testadas e rejeitadas ou reprovadas (ou suportadas, em outras palavras).
Resumo da lição
Vamos revisar brevemente o que aprendemos nesta lição de estatística. A análise estatística é a coleta e interpretação de dados e é empregada em praticamente todas as áreas. As principais técnicas de análise estatística são:
- Média , também conhecida como média : some os itens do conjunto de dados e depois divida pelo número de itens.
- Desvio padrão : a média de quão longe cada item de seus dados está da média desses dados.
- Linhas de regressão : uma equação de uma linha que se aproxima do maior número possível desses pontos de dados. Coeficientes de correlação próximos de zero são fracos e não mostram correlação; 1 ou -1 são fortes.
- Determinação do tamanho da amostra: descobrir o tamanho da amostra necessário para atingir uma média amostral que seja razoavelmente próxima da média populacional.
- Teste de hipóteses : o processo de determinar se as reivindicações têm algum mérito para elas. Uma hipótese nula é a crença comum da causa, enquanto a alternativa é aquela que o pesquisador postula como a razão real.