Matemática

Análise Estatística: Métodos e Técnicas

Definição de Análise Estatística

Qualquer pessoa pode coletar dados, mas como você os analisa para que tenham algum significado, para que possam ajudá-lo a tirar conclusões ou tomar decisões com base neles? A análise estatística é a coleta e interpretação de dados e é empregada em praticamente todas as áreas. Tem sido usado por cientistas desde a invenção do método científico e hoje é tipicamente usado na política, marketing e educação, entre muitos outros.

Existem cinco métodos principais de análise estatística que realizam a maior parte do trabalho. Vamos entrar em mais detalhes.

O significativo

Em estatística, a média é a medida de centro mais comumente usada, também conhecida como tendência central. Existem vários tipos de meios; se o tipo não for fornecido, é considerado uma média aritmética. A média é freqüentemente referida fora das arenas estatísticas como a ‘média’.


Encontrando o meio
MeanofFive

Para encontrar a média aritmética , some os itens do conjunto de dados e divida pelo número de itens. Você pode ver como isso funciona no exemplo abaixo:

Encontre a média: (14, 20, 26, 31, 31)

14 + 20 + 26 + 31 + 31 = 122

122/5 = 24,4

Mas vamos ver outro exemplo. Você já recebeu um exame de seu professor, viu sua pontuação e se perguntou como você se saiu em comparação com o resto da classe? A média pode ajudá-lo a fazer essa comparação. Se você acertou 81% no exame e a média da classe foi de 72%, você pode se sentir um pouco satisfeito por saber que se saiu melhor do que a maioria.

Uma vantagem de usar a média é que é simples de calcular. Uma desvantagem é que ele é sensível a valores extremos, chamados de outliers , nos dados. Outras maneiras de medir o centro são mediana, modo e faixa média.

Desvio padrão

Antes de ficar muito convencido sobre seus 81% no último exame, você deve perceber que é a segunda nota mais baixa da classe. Existem apenas oito alunos. Dois deles não fizeram o exame e tiraram zero. Cinco deles obtiveram 100%. Quase todas as notas para este exame foram extremas, zero ou centenas. Este cenário ilustra a necessidade de desvio padrão.

O desvio padrão é a média de quão longe cada item de seus dados está da média desses dados. É a medida de variação mais comumente usada. A regra empírica para o desvio padrão estabelece que se os dados tiverem uma distribuição basicamente em forma de sino, então 68% dos dados cairão dentro de um desvio padrão da média, 95% dentro de dois desvios padrão e 99,7% cairão dentro de 3 desvios padrão .

Regressão

Esta montanha-russa emocional em que você pode ter estado em relação à sua última nota no exame provavelmente o fez se perguntar: existe uma conexão entre o tempo de preparação e a nota no exame? Você cria um gráfico que mostra cada uma das notas do exame junto com o tempo gasto na preparação para esse exame. Você percebe que os pontos do exame parecem sugerir uma linha reta.


Linha de regressão
Linha de regressão

Quando os dados são emparelhados e, em seguida, representados graficamente em uma grade xy , você pode usar a regressão para criar uma equação de uma linha que se aproximará do maior número possível desses pontos de dados. A linha é então atribuída a um coeficiente de correlação, que é uma medida de quão bem essa linha atende aos dados.

Coeficientes de correlação próximos de zero são fracos e não mostram correlação. Coeficientes de correlação de 1, -1 ou próximos a eles são fortes. Essas linhas de regressão podem ser usadas para prever o comportamento futuro dos dados e o valor dos dados não incluídos no conjunto.

Tamanho da amostra e teste de hipóteses

Digamos agora que sua curiosidade agora se volta para preocupações mais nacionais. Como o exame é feito por alunos de todo o país, você deseja saber se sua nota está acima da média nacional. Você não tem acesso à média da população, então tem que determinar o quão grande sua amostra deve ser para que a média da amostra seja um indicador decente da média da população.

Em muitos casos, o tamanho da população é muito grande para coletar dados de cada membro da população. Se for esse o caso, o coletor de dados terá que contar com uma amostra da população para realizar as estatísticas inferenciais.

A determinação do tamanho da amostra é descobrir o tamanho da amostra que é necessário para atingir uma média de amostra que seja razoavelmente próxima da média da população. O tamanho da amostra escolhido criará um intervalo de confiança em torno da média da amostra. O tamanho da amostra também determina o quão confiante (90%, 95%, etc.) você pode ter de que a média da população está de fato dentro do intervalo de confiança da média da amostra.

A menos que você esteja morando em uma caverna sozinho, não pode passar um dia sem ouvir alguém reclamar de algo. O teste de hipóteses é o processo de determinar se as reivindicações têm algum mérito para elas.

Por exemplo, Jason, outro aluno de sua classe (um dos que obteve 100%), afirma que sua pontuação forte se deve ao AlertNReady, que o ajuda a manter o foco durante os estudos. O teste de hipótese permite que você diga se o uso de AlertNReady resulta em pontuações mais altas no exame do que aqueles que não o utilizam.

A suposição de Jason é a hipótese nula (o caso presumido). Você acha que o verdadeiro motivo, ou hipótese alternativa, é que ele passou mais tempo se preparando para o teste. Essas hipóteses teriam de ser testadas e rejeitadas ou reprovadas (ou suportadas, em outras palavras).

Resumo da lição

Vamos revisar brevemente o que aprendemos nesta lição de estatística. A análise estatística é a coleta e interpretação de dados e é empregada em praticamente todas as áreas. As principais técnicas de análise estatística são:

  • Média , também conhecida como média : some os itens do conjunto de dados e depois divida pelo número de itens.
  • Desvio padrão : a média de quão longe cada item de seus dados está da média desses dados.
  • Linhas de regressão : uma equação de uma linha que se aproxima do maior número possível desses pontos de dados. Coeficientes de correlação próximos de zero são fracos e não mostram correlação; 1 ou -1 são fortes.
  • Determinação do tamanho da amostra: descobrir o tamanho da amostra necessário para atingir uma média amostral que seja razoavelmente próxima da média populacional.
  • Teste de hipóteses : o processo de determinar se as reivindicações têm algum mérito para elas. Uma hipótese nula é a crença comum da causa, enquanto a alternativa é aquela que o pesquisador postula como a razão real.