Definição
A regressão à média é um fenômeno estatístico que afirma que os dados extremamente maiores ou menores que a média provavelmente estarão mais próximos da média se forem medidos uma segunda vez. Isso significa que se você tomar dois conjuntos independentes de medições de cada pessoa em sua amostra, verá que as pessoas que tiveram pontuações bem acima ou abaixo da média durante a primeira medição teriam pontuações mais próximas da média no segunda medição.
A regressão à média, também conhecida como regressão à média , foi descoberta por Sir Francis Galton enquanto conduzia relatórios sobre a altura de 250 pais e seus 930 filhos. Galton calculou a altura média de adultos e crianças e traçou as alturas de todos em um gráfico. Galton descobriu que os pais mais altos que a média tendem a ter filhos mais altos que a média, e os pais mais baixos que a média tendem a ter filhos mais baixos.
No entanto, nos casos em que os pais eram mais altos do que a média, os filhos tendiam a ser um pouco mais baixos do que os pais, e nos casos em que os pais eram mais baixos do que a média, os filhos tendiam a ser um pouco mais altos do que os pais. Em outras palavras, os filhos de pais com alturas extremamente acima ou abaixo da média tinham alturas mais próximas da média. Galton chamou esse fenômeno de regressão da média.
A regressão à média se deve à variância aleatória , ou chance, que afeta a amostra. Por exemplo, parte da altura se deve aos nossos genes que herdamos de nossos pais, mas também existem outras influências aleatórias que podem afetar sua altura. É a variação aleatória que faz com que algumas das amostras tenham valores extremos. É importante notar que a variância aleatória na segunda medição não é influenciada pela variância aleatória que afetou a primeira medição. Por causa disso, as amostras parecerão regredir na segunda medição.
Exemplo
Suponha que estejamos interessados em estudar o nível de agressão em jogadores de futebol depois de perder um jogo. Você pegou uma amostra de 50 jogadores de futebol e mediu seu nível de agressão depois que perderam para outro time durante o jogo em casa. Você registra os dados em um gráfico e descobre que a pontuação média de agressão é 72 (em 100). A pontuação dos 50 jogadores varia de 41 a 100.
Uma semana depois, você decide medir a agressão nos mesmos 50 jogadores de futebol após eles perderem um jogo fora. Desta vez, a pontuação média de agressão é de 63. A pontuação dos 50 jogadores varia de 48 a 78. Você descobre que os jogadores de futebol cujas pontuações de agressão estavam bem abaixo da média após a primeira derrota se aproximaram da média após a segunda derrota, e os jogadores cujas pontuações estavam bem acima da média durante a primeira derrota diminuíram e agora estão mais próximos da média. Em outras palavras, quanto mais longe da média que a pontuação de agressão estava, mais provável a segunda pontuação de agressão estará mais próxima da média. Este é um exemplo de regressão à média.
Por que as pontuações de agressão mudaram? Talvez os jogadores que marcaram menos após a primeira derrota estivessem em um dia ruim. Pode ser que o treinador tenha feito um bom discurso pós-jogo para a equipe após a segunda derrota, o que influenciou na forma como relacionaram sua agressividade. A questão é que a mudança na agressão não reflete os jogadores de futebol, mas sim alguma variação aleatória.
Resumo da lição
A regressão para as pontuações dos estados médios que estão extremamente acima ou abaixo da média na primeira vez em que são medidos em alguma variável provavelmente estarão mais próximos da média na segunda vez em que são medidos na mesma variável. A regressão à média se deve à variância aleatória que influencia a amostra. A variância aleatória na primeira medição é independente da variância aleatória na segunda amostra.