Definindo o modelo de regressão linear
O que significa o termo regressão linear ? O dicionário Merriam-Webster define regressão como «uma tendência ou mudança em direção a um estado inferior ou menos perfeito», ou alguma condição ou coisa que costumava ser melhor e agora está piorando. Em matemática, entretanto, a regressão é usada mais no sentido de algo que vai dos caóticos dados reais de observações à estimativa mais simples de uma linha ajustada aos dados. Em outras palavras, o modelo de regressão linear descreve o processo de obter dados observados e obter uma linha de ‘melhor ajuste’ para descrever a relação de duas variáveis.
Calculando a regressão linear
Bem, agora que sabemos o que é regressão linear, como podemos calculá-la? Essa pergunta tem muitas respostas, dependendo do tipo de dados que está sendo discutido: uma pesquisa no Google revelará talvez uma dúzia de técnicas diferentes para ajustar essa linha de regressão hipotética. No entanto, de longe a abordagem mais comum é usar o método dos mínimos quadrados , que tem as seguintes etapas:
1.) Suponha que haja uma relação linear entre as duas variáveis, então Y ‘= mX + b , onde Y ‘ é o valor previsto ou ajustado.
2.) Para cada ponto observado, haverá uma diferença entre o valor observado Y e o valor previsto Y ‘. Essa diferença é expressa como ( Y – Y ‘).
3.) ( Y – Y ‘) é então multiplicado por ele mesmo ou ao quadrado.
4.) Varie a inclinação e o intercepto y , ou m e b na equação, para produzir a menor soma desses quadrados.
Se isso parece complicado, é porque é muito demorado realizar esse método com cálculos manuais – mesmo para apenas alguns pontos de dados. Na prática, tudo isso é feito muito rapidamente por um software de computador. Por meio de uma matemática muito complicada, que não entraremos aqui, podemos usar o método dos mínimos quadrados para calcular a inclinação e o intercepto y , que são mostrados abaixo. Ambas são fórmulas não padrão específicas para os valores com os quais estamos trabalhando.
![]() |
![]() |
Regressão Linear na Vida Real
Vamos supor que você trabalhe para um fabricante de brinquedos e eles estejam tentando criar uma análise de volume de custo para uma linha de produtos específica. Eles fornecem os seguintes dados:
Volume (1000 unidades) | Custos totais ($ 1000) |
---|---|
1 | 0.9 |
2 | 1,6 |
3 | 1,9 |
4 | 2,6 |
5 | 3,0 |
Você é solicitado a criar uma equação que estimule, com a maior precisão possível, os custos totais, dado um determinado volume de produção proposto. Você decide usar o método dos mínimos quadrados para calcular a inclinação ey –intercepto da linha de regressão linear para esses dados.
Para fazer isso, você terá que calcular os cinco valores a seguir com as fórmulas fornecidas. A fórmula para o desvio padrão inclui um denominador (n – 1), que é útil para trabalhar com conjuntos de dados limitados. Ao calcular a correlação, você também terá que calcular a covariância. A covariância mostra como uma mudança em uma variável se relaciona a uma mudança em outra variável ou uma medida de seu relacionamento linear.
1.) Média , ou média, de X
2.) Média , ou média, de Y
3.) Desvio padrão , ou dispersão numérica, em torno da média de X
4.) Desvio padrão , ou dispersão numérica, em torno da média de Y
5.) Correlação , ou conexão, entre X e Y , que também requer um cálculo de covariância
Usando as informações fornecidas pelo fabricante do brinquedo, façamos as contas, começando pela fórmula da média.
1.) Média de X
![]() |
X = (1 + 2 + 3 + 4 + 5) / 5 = 3.
2.) Média de Y
Y = (0,9 + 1,6 + 1,9 + 2,6 + 3,0) / 5 = 2.
3.) Desvio padrão de X :
![]() |
{((1 – 3) ^ 2 + (2 – 3) ^ 2 + (3 – 3) ^ 2 + (4 – 3) ^ 2 + (5 – 3) ^ 2) / (5 – 1)} ^ 0,5 = 1,58.
4.) Desvio padrão de Y :
{((0,9 – 2) ^ 2 + (1,6 – 2) ^ 2 + (1,9 – 2) ^ 2 + (2,6 – 2) ^ 2 + (3,0 – 2) ^ 2) / (5 – 1)} ^ 0,5 = 0,83.
5. Correlação de X e Y :
![]() |
![]() |
![]() |
{(1 – 3) (0,9 – 2) + (2 – 3) (1,6 – 2) + (3 – 3) (1,9 – 2) + (4 – 3) (2,6 – 2) + (5 – 3) (3,0 – 2)} / (1,58) (0,83) = 0,993.
Depois de encontrar esses valores, podemos substituí-los em nossas equações de inclinação e interceptação y para obter nossa regressão linear.
1.) m = 0,993 (0,83 / 1,58) = 0,52.
2.) b = 2 – 0,52 (3) = 0,44.
Usando o método dos mínimos quadrados, o melhor ajuste para a regressão linear dos cinco pontos acima se reduz a Y ‘= 0,52x + 0,44. Para o benefício de seu chefe, você precisará traduzir os resultados de seus cálculos de inclinação e interceptação y para a linguagem do dia-a-dia. Em outras palavras, a regressão linear, com base nos dados fornecidos, resulta em um custo médio de $ 440 antes da execução da produção. Seu chefe também pode esperar um aumento na taxa de $ 520 por 1000 unidades produzidas.
Resumo da lição
A regressão linear simplesmente se refere à criação de um melhor ajuste para uma relação linear entre duas variáveis de dados observados. O método dos mínimos quadrados geralmente é usado com uma regressão linear, mas existem muitas outras opções por aí. Para calcular a inclinação e o intercepto y de uma linha de melhor ajuste usando o método dos mínimos quadrados, você primeiro precisa calcular os cinco valores, incluindo as médias de X e Y , os desvios padrão de X e Y e a correlação de X e Y. Depois de ter esses cinco valores, use as equações da lição acima para encontrar a inclinação e o intercepto y .