Matemática

Modelo de regressão linear: definição, equação e exemplo

Definindo o modelo de regressão linear

O que significa o termo regressão linear ? O dicionário Merriam-Webster define regressão como «uma tendência ou mudança em direção a um estado inferior ou menos perfeito», ou alguma condição ou coisa que costumava ser melhor e agora está piorando. Em matemática, entretanto, a regressão é usada mais no sentido de algo que vai dos caóticos dados reais de observações à estimativa mais simples de uma linha ajustada aos dados. Em outras palavras, o modelo de regressão linear descreve o processo de obter dados observados e obter uma linha de ‘melhor ajuste’ para descrever a relação de duas variáveis.

Calculando a regressão linear

Bem, agora que sabemos o que é regressão linear, como podemos calculá-la? Essa pergunta tem muitas respostas, dependendo do tipo de dados que está sendo discutido: uma pesquisa no Google revelará talvez uma dúzia de técnicas diferentes para ajustar essa linha de regressão hipotética. No entanto, de longe a abordagem mais comum é usar o método dos mínimos quadrados , que tem as seguintes etapas:

1.) Suponha que haja uma relação linear entre as duas variáveis, então Y ‘= mX + b , onde Y ‘ é o valor previsto ou ajustado.

2.) Para cada ponto observado, haverá uma diferença entre o valor observado Y e o valor previsto Y ‘. Essa diferença é expressa como ( YY ‘).

3.) ( YY ‘) é então multiplicado por ele mesmo ou ao quadrado.

4.) Varie a inclinação e o intercepto y , ou m e b na equação, para produzir a menor soma desses quadrados.

Se isso parece complicado, é porque é muito demorado realizar esse método com cálculos manuais – mesmo para apenas alguns pontos de dados. Na prática, tudo isso é feito muito rapidamente por um software de computador. Por meio de uma matemática muito complicada, que não entraremos aqui, podemos usar o método dos mínimos quadrados para calcular a inclinação e o intercepto y , que são mostrados abaixo. Ambas são fórmulas não padrão específicas para os valores com os quais estamos trabalhando.


Declive
Fórmula para Inclinação 2


Y-Intercept
Fórmula para interceptação Y

Regressão Linear na Vida Real

Vamos supor que você trabalhe para um fabricante de brinquedos e eles estejam tentando criar uma análise de volume de custo para uma linha de produtos específica. Eles fornecem os seguintes dados:

Volume (1000 unidades) Custos totais ($ 1000)
1 0.9
2 1,6
3 1,9
4 2,6
5 3,0

Você é solicitado a criar uma equação que estimule, com a maior precisão possível, os custos totais, dado um determinado volume de produção proposto. Você decide usar o método dos mínimos quadrados para calcular a inclinação ey –intercepto da linha de regressão linear para esses dados.

Para fazer isso, você terá que calcular os cinco valores a seguir com as fórmulas fornecidas. A fórmula para o desvio padrão inclui um denominador (n – 1), que é útil para trabalhar com conjuntos de dados limitados. Ao calcular a correlação, você também terá que calcular a covariância. A covariância mostra como uma mudança em uma variável se relaciona a uma mudança em outra variável ou uma medida de seu relacionamento linear.

1.) Média , ou média, de X

2.) Média , ou média, de Y

3.) Desvio padrão , ou dispersão numérica, em torno da média de X

4.) Desvio padrão , ou dispersão numérica, em torno da média de Y

5.) Correlação , ou conexão, entre X e Y , que também requer um cálculo de covariância

Usando as informações fornecidas pelo fabricante do brinquedo, façamos as contas, começando pela fórmula da média.

1.) Média de X

Fórmula para Média

X = (1 + 2 + 3 + 4 + 5) / 5 = 3.

2.) Média de Y

Y = (0,9 + 1,6 + 1,9 + 2,6 + 3,0) / 5 = 2.

3.) Desvio padrão de X :

Desvio Padrão 2

{((1 – 3) ^ 2 + (2 – 3) ^ 2 + (3 – 3) ^ 2 + (4 – 3) ^ 2 + (5 – 3) ^ 2) / (5 – 1)} ^ 0,5 = 1,58.

4.) Desvio padrão de Y :

{((0,9 – 2) ^ 2 + (1,6 – 2) ^ 2 + (1,9 – 2) ^ 2 + (2,6 – 2) ^ 2 + (3,0 – 2) ^ 2) / (5 – 1)} ^ 0,5 = 0,83.

5. Correlação de X e Y :

Correlação de X e Y

Fórmula de Correlação 2

Fórmula de covariância

{(1 – 3) (0,9 – 2) + (2 – 3) (1,6 – 2) + (3 – 3) (1,9 – 2) + (4 – 3) (2,6 – 2) + (5 – 3) (3,0 – 2)} / (1,58) (0,83) = 0,993.

Depois de encontrar esses valores, podemos substituí-los em nossas equações de inclinação e interceptação y para obter nossa regressão linear.

1.) m = 0,993 (0,83 / 1,58) = 0,52.

2.) b = 2 – 0,52 (3) = 0,44.

Usando o método dos mínimos quadrados, o melhor ajuste para a regressão linear dos cinco pontos acima se reduz a Y ‘= 0,52x + 0,44. Para o benefício de seu chefe, você precisará traduzir os resultados de seus cálculos de inclinação e interceptação y para a linguagem do dia-a-dia. Em outras palavras, a regressão linear, com base nos dados fornecidos, resulta em um custo médio de $ 440 antes da execução da produção. Seu chefe também pode esperar um aumento na taxa de $ 520 por 1000 unidades produzidas.

Resumo da lição

A regressão linear simplesmente se refere à criação de um melhor ajuste para uma relação linear entre duas variáveis ​​de dados observados. O método dos mínimos quadrados geralmente é usado com uma regressão linear, mas existem muitas outras opções por aí. Para calcular a inclinação e o intercepto y de uma linha de melhor ajuste usando o método dos mínimos quadrados, você primeiro precisa calcular os cinco valores, incluindo as médias de X e Y , os desvios padrão de X e Y e a correlação de X e Y. Depois de ter esses cinco valores, use as equações da lição acima para encontrar a inclinação e o intercepto y .