Como avaliar a relação entre lucro e gastos em marketing em uma empresa? Ou como saber como o anos de educação de uma pessoa impacta o seu rendimento? Conhecer a quantidade que deve ser produzida de um determinado produto em uma indústria no próximo mês? Todos esses problemas podem ser resolvidos por meio do uso da Regressão Linear, uma técnica estatística poderosa.
Regressão Linear
Uma regressão linear basicamente permite modelar a relação entre duas variáveis contínuas, uma sendo a variável dependente e a outra sendo a variável independente. A regressão linear procura encontrar a melhor linha reta que representa a relação entre as duas variáveis, de modo que possa ser usada para fazer previsões ou estimativas da variável dependente com base nos valores da variável independente.
Como assim modelar?
Quando dizemos modelagem, estamos fazendo representações simplificadas de sistemas ou fenômenos complexos do mundo real, com o objetivo de entender melhor o que está ocorrendo. Essas representações são construídas por modelos matemáticos/estatísticos e podem ser aliados a teoria ou mesmo a lógica de um fenômeno.
O que são variáveis dependentes e independentes?
Estatisticamente, uma variável é uma característica ou atributo que pode assumir diferentes valores em uma população ou em uma amostra. Esses valores podem ser numéricos, como idade, altura, peso, ou categóricos, como cor dos olhos, estado civil, nível de escolaridade, entre outros.
E como avaliar a relação?
Como o nome diz, uma regressão linear representa a relação linear entre duas variáveis ou mais, basicamente, possui uma equação que representa a relação entre duas variáveis, uma sendo a variável dependente (Y) e a outra sendo a variável independente (X). A equação da regressão linear simples é dada por:
Y = β0 + β1X + ε
Onde:
- Y é a variável dependente
- X é a variável independente
- β0 é o intercepto da reta, que representa o valor de Y quando X é igual a zero
- β1 é o coeficiente angular da reta, que representa a variação em Y para uma unidade de variação em X
- ε é o termo de erro, que representa a parte não explicada da variação em Y pela relação linear com X
Ou seja, com os dados da variável X, podemos avaliar tanto o efeito dessa variável em Y, quanto também é possível estimar o valores de Y, baseando-se em X.
Um exemplo econômico
Podemos pensar na relação de duas variáveis da economia: Consumo agregado e Renda agregada. Logicamente, podemos pensar que quanto maior a renda de uma população, maior será o consumo da mesma. Esse fato está muito bem documentado na teoria econômica, mas como podemos avaliar essa relação usando uma regressão linear?
Vamos pensar na equação de regressão, usando a teoria econômica:
A equação do consumo agregado é dada por:
C = a + bYd + ε
Onde:
- C representa o consumo agregado
- a é o consumo autônomo, ou seja, o consumo que ocorre mesmo quando o rendimento disponível é zero
- b é a propensão marginal a consumir, ou seja, a variação no consumo para uma variação de uma unidade no rendimento disponível
- Yd é o rendimento disponível, ou seja, o rendimento após o pagamento de impostos e contribuições sociais.
- ε é o termo de erro, que representa a parte não explicada da variação do consumo pela relação linear com o rendimento
A partir de dados econômicos de um país qualquer, podemos avaliar essa relação entre o Consumo e Renda, ou seja, o quanto a população consome conforme aumenta ou diminui a renda. Não é incrível?
Essa relação pode até mesmo ser explicada em um gráfico, que chamamos de gráfico de dispersão com reta de regressão.
Vejamos o gráfico abaixo, ele representa os dados da variação trimestral do Consumo e Renda no Estados Unidos no período de 1970 até 2016. No eixo X temos a variável independente Renda e no eixo Y temos a variável dependente Consumo. Cada ponto representa a coordenada (valores no plano cartesiano) do Consumo e da Renda em determinado trimestre, enquanto a reta representa o b, ou seja, a propensão marginal a consumir, o Beta da Regressão Linear.
Veja que interessante, modelamos a relação entre duas variáveis do mundo real e obtivemos a relação entre ambas, e poderíamos até mesmo prever o Consumo com base nessa relação! E isso vale para muitos fenômenos.
Aplicações da Regressão Linear em negócios e empresas
Além da área de economia, a regressão linear pode ser útil para as empresas em vários aspectos, pois permite entender e prever relações entre variáveis importantes para os negócios. Algumas formas em que a regressão linear pode ajudar a tomar decisões em empresas incluem:
- Previsão de demanda: A regressão linear pode ser usada para prever a demanda por produtos ou serviços com base em variáveis como preços, promoções, época do ano e dados de vendas históricos. Isso ajuda as empresas a gerenciar melhor seus estoques, produção e estratégias de marketing.
- Análise de custos: A regressão linear pode ser usada para identificar a relação entre os custos de produção e outras variáveis, como volume de produção, preço das matérias-primas e eficiência da mão de obra. Isso ajuda as empresas a entender como os custos mudam com base em diferentes fatores e a identificar maneiras de reduzir os custos.
- Avaliação de desempenho: A regressão linear pode ser usada para avaliar o desempenho dos funcionários com base em variáveis como tempo de trabalho, nível de educação, experiência e outros fatores. Isso ajuda as empresas a identificar funcionários que estão fazendo um bom trabalho e a identificar áreas em que a equipe precisa melhorar.
- Análise de risco: A regressão linear pode ser usada para identificar fatores de risco que podem afetar os negócios, como flutuações no mercado, mudanças regulatórias ou incertezas econômicas. Isso ajuda as empresas a se preparar para possíveis problemas e a desenvolver planos de contingência.
A regressão linear ajuda a tomar decisões
Em geral, a regressão linear ajuda as empresas a entender como diferentes variáveis estão relacionadas entre si e a prever resultados com base nessas relações. Isso permite que as empresas tomem decisões informadas e tomem medidas para melhorar seus negócios. Como essa técnica estatística permite fazer avaliações com dados, há portanto decisões tomadas baseadas em dados, distanciando-se da intuição de gerentes e funcionários, permitindo tomar decisões mais assertivas, ao invés de confiar em um simples sentido ou "tiro no escuro".
Desvantagens da Regressão Linear
Até o momento falamos somente de vantagens, entretanto, como qualquer outra técnica, a Regressão Linear possui desvantagens. Dentre as que podemos citar, estão:
- Pressupostos restritivos: A regressão linear pressupõe que as relações entre as variáveis são lineares e que os erros são normalmente distribuídos e têm variância constante. Se esses pressupostos não forem atendidos, os resultados da regressão podem ser tendenciosos ou imprecisos.
- Sensibilidade a outliers: A presença de outliers, ou valores extremos, pode afetar significativamente os resultados da regressão linear, tornando-a menos confiável e precisa.
- Correlação não implica causalidade: A regressão linear pode mostrar correlações entre variáveis, mas isso não significa necessariamente que uma variável causa outra. É importante ter cuidado ao interpretar os resultados da regressão linear e considerar outras evidências antes de tirar conclusões sobre causalidade.
- Limitações na modelagem de relações complexas: A regressão linear é limitada na modelagem de relações complexas e não lineares entre as variáveis. Para modelar essas relações, podem ser necessárias técnicas estatísticas mais avançadas, como a regressão não linear ou modelos de aprendizado de máquina.
- Problemas de multicolinearidade: Quando duas ou mais variáveis independentes estão altamente correlacionadas, a regressão pode ter problemas de multicolinearidade, o que pode tornar difícil identificar a importância relativa de cada variável no modelo.
_________________________________
Quer se aprofundar no assunto?
Alunos da trilha de Especialista em Ciência de Dados para Economia e Finanças podem aprender a como construir projetos que envolvem dados reais usando o R e o Python como ferramentas.