[Dicas de R] Regressão Múltipla

Em post anterior das Dicas de R, vimos o modelo de regressão simples, onde $y$ pode ser explicado por uma única variável $x$ . O problema básico desse tipo de análise é que ela faz uma suposição bastante forte, qual seja, que $x$ não está correlacionado com o erro, dificultando a aplicação da condição ceteris paribus. A análise de regressão múltipla, por outro lado, é mais receptiva a esse tipo de condição, uma vez que ela permite que controlemos outros fatores que afetam $y$ , adicionando os mesmos na equação. Assim, por suposto, se queremos explicar $y$ , podemos utilizar $k$ variáveis, como abaixo:

(1) $\begin{align*} y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \beta_3 x_3 + ... + \beta_k x_k + u, \end{align*}$

onde $\beta_0$ é o intercepto, $\beta_k$ é o parâmetro associado a $x_k$ . De modo a obter uma estimativa para 1, devemos observar que

(2) $\begin{align*} E(u|x_1, x_2, ..., x_k) = 0. \end{align*}$

Isto é, que todos os fatores no termo de erro não observado $u$ sejam não correlacionados com as variáveis explicativas. De modo a obter estimativas para os $\beta_k$ parâmetros, é possível recorrer ao método de mínimos quadrados ordinários. Isto é, dado

(3) $\begin{align*} \hat{y} = \hat{\beta_0} + \hat{\beta_1} x_1 + \hat{\beta_2} x_2 + ... + \hat{\beta_k} x_k, \end{align*}$

onde $\hat{\beta_k}$ é a estimativa de $\beta_k$ , o método de MQO escolhe as estimativas $\hat{\beta_k}$ que minimizam a soma dos quadrados dos resíduos:

(4) $\begin{align*} \sum_{i=1}^{n} (y_i - \hat{\beta_0} - \hat{\beta_1} x_{i1} - ... - \hat{\beta_k} x_{ik})^2. \end{align*}$

O problema acima pode ser resolvido por meio de cálculo multivariado, de onde obtemos as condições de primeira ordem

(5) $\begin{align*} \sum_{i=1}^{n} (y_i - \hat{\beta_0} - \hat{\beta_1} x_{i1} - ... - \hat{\beta_k} x_{ik}) = 0 \nonumber \\ \sum_{i=1}^{n} x_{i1} (y_i - \hat{\beta_0} - \hat{\beta_1} x_{i1} - ... - \hat{\beta_k} x_{ik}) = 0 \nonumber \\ \sum_{i=1}^{n} x_{i2}(y_i - \hat{\beta_0} - \hat{\beta_1} x_{i1} - ... - \hat{\beta_k} x_{ik}) = 0 \nonumber \\ \sum_{i=1}^{n} x_{ik}(y_i - \hat{\beta_0} - \hat{\beta_1} x_{i1} - ... - \hat{\beta_k} x_{ik}) = 0, \nonumber \end{align*}$

ou simplesmente, $E(u) = 0$ e $E(x_j u) = 0$ .

# Interpretação da equação de regressão de MQO

Suponha que tenhamos

(6) $\begin{align*} \hat{y} = \hat{\beta_0} + \hat{\beta_1} x_1 + \hat{\beta_2} x_2. \end{align*}$

O intercepto $\beta_0$ será então o valor previsto de $y$ quando $x_1 = x_2 = 0$ . Já as estimativas $\hat{\beta_1}$ e $\hat{\beta_2}$ devem ser interpretadas como efeito parcial ou simplesmente ceteris paribus. Isto é,

(7) $\begin{align*} \Delta \hat{y} = \hat{\beta_1} \Delta x_1 + \hat{\beta_2} \Delta x_2, \nonumber \end{align*}$

de modo que obtemos a variação prevista em $y$ dadas as variações em $x_1$ e $x_2$ . Em particular, quando $x_2$ é mantido fixo, de modo que $\Delta x_2 = 0$ , teremos

(8) $\begin{align*} \Delta \hat{y} = \hat{\beta_1} \Delta x_1. \nonumber \end{align*}$

Ou, simplesmente,

(9) $\begin{align*} \frac{\partial \hat{y}}{\partial \hat{x_1}} = \hat{\beta_1}, \nonumber \end{align*}$

onde $\hat{\beta_1}$ irá medir o efeito da variação de $x_1$ em $y$ , mantido $x_2$ constante.

# Exemplo: equação do salário-hora

De modo a ilustrar, vamos considerar o exemplo 3.2 de Wooldridge (2003), em que o mesmo utiliza o conjunto de dados wage1, disponível no pacote wooldridge. Ele pode ser acessado como abaixo.


library(wooldridge)
data(wage1)

modelo = lm(log(wage) ~ educ+exper+tenure, data=wage1)

E abaixo, o nosso modelo.


	Dependent variable:

	log(wage)

educ	0.092^***
	(0.007)

exper	0.004^**
	(0.002)

tenure	0.022^***
	(0.003)

Constant	0.284^***
	(0.104)


Observations	526
R²	0.316
Adjusted R²	0.312
Residual Std. Error	0.441 (df = 522)
F Statistic	80.391^*** (df = 3; 522)

Note:	^p<0.1; ^p<0.05; ^**p<0.01

De modo a obter a seguinte reta de regressão para o log do salário-hora

(10) $\begin{align*} \hat{log(wage)} = 0.284 + 0.092 educ + 0.0041 exper + 0.022 tenure. \end{align*}$

De onde se conclui, por exemplo, que o aumento de um ano na educação formal equivale a um aumento de 9.2% no salário-hora, mantidos exper e tenure fixos.

Quer aprender mais sobre econometria? Conheça nosso Curso de Introdução à Econometria usando o R.

_______________________

Wooldridge, J. M. 2013. Introductory Econometrics: A Modern Approach. Editora Cengage.

Compartilhe esse artigo

Comente o que achou desse artigo

Boletim AM

Encontre o seu conteúdo

Categorias

Artigos mais acessados

O que é um Vector Database e como criar um com LangChain

Automatizando a Construção de Códigos em Python com LangGraph

Análise de Dados com REPL Tool e LLM usando LangGraph

Frameworks para criar AI Agents

Construindo RAG para Análise do COPOM com SmolAgents

Como criar um Agente de IA?

Outros artigos relacionados

O que é um Vector Database e como criar um com LangChain

Nesta postagem, mostramos como construir um pipeline simples de RAG (Retrieval-Augmented Generation) usando o LangChain, o modelo Gemini 2.0 Flash e o Vector Database Chroma. Utilizamos como exemplo o Relatório de Inflação de junho de 2025 do Banco Central do Brasil. O fluxo envolve o download e leitura do PDF, divisão do texto com RecursiveCharacterTextSplitter, geração de embeddings com Gemini, armazenamento vetorial com Chroma e busca semântica para responder perguntas com base no conteúdo do relatório. É uma aplicação prática e didática para economistas que desejam integrar IA ao seu fluxo de análise.

Automatizando a Construção de Códigos em Python com LangGraph

Neste post, mostramos como construir um agente de código em Python utilizando LangGraph, LangChain e Gemini. A proposta é construir um protótipo para automatizar o ciclo completo de geração, execução e correção de código com o uso de LLMs, organizando o processo em um grafo de estados.

Análise de Dados com REPL Tool e LLM usando LangGraph

Neste post, vamos mostrar como você pode criar um agente que interpreta e executa código Python em tempo real, utilizando o REPL-Tool e um LLM da família Gemini. Começamos com um exemplo genérico e, em seguida, aplicamos a mesma estrutura à análise econômica de uma série histórica do IPCA.

Boletim AM

Receba diretamente em seu e-mail gratuitamente nossas promoções especiais e conteúdos exclusivos sobre Análise de Dados!

Boletim AM

Receba diretamente em seu e-mail gratuitamente nossas promoções especiais e conteúdos exclusivos sobre Análise de Dados!