A turma de setembro do nosso Curso de Introdução à Econometria usando o R terá uma grande novidade. A apostila e as listas de exercício foram revisadas e atualizadas com exercícios do livro clássico de Jeffrey Marc Wooldridge. Todos feitos no R, de modo a mostrar para o aluno como a teoria pode ser complementada com a prática. Com isso, trazemos ainda mais aplicações para o curso, o que garante total absorção do conteúdo. Para ilustrar, vamos considerar nesse post o modelo de regressão múltipla. Primeiro, um pouco de teoria e depois um exemplo do Wooldridge feito no R.
Em post anterior nesse blog, vimos o modelo de regressão simples, onde pode ser explicado por uma única variável
. O problema básico desse tipo de análise é que ela faz uma suposição bastante forte, qual seja, que
não está correlacionado com o erro, dificultando a aplicação da condição ceteris paribus. A análise de regressão múltipla, por outro lado, é mais receptiva a esse tipo de condição, uma vez que ela permite que controlemos outros fatores que afetam
, adicionando os mesmos na equação. Assim, por suposto, se queremos explicar
, podemos utilizar
variáveis, como abaixo:
(1)
onde é o intercepto,
é o parâmetro associado a
. De modo a obter uma estimativa para 1, devemos observar que
(2)
Isto é, que todos os fatores no termo de erro não observado sejam não correlacionados com as variáveis explicativas. De modo a obter estimativas para os
parâmetros, é possível recorrer ao método de mínimos quadrados ordinários. Isto é, dado
(3)
onde é a estimativa de
, o método de MQO escolhe as estimativas
que minimizam a soma dos quadrados dos resíduos:
(4)
O problema acima pode ser resolvido por meio de cálculo multivariado, de onde obtemos as condições de primeira ordem
(5)
ou simplesmente, e
.
Interpretação da equação de regressão de MQO
Suponha, agora, que tenhamos
(6)
O intercepto será então o valor previsto de
quando
. Já as estimativas
e
devem ser interpretadas como efeito parcial ou simplesmente ceteris paribus. Isto é,
(7)
de modo que obtemos a variação prevista em dadas as variações em
e
. Em particular, quando
é mantido fixo, de modo que
, teremos
(8)
Ou, simplesmente,
(9)
onde irá medir o efeito da variação de
em
, mantido
constante.
Exemplo: equação do salário-hora
De modo a ilustrar, vamos considerar o exemplo 3.2 do livro do Wooldridge, em que o mesmo utiliza o conjunto de dados wage1, disponível no pacote wooldridge. Ele pode ser acessado como abaixo.
data(wage1, package='wooldridge')
De posse desse conjunto de dados, você pode estimar o modelo abaixo:
lm(log(wage) ~ educ+exper+tenure, data=wage1)
De modo a obter a seguinte reta de regressão para o log do salário-hora
(10)
De onde se conclui, por exemplo, que o aumento de um ano na educação formal equivale a um aumento de 9.2\% no salário-hora, mantidos exper e tenure fixos.