Aplicação de regressão com dados em painel no Python

A regressão de dados em painel é uma técnica estatística usada para analisar dados longitudinais, ou seja, dados coletados ao longo do tempo de uma mesma unidade de análise, como empresas, indivíduos ou países. Essa técnica é muito útil para modelar a relação entre variáveis dependentes e independentes, controlando o efeito de outras variáveis que possam influenciar a relação. Neste post, exploraremos as principais funcionalidades do Python para análise de regressão em painel e como aplicá-las.

Regressão com dados em painel

regressão de dados em painel é uma técnica estatística usada para analisar dados longitudinais que consistem em observações repetidas ao longo do tempo de uma mesma unidade de análise. Essa técnica é baseada em modelos de efeitos fixos, que capturam a heterogeneidade inobservada entre as unidades de análise, e modelos de efeitos aleatórios, que assumem que as unidades de análise são selecionadas aleatoriamente de uma população mais ampla.

As principais vantagens da regressão em painel incluem a

  • redução de erros de estimação;
  • a eliminação de variáveis que não variam ao longo do tempo;
  • evitar a multicolinearidade;
  • a possibilidade de avaliar os efeitos de políticas ou tratamentos ao longo do tempo.

Além disso, a regressão em painel permite controlar o efeito de outras variáveis que possam influenciar a relação entre as variáveis dependentes e independentes.

Efeitos Fixos

Os efeitos fixos na regressão de dados em painel referem-se a variáveis que variam entre as unidades de análise (indivíduos, empresas, países, etc.) e que são constantes ao longo do tempo. Essas variáveis são incluídas no modelo para controlar a heterogeneidade entre as unidades de análise que não pode ser observada ou medida.

Em outras palavras, os efeitos fixos permitem capturar diferenças não observáveis entre as unidades de análise que podem influenciar a relação entre as variáveis dependentes e independentes. Isso pode ajudar a melhorar a precisão das estimativas e reduzir os erros de estimação.

Os efeitos fixos são estimados incluindo variáveis dummy no modelo, que representam cada unidade de análise. Cada dummy é codificada como 1 para a unidade de análise correspondente e 0 para as outras unidades de análise. Isso permite que o modelo capture as diferenças não observáveis entre as unidades de análise, controlando seu efeito sobre a relação entre as variáveis dependentes e independentes.

Os efeitos fixos também são conhecidos como modelos de efeitos individuais ou modelos de intercepto aleatório. Eles são amplamente utilizados em pesquisas que envolvem dados longitudinais ou em estudos comparativos entre unidades de análise que diferem em suas características não observáveis.

Geralmente, o modelo de efeito fixo é definido como:

 y_{it} = \beta X_{it} + \gamma U_i + e_{it}

onde  y_{it} é o resultado do individuo i no tempo t. X_{it} é o vetor de variáveis dos indivíduos i no tempo t. U_i é o conjunto não observável do individuo i. Observe que esses inobserváveis ​​são imutáveis ​​ao longo do tempo, daí a falta do subscrito de tempo. Finalmente, e_{it} é o termo de erro.

Exemplo

Vamos verificar a aplicação do dados usando o dataset wage_panel, disponível na biblioteca linearmodels, referente ao trabalho de Vella e Verbeek (1998). A ideia do artigo é responder a seguinte pergunta: Homens casados são mais ricos? 

Para obter o código de importação do dataset, da construção do modelo e também dos códigos subsequentes, faça parte do Clube AM, o repositório especial da Análise Macro.

 

No dataset, temos diversas variáveis que podem auxiliar na explicação no salário. Etnicidades, horas trabalhadas, educação, expertise (anos trabalhados) e ocupação.

Para aplicar a regressão com dados em painel, vamos retirar as variáveis dummys que são constantes. As variáveis que são constantes no tempo são uma combinação linear dos dummys, o que faz com que o modelo não rode.

Agora, podemos aplicar a regressão a partir das variáveis que não são constantes, também não usaremos a variável occupation, pois pode estar mediando o efeito de marriage em wage (casamento sobre o salário).  Usaremos a biblioteca linearmodels, que possui a função PanelOLS. Como resultado, teremos:

Como resultados, verificamos o efeito de que o casamento provoca o aumento de 11% sobre o salário.

Referências

Vella and M. Verbeek (1998), “Whose Wages Do Unions Raise? A Dynamic Model of Unionism and Wage Rate Determination for Young Men,” Journal of Applied Econometrics 13, 163-183.

Compartilhe esse artigo

Facebook
Twitter
LinkedIn
WhatsApp
Telegram
Email
Print

Comente o que achou desse artigo

Outros artigos relacionados

Análise do Censo Demográfico com o R

Como podemos analisar dados do Censo Demográfico para produzir pesquisas e implementar políticas públicas? Mostramos nesta postagem o resultado de uma breve análise dos dados preliminares do Censo Demográfico de 2022 usando o R.

Deploy de modelos com Python + Shinylive + GitHub gastando ZERO reais

Colocar modelos em produção pode ser um grande desafio. Lidar com custos monetários, infraestrutura operacional e complexidades de códigos e ferramentas pode acabar matando potenciais projetos. Uma solução que elimina todos estes obstáculos é a recém lançada Shinylive. Neste artigo mostramos um exemplo com um modelo de previsão para o preço do petróleo Brent.

Como automatizar tarefas repetitivas usando Python? Um exemplo para largar o Excel

Manter relatórios diários com dados e análises atualizados é um desafio, pois envolve várias etapas: coleta de dados, tratamento de informações, produção de análises e atualização de relatório. Para superar este desafio algumas ferramentas como Python + Quarto + GitHub podem ser usadas para automatizar tudo que for automatizável. Neste artigo mostramos um exemplo com dados do mercado financeiro.

como podemos ajudar?

Preencha os seus dados abaixo e fale conosco no WhatsApp

Boletim AM

Preencha o formulário abaixo para receber nossos boletins semanais diretamente em seu e-mail.