Resumo
Neste exercício, investigamos a influência do trimestre de nascimento como um possível determinante dos rendimentos efetivos no Brasil. Pessoas nascidas em determinados trimestres tendem a acumular mais anos de estudo. Com base em uma observação empírica, utilizamos o trimestre de nascimento como uma variável instrumental para os anos de estudo em um modelo de Regressão Linear com Variáveis Instrumentais (IV). O objetivo é avaliar como essa relação afeta os rendimentos. Usamos a linguagem de programação R para a coleta, tratamento e análise de dados.
O código em R completo deste exercício está disponível para os membros do Clube AM.
Introdução
A relação entre educação e renda tem sido amplamente estudada em diversas áreas das ciências sociais e econômicas. Neste estudo, exploramos como o trimestre de nascimento pode ser utilizado como uma variável explicativa adicional para os rendimentos. Estudos anteriores sugerem que nascidos nos primeiros meses do ano tendem a ter uma trajetória educacional mais longa, o que pode impactar diretamente nos salários. Nosso foco será, portanto, verificar empiricamente essa correlação no contexto brasileiro.
Variáveis Instrumentais
O uso de variáveis instrumentais é uma técnica econométrica aplicada quando há endogeneidade nos modelos de regressão, ou seja, quando uma ou mais variáveis explicativas estão correlacionadas com o erro. Neste exercício, o trimestre de nascimento será utilizado como um instrumento para os anos de estudo, presumindo que o trimestre influencia os anos de escolaridade, mas não afeta diretamente os rendimentos, exceto por meio da educação. Esta abordagem visa contornar o viés de endogeneidade, garantindo estimativas mais consistentes e não tendenciosas.
Anos de Estudo e Rendimentos por Trimestre
A hipótese central do estudo é que o trimestre de nascimento está relacionado com a quantidade de anos de estudo acumulados pelos indivíduos, e, por conseguinte, com os rendimentos efetivos. Por meio de uma análise de regressão, investigamos como essa variável afeta os rendimentos médios, controlando por outras características sociodemográficas. Espera-se que nascidos nos primeiros trimestres apresentem maiores rendimentos devido a uma maior acumulação de anos de estudo.
Se você deseja saber como criar Avaliações de Políticas Públicas, veja nosso curso Avaliações de Políticas Públicas usando R.
Dados
Os dados utilizados foram extraídos dos microdados da Pesquisa Nacional por Amostra de Domicílios Contínua (PNADc), processados com o pacote PNADcIBGE. A análise foca no 4° trimestre de 2022. A seguir, apresentamos as principais variáveis utilizadas no estudo, com suas respectivas descrições conforme os microdados da PNADc.
Variável | Descrição |
---|---|
UF | Unidade da Federação |
V2007 | Sexo |
V20081 | Mês de nascimento |
V20082 | Ano de nascimento |
V2009 | Idade do morador na data de referência |
V2010 | Cor ou raça |
VD3004 | Nível de instrução mais elevado alcançado (pessoas de 5 anos ou mais de idade) |
VD3005 | Anos de estudo (pessoas de 5 anos ou mais de idade) padronizado para o Ensino Fundamental - SISTEMA DE 9 ANOS |
VD4020 | Rendimento mensal efetivo de todos os trabalhos para pessoas de 14 anos ou mais (apenas para pessoas que receberam em dinheiro, produtos ou mercadorias em qualquer trabalho) |
VD4035 | Horas efetivamente trabalhadas na semana de referência em todos os trabalhos para pessoas de 14 anos ou mais de idade |
Análise dos dados
Vamos verificar a distribuição dos dados de Rendimentos.
A distribuição aparenta ser assimétrica, com valores discrepantes. Podemos ajustar usando o logaritmo dos valores de rendimentos. Isto possibilita temos melhores resultados nos modelos.Médias por grupos
Com a possível diferença de rendimentos por grupos, devemos avaliar se efetivamente essa separação é relevante para a diferença por médias. Assim, podemos ter certeza de que são bons controles.
sexo_morador | rendimentos | se | |
---|---|---|---|
Homem | Homem | 3194.904 | 37.9239 |
Mulher | Mulher | 2508.588 | 21.7085 |
nivel_instrucao | rendimentos | se | |
---|---|---|---|
Sem instrução e menos de 1 ano de estudo | Sem instrução e menos de 1 ano de estudo | 1230.846 | 40.03303 |
Fundamental incompleto ou equivalente | Fundamental incompleto ou equivalente | 1563.996 | 12.57315 |
Fundamental completo ou equivalente | Fundamental completo ou equivalente | 1851.893 | 21.55013 |
Médio incompleto ou equivalente | Médio incompleto ou equivalente | 1718.105 | 26.51282 |
Médio completo ou equivalente | Médio completo ou equivalente | 2169.678 | 14.22652 |
Superior incompleto ou equivalente | Superior incompleto ou equivalente | 2888.707 | 80.51010 |
Superior completo | Superior completo | 5961.226 | 81.15825 |
trimestre_nascimento | rendimentos | se |
---|---|---|
1 | 3025.892 | 46.45174 |
2 | 2920.512 | 35.56251 |
3 | 2912.610 | 39.32019 |
4 | 2940.307 | 43.40549 |
Visualização dos dados
O gráfico mostra que indivíduos nascidos no 1º e 2º trimestres (cores vermelha e amarela) tendem a ter mais anos de estudo em comparação aos nascidos no 3º e 4º trimestres (cores verde e cinza), especialmente entre 1980 e 1990. Essa diferença, possivelmente causada pela vantagem de idade relativa ao iniciar a escolarização, diminui ao longo do tempo, sugerindo uma maior igualdade nos anos de educação nos últimos anos do período analisado (1990-1995).
Isso indica que o trimestre de nascimento pode influenciar o tempo de permanência na escola, com implicações na formação educacional e, potencialmente, nos rendimentos futuros.
O gráfico mostra que os rendimentos efetivos (em log) variam moderadamente entre os trimestres de nascimento, sem uma tendência clara e constante. Há picos mais evidentes na década de 1980, especialmente para os nascidos no 1º trimestre, e uma queda geral após 1990.
Modelagem
Agora, vamos criar o modelo de uma regressão linear múltipla comum, sem instrumentos, usando o trimestre de nascimento como variável explicativa dos rendimentos. Também criamos o modelo de regressão linear múltipla com o trimestre de nascimento como instrumentos para o ano de nascimento.
Dependent variable: | ||
rendimentos_log | ||
OLS | instrumental | |
variable | ||
(1) | (2) | |
ano_nascimento | -0.009*** | -0.108 |
(0.001) | (0.238) | |
sexo_moradorMulher | -0.128*** | -0.130*** |
(0.007) | (0.010) | |
cor_raçaPreta | -0.294*** | -0.288*** |
(0.011) | (0.019) | |
cor_raçaAmarela | -0.016 | -0.027 |
(0.039) | (0.051) | |
cor_raçaParda | -0.296*** | -0.291*** |
(0.008) | (0.014) | |
cor_raçaIndígena | -0.420*** | -0.424*** |
(0.046) | (0.052) | |
horas_trabalhadas | 0.017*** | 0.017*** |
(0.0002) | (0.0003) | |
Observations | 62,808 | 62,808 |
R2 | 0.234 | 0.018 |
Note: | *p<0.1; **p<0.05; ***p<0.01 |
Assim como no modelo sem instrumentos, vemos que sexo e cor/raça são relevantes para o modelo com instrumento, da mesma forma que horas trabalhadas e os estados. Entretanto, o ano de nascimento já não é significativo.
Em relação aos diagnóstico dos instrumentos, encontramos os seguintes resultados:
- No teste de “Weak Instruments”, a estatística foi de 0.263 com um p-valor de 0.85225, indicando que não há evidências suficientes para rejeitar a hipótese nula de que os instrumentos são fracos.
- No teste de Wu-Hausman, a estatística foi de 0.224 e o p-valor de 0.63585 novamente aponta para um p-valor elevado, indicando que não há evidências suficientes para rejeitar a hipótese nula de que os modelos (normal vs. IV) são equivalentes, sugerindo que a endogeneidade pode não ser um problema significativo neste contexto
- No teste de Sargan, a estatística foi de 12.653 e o p-valor foi de 0.00179, o que indica que a hipótese nula de que os instrumentos são válidos deve ser rejeitada. Isso sugere que os instrumentos utilizados podem estar correlacionados com o erro, comprometendo a validade das estimativas.
Tenha acesso ao código e suporte desse e de mais 500 exercícios no Clube AM!
Quer o código desse e de mais de 500 exercícios de análise de dados com ideias validadas por nossos especialistas em problemas reais de análise de dados do seu dia a dia? Além de acesso a vídeos, materiais extras e todo o suporte necessário para você reproduzir esses exercícios? Então, fale com a gente no Whatsapp e veja como fazer parte do Clube AM, clicando aqui.