Trimestre de nascimento e o efeito da educação nos rendimentos: como avaliar essa relação usando o R como ferramenta?

Resumo

Neste exercício, investigamos a influência do trimestre de nascimento como um possível determinante dos rendimentos efetivos no Brasil. Pessoas nascidas em determinados trimestres tendem a acumular mais anos de estudo. Com base em uma observação empírica, utilizamos o trimestre de nascimento como uma variável instrumental para os anos de estudo em um modelo de Regressão Linear com Variáveis Instrumentais (IV). O objetivo é avaliar como essa relação afeta os rendimentos. Usamos a linguagem de programação R para a coleta, tratamento e análise de dados.

O código em R completo deste exercício está disponível para os membros do  Clube AM.

Introdução

A relação entre educação e renda tem sido amplamente estudada em diversas áreas das ciências sociais e econômicas. Neste estudo, exploramos como o trimestre de nascimento pode ser utilizado como uma variável explicativa adicional para os rendimentos. Estudos anteriores sugerem que nascidos nos primeiros meses do ano tendem a ter uma trajetória educacional mais longa, o que pode impactar diretamente nos salários. Nosso foco será, portanto, verificar empiricamente essa correlação no contexto brasileiro.

Variáveis Instrumentais

O uso de variáveis instrumentais é uma técnica econométrica aplicada quando há endogeneidade nos modelos de regressão, ou seja, quando uma ou mais variáveis explicativas estão correlacionadas com o erro. Neste exercício, o trimestre de nascimento será utilizado como um instrumento para os anos de estudo, presumindo que o trimestre influencia os anos de escolaridade, mas não afeta diretamente os rendimentos, exceto por meio da educação. Esta abordagem visa contornar o viés de endogeneidade, garantindo estimativas mais consistentes e não tendenciosas.

Anos de Estudo e Rendimentos por Trimestre

A hipótese central do estudo é que o trimestre de nascimento está relacionado com a quantidade de anos de estudo acumulados pelos indivíduos, e, por conseguinte, com os rendimentos efetivos. Por meio de uma análise de regressão, investigamos como essa variável afeta os rendimentos médios, controlando por outras características sociodemográficas. Espera-se que nascidos nos primeiros trimestres apresentem maiores rendimentos devido a uma maior acumulação de anos de estudo.

Se você deseja saber como criar Avaliações de Políticas Públicas, veja nosso curso Avaliações de Políticas Públicas usando R.

Dados

Os dados utilizados foram extraídos dos microdados da Pesquisa Nacional por Amostra de Domicílios Contínua (PNADc), processados com o pacote PNADcIBGE. A análise foca no 4° trimestre de 2022. A seguir, apresentamos as principais variáveis utilizadas no estudo, com suas respectivas descrições conforme os microdados da PNADc.

Variável Descrição
UF Unidade da Federação
V2007 Sexo
V20081 Mês de nascimento
V20082 Ano de nascimento
V2009 Idade do morador na data de referência
V2010 Cor ou raça
VD3004 Nível de instrução mais elevado alcançado (pessoas de 5 anos ou mais de idade)
VD3005 Anos de estudo (pessoas de 5 anos ou mais de idade) padronizado para o Ensino Fundamental - SISTEMA DE 9 ANOS
VD4020 Rendimento mensal efetivo de todos os trabalhos para pessoas de 14 anos ou mais (apenas para pessoas que receberam em dinheiro, produtos ou mercadorias em qualquer trabalho)
VD4035 Horas efetivamente trabalhadas na semana de referência em todos os trabalhos para pessoas de 14 anos ou mais de idade

Análise dos dados

Vamos verificar a distribuição dos dados de Rendimentos.

A distribuição aparenta ser assimétrica, com valores discrepantes. Podemos ajustar usando o logaritmo dos valores de rendimentos. Isto possibilita temos melhores resultados nos modelos.Médias por grupos

Com a possível diferença de rendimentos por grupos, devemos avaliar se efetivamente essa separação é relevante para a diferença por médias. Assim, podemos ter certeza de que são bons controles.

sexo_morador rendimentos se
Homem Homem 3194.904 37.9239
Mulher Mulher 2508.588 21.7085
nivel_instrucao rendimentos se
Sem instrução e menos de 1 ano de estudo Sem instrução e menos de 1 ano de estudo 1230.846 40.03303
Fundamental incompleto ou equivalente Fundamental incompleto ou equivalente 1563.996 12.57315
Fundamental completo ou equivalente Fundamental completo ou equivalente 1851.893 21.55013
Médio incompleto ou equivalente Médio incompleto ou equivalente 1718.105 26.51282
Médio completo ou equivalente Médio completo ou equivalente 2169.678 14.22652
Superior incompleto ou equivalente Superior incompleto ou equivalente 2888.707 80.51010
Superior completo Superior completo 5961.226 81.15825
trimestre_nascimento rendimentos se
1 3025.892 46.45174
2 2920.512 35.56251
3 2912.610 39.32019
4 2940.307 43.40549

 

Visualização dos dados

O gráfico mostra que indivíduos nascidos no 1º e 2º trimestres (cores vermelha e amarela) tendem a ter mais anos de estudo em comparação aos nascidos no 3º e 4º trimestres (cores verde e cinza), especialmente entre 1980 e 1990. Essa diferença, possivelmente causada pela vantagem de idade relativa ao iniciar a escolarização, diminui ao longo do tempo, sugerindo uma maior igualdade nos anos de educação nos últimos anos do período analisado (1990-1995).

Isso indica que o trimestre de nascimento pode influenciar o tempo de permanência na escola, com implicações na formação educacional e, potencialmente, nos rendimentos futuros.

 

O gráfico mostra que os rendimentos efetivos (em log) variam moderadamente entre os trimestres de nascimento, sem uma tendência clara e constante. Há picos mais evidentes na década de 1980, especialmente para os nascidos no 1º trimestre, e uma queda geral após 1990.

Modelagem

Agora, vamos criar o modelo de uma regressão linear múltipla comum, sem instrumentos, usando o trimestre de nascimento como variável explicativa dos rendimentos. Também criamos o modelo de regressão linear múltipla com o trimestre de nascimento como instrumentos para o ano de nascimento.

Dependent variable:
rendimentos_log
OLS instrumental
variable
(1) (2)
ano_nascimento -0.009*** -0.108
(0.001) (0.238)
sexo_moradorMulher -0.128*** -0.130***
(0.007) (0.010)
cor_raçaPreta -0.294*** -0.288***
(0.011) (0.019)
cor_raçaAmarela -0.016 -0.027
(0.039) (0.051)
cor_raçaParda -0.296*** -0.291***
(0.008) (0.014)
cor_raçaIndígena -0.420*** -0.424***
(0.046) (0.052)
horas_trabalhadas 0.017*** 0.017***
(0.0002) (0.0003)
Observations 62,808 62,808
R2 0.234 0.018
Note: *p<0.1; **p<0.05; ***p<0.01

Assim como no modelo sem instrumentos, vemos que sexo e cor/raça são relevantes para o modelo com instrumento, da mesma forma que horas trabalhadas e os estados. Entretanto, o ano de nascimento já não é significativo.

Em relação aos diagnóstico dos instrumentos, encontramos os seguintes resultados:

  • No teste de “Weak Instruments”, a estatística foi de 0.263 com um p-valor de 0.85225, indicando que não há evidências suficientes para rejeitar a hipótese nula de que os instrumentos são fracos.
  • No teste de Wu-Hausman, a estatística foi de 0.224 e o p-valor de 0.63585 novamente aponta para um p-valor elevado, indicando que não há evidências suficientes para rejeitar a hipótese nula de que os modelos (normal vs. IV) são equivalentes, sugerindo que a endogeneidade pode não ser um problema significativo neste contexto
  • No teste de Sargan, a estatística foi de 12.653 e o p-valor foi de 0.00179, o que indica que a hipótese nula de que os instrumentos são válidos deve ser rejeitada. Isso sugere que os instrumentos utilizados podem estar correlacionados com o erro, comprometendo a validade das estimativas.

Tenha acesso ao código e suporte desse e de mais 500 exercícios no Clube AM!

Quer o código desse e de mais de 500 exercícios de análise de dados com ideias validadas por nossos especialistas em problemas reais de análise de dados do seu dia a dia? Além de acesso a vídeos, materiais extras e todo o suporte necessário para você reproduzir esses exercícios? Então, fale com a gente no Whatsapp e veja como fazer parte do Clube AM, clicando aqui.

Compartilhe esse artigo

Facebook
Twitter
LinkedIn
WhatsApp
Telegram
Email
Print

Comente o que achou desse artigo

Outros artigos relacionados

O que é e como aplicar análise de sentimentos no Python?

Neste exercício construímos um indicador que busca quantificar o sentimento proveniente das decisões de política monetária no Brasil. Usando técnicas de mineração de texto, implementamos todas as etapas necessárias, desde web scraping e pré-processamento das atas do Comitê de Política Monetária do Banco Central (COPOM), até a criação de tokens e a classificação do sentimento implícito nos textos.

Trimestre de nascimento e o efeito da educação nos rendimentos: como avaliar essa relação usando o R como ferramenta?

Neste exercício, investigamos a influência do trimestre de nascimento como um possível determinante dos rendimentos efetivos no Brasil. Pessoas nascidas em determinados trimestres tendem a acumular mais anos de estudo. Com base em uma observação empírica, utilizamos o trimestre de nascimento como uma variável instrumental para os anos de estudo em um modelo de Regressão Linear com Variáveis Instrumentais (IV). O objetivo é avaliar como essa relação afeta os rendimentos. Usamos a linguagem de programação R para a coleta, tratamento e análise de dados.

Avaliando os Ciclos da Taxa de Desocupação Brasileira usando Python

Neste exercício, implementamos Modelos de Componentes Não Observados (MCNO) em Python para analisar a Taxa de Desocupação Brasileira. Comparamos os componentes extraídos pelo MCNO com os obtidos pelo Filtro de Hodrick-Prescott (HP), uma técnica comum para decomposição de séries temporais.

como podemos ajudar?

Preencha os seus dados abaixo e fale conosco no WhatsApp

Boletim AM

Preencha o formulário abaixo para receber nossos boletins semanais diretamente em seu e-mail.