Análise de Microdados da PNAD Contínua com o R

A Pesquisa Nacional por Amostra de Domicílios Contínua (PNADc) é uma importante fonte de dados que descreve de modo detalhado a situação da população brasileira. Suas tabelas incluem dados de diversos temas, como instrução, trabalho, famílias e características dos domicílios, sendo assim uma fonte ampla para pesquisas e análises aprofundadas. É possível analisar facilmente os Microdados da pesquisa usando o R por meio do pacote {PNADcIBGE}.

PNADc

A PNADc visa acompanhar as flutuações trimestrais e a evolução, no curto, médio e longo prazos, da força de trabalho, e outras informações necessárias para o estudo do desenvolvimento socioeconômico do País. Para atender a tais objetivos, a pesquisa foi planejada para produzir indicadores trimestrais sobre a força de trabalho e indicadores anuais sobre temas suplementares permanentes (como trabalho e outras formas de trabalho, cuidados de pessoas e afazeres domésticos, tecnologia da informação e da comunicação etc.), investigados em um trimestre específico ou aplicados em uma parte da amostra a cada trimestre e acumulados para gerar resultados anuais, sendo produzidos, também, com periodicidade variável, indicadores sobre outros temas suplementares. Tem como unidade de investigação o domicílio.

Os dados da pesquisa são totalmente desagregados e com um tamanho amostral considerável, portanto, eles são dispostos em microdados que exigem cuidados na sua importação e análise.

Microdados PNADc

Microdados consistem no menor nível de desagregação dos dados de uma pesquisa, retratando, sob a forma de códigos numéricos, o conteúdo dos questionários, preservado o sigilo das informações. Os microdados possibilitam aos usuários, com conhecimento de linguagens de programação ou softwares de cálculo, criar suas próprias tabelas.

A PNAD Contínua possui três tipos de microdados:

  • Trimestral, que contém a parte básica investigada pela pesquisa, contendo variáveis conjunturais de mercado de trabalho referentes a um trimestre civil;
  • Anual acumulados em determinada visita, que contém temas e tópicos suplementares pesquisados ao longo do ano em determinada visita;
  • Anual concentrados em determinado trimestre, que contém temas e tópicos suplementares pesquisados em trimestres específicos do ano.

Mas como coletar esses dados? É possível facilitar esse trabalho utilizando o pacote {PNADcIBGE} criado por Gabriel Assunção. Usando o pacote, coleta-se as diversas variáveis disponíveis na pesquisa em determinado período de tempo. Abaixo, realizamos duas possibilidades de uso dos dados.

A construção de todos os procedimentos para a coleta e criação dos gráficos abaixo você pode obter fazendo parte do Clube AM, o repositório especial de códigos da Análise Macro.

Análise da PNADc: Índice de Gini

O índice de Gini é uma medida de distribuição de renda muito interessante e conhecida, que tenta expressar em um valor único a desigualdade apresentada na curva de Lorenz. Neste exercício mostramos como podemos estimar essa medida facilmente no R.

O índice de Gini consiste em um número entre 0 e 1, onde 0 corresponde à completa igualdade e 1 corresponde à completa desigualdade e pode ser calculado com a fórmula de Brown abaixo:

Onde:

G = coeficiente de Gini
X = proporção acumulada da variável "população"
Y = proporção acumulada da variável "renda"

Para esse exercício usaremos os microdados da PNAD Contínua trimestral do IBGE, que possui a variável Rendimento mensal efetivo de todos os trabalhos (VD4020). E para tornar o exercício interessante faremos a estimação do índice de Gini por estado (UF) brasileiro.

 

 

Analise da PNADc: Curva de Lorenz

A curva de Lorenz é um simples instrumental gráfico e analítico que nos permite descrever e analisar a distribuição de renda em uma sociedade, além de permitirem que ordenamos distribuições de renda sob um ponto de vista de bem-estar.

A curva de Lorenz é uma linha que representa a distribuição cumulativa da renda ou riqueza de uma população, colocando em ordem crescente a porcentagem da população em um dos eixos e a porcentagem da renda ou riqueza acumulada por essas pessoas no outro eixo. A linha de 45 graus que vai do canto inferior esquerdo até o superior direito do gráfico representa uma distribuição igualitária da renda ou riqueza, enquanto a curva de Lorenz mostra o quão distante a distribuição atual está da igualdade.

Quanto mais a curva de Lorenz se afasta da linha de igualdade, maior é a desigualdade na distribuição de renda ou riqueza.

________________________________________________

Quer se aprofundar no assunto?

Alunos da trilha de Especialista em Avaliação de Políticas Públicas podem aprender a como construir projetos que envolvem dados reais usando microdados, análise exploratória e modelos estatísticos/econométricos.

Referências

Assunção, G. (2023). Análise de microdados da PNAD Contínua https://rpubs.com/gabriel-assuncao-ibge/pnadc Acesso em: 27/02/2023.

Compartilhe esse artigo

Facebook
Twitter
LinkedIn
WhatsApp
Telegram
Email
Print

Comente o que achou desse artigo

Outros artigos relacionados

Criando operações SQL com IA Generativa no R com querychat

No universo da análise de dados, a velocidade para obter respostas é um diferencial competitivo. Frequentemente, uma simples pergunta de negócio — “Qual foi nosso produto mais vendido no último trimestre na região Nordeste?” — inicia um processo que envolve abrir o RStudio, escrever código dplyr ou SQL, executar e, finalmente, obter a resposta. E se pudéssemos simplesmente perguntar isso aos nossos dados em português, diretamente no nosso dashboard Shiny?

Dashboard Financeiro com IA e Shiny Python: Análise de Dados Abertos da CVM

Este artigo apresenta um tutorial completo sobre como construir uma ferramenta de análise financeira de ponta. Utilizando Shiny for Python, demonstramos a automação da coleta de dados das Demonstrações Financeiras Padronizadas (DFP) da CVM e o tratamento dessas informações com Pandas. O ponto alto do projeto é a integração da IA Generativa do Google Gemini, que atua como um assistente de análise, interpretando os dados filtrados pelo usuário e fornecendo insights contábeis e financeiros em tempo real. O resultado é um dashboard dinâmico que democratiza a análise de dados complexos e acelera a tomada de decisão.

Econometria, ML ou IA para previsão da PMS?

Prever a Pesquisa Mensal de Serviços (PMS/IBGE) é um desafio por natureza: trata-se de uma série mensal, sujeita a volatilidade e choques que vão de fatores sazonais a mudanças estruturais no setor. Para enfrentar esse problema, realizamos um exercício de comparação entre três abordagens de modelagem: econometria tradicional (ARIMA), machine learning (XGBoost) e inteligência artificial (TimeGPT).

Boletim AM

Receba diretamente em seu e-mail gratuitamente nossas promoções especiais e conteúdos exclusivos sobre Análise de Dados!

Boletim AM

Receba diretamente em seu e-mail gratuitamente nossas promoções especiais e conteúdos exclusivos sobre Análise de Dados!

como podemos ajudar?

Preencha os seus dados abaixo e fale conosco no WhatsApp

Boletim AM

Preencha o formulário abaixo para receber nossos boletins semanais diretamente em seu e-mail.