Acessando Microdados da PNAD Contínua com o R

A Pesquisa Nacional por Amostra de Domicílios (PNAD) é uma importante fonte de dados que descreve de modo detalhado a situação da população brasileira. Suas tabelas incluem dados de diversos temas, como instrução, trabalho, famílias e características dos domicílios, sendo assim uma fonte ampla para pesquisas e análises aprofundada. No post de hoje, mostraremos como é possível obter os dados da PNADc com o R!

PNADcIBGE

O pacote PNADcIBGE permite extrair os microdados da pesquisa direto do R, utilizando-se da função get_pnadc, que a partir de seus argumentos, define os parâmetros e quais dados da pesquisa devem ser extraídos.

Dentre os possíveis argumentos, seguem:

  • year é o ano dos dados que você está interessado;
  • quarter é o trimestre, que pode ser substituído por interview (dado anual baseado na entrevista, de 1 a 6) ou topic (dado anual para um dado tópico, de 1 a 4);
  • vars são as variáveis utilizadas, um vetor. Caso não fornecido, todas as variáveis serão incluídas;
  • defyear é o ano que é usado como base para calcular os valores deflacionados;
  • defquarter segue a mesma lógica. Os deflatores podem ser sobrescritos dadas algumas condições, há mais detalhes no manual do pacote;
  • labels indica se variáveis categóricas serão apresentadas como fatores;
  • deflator indica se será deflacionada a série;
  • design indica se os dados serão retornados como um survey.design, um tipo de objeto apropriado para análise de surveys com o pacote survey/
  • savedir indica se o objeto deve ser salvo em um diretório.

Para obter os códigos das variáveis e suas respectivas descrições, deve-se obter o arquivo .xls no seguinte link que direciona para o diretório de arquivos do IBGE sobre a PNADc. Ao entrar no link, deve-se baixar o arquivo "Dicionario_e_input.zip" e extrair a planilha de nome "dicionario_PNADC_microdados_trimestral.xls".

Abaixo, segue um exemplo de uso da retirada de dados da PNADc utilizando a função get_pnadc. Veja que escolhemos o ano de 2017 para o quarto trimestre. A variável V3009A pode ser encontrada dentro do dicionário, que tem como quesito: "Qual foi o curso mais elevado que ... frequentou anteriormente?".

Um ponto importante sobre a extração dos microdados da PNADc, deve ser o cuidado com a quantidade importada dentro do R, a depender da máquina, pode encontrar problemas devido ao grande peso da quantidade de dados.

Quer saber mais sobre a PNADc e outros microdados brasileiros?

Veja nosso curso de Microdados Brasileiros usando o R onde ensinamos nossos alunos as melhores formas de extrair os microdados com o R!

Compartilhe esse artigo

Facebook
Twitter
LinkedIn
WhatsApp
Telegram
Email
Print

Comente o que achou desse artigo

Outros artigos relacionados

Como usar LangGraph e LLMs para prever a inflação no Brasil

Este post apresenta um estudo de caso sobre como utilizar o LangGraph e modelos de linguagem para estruturar um sistema multiagente voltado à previsão do IPCA. O exercício cria um sistema que utiliza-se de personas analíticas que trabalham em paralelo, permitindo validar previsões, calcular métricas de erro e consolidar relatórios automatizados. A abordagem demonstra como fluxos multiagentes podem apoiar a análise econômica, oferecendo múltiplas perspectivas e maior consistência nos resultados.

O que é GraphRAG e implementar usando LangChain

GraphRAG é uma técnica de recuperação de informação para LLMs que utiliza grafos de conhecimento para conectar entidades e relações, permitindo estruturar informações complexas presentes em textos. Neste exercício, mostramos como transformar as atas do Copom em um grafo capaz de compreender essas entidades e relações, respondendo a perguntas complexas de forma contextualizada. Com Python e LangChain, todo o processo se torna automatizado, simples e altamente explorável.

Shiny + Agentes de IA: como criar aplicativos web inteligentes

A combinação de interfaces de usuário interativas com o poder dos grandes modelos de linguagem (LLMs) está abrindo um universo de possibilidades. Imagine criar um aplicativo web que não apenas exibe dados, mas também conversa com o usuário, respondendo a perguntas complexas com base em uma base de conhecimento específica. Usando Shiny para Python e ferramentas de IA como as do Google, isso é mais acessível do que nunca.

Boletim AM

Receba diretamente em seu e-mail gratuitamente nossas promoções especiais e conteúdos exclusivos sobre Análise de Dados!

Boletim AM

Receba diretamente em seu e-mail gratuitamente nossas promoções especiais e conteúdos exclusivos sobre Análise de Dados!

como podemos ajudar?

Preencha os seus dados abaixo e fale conosco no WhatsApp

Boletim AM

Preencha o formulário abaixo para receber nossos boletins semanais diretamente em seu e-mail.