Acessando Microdados da PNAD Contínua com o R

A Pesquisa Nacional por Amostra de Domicílios (PNAD) é uma importante fonte de dados que descreve de modo detalhado a situação da população brasileira. Suas tabelas incluem dados de diversos temas, como instrução, trabalho, famílias e características dos domicílios, sendo assim uma fonte ampla para pesquisas e análises aprofundada. No post de hoje, mostraremos como é possível obter os dados da PNADc com o R!

PNADcIBGE

O pacote PNADcIBGE permite extrair os microdados da pesquisa direto do R, utilizando-se da função get_pnadc, que a partir de seus argumentos, define os parâmetros e quais dados da pesquisa devem ser extraídos.

Dentre os possíveis argumentos, seguem:

  • year é o ano dos dados que você está interessado;
  • quarter é o trimestre, que pode ser substituído por interview (dado anual baseado na entrevista, de 1 a 6) ou topic (dado anual para um dado tópico, de 1 a 4);
  • vars são as variáveis utilizadas, um vetor. Caso não fornecido, todas as variáveis serão incluídas;
  • defyear é o ano que é usado como base para calcular os valores deflacionados;
  • defquarter segue a mesma lógica. Os deflatores podem ser sobrescritos dadas algumas condições, há mais detalhes no manual do pacote;
  • labels indica se variáveis categóricas serão apresentadas como fatores;
  • deflator indica se será deflacionada a série;
  • design indica se os dados serão retornados como um survey.design, um tipo de objeto apropriado para análise de surveys com o pacote survey/
  • savedir indica se o objeto deve ser salvo em um diretório.

Para obter os códigos das variáveis e suas respectivas descrições, deve-se obter o arquivo .xls no seguinte link que direciona para o diretório de arquivos do IBGE sobre a PNADc. Ao entrar no link, deve-se baixar o arquivo "Dicionario_e_input.zip" e extrair a planilha de nome "dicionario_PNADC_microdados_trimestral.xls".

Abaixo, segue um exemplo de uso da retirada de dados da PNADc utilizando a função get_pnadc. Veja que escolhemos o ano de 2017 para o quarto trimestre. A variável V3009A pode ser encontrada dentro do dicionário, que tem como quesito: "Qual foi o curso mais elevado que ... frequentou anteriormente?".

Um ponto importante sobre a extração dos microdados da PNADc, deve ser o cuidado com a quantidade importada dentro do R, a depender da máquina, pode encontrar problemas devido ao grande peso da quantidade de dados.

Quer saber mais sobre a PNADc e outros microdados brasileiros?

Veja nosso curso de Microdados Brasileiros usando o R onde ensinamos nossos alunos as melhores formas de extrair os microdados com o R!

Compartilhe esse artigo

Facebook
Twitter
LinkedIn
WhatsApp
Telegram
Email
Print

Comente o que achou desse artigo

Outros artigos relacionados

Como tratar dados no Python? Parte 5: renomeando colunas

Como dar novos nomes significativos para as colunas em uma tabela de dados usando Python? Neste tutorial mostramos os métodos de renomeação de colunas disponíveis na biblioteca pandas, que tem como vantagem sua sintaxe simples e prática.

Como tratar dados no Python? Parte 4: operações por grupos

Como mensalizar dados diários? Ou como filtrar os valores máximos para diversas categorias em uma tabela de dados usando Python? Estas perguntas são respondidas com os métodos de operações por grupos. Neste tutorial mostramos estes métodos disponíveis na biblioteca pandas, que tem como vantagem sua sintaxe simples e prática.

Boletim AM

Receba diretamente em seu e-mail gratuitamente nossas promoções especiais e conteúdos exclusivos sobre Análise de Dados!

Boletim AM

Receba diretamente em seu e-mail gratuitamente nossas promoções especiais e conteúdos exclusivos sobre Análise de Dados!

como podemos ajudar?

Preencha os seus dados abaixo e fale conosco no WhatsApp

Boletim AM

Preencha o formulário abaixo para receber nossos boletins semanais diretamente em seu e-mail.