Como tratar dados no Python? Parte 1: selecionando colunas

Como extrair somente as colunas que interessam em uma tabela de dados usando Python? Neste tutorial mostramos os métodos de selecionar colunas disponíveis na biblioteca pandas, que tem como vantagem sua sintaxe simples e prática.

A seleção de colunas é uma etapa presente em quase todo tratamento/limpeza de dados. Afinal, com tabelas de dados cada vez maiores, é necessário extrair somente as informações (colunas) relevantes para a análise dos dados. Sendo assim, vamos a um exemplo prático.

Para obter o código e o tutorial deste exercício faça parte do Clube AM e receba toda semana os códigos em R/Python, vídeos, tutoriais e suporte completo para dúvidas.

Dados de exemplo

Primeiro, coletamos online uma tabela de dados CSV de exemplo. A fonte dos dados é o Banco Central do Brasil e para coletar os dados também usamos a biblioteca pandas. Abaixo as últimas linhas presentes na tabela:

Indicador IndicadorDetalhe Data DataReferencia Media Mediana DesvioPadrao Minimo Maximo numeroRespondentes baseCalculo
595 IPCA NaN 2023-01-02 2022 5.6676 5.6379 0.1180 5.5433 6.1636 40 1
596 IPCA NaN 2023-01-02 2023 5.5072 5.4631 0.4784 4.5197 6.9300 40 1
597 IPCA NaN 2023-01-02 2024 3.8155 3.8448 0.4013 3.0000 5.0000 36 1
598 IPCA NaN 2023-01-02 2025 3.5731 3.5000 0.5140 3.0000 5.0000 32 1
599 IPCA NaN 2023-01-02 2026 3.5401 3.5000 0.5367 3.0000 5.0000 31 1

Como selecionar colunas?

Na tabela de exemplo há 11 colunas, mas talvez você não precise de todas elas. Sendo assim, existem duas principais formas de selecionar colunas de um DataFrame, que podem ser sumarizadas por estas sintaxes:

  • tabela["nome_da_coluna"] ou tabela[["nome_da_coluna1", "nome_da_coluna2", "etc"]]
  • tabela.filter(items = ["nome_da_coluna1", "nome_da_coluna2", "etc"], axis = "columns")

Existe ainda outras alternativas para acessar uma coluna de um DataFrame — por exemplo, o acesso direto do atributo com a sintaxe tabela.nome_da_coluna. Veja a documentação para explorar todas as possibilidades.

Exemplo selecionado apenas uma coluna:

Data
0 2023-02-10
1 2023-02-10
2 2023-02-10
3 2023-02-10
4 2023-02-10
... ...
595 2023-01-02
596 2023-01-02
597 2023-01-02
598 2023-01-02
599 2023-01-02

600 rows × 1 columns

Exemplo selecionando múltiplas colunas:

DataReferencia Indicador Mediana
0 2023 IGP-M 4.5955
1 2024 IGP-M 4.0650
2 2025 IGP-M 3.9850
3 2026 IGP-M 3.6000
4 2027 IGP-M 3.8700
... ... ... ...
595 2022 IPCA 5.6379
596 2023 IPCA 5.4631
597 2024 IPCA 3.8448
598 2025 IPCA 3.5000
599 2026 IPCA 3.5000

600 rows × 3 columns

Conclusão

Como extrair somente as colunas que interessam em uma tabela de dados usando Python? Neste tutorial mostramos os métodos de selecionar colunas disponíveis na biblioteca pandas, que tem como vantagem sua sintaxe simples e prática.

Tenha acesso ao código e suporte desse e de mais 500 exercícios no Clube AM!

Quer o código desse e de mais de 500 exercícios de análise de dados com ideias validadas por nossos especialistas em problemas reais de análise de dados do seu dia a dia? Além de acesso a vídeos, materiais extras e todo o suporte necessário para você reproduzir esses exercícios? Então, fale com a gente no Whatsapp e veja como fazer parte do Clube AM, clicando aqui.

Compartilhe esse artigo

Facebook
Twitter
LinkedIn
WhatsApp
Telegram
Email
Print

Comente o que achou desse artigo

Outros artigos relacionados

Regimes da Política Monetária Brasileira com Markov Switching no Python

Este exercício analisa a política monetária brasileira utilizando modelos de Markov Switching Regression. O objetivo é identificar diferentes regimes de política monetária e como eles influenciam a taxa Selic, a meta de inflação e o hiato do produto. Usamos a linguagem de programação Python para o processo de coleta, tratamento, análise e modelagem dos dados.

Como criar janelas móveis de séries temporais usando o Python

Janelas Móveis/Deslizantes, ou Rolling Windows, são termos frequentes na análise de séries temporais. Mas o que são e como aplicá-las no Python? Neste tutorial, mostramos como essa ferramenta é essencial para a análise de dados utilizando como exemplo a correlação móvel de ações brasileiras.

Como incorporar choques em cenários de previsão?

Neste exercício mostramos como incorar choques no cenário de variáveis exógenas para fins de previsão. Usando como exemplo a previsão do IPCA, através de um modelo de machine learning, mostramos os cuidados a serem tomados e uma forma simples de definir o cenário com os choques. Ao final, apresentamos uma previsão com um suposto choque e uma previsão sem o choque para comparação.

Boletim AM

Receba diretamente em seu e-mail gratuitamente nossas promoções especiais e conteúdos exclusivos sobre Análise de Dados!

Boletim AM

Receba diretamente em seu e-mail gratuitamente nossas promoções especiais e conteúdos exclusivos sobre Análise de Dados!

como podemos ajudar?

Preencha os seus dados abaixo e fale conosco no WhatsApp

Boletim AM

Preencha o formulário abaixo para receber nossos boletins semanais diretamente em seu e-mail.