Como extrair somente as colunas que interessam em uma tabela de dados usando Python? Neste tutorial mostramos os métodos de selecionar colunas disponíveis na biblioteca pandas, que tem como vantagem sua sintaxe simples e prática.
A seleção de colunas é uma etapa presente em quase todo tratamento/limpeza de dados. Afinal, com tabelas de dados cada vez maiores, é necessário extrair somente as informações (colunas) relevantes para a análise dos dados. Sendo assim, vamos a um exemplo prático.
Para obter o código e o tutorial deste exercício faça parte do Clube AM e receba toda semana os códigos em R/Python, vídeos, tutoriais e suporte completo para dúvidas.
Dados de exemplo
Primeiro, coletamos online uma tabela de dados CSV de exemplo. A fonte dos dados é o Banco Central do Brasil e para coletar os dados também usamos a biblioteca pandas. Abaixo as últimas linhas presentes na tabela:
Indicador | IndicadorDetalhe | Data | DataReferencia | Media | Mediana | DesvioPadrao | Minimo | Maximo | numeroRespondentes | baseCalculo | |
---|---|---|---|---|---|---|---|---|---|---|---|
595 | IPCA | NaN | 2023-01-02 | 2022 | 5.6676 | 5.6379 | 0.1180 | 5.5433 | 6.1636 | 40 | 1 |
596 | IPCA | NaN | 2023-01-02 | 2023 | 5.5072 | 5.4631 | 0.4784 | 4.5197 | 6.9300 | 40 | 1 |
597 | IPCA | NaN | 2023-01-02 | 2024 | 3.8155 | 3.8448 | 0.4013 | 3.0000 | 5.0000 | 36 | 1 |
598 | IPCA | NaN | 2023-01-02 | 2025 | 3.5731 | 3.5000 | 0.5140 | 3.0000 | 5.0000 | 32 | 1 |
599 | IPCA | NaN | 2023-01-02 | 2026 | 3.5401 | 3.5000 | 0.5367 | 3.0000 | 5.0000 | 31 | 1 |
Como selecionar colunas?
Na tabela de exemplo há 11 colunas, mas talvez você não precise de todas elas. Sendo assim, existem duas principais formas de selecionar colunas de um DataFrame
, que podem ser sumarizadas por estas sintaxes:
tabela["nome_da_coluna"]
outabela[["nome_da_coluna1", "nome_da_coluna2", "etc"]]
tabela.filter(items = ["nome_da_coluna1", "nome_da_coluna2", "etc"], axis = "columns")
Existe ainda outras alternativas para acessar uma coluna de um DataFrame
— por exemplo, o acesso direto do atributo com a sintaxe tabela.nome_da_coluna
. Veja a documentação para explorar todas as possibilidades.
Exemplo selecionado apenas uma coluna:
Data | |
---|---|
0 | 2023-02-10 |
1 | 2023-02-10 |
2 | 2023-02-10 |
3 | 2023-02-10 |
4 | 2023-02-10 |
... | ... |
595 | 2023-01-02 |
596 | 2023-01-02 |
597 | 2023-01-02 |
598 | 2023-01-02 |
599 | 2023-01-02 |
600 rows × 1 columns
Exemplo selecionando múltiplas colunas:
DataReferencia | Indicador | Mediana | |
---|---|---|---|
0 | 2023 | IGP-M | 4.5955 |
1 | 2024 | IGP-M | 4.0650 |
2 | 2025 | IGP-M | 3.9850 |
3 | 2026 | IGP-M | 3.6000 |
4 | 2027 | IGP-M | 3.8700 |
... | ... | ... | ... |
595 | 2022 | IPCA | 5.6379 |
596 | 2023 | IPCA | 5.4631 |
597 | 2024 | IPCA | 3.8448 |
598 | 2025 | IPCA | 3.5000 |
599 | 2026 | IPCA | 3.5000 |
600 rows × 3 columns
Conclusão
Como extrair somente as colunas que interessam em uma tabela de dados usando Python? Neste tutorial mostramos os métodos de selecionar colunas disponíveis na biblioteca pandas, que tem como vantagem sua sintaxe simples e prática.
Tenha acesso ao código e suporte desse e de mais 500 exercícios no Clube AM!
Quer o código desse e de mais de 500 exercícios de análise de dados com ideias validadas por nossos especialistas em problemas reais de análise de dados do seu dia a dia? Além de acesso a vídeos, materiais extras e todo o suporte necessário para você reproduzir esses exercícios? Então, fale com a gente no Whatsapp e veja como fazer parte do Clube AM, clicando aqui.