Simplificando análises de dados manuais do Excel usando o Python

Tratar e analisar dados no Excel pode ser um verdadeiro caos, mesmo que você precise fazer coisas simples como cruzar duas tabelas de dados. Rapidamente, as células ganham complexidade com múltiplas fórmulas aninhadas, além de procedimentos manuais do tipo point & click dificultarem a reprodução da análise de dados no dia seguinte.

Uma solução para estes problemas pode ser o uso de scripts para sistematizar e reproduzir todas as etapas de tratamento e análise dos dados. Os scripts são compilados de códigos de linguagem de programação que, ao serem executados, realizam os procedimentos determinados sem necessidade de interferência humana.

Aprenda a coletar, processar e analisar dados na formação de Do Zero à Análise de Dados com Python.

Embora muitas linguagens de programação sejam difíceis para iniciantes, o Python se destaca por:

  • Ser legível, quase como um texto escrito em inglês;
  • Ser popular, utilizado por milhões de usuários ao redor do mundo;
  • Ser gratuito, não é necessário licenças de software para tratar e analisar os dados.

Dentre outras vantagens que poderiam ser citadas, como sua acessibilidade para iniciantes e sua capacidade de automação de rotinas.

Exemplo

Para demonstrar, vamos mostrar como realizar uma tarefa simples e rotineira de análise de dados no Excel versus no Python. O objetivo é cruzar duas tabelas de dados, conforme abaixo.

A primeira tabela possui informações da base de clientes de uma empresa:

A segunda tabela possui informações sobre os pedidos de produtos realizados pelos clientes:

Tratamento de dados no Excel

Para cruzar estas tabelas utilizando o Excel/Google Sheets são necessários os seguintes procedimentos:

  1. Criar uma nova planilha chamada “resultado”
  2. Copiar o conteúdo da tabela clientes e colar na planilha nova
  3. Adicionar dois nomes de colunas ao lado: “Produto” e “Valor”
  4. Digitar na célula E2 as fórmulas: =INDEX(pedidos!$B$2:$B$9, MATCH(clientes!$A2, pedidos!$A$2:$A$9, 0))
  5. Arrastar a fórmula da célula E2 para baixo até a célula E9
  6. Digitar na célula F2 as fórmulas: =INDEX(pedidos!$C$2:$C$9, MATCH(clientes!$A2, pedidos!$A$2:$A$9, 0))
  7. Arrastar a fórmula da célula F2 para baixo até a célula F9

O resultado final é este:

Tratamento de dados no Python

Para cruzar estas tabelas utilizando o Python são necessários os seguintes procedimentos:

  1. Abrir o Python pelo Google Colab
  2. Digitar o código abaixoPara obter o código e o tutorial deste exercício faça parte do Clube AM e receba toda semana os códigos em R/Python, vídeos, tutoriais e suporte completo para dúvidas.
  3. Executar o código

O resultado final é este:

Conclusão

Note que a solução de tratamento de dados desenvolvida em Python é mais simples para iniciantes, além do código ser menor (desconsiderando a importação dos dados que também deve ser feita no Excel). Apesar de ambas as ferramentas entregarem o mesmo resultado, no fim do dia o Python ganha em automação e economia de tempo, evitando procedimentos manuais.

Tratar e analisar dados no Excel pode ser um verdadeiro caos, mesmo que você precise fazer coisas simples como cruzar duas tabelas de dados. Uma solução melhor é o uso de scripts em Python, que possibilitam a automação de tarefas repetitivas e manuais. Neste artigo mostramos um exemplo simples, comparando o Excel versus Python.

Quer aprender mais?

Clique aqui para fazer seu cadastro no Boletim AM e baixar o código que produziu este exercício, além de receber novos exercícios com exemplos reais de análise de dados envolvendo as áreas de Data Science, Econometria, Machine Learning, Macroeconomia Aplicada, Finanças Quantitativas e Políticas Públicas diretamente em seu e-mail.

Compartilhe esse artigo

Facebook
Twitter
LinkedIn
WhatsApp
Telegram
Email
Print

Comente o que achou desse artigo

Outros artigos relacionados

Efeitos da transparência sobre a mortalidade infantil com RDD usando R

Este exercício visa analisar o impacto da Lei da Transparência (LAI) na mortalidade infantil em municípios brasileiros usando a linguagem de programação R. A LAI, que entrou em vigor em 2012, garante o acesso público à informação governamental, e espera-se que sua implementação tenha contribuído para a redução da mortalidade infantil.

Introdução a dados textuais no Python

Manejar dados textuais é diferente de manejar uma tabela com números. A preparação deste tipo de dado requer cuidados especiais com o uso de ferramentas específicas. Neste artigo introduzimos algumas ferramentas úteis da linguagem de programação Python.

como podemos ajudar?

Preencha os seus dados abaixo e fale conosco no WhatsApp

Boletim AM

Preencha o formulário abaixo para receber nossos boletins semanais diretamente em seu e-mail.