Simplificando análises de dados manuais do Excel usando o Python

Tratar e analisar dados no Excel pode ser um verdadeiro caos, mesmo que você precise fazer coisas simples como cruzar duas tabelas de dados. Rapidamente, as células ganham complexidade com múltiplas fórmulas aninhadas, além de procedimentos manuais do tipo point & click dificultarem a reprodução da análise de dados no dia seguinte.

Uma solução para estes problemas pode ser o uso de scripts para sistematizar e reproduzir todas as etapas de tratamento e análise dos dados. Os scripts são compilados de códigos de linguagem de programação que, ao serem executados, realizam os procedimentos determinados sem necessidade de interferência humana.

Aprenda a coletar, processar e analisar dados na formação de Do Zero à Análise de Dados com Python.

Embora muitas linguagens de programação sejam difíceis para iniciantes, o Python se destaca por:

  • Ser legível, quase como um texto escrito em inglês;
  • Ser popular, utilizado por milhões de usuários ao redor do mundo;
  • Ser gratuito, não é necessário licenças de software para tratar e analisar os dados.

Dentre outras vantagens que poderiam ser citadas, como sua acessibilidade para iniciantes e sua capacidade de automação de rotinas.

Exemplo

Para demonstrar, vamos mostrar como realizar uma tarefa simples e rotineira de análise de dados no Excel versus no Python. O objetivo é cruzar duas tabelas de dados, conforme abaixo.

A primeira tabela possui informações da base de clientes de uma empresa:

A segunda tabela possui informações sobre os pedidos de produtos realizados pelos clientes:

Tratamento de dados no Excel

Para cruzar estas tabelas utilizando o Excel/Google Sheets são necessários os seguintes procedimentos:

  1. Criar uma nova planilha chamada “resultado”
  2. Copiar o conteúdo da tabela clientes e colar na planilha nova
  3. Adicionar dois nomes de colunas ao lado: “Produto” e “Valor”
  4. Digitar na célula E2 as fórmulas: =INDEX(pedidos!$B$2:$B$9, MATCH(clientes!$A2, pedidos!$A$2:$A$9, 0))
  5. Arrastar a fórmula da célula E2 para baixo até a célula E9
  6. Digitar na célula F2 as fórmulas: =INDEX(pedidos!$C$2:$C$9, MATCH(clientes!$A2, pedidos!$A$2:$A$9, 0))
  7. Arrastar a fórmula da célula F2 para baixo até a célula F9

O resultado final é este:

Tratamento de dados no Python

Para cruzar estas tabelas utilizando o Python são necessários os seguintes procedimentos:

  1. Abrir o Python pelo Google Colab
  2. Digitar o código abaixoPara obter o código e o tutorial deste exercício faça parte do Clube AM e receba toda semana os códigos em R/Python, vídeos, tutoriais e suporte completo para dúvidas.
  3. Executar o código

O resultado final é este:

Conclusão

Note que a solução de tratamento de dados desenvolvida em Python é mais simples para iniciantes, além do código ser menor (desconsiderando a importação dos dados que também deve ser feita no Excel). Apesar de ambas as ferramentas entregarem o mesmo resultado, no fim do dia o Python ganha em automação e economia de tempo, evitando procedimentos manuais.

Tratar e analisar dados no Excel pode ser um verdadeiro caos, mesmo que você precise fazer coisas simples como cruzar duas tabelas de dados. Uma solução melhor é o uso de scripts em Python, que possibilitam a automação de tarefas repetitivas e manuais. Neste artigo mostramos um exemplo simples, comparando o Excel versus Python.

Quer aprender mais?

Clique aqui para fazer seu cadastro no Boletim AM e baixar o código que produziu este exercício, além de receber novos exercícios com exemplos reais de análise de dados envolvendo as áreas de Data Science, Econometria, Machine Learning, Macroeconomia Aplicada, Finanças Quantitativas e Políticas Públicas diretamente em seu e-mail.

Compartilhe esse artigo

Facebook
Twitter
LinkedIn
WhatsApp
Telegram
Email
Print

Comente o que achou desse artigo

Outros artigos relacionados

Transfer Learning: mostrando porque o Python está na ponta do desenvolvimento

A aprendizagem por transferência (transfer learning) é o reuso de um modelo pré-treinado em um novo problema. Portanto, sua utilização torna-se um avanço enorme para a previsão de diferentes tipos de variáveis, principalmente para aquelas ordenadas no tempo. Mostramos nesta postagem o uso do Transfer Learning com o Python para o caso de Séries Temporais.

Criando Tabelas com o Python: mostrando o poder da linguagem sobre o Excel

Nos dias atuais, pessoas que trabalham com dados estão constantemente confrontados com um dilema: criar uma tabela não tão genial no Excel ou manter em um formato ainda pior, como um dataframe, mas mantendo a flexibilidade de obtenção dos dados. Podemos resolver esse grande problema, unindo a flexibilidade e beleza ao usar a biblioteca great_tables do Python.

como podemos ajudar?

Preencha os seus dados abaixo e fale conosco no WhatsApp

Boletim AM

Preencha o formulário abaixo para receber nossos boletins semanais diretamente em seu e-mail.