Entendendo o basicão de SQL para usuários de Excel

Trabalhar com dados e aplicar todo o ciclo de análise em uma única ferramenta, como o Excel, é ótimo e poupa tempo. No entanto, há situações em que é necessário recorrer a outras ferramentas para executar etapas específicas, como no caso de processar um volume de dados maior do que a memória. Para a felicidade dos usuários de Excel, mesmo nestas situações desafiantes, é possível aplicar tratamentos e análises de dados em SQL usando comandos similares e sem grande esforço!

Neste artigo, traduzimos 5 tarefas rotineiras de quem trabalha com dados, de Excel para SQL. O objetivo é mostrar que, apesar das diferenças de interface e capacidades, é possível tratar e analisar dados em SQL usando comandos similares sem grande esforço. Mostramos exemplos com dados econômicos do Brasil.

Aprenda mais sobre SQL com o curso de SQL para Economia e Finanças da Análise Macro.

Dados de exemplo

Para exemplificar as 5 tarefas rotineitas de análise de dados em Excel e SQL, utilizaremos os dados desagregados do IPCA divulgados pelo IBGE em seu site. Abaixo uma amostra das tabelas, das quais criamos um banco de dados SQL para os exemplos:

 

Para obter o código deste exercício faça parte do Clube AM e receba toda semana os códigos em R/Python, vídeos, tutoriais e suporte completo para dúvidas.

Exemplo 1: selecionando colunas de uma tabela

O primeiro exemplo consiste em selecionar as colunas “Item”, “RJ” e “SP” da tabela de variação mensal do IPCA. O procedimento é bem simples em ambas as ferramentas e abaixo exibimos as primeiras 6 linhas do resultado das operações:

Excel

  1. Clicar sobre a coluna A
  2. Pressionar a tecla Ctrl e clicar sobre as colunas B e F

SQL

SELECT Item, RJ, SP 
FROM variacao 
LIMIT 6
6 records
Item RJ SP
ÍNDICE GERAL 0.33 0.62
ALIMENTAÇÃO E BEBIDAS 0.49 0.77
ALIMENTAÇÃO NO DOMICÍLIO 0.34 0.97
CEREAIS, LEGUMINOSAS E OLEAGINOSAS 4.79 5.04
ARROZ 4.07 4.09
FEIJÃO-MULATINHO NA NA

Note que a operação é bastante simples em ambas as ferramentas, com a vantagem de ser mais facilmente reprodutível usando os códigos SQL.

Exemplo 2: filtrando linhas de uma tabela

No segundo exemplo, filtramos as linhas que possuam as observações “ALIMENTAÇÃO E BEBIDAS”, “HABITAÇÃO” ou “DESPESAS PESSOAIS” na coluna “Item” da tabela de variação mensal do IPCA. Abaixo exibimos as primeiras 6 linhas do resultado das operações:

Excel

  1. Clicar sobre a célula A1
  2. Clicar no botão Classificar e Filtrar e depois em Filtrar
  3. Clicar em Filtrar e Classificar na célula A1
  4. Desmarcar o filtro “Selecionar Tudo”
  5. Localizar e marcar os itens de interesse para o filtro
  6. Clicar em Aplicar

SQL

SELECT *
FROM variacao
WHERE (Item IN ('ALIMENTAÇÃO E BEBIDAS', 'HABITAÇÃO', 'DESPESAS PESSOAIS'))
LIMIT 6
3 records
Item RJ POA BH REC SP DF BEL FOR SAL CUR GOI VIT CG RB SL AJU NACIONAL
ALIMENTAÇÃO E BEBIDAS 0.49 -0.46 1.25 0.72 0.77 0.41 0.61 0.75 0.84 0.47 1.21 0.77 -0.12 0.70 1.35 0.80 0.66
HABITAÇÃO -0.62 1.13 0.36 -0.15 0.00 0.66 1.38 0.55 0.07 0.23 1.01 0.12 -0.29 3.70 -0.49 -0.23 0.20
DESPESAS PESSOAIS 0.45 0.65 0.15 0.48 0.92 0.84 0.51 0.23 0.66 0.18 0.27 0.61 0.55 0.13 0.94 0.58 0.62

Exemplo 3: ordenando valores de uma coluna da tabela

No terceiro exemplo, ordenamos decrescentemente a tabela de variação mensal do IPCA com base na coluna numérica “NACIONAL”. Abaixo exibimos as primeiras 6 linhas do resultado das operações:

Excel

  1. Clicar em Filtrar e Classificar na célula R1
  2. Clicar em Classificar do Maior ao Menor

SQL

SELECT * 
FROM variacao 
ORDER BY NACIONAL 
DESC LIMIT 6
6 records
Item RJ POA BH REC SP DF BEL FOR SAL CUR GOI VIT CG RB SL AJU NACIONAL
LARANJA-BAÍA NA 21.19 NA NA NA NA NA NA NA NA NA NA NA NA NA NA 21.19
PEIXE-FILHOTE NA NA NA NA NA 1.27 18.86 NA NA NA NA NA NA NA NA NA 16.33
TOMATE 6.94 -0.72 20.33 16.57 14.68 23.64 10.19 31.38 8.22 21.85 16.84 16.88 12.93 19.49 13.65 21.61 14.17
BANANA-MAÇÃ NA NA NA NA NA NA NA NA NA NA 14.34 NA 5.01 NA NA NA 12.30
TRANSPORTE POR APLICATIVO 2.19 33.90 13.82 3.09 11.13 5.54 NA 2.74 -0.48 NA 11.99 13.92 4.62 NA -0.88 3.35 10.67
COENTRO NA NA NA 10.39 NA NA NA NA 6.36 NA NA NA NA NA NA 22.91 9.26

Exemplo 4: sumarizando dados de uma tabela

No quarto exemplo, calculamos a média da coluna “NACIONAL”. Abaixo exibimos o resultado das operações:

Excel

  1. Clicar na célula A1
  2. Pressionar o atalho Ctrl + Shift + Seta Baixo + Seta Direita
  3. Clicar em Inserir
  4. Clicar em Tabela
  5. Clicar em OK
  6. Selecionar coluna NACIONAL e observar a média na interface ou utilizar a fórmula MÉDIA() em alguma célula, indicando o intervalo da coluna

SQL

SELECT AVG(NACIONAL) AS media 
FROM variacao
1 records
media
0.7708972

Exemplo 5: valores exclusivos

Por fim, no quinto exemplo, fazemos um filtro de valores exclusivos com base na columa “Item” da tabela de variação mensal do IPCA.

Excel

  1. Clicar em qualquer célula da tabela
  2. Clicar em Dados
  3. Clicar em Ferramentas de dados
  4. Clicar em Remover duplicadas
  5. Desmarcar a opção Selecionar todas as colunas
  6. Marcar a opção da coluna Item
  7. Clicar em OK

SQL

SELECT DISTINCT Item
FROM variacao
LIMIT 6
6 records
Item
ÍNDICE GERAL
ALIMENTAÇÃO E BEBIDAS
ALIMENTAÇÃO NO DOMICÍLIO
CEREAIS, LEGUMINOSAS E OLEAGINOSAS
ARROZ
FEIJÃO-MULATINHO

Conclusão

Neste artigo, traduzimos 5 tarefas rotineiras de quem trabalha com dados, de Excel para SQL. O objetivo é mostrar que, apesar das diferenças de interface e capacidades, é possível tratar e analisar dados em SQL usando comandos similares sem grande esforço. Mostramos exemplos com dados econômicos do Brasil.

Quer aprender mais?

Clique aqui para fazer seu cadastro no Boletim AM e baixar o código que produziu este exercício, além de receber novos exercícios com exemplos reais de análise de dados envolvendo as áreas de Data Science, Econometria, Machine Learning, Macroeconomia Aplicada, Finanças Quantitativas e Políticas Públicas diretamente em seu e-mail.

Compartilhe esse artigo

Facebook
Twitter
LinkedIn
WhatsApp
Telegram
Email
Print

Comente o que achou desse artigo

Outros artigos relacionados

Resultado PNADc Trimestral - 3° Trimestre/2024

A Análise Macro apresenta os resultados da PNADc Trimestral do 3º trimestre de 2024, com gráficos elaborados em Python para coleta, tratamento e visualização de dados. Todo o conteúdo, disponível exclusivamente no Clube AM, foi desenvolvido com base nos métodos ensinados nos cursos da Análise Macro, permitindo aos assinantes acesso aos códigos e replicação das análises.

Análise exploratória para modelagem preditiva no Python

Antes de desenvolver bons modelos preditivos é necessário organizar e conhecer muito bem os dados. Neste artigo, damos algumas dicas de recursos, como gráficos, análises e estatísticas, que podem ser usados para melhorar o entendimento sobre os dados usando Python.

Como usar modelos do Sklearn para previsão? Uma introdução ao Skforecast

Prever séries temporais é uma tarefa frequente em diversas áreas, porém exige conhecimento e ferramentas específicas. Os modelos de machine learning do Sklearn são populadores, porém são difíceis de aplicar em estruturas temporais de dados. Neste sentido, introduzimos a biblioteca Skforecast, que integra os modelos do Sklearn e a previsão de séries temporais de forma simples.

Boletim AM

Receba diretamente em seu e-mail gratuitamente nossas promoções especiais e conteúdos exclusivos sobre Análise de Dados!

Boletim AM

Receba diretamente em seu e-mail gratuitamente nossas promoções especiais e conteúdos exclusivos sobre Análise de Dados!

como podemos ajudar?

Preencha os seus dados abaixo e fale conosco no WhatsApp

Boletim AM

Preencha o formulário abaixo para receber nossos boletins semanais diretamente em seu e-mail.