Trabalhar com dados e aplicar todo o ciclo de análise em uma única ferramenta, como o Excel, é ótimo e poupa tempo. No entanto, há situações em que é necessário recorrer a outras ferramentas para executar etapas específicas, como no caso de processar um volume de dados maior do que a memória. Para a felicidade dos usuários de Excel, mesmo nestas situações desafiantes, é possível aplicar tratamentos e análises de dados em SQL usando comandos similares e sem grande esforço!
Neste artigo, traduzimos 5 tarefas rotineiras de quem trabalha com dados, de Excel para SQL. O objetivo é mostrar que, apesar das diferenças de interface e capacidades, é possível tratar e analisar dados em SQL usando comandos similares sem grande esforço. Mostramos exemplos com dados econômicos do Brasil.
Aprenda mais sobre SQL com o curso de SQL para Economia e Finanças da Análise Macro.
Dados de exemplo
Para exemplificar as 5 tarefas rotineitas de análise de dados em Excel e SQL, utilizaremos os dados desagregados do IPCA divulgados pelo IBGE em seu site. Abaixo uma amostra das tabelas, das quais criamos um banco de dados SQL para os exemplos:
Para obter o código deste exercício faça parte do Clube AM e receba toda semana os códigos em R/Python, vídeos, tutoriais e suporte completo para dúvidas.
Exemplo 1: selecionando colunas de uma tabela
O primeiro exemplo consiste em selecionar as colunas “Item”, “RJ” e “SP” da tabela de variação mensal do IPCA. O procedimento é bem simples em ambas as ferramentas e abaixo exibimos as primeiras 6 linhas do resultado das operações:
Excel
- Clicar sobre a coluna A
- Pressionar a tecla Ctrl e clicar sobre as colunas B e F
SQL
SELECT Item, RJ, SP
FROM variacao
LIMIT 6
Item | RJ | SP |
---|---|---|
ÍNDICE GERAL | 0.33 | 0.62 |
ALIMENTAÇÃO E BEBIDAS | 0.49 | 0.77 |
ALIMENTAÇÃO NO DOMICÍLIO | 0.34 | 0.97 |
CEREAIS, LEGUMINOSAS E OLEAGINOSAS | 4.79 | 5.04 |
ARROZ | 4.07 | 4.09 |
FEIJÃO-MULATINHO | NA | NA |
Note que a operação é bastante simples em ambas as ferramentas, com a vantagem de ser mais facilmente reprodutível usando os códigos SQL.
Exemplo 2: filtrando linhas de uma tabela
No segundo exemplo, filtramos as linhas que possuam as observações “ALIMENTAÇÃO E BEBIDAS”, “HABITAÇÃO” ou “DESPESAS PESSOAIS” na coluna “Item” da tabela de variação mensal do IPCA. Abaixo exibimos as primeiras 6 linhas do resultado das operações:
Excel
- Clicar sobre a célula A1
- Clicar no botão Classificar e Filtrar e depois em Filtrar
- Clicar em Filtrar e Classificar na célula A1
- Desmarcar o filtro “Selecionar Tudo”
- Localizar e marcar os itens de interesse para o filtro
- Clicar em Aplicar
SQL
SELECT *
FROM variacao
WHERE (Item IN ('ALIMENTAÇÃO E BEBIDAS', 'HABITAÇÃO', 'DESPESAS PESSOAIS'))
LIMIT 6
Item | RJ | POA | BH | REC | SP | DF | BEL | FOR | SAL | CUR | GOI | VIT | CG | RB | SL | AJU | NACIONAL |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
ALIMENTAÇÃO E BEBIDAS | 0.49 | -0.46 | 1.25 | 0.72 | 0.77 | 0.41 | 0.61 | 0.75 | 0.84 | 0.47 | 1.21 | 0.77 | -0.12 | 0.70 | 1.35 | 0.80 | 0.66 |
HABITAÇÃO | -0.62 | 1.13 | 0.36 | -0.15 | 0.00 | 0.66 | 1.38 | 0.55 | 0.07 | 0.23 | 1.01 | 0.12 | -0.29 | 3.70 | -0.49 | -0.23 | 0.20 |
DESPESAS PESSOAIS | 0.45 | 0.65 | 0.15 | 0.48 | 0.92 | 0.84 | 0.51 | 0.23 | 0.66 | 0.18 | 0.27 | 0.61 | 0.55 | 0.13 | 0.94 | 0.58 | 0.62 |
Exemplo 3: ordenando valores de uma coluna da tabela
No terceiro exemplo, ordenamos decrescentemente a tabela de variação mensal do IPCA com base na coluna numérica “NACIONAL”. Abaixo exibimos as primeiras 6 linhas do resultado das operações:
Excel
- Clicar em Filtrar e Classificar na célula R1
- Clicar em Classificar do Maior ao Menor
SQL
SELECT *
FROM variacao
ORDER BY NACIONAL
DESC LIMIT 6
Item | RJ | POA | BH | REC | SP | DF | BEL | FOR | SAL | CUR | GOI | VIT | CG | RB | SL | AJU | NACIONAL |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
LARANJA-BAÍA | NA | 21.19 | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | 21.19 |
PEIXE-FILHOTE | NA | NA | NA | NA | NA | 1.27 | 18.86 | NA | NA | NA | NA | NA | NA | NA | NA | NA | 16.33 |
TOMATE | 6.94 | -0.72 | 20.33 | 16.57 | 14.68 | 23.64 | 10.19 | 31.38 | 8.22 | 21.85 | 16.84 | 16.88 | 12.93 | 19.49 | 13.65 | 21.61 | 14.17 |
BANANA-MAÇÃ | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | 14.34 | NA | 5.01 | NA | NA | NA | 12.30 |
TRANSPORTE POR APLICATIVO | 2.19 | 33.90 | 13.82 | 3.09 | 11.13 | 5.54 | NA | 2.74 | -0.48 | NA | 11.99 | 13.92 | 4.62 | NA | -0.88 | 3.35 | 10.67 |
COENTRO | NA | NA | NA | 10.39 | NA | NA | NA | NA | 6.36 | NA | NA | NA | NA | NA | NA | 22.91 | 9.26 |
Exemplo 4: sumarizando dados de uma tabela
No quarto exemplo, calculamos a média da coluna “NACIONAL”. Abaixo exibimos o resultado das operações:
Excel
- Clicar na célula A1
- Pressionar o atalho Ctrl + Shift + Seta Baixo + Seta Direita
- Clicar em Inserir
- Clicar em Tabela
- Clicar em OK
- Selecionar coluna NACIONAL e observar a média na interface ou utilizar a fórmula MÉDIA() em alguma célula, indicando o intervalo da coluna
SQL
SELECT AVG(NACIONAL) AS media
FROM variacao
media |
---|
0.7708972 |
Exemplo 5: valores exclusivos
Por fim, no quinto exemplo, fazemos um filtro de valores exclusivos com base na columa “Item” da tabela de variação mensal do IPCA.
Excel
- Clicar em qualquer célula da tabela
- Clicar em Dados
- Clicar em Ferramentas de dados
- Clicar em Remover duplicadas
- Desmarcar a opção Selecionar todas as colunas
- Marcar a opção da coluna Item
- Clicar em OK
SQL
SELECT DISTINCT Item
FROM variacao
LIMIT 6
Item |
---|
ÍNDICE GERAL |
ALIMENTAÇÃO E BEBIDAS |
ALIMENTAÇÃO NO DOMICÍLIO |
CEREAIS, LEGUMINOSAS E OLEAGINOSAS |
ARROZ |
FEIJÃO-MULATINHO |
Conclusão
Neste artigo, traduzimos 5 tarefas rotineiras de quem trabalha com dados, de Excel para SQL. O objetivo é mostrar que, apesar das diferenças de interface e capacidades, é possível tratar e analisar dados em SQL usando comandos similares sem grande esforço. Mostramos exemplos com dados econômicos do Brasil.
Quer aprender mais?
Clique aqui para fazer seu cadastro no Boletim AM e baixar o código que produziu este exercício, além de receber novos exercícios com exemplos reais de análise de dados envolvendo as áreas de Data Science, Econometria, Machine Learning, Macroeconomia Aplicada, Finanças Quantitativas e Políticas Públicas diretamente em seu e-mail.