Análise exploratória de dados: usando estatística simples para entender o que está acontecendo com a sua base de dados

O que é Análise Exploratória de Dados?

A AED é um conjunto de métodos que o analista utiliza para descrever um determinado conjunto de dados, permitindo compreender o comportamento de diversas variáveis. Permite também solidificar uma base para criar hipóteses e modelos preditivos/causais.

Apesar de crucial, a AED causa dificuldades naqueles que querem entrar no mundo dos dados, e o motivo é simples: cada conjunto de dados se comporta de uma forma, portanto, apesar de uma metodologia, cada "ferramenta" da metodologia se encaixa melhor em determinado dataset, enquanto em outros não, portanto, saber diferenciar quais "ferramentas" devem ser utilizadas é parte de um conhecimento analítico e crítico.

Mas afinal, qual metodologia é essa ? De quais formas podemos "entrevistar" nossos dados e retirar insights? Os meios mais importantes são:

  • Classificar as variáveis em categóricas ou quantitativas;
  • Sumarizar os dados utilizando estatísticas descritivas;
  • Visualizar os dados utilizando gráficos.

Classificação das variáveis

Cada variável possui um tipo de dado diferente, e que para cada tipo existe uma ferramenta adequada para a análise. A classificação destas variáveis é realizada de forma relativamente arbitrária, com um certo padrão na escolha destes tipos. Elas podem ser:

  • Categóricas: Assume valores que dizem respeito sobre a qualidade ou característica de cada observação.  Os valores são não numéricos, como strings (caracteres) ou lógicos. É subdividido em binário, nominal e ordinal.
    • Binário: Assume apenas dois valores, normalmente como sim ou não; True ou False; 0 ou 1 ou qualquer outra característica de dois valores;
    • Nominal: Valores qualitativos que assumem mais de dois valores, como país, nome, espécie do pinguim, etc.
    • Ordinal: Valores qualitativos que assumem mais de dois valores e também possuem uma ordem intrínseca, como pequeno, médio, grande, dias da semana e etc.
  • Quantitativas: variáveis quantitativas são valores numéricos que dizem respeito a grandeza de uma variável. Assumem valores contínuos ou discretos.
    • Contínuo: em teoria, assumem uma distância não padrão entre uma observação e outra, bem como essa distância pode ser um número infinito de possíveis valores.
    • Discreto: assumem apenas valores fixos entre duas observações.

Estatística Descritiva

Estatísticas descritivas são números que sumarizam as características de um conjunto de dados. É útil para prover informações valiosas de forma a responder questões, sendo importantíssimas para o processo da analise exploratória de dados.

Os cálculo realizados para sumarizar os dados possuem classificações, separando-os em tipos de medidas.

  • Medidas de tendência central: responde sobre o que está no centro do dados, medidas importantes incluem a média, mediana e a moda
  • Medidas de variabilidade: responde sobre o quanto os dados estão dispersos, medidas importantes incluem a variância e o desvio padrão
  • Medidas de relacionamento: responde sobre a relação entre duas variáveis em um dataset, medidas importantes incluem a covariância e a correlação.

Visualização dos dados

A visualização de dados permite que possamos analisar facilmente os valores dos dados, sendo extremamente útil não somente para a etapa de exploração, mas também para a etapa de comunicação, devido a facilidade de entendimento do público pelo o que um gráfico está descrevendo.

Fonte: https://www.tapclicks.com/resources/blog/data-visualization-types/

 

Tipos de gráficos

Comparação: são comuns para a representação de como um conjunto de dados se compara em diferentes categorias ou como se comporta em relação ao tempo, incluem gráficos de linhas e gráficos de barras ou colunas.

Distribuição: ajudam a entender a distribuição do conjunto de dados, são gráficos que auxiliam a entender as estatísticas descritivas, incluem gráficos de histograma e densidade.

Composição: permitem entender os dados como parte de um todo, incluem: gráficos de barras empilhados, gráficos de área (empilhados ou não) e gráficos de pizza.

Relacionamento: exibem a relação entre duas ou mais variáveis. Ajudam a entender as medidas de relacionamento da estatística descritiva, incluem gráficos de dispersão e de bolhas.

____________________________________________________

Quer aprender mais?

Veja nosso curso de Fundamentos de Análise de Dados, onde ensinamos todo o processo para aqueles que desejam entrar na área. O curso faz parte da trilha Ciência de Dados para Economia e Finanças.

 

Compartilhe esse artigo

Facebook
Twitter
LinkedIn
WhatsApp
Telegram
Email
Print

Comente o que achou desse artigo

Outros artigos relacionados

A Abordagem do Estudo de Eventos usando Python

A maioria das pesquisas em finanças está dedicada a investigar o efeito de um anúncio da companhia ou de um evento, sistêmico ou não, sobre o preço de uma ação. Esses estudos são conhecidos como “estudos de eventos”. Neste contexto, apresentaremos uma breve introdução à metodologia e demonstraremos como aplicá-la por meio de exemplos reais utilizando a linguagem de programação Python.

Como coletar dados do Eurostat usando a API com o Python?

Neste artigo mostramos como pesquisar e como coletar os dados do portal Eurostat através do sistema de API usando a linguagem Python. Este processo permite automatizar rotinas de extração de dados, eliminando trabalho manual e repetitivo de atualização de bases de dados econômicos.

como podemos ajudar?

Preencha os seus dados abaixo e fale conosco no WhatsApp

Boletim AM

Preencha o formulário abaixo para receber nossos boletins semanais diretamente em seu e-mail.