Análise exploratória de dados: usando estatística simples para entender o que está acontecendo com a sua base de dados

O que é Análise Exploratória de Dados?

A AED é um conjunto de métodos que o analista utiliza para descrever um determinado conjunto de dados, permitindo compreender o comportamento de diversas variáveis. Permite também solidificar uma base para criar hipóteses e modelos preditivos/causais.

Apesar de crucial, a AED causa dificuldades naqueles que querem entrar no mundo dos dados, e o motivo é simples: cada conjunto de dados se comporta de uma forma, portanto, apesar de uma metodologia, cada "ferramenta" da metodologia se encaixa melhor em determinado dataset, enquanto em outros não, portanto, saber diferenciar quais "ferramentas" devem ser utilizadas é parte de um conhecimento analítico e crítico.

Mas afinal, qual metodologia é essa ? De quais formas podemos "entrevistar" nossos dados e retirar insights? Os meios mais importantes são:

  • Classificar as variáveis em categóricas ou quantitativas;
  • Sumarizar os dados utilizando estatísticas descritivas;
  • Visualizar os dados utilizando gráficos.

Classificação das variáveis

Cada variável possui um tipo de dado diferente, e que para cada tipo existe uma ferramenta adequada para a análise. A classificação destas variáveis é realizada de forma relativamente arbitrária, com um certo padrão na escolha destes tipos. Elas podem ser:

  • Categóricas: Assume valores que dizem respeito sobre a qualidade ou característica de cada observação.  Os valores são não numéricos, como strings (caracteres) ou lógicos. É subdividido em binário, nominal e ordinal.
    • Binário: Assume apenas dois valores, normalmente como sim ou não; True ou False; 0 ou 1 ou qualquer outra característica de dois valores;
    • Nominal: Valores qualitativos que assumem mais de dois valores, como país, nome, espécie do pinguim, etc.
    • Ordinal: Valores qualitativos que assumem mais de dois valores e também possuem uma ordem intrínseca, como pequeno, médio, grande, dias da semana e etc.
  • Quantitativas: variáveis quantitativas são valores numéricos que dizem respeito a grandeza de uma variável. Assumem valores contínuos ou discretos.
    • Contínuo: em teoria, assumem uma distância não padrão entre uma observação e outra, bem como essa distância pode ser um número infinito de possíveis valores.
    • Discreto: assumem apenas valores fixos entre duas observações.

Estatística Descritiva

Estatísticas descritivas são números que sumarizam as características de um conjunto de dados. É útil para prover informações valiosas de forma a responder questões, sendo importantíssimas para o processo da analise exploratória de dados.

Os cálculo realizados para sumarizar os dados possuem classificações, separando-os em tipos de medidas.

  • Medidas de tendência central: responde sobre o que está no centro do dados, medidas importantes incluem a média, mediana e a moda
  • Medidas de variabilidade: responde sobre o quanto os dados estão dispersos, medidas importantes incluem a variância e o desvio padrão
  • Medidas de relacionamento: responde sobre a relação entre duas variáveis em um dataset, medidas importantes incluem a covariância e a correlação.

Visualização dos dados

A visualização de dados permite que possamos analisar facilmente os valores dos dados, sendo extremamente útil não somente para a etapa de exploração, mas também para a etapa de comunicação, devido a facilidade de entendimento do público pelo o que um gráfico está descrevendo.

Fonte: https://www.tapclicks.com/resources/blog/data-visualization-types/

 

Tipos de gráficos

Comparação: são comuns para a representação de como um conjunto de dados se compara em diferentes categorias ou como se comporta em relação ao tempo, incluem gráficos de linhas e gráficos de barras ou colunas.

Distribuição: ajudam a entender a distribuição do conjunto de dados, são gráficos que auxiliam a entender as estatísticas descritivas, incluem gráficos de histograma e densidade.

Composição: permitem entender os dados como parte de um todo, incluem: gráficos de barras empilhados, gráficos de área (empilhados ou não) e gráficos de pizza.

Relacionamento: exibem a relação entre duas ou mais variáveis. Ajudam a entender as medidas de relacionamento da estatística descritiva, incluem gráficos de dispersão e de bolhas.

____________________________________________________

Quer aprender mais?

Veja nosso curso de Fundamentos de Análise de Dados, onde ensinamos todo o processo para aqueles que desejam entrar na área. O curso faz parte da trilha Ciência de Dados para Economia e Finanças.

 

Compartilhe esse artigo

Facebook
Twitter
LinkedIn
WhatsApp
Telegram
Email
Print

Comente o que achou desse artigo

Outros artigos relacionados

Onde encontrar dados e ferramentas para text mining?

A aplicação das técnicas de mineração de texto pode trazer análises quantitativas informativas sobre a emoção, tom, categoria e outros padrões de interesse em documentos textuais. O primeiro passo é identificar, coletar e preparar estes dados brutos. Neste artigo, apresentamos bases de dados públicas de Economia e Finanças que podem ser exploradas, assim como ferramentas de programação úteis.

O que é mineração de textos e sua relação com IA?

Com uma matéria prima em comum, a mineração de textos e a inteligência artificial generativa usam grandes volumes de dados não estruturados para fins distintos e com aplicações em Economia, Finanças, Marketing e outras áreas. Mas quando devemos usar uma técnica e não a outra? O que é possível fazer e o que é mineração de textos? Neste artigo introduzimos estes tópicos e fornecemos alguns exemplos de aplicações.

Avaliando a evolução do Funcionalismo Público nos Estados Brasileiros usando Controle Sintético no R

O objetivo deste exercício é introduzir o uso do método de Controle Sintético na linguagem de programação R, aplicando-o a um exemplo prático relevante para a análise de políticas públicas. Vamos focar na utilização dessa técnica para avaliar o impacto do Regime de Recuperação Fiscal (RRF) sobre o número de vínculos do poder executivo nos estados brasileiros, com ênfase no caso do Rio de Janeiro.

como podemos ajudar?

Preencha os seus dados abaixo e fale conosco no WhatsApp

Boletim AM

Preencha o formulário abaixo para receber nossos boletins semanais diretamente em seu e-mail.