Estatísticas descritivas são números que sumarizam as características de um conjunto de dados. É útil para prover informações valiosas de forma a responder questões, sendo importantíssimas para o processo da analise exploratória de dados. No post de hoje, ensinaremos o básico sobre as estatísticas descritivas, bem como mostraremos como realizar a aplicação no R e Python.
As estatísticas descritivas possuem algumas características e pontos importantes que devemos elencar antes de fato demonstrar com o R e Python. Em primeiro lugar, devemos separar os tipos de dados que estamos lidando, os dois mais importantes são:
- categóricos (ou qualitativo): registra quantis ou as características sobre as observações, tais como gênero, partido politico e etc.
- numérico (quantitativo): registra os números ou a contagem de uma observação, tais como peso, idade, número de filhos e etc.
A aplicação para as variáveis do mundo real pode ser estabelecida pela quantidade de variáveis que se está descrevendo ou sumarizando.
- univariadas: quando se descreve e sumariza apenas uma variável
- bivariada/multivariadas: quando se descreve duas ou mais variáveis.
Os cálculo realizados para sumarizar os dados também possuem classificações, separando-os em tipos de medidas.
- Medidas de tendencia central: responde sobre o que está no centro do dados, medidas importantes incluem a média, mediana e a moda
- Medidas de variabilidade: responde sobre o quanto os dados estão dispersos, medidas importantes incluem a variância e o desvio padrão
- Medidas de relacionamento: responde sobre a relação entre duas variáveis em um dataset, medidas importantes incluem a covariância e a correlação.
Pontos importante:
Percentis: os percentis são os números relativos que representam a localização dos dados de uma variável que são divididos em 100. Fazem parte do que é conhecido como Quantis. Por exemplo, imagine que o individuo que corresponda a uma observação da variável que mede a renda de todos os brasileiros tenha uma renda que esteja acima do 90° percentil, isso significa que esse individuo possui uma renda maior que 90% dos brasileiros. Uma regra interessante: a mediana sempre representa o 50° percentil.
outliers: É um ponto que difere significativamente da maioria dos dados de um dataset. Entre os motivos para esse acontecimento é: variação natural do dados, mudança estrututral do sistema observado, bem como mudança na forma de mensurar os dados, erros na coleta dos dados.
Agora que realizamos uma breve introdução, podemos partir para prática e entender como podemos aplicar com o R e o Python
Estatísticas Descritivas no R
Como exemplo, utilizaremos os dados do dataset iris, e o primeiro passo para começarmos a analisar as estatísticas descritivas do dataset é dar uma olhada no seus aspectos, visualizando o data frame e a sua estrutura.
Transformamos o data frame em tibble para que seja melhor trabalhado o conjunto de dados. Ao olhar o data frame e a sua estrutura com a função str(),vemos que há informações valiosas: possui 5 colunas com 150 observações, sendo quatro dessas colunas numéricas e uma do tipo factor (dados categóricos). Já cumprimos o primeiro passo de identificar os tipos de dados que temos em mãos. O próximo passo será calcular os tipos de medidas.
Tipos de dados
Tipos de medidas
Medidas de tendência central
Para calcular as medidas de tendência central, como a média, mediana e moda no R, selecionamos as colunas (variáveis) que queremos analisar e utilizamos as seguintes funções:
Para a moda, veja que realizamos uma combinação de table() com sort(), onde a primeira função permite calcular a frequência de ocorrência de um valor e a segunda que o número dessa frequência seja ordenado do maior para o menor.
Medidas de variabilidade
Para calcular a variância e o desvio padrão, utilizamos de duas funções no R, selecionando as variáveis que queremos.
Medidas de relacionamento
Para calcular o relacionamento de duas variáveis no R, é possível utilizar a funções cov() e cor() para calcular a covariância e correlação, respectivamente. Veja que selecionamos duas variáveis para realizar o cálculo. É possível criar também uma matriz de covariância e correlação com as mesmas funções, porém, é necessário especificar as colunas do tipo numérico para o R.
Percentis
Para encontrar um percentil específico, utiliza-se a função quantile, com a posição que queremos encontrar os dados.
Sumarização
Para facilitar o trabalho da análise sobre estatísticas descritivas, a função summary() retorna os indicadores mais importantes para análise de todas as colunas.
O pacote skimr torna poderoso a sumarização no R, retornando informações mais bem trabalhadas.
Estatísticas descritivas no Python
Utilizar o Python para calcular as estatísticas descritivas é tão fácil quanto o R, precisaremos apenas das bibliotecas numpy e pandas para realizar esta tarefa. No Python, primeiro, devemos carregar os dados de exemplo que utilizamos acima para então seguir para o processo de análise.
Tipos de medidas
Medidas de tendência central
No Python, a lógica é a mesma, pegamos uma coluna representando uma variável e calculamos as respectivas medidas.
Medidas de variabilidade
Para a variabilidade, veja que o método segue o mesmo, retirando a coluna de interesse e aplicando as funções var() e std()
Medidas de relacionamento
No Python, construímos uma matriz de covariância e correlação (também sendo possível calcular somente de duas variáveis).
Sumarização
O processo de sumarização no Python pode ser alcançado através do método descibre(), que retorna medidas preciosas de todas as colunas.
Para tornar mais poderoso a sumarização, a biblioteca skimpy nos ajuda a melhorar a análise.
Quer saber mais?
Veja nosso curso de Estatística usando R e Python, onde ensinamos a como utilizar o R e Python para realizar análises estatísticas com exemplos reais.