Hackeando o R: construindo gráficos com resultados estatísticos

Nesse post do Hackeando o R, iremos dar uma olhada em um pacote bem interessante que pode ajudar na criação de gráficos com propriedades estatísticas, de forma que a análise visual se torne mais simples e rápida.

O pacote {ggstatsplot} facilita não só a criação, bem como ajuda a sumarizar resultados estatísticos dentro dos próprios gráficos pro usuário.

Iremos utilizar como exemplo nesse post dados referentes aos retornos mensais de três ativos financeiros: PETR4, ITUB4 e ABEV3, além também dos retornos mensais do índice ibovespa. Caso tenha interesse em aprender a como obter esses dados, veja nosso post sobre.

Vamos utilizar os dados da Ibovespa para visualizar o histograma. Veja que o pacote insere uma expressão indicando a média dos retornos, em conjunto com uma linha tracejada. Também é retornado um linha com resultados sobre t-test, p-value, intervalo de confiança, tamanho de efeito, além do número de observações.

# Histograma
gghistostats(
  data = ibov_returns,
  x = `Ibovespa`,
  bindwidth = 1,
  normal.curve = TRUE,
  normal.curve.args = list(color = "red", size = 0.7)
)

Caso tenha um conjunto de dados com diversas variáveis, é possível gerar um gráficos com todas em conjunto.

# Histogramas agrupados

grouped_gghistostats(
  data = asset_returns_long,
  x = returns,
  grouping.var = assets,
  bindwidth = 1,
  normal.curve = TRUE,
  normal.curve.args = list(color = "red", size = 0.7),
  plotgrid.args = list(nrow = 2)
)

Além de um único histograma, é possível também gerar um gráfico de dispersão com uma reta de regressão, além do respectivo histograma de cada variável.

# Gráfico de dispersão com linha de regressão e Histograma

ggscatterstats(
  data = all_returns,
  x = `Ibovespa`,
  y = `ITUB4`
)

Também é possível criar uma matriz de correlação.

# Gráfico de correlação

ggcorrmat(
  data = all_returns,
  colors = c("#B2182B", "white", "#4D4D4D"),
  title = "",
  subtitle = ""
)

O pacote trabalha também com conjunto de dados de outras classes, não só numéricos, utilizando uma estatística apropriada para cada. Além de diversos outros gráficos.

________________________
(*) Para entender mais sobre análises estatísticas, confira nosso Curso de Estatística usando R e Python.

________________________

Compartilhe esse artigo

Facebook
Twitter
LinkedIn
WhatsApp
Telegram
Email
Print

Comente o que achou desse artigo

Outros artigos relacionados

Simplificando análises de dados manuais do Excel usando o Python

Tratar e analisar dados no Excel pode ser um verdadeiro caos, mesmo que você precise fazer coisas simples como cruzar duas tabelas de dados. Uma solução melhor é o uso de scripts em Python, que possibilitam a automação de tarefas repetitivas e manuais. Neste artigo mostramos um exemplo simples, comparando o Excel versus Python.

Como automatizar o tratamento de dados feito no Excel usando o Python?

Segundo a pesquisa “State of Data Science”, profissionais de dados gastam 3 horas/dia (38% do tempo) apenas preparando os dados, antes mesmo de analisá-los. Neste artigo advogamos que este gasto de tempo pode ser drasticamente reduzido ao utilizar ferramentas open source, como Pandas e Python, para automatizar tarefas repetitivas que costumam ser feitas em Excel.

como podemos ajudar?

Preencha os seus dados abaixo e fale conosco no WhatsApp

Boletim AM

Preencha o formulário abaixo para receber nossos boletins semanais diretamente em seu e-mail.