Hackeando o R: diminuindo seu código com purrr

No Hackeando o R de hoje, vamos mostrar como podemos facilitar a repetição de funções em larga escala com o auxílio do pacote purrr. Além de possuir melhor performance do que loops básicos, as funções disponíveis nesse pacote permitem a geração de objetos em larga escala de modo conciso. Inicialmente, vamos calcular a média de cada coluna de um dataframe, comparando um loop com o purrr:

library(purrr)

dados = as.data.frame(matrix(rexp(200, rate=.1), ncol=20))

# for loop
media <- vector('double', ncol(dados))

for (i in 1:ncol(dados)) {
media[i] <- mean(dados[,i])
}

# purrr
media <- map_dbl(dados, mean)
<pre>
media
V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V11 V12 V13 
15.506445 9.066860 9.606222 7.875641 8.021313 14.424925 7.983791 8.276200 5.910139 8.545459 12.199477 9.404228 5.866048 
V14 V15 V16 V17 V18 V19 V20 
8.440641 10.624942 9.263813 5.243025 6.235834 14.552733 12.405802 

Os dois códigos geram o mesmo resultado, porém no primeiro precisamos gerar um objeto e assinalar manualmente onde deve ir cada resultado, enquanto a função map_dbl do purrr retorna diretamente o vetor de resultados. Sua interpretação é simples: para o objeto dados, calculamos a função mean() sobre cada coluna, e guardamos seu valor em um vetor do tipo double. Se quiséssemos aplicar sobre as linhas, basta transpor a matriz que gerou os dados, ou utilizar a função pmap.

Considere agora o caso de uma iteração múltipla. Digamos que você tem o dataset do Gapminder, que contém informações como o PIB per capita para diversos países separados por continente e ano, e quer gerar um gráfico para cada continente, em cada ano. No total, teríamos 60 gráficos distintos, que exigiriam a realização de um for para uma lista de continentes, e outro for dentro do primeiro com a lista de anos. Ao invés disso, podemos utilizar a map2, que itera uma função sobre as mesmas linhas de vetores distintos. O código abaixo mostra como isso fica:

library(tidyverse)
library(ggplot2)

gapminder <- read.csv("https://raw.githubusercontent.com/swcarpentry/r-novice-gapminder/gh-pages/_episodes_rmd/data/gapminder-FiveYearData.csv")

continent_year <- gapminder %>% distinct(continent, year)
continents <- continent_year %>% pull(continent) %>% as.character
years <- continent_year %>% pull(year)

plot_list <- map2(.x = continents,
.y = years,
.f = ~{
gapminder %>%
filter(continent == .x,
year == .y) %>%
ggplot() +
geom_point(aes(x = gdpPercap, y = lifeExp)) +
ggtitle(glue::glue(.x, " ", .y))
})

A partir daqui, podemos acessar um gráfico qualquer verificando sua numeração no objeto continent_year.

plot_list[15]

________________________
(*) Para entender mais sobre a linguagem R e suas ferramentas, confira nosso Curso de Introdução ao R para análise de dados.

 

Compartilhe esse artigo

Facebook
Twitter
LinkedIn
WhatsApp
Telegram
Email
Print

Comente o que achou desse artigo

Outros artigos relacionados

Como se comportou a Taxa de Participação no Brasil nos últimos anos? Uma Análise com a Linguagem R

O objetivo deste estudo é analisar a evolução da Taxa de Participação no Brasil, contrastando-a com a Taxa de Desocupação e decompondo suas variações para entender os vetores (populacionais e de força de trabalho) que influenciam o comportamento atual do mercado de trabalho. Para isso, utilizamos a linguagem R em todo o processo, desde a coleta e o tratamento das informações até a visualização dos resultados, empregando os principais pacotes disponíveis no ecossistema da linguagem.

Como se comportou a inflação de serviços no Brasil nos últimos anos?

Uma análise econométrica da inflação de serviços no Brasil comparando os cenários de 2014 e 2025. Utilizando uma Curva de Phillips própria e estimativas da NAIRU via filtro HP, investigamos se o atual desemprego nas mínimas históricas repete os riscos do passado. Entenda como as expectativas de inflação e o hiato do desemprego explicam o comportamento mais benigno dos preços atuais em relação à década anterior.

Como se comportou o endividamento e a inadimplência nos últimos anos? Uma análise utilizando a linguagem R

Neste exercício realizamos uma análise sobre a inadimplência dos brasileiros no período recente, utilizando a linguagem R para examinar dados públicos do Banco Central e do IBGE. Investigamos a evolução do endividamento, da inadimplência e das concessões de crédito, contextualizando-os com as dinâmicas da política monetária (Taxa Selic) e do mercado de trabalho (renda e desemprego).

Boletim AM

Receba diretamente em seu e-mail gratuitamente nossas promoções especiais e conteúdos exclusivos sobre Análise de Dados!

Boletim AM

Receba diretamente em seu e-mail gratuitamente nossas promoções especiais e conteúdos exclusivos sobre Análise de Dados!

como podemos ajudar?

Preencha os seus dados abaixo e fale conosco no WhatsApp

Boletim AM

Preencha o formulário abaixo para receber nossos boletins semanais diretamente em seu e-mail.