Hackeando o R

Hackeando o R: diminuindo seu código com purrr

By 4 de agosto de 2021 No Comments

No Hackeando o R de hoje, vamos mostrar como podemos facilitar a repetição de funções em larga escala com o auxílio do pacote purrr. Além de possuir melhor performance do que loops básicos, as funções disponíveis nesse pacote permitem a geração de objetos em larga escala de modo conciso. Inicialmente, vamos calcular a média de cada coluna de um dataframe, comparando um loop com o purrr:

library(purrr)

dados = as.data.frame(matrix(rexp(200, rate=.1), ncol=20))

# for loop
media <- vector('double', ncol(dados))

for (i in 1:ncol(dados)) {
media[i] <- mean(dados[,i])
}

# purrr
media <- map_dbl(dados, mean)
<pre>
media
V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V11 V12 V13 
15.506445 9.066860 9.606222 7.875641 8.021313 14.424925 7.983791 8.276200 5.910139 8.545459 12.199477 9.404228 5.866048 
V14 V15 V16 V17 V18 V19 V20 
8.440641 10.624942 9.263813 5.243025 6.235834 14.552733 12.405802 

Os dois códigos geram o mesmo resultado, porém no primeiro precisamos gerar um objeto e assinalar manualmente onde deve ir cada resultado, enquanto a função map_dbl do purrr retorna diretamente o vetor de resultados. Sua interpretação é simples: para o objeto dados, calculamos a função mean() sobre cada coluna, e guardamos seu valor em um vetor do tipo double. Se quiséssemos aplicar sobre as linhas, basta transpor a matriz que gerou os dados, ou utilizar a função pmap.

Considere agora o caso de uma iteração múltipla. Digamos que você tem o dataset do Gapminder, que contém informações como o PIB per capita para diversos países separados por continente e ano, e quer gerar um gráfico para cada continente, em cada ano. No total, teríamos 60 gráficos distintos, que exigiriam a realização de um for para uma lista de continentes, e outro for dentro do primeiro com a lista de anos. Ao invés disso, podemos utilizar a map2, que itera uma função sobre as mesmas linhas de vetores distintos. O código abaixo mostra como isso fica:

library(tidyverse)
library(ggplot2)

gapminder <- read.csv("https://raw.githubusercontent.com/swcarpentry/r-novice-gapminder/gh-pages/_episodes_rmd/data/gapminder-FiveYearData.csv")

continent_year <- gapminder %>% distinct(continent, year)
continents <- continent_year %>% pull(continent) %>% as.character
years <- continent_year %>% pull(year)

plot_list <- map2(.x = continents,
.y = years,
.f = ~{
gapminder %>%
filter(continent == .x,
year == .y) %>%
ggplot() +
geom_point(aes(x = gdpPercap, y = lifeExp)) +
ggtitle(glue::glue(.x, " ", .y))
})

A partir daqui, podemos acessar um gráfico qualquer verificando sua numeração no objeto continent_year.

plot_list[15]

 

Receba diretamente em seu e-mail gratuitamente nossas promoções especiais
e conteúdos exclusivos sobre Análise de Dados!

Assinar Gratuitamente
{"cart_token":"","hash":"","cart_data":""}