Hackeando o R: fazendo um PROCV no R

No Hackeando o R de hoje, vamos mostrar como podemos replicar a PROCV do Excel no R, utilizando as funções de join do tidyverse, e mostrando como a solução de problemas mais complexos é facilitada com o uso delas. No Excel, utilizamos o PROCV básico quando queremos encontrar para cada elemento de uma tabela uma informação que está contida em outra tabela. Esse resultado pode ser replicado com a função left_join(), que pega a tabela que falta a informação, e adiciona a ela os dados da segunda tabela, para cada valor da coluna a ser procurada. Note que, no código abaixo, todas as colunas da tabela auxiliar são adicionadas, e a coluna que é procurada na base é indicada pelo argumento 'by'. Caso queira apenas a coluna pesquisada, basta fazer o join com apenas as colunas de identificação e de pesquisa.

library(tidyverse)
library(Lahman)

tabela_principal = Batting %>% select(playerID, yearID, G, AB)
tabela_auxiliar = Master %>% select(playerID, birthCountry)

head(left_join(tabela_principal, tabela_auxiliar, by = 'playerID'), copy = FALSE)

 playerID yearID G AB birthCountry
1 abercda01 1871 1 4 USA
2 addybo01 1871 25 118 CAN
3 allisar01 1871 29 137 USA
4 allisdo01 1871 27 133 USA
5 ansonca01 1871 25 120 USA
6 armstbo01 1871 12 49 USA

Há também outras funções que servem funcionalidades parecidas, como a right_join, que junta linhas da primeira tabela à segunda, inner_join, que junta apenas as linhas que preenchem os dados, e a full_join, que junta todas as linhas. Cada uma delas essencialmente utiliza a função filter() para encontrar os resultados que têm dados exatos, de modo que para replicar o uso de PROCV para apenas um valor, o mais simples seria utilizar filter(dados, nome da variável == valor procurado). É importante fazer uma ressalva: enquanto o PROCV procura resultados aproximados por padrão, a filter() só retorna resultados idênticos; ademais, o PROCV retorna o primeiro match, enquanto a filter retorna a matriz de todos os matches encontrados.

Um resultado que pode ser mais interessante para quem está interessado a começar a trabalhar com o R é a facilidade com que podemos expandir a busca do PROCV. Digamos que queremos extrair informações de uma segunda tabela, mas a identificação é feita com duas colunas de dados ao invés de uma só. Para resolver isso no Excel, teríamos que fazer uma composição de funções relativamente complicada, porém, no R a extensão é trivial. Abaixo, procuramos dados pela ID do jogador e ID do ano simultaneamente, utilizando novamente um simples left_join():

tabela_auxiliar2 = AllstarFull %>% select(playerID, yearID, GP)

left_join(tabela_principal, tabela_auxiliar2, by = c('playerID', 'yearID')) %>% drop_na() %>%
head()
 playerID yearID G AB GP
1 averiea01 1933 151 599 1
2 bartedi01 1933 152 587 1
3 bergewa01 1933 137 528 1
4 chapmbe01 1933 147 565 1
5 cronijo01 1933 152 602 1
6 crowdal01 1933 52 102 1

______________

(*) Gostou? Conheça nosso Curso de Introdução ao R para Análise de Dados.

Compartilhe esse artigo

Facebook
Twitter
LinkedIn
WhatsApp
Telegram
Email
Print

Comente o que achou desse artigo

Outros artigos relacionados

Análise de impacto fiscal sobre o dolár com Python

Usamos uma cesta de 12 moedas para construir um cenário contrafactual da taxa de câmbio após o último anúncio de pacote fiscal, com base em modelagem Bayesiana. No período, o dolár depreciou quase 5% e passou os R$ 6,15, enquanto que na ausência da intervenção a moeda deveria estar cotada em R$ 5,78.

Resultado IBC-br - Outubro/2024

A Análise Macro apresenta os resultados da IBC-br de Outubro de 2024, com gráficos elaborados em Python para coleta, tratamento e visualização de dados. Todo o conteúdo, disponível exclusivamente no Clube AM, foi desenvolvido com base nos métodos ensinados nos cursos da Análise Macro, permitindo aos assinantes acesso aos códigos e replicação das análises.

Resultado PMC - Outubro/2024

A Análise Macro apresenta os resultados da PMC de Outubro de 2024, com gráficos elaborados em Python para coleta, tratamento e visualização de dados. Todo o conteúdo, disponível exclusivamente no Clube AM, foi desenvolvido com base nos métodos ensinados nos cursos da Análise Macro, permitindo aos assinantes acesso aos códigos e replicação das análises.

Boletim AM

Receba diretamente em seu e-mail gratuitamente nossas promoções especiais e conteúdos exclusivos sobre Análise de Dados!

Boletim AM

Receba diretamente em seu e-mail gratuitamente nossas promoções especiais e conteúdos exclusivos sobre Análise de Dados!

como podemos ajudar?

Preencha os seus dados abaixo e fale conosco no WhatsApp

Boletim AM

Preencha o formulário abaixo para receber nossos boletins semanais diretamente em seu e-mail.