Category

Clube do Código

Novos Exercícios são publicados no Clube do Código

By | Clube do Código

Informamos aos membros e alunos do plano premium dos nossos Cursos Aplicados de R que foram publicados hoje no Clube do Código três novos exercícios: (1) Edição 65 - A Econometria das Queimadas; (2) Edição 66 - Policiais mortos vs. mortes por policiais no RJ: há causalidade?; (3) Uma comparação econométrica entre o CAGED e a PNAD Contínua. Todos os códigos utilizados nos exercícios estão disponíveis no github.

Além dos exercícios, também foram adicionados os últimos Comentários de Conjuntura publicados no Blog da Análise Macro.

Policiais mortos vs. mortes por policiais no RJ: há causalidade?

By | Clube do Código

Dando sequência a análise da base de dados do Instituto de Segurança Pública (ISP) que comecei no post anterior, fiquei curioso para ver a relação entre duas séries: a de homicídios por intervenção policial e a de policiais militares mortos em serviço. Abaixo, um gráfico das séries.

Há uma leve correlação positiva entre as séries. De forma a investigar uma relação de causalidade no sentido de Granger, apliquei o procedimento proposto por Toda e Yamamoto (1995) às mesmas. Os resultados encontrados sugerem que existe uma causalidade no sentido de policiais militares mortos em serviços para homicídios por intervenção policial, considerando o nível de 5% de significância. Em outras palavras, policiais mortos em serviços tem precedência temporal sobre o número de homicídios por intervenção policial.

O código completo do exercício estará disponível na próxima semana no repositório do Clube do Código.

______________

Toda H.Y.; Yamamoto T. (1995). Statistical inference in vector autoregressions with possibly integrated processes. Journal of Econometrics, 66, 225–250. 

Um modelo univariado para Homicídios por Intervenção Policial no RJ

By | Clube do Código

Ontem, o Jornal Nacional apresentou uma matéria sobre o número recorde de homicídios por intervenção policial no Rio de Janeiro nesse ano, dando como causa a nova política de segurança pública do governador Wilson Witzel. Fiquei curioso e fui dar uma olhada na ótima base de dados do Instituto de Segurança Pública (ISP). Peguei o arquivo Séries históricas do estado por mês desde 1991 (números absolutos) e importei para o R com o código abaixo, já carregando os pacotes que iria utilizar na análise.


library(readr)
library(forecast)
library(ggplot2)
library(TStools)
library(scales)

data = read_csv2('DOMensalEstadoDesde1991.csv')

 

Os dados de homicídios por intervenção policial estão disponíveis desde janeiro de 1998, apenas. Com isso, fazemos uma amostra dos nossos dados com o código a seguir.


data = ts(data, start=c(1991,01), freq=12)
hip = window(data[,6], start=c(1998,01))

E um gráfico rápido para visualizar os nossos dados.


df = data.frame(time=as.Date(time(hip)),
hip=hip, cmav=cmav(hip,12))

ggplot(df, aes(x=time))+
geom_line(aes(y=hip, colour='HIP'))+
geom_line(aes(y=cmav, colour='Média Móvel'), size=.8)+
scale_colour_manual('',
values=c('HIP'='black',
'Média Móvel'='red'))+
theme(legend.position = c(.15,.8))+
theme(axis.text.x = element_text(angle=45, hjust=1))+
scale_x_date(breaks = date_breaks("1 year"),
labels = date_format("%Y"))+
labs(x='', y='quantidade de pessoas',
title='Homícidios por intervenção policial no Rio de Janeiro',
caption='Fonte: analisemacro.com.br com dados do ISP/RJ')

Observe que acrescentei uma média móvel de 12 meses nos dados, de modo a suavizar a série. O que se observa é de fato um aumento preocupante na série desde ao menos 2013. Ou seja, o aumento é bem anterior à gestão do atual governador. A matéria do JN está, portanto, equivocada ao apontar como causa a nova política de segurança.

Como não sou especialista no assunto, não posso opinar sobre as causas para esse aumento. Minha função aqui é apenas ilustrar como tratar os dados. Isso dito, resolvi fazer uma projeção usando um modelo univariado simples, isto é, um modelo ARIMA, usando o pacote forecast. O gráfico abaixo ilustra o ajuste do modelo.

E abaixo um gráfico com a projeção para os próximos 12 meses.

O código completo do exercício estará disponível na Edição 66 do Clube do Código.

Focos de Queimadas no Brasil: 2019 versus a Média Histórica

By | Clube do Código

Em posts anteriores nesse espaço (ver aqui e aqui), comecei a analisar os dados de focos de queimadas no Brasil disponibilizados pelo INPE - ver dados aqui. Nessas oportunidades, chamei atenção para a sazonalidade da série, que é bastante pronunciada. Já aqui, vou fazer uma análise que antecede qualquer esforço de modelagem e previsão: verificar as estatísticas descritivas da série. Antes de continuar, contudo, quero salientar que meu objetivo com esses posts é meramente didático, isto é, quero mostrar como é possível utilizar o R e conhecimentos de estatística/econometria para analisar dados, seja ele qual for. Isso dito, vamos para o RStudio?

De forma a lembrar o que estamos fazendo, carrego no código abaixo os pacotes utilizados, bem como importo uma planilha Excel para o R.


## Pacotes
library(tidyverse)
library(readxl)
library(forecast)
library(scales)
library(gridExtra)
library(TStools)
library(strucchange)
library(seasonal)
Sys.setenv(X13_PATH = "C:/Séries Temporais/R/Pacotes/seas/x13ashtml")

## Coletar dados
data = read_excel('focos.xlsx')
date = seq(as.Date('2003-01-01'), as.Date('2019-08-01'), by='1 month')
data$obs = date

queimadas = ts(data$Focos, start=c(2003,01), freq=12)

Com o código acima, nós estamos importando os dados cedidos pelo Cristiano Oliveira e transformando em série temporal. Já aqui, ressalto, eu atualizei a planilha com os dados fechados de agosto, de modo que isso dá uma visão um pouco melhor sobre o ano de 2019. Fiquei curioso para ver como 2019 se comporta contra a média histórica dos meses, bem como com os máximos e mínimos de cada um desses meses. Para ver isso, eu utilizei o pacote TStools e gerei a tabelinha com o código abaixo.


seas <- seasplot(queimadas, trend=F, outplot = 3)
medias = colMeans(seas$season)
medias = medias[1:8]

matrix = matrix(NA, nrow=8, ncol=2)

for(i in 1:8){
matrix[i,1] = min(seas$season[,i])
matrix[i,2] = max(seas$season[,i])
}

time = seq(as.Date('2019-01-01'), as.Date('2019-08-01'), by='1 month')
table = data.frame(time, matrix[,1], round(medias,0),
tail(data$Focos,8), matrix[,2])
colnames(table) = c('meses', 'min', 'media', 'anoatual', 'max')

Uma vez criada a tabela, gerei o gráfico abaixo.

A linha azul representa o ano de 2019, enquanto a linha vermelha representa a média histórica de cada mês. Já a área laranja é composta pelos mínimos e máximos de cada um dos meses. O que se observa é que o foco de queimadas está em linha com a média histórica, dentro dos limites de cada mês. A exceção é o mês de março desse ano, que virou o máximo da amostra com 5.213 focos de queimadas. A média histórica desse mês é de 2.611 focos de queimadas ativos.

Isso feito, eu quis dar uma olhada no formato da distribuição dos focos de queimadas dessazonalizados (para detalhes sobre como dessazonalizar os dados, ver aqui). Para isso, primeiro, vi o boxplot da série com o código abaixo.


queimadas_sa <- final(seas(queimadas))

df = data.frame(date=date,
queimadas_sa=queimadas_sa)

ggplot(df, aes(date, queimadas_sa/1000))+
geom_boxplot(fill='#E69F00', color="black")+coord_flip()+
theme_classic()+xlab('')+ylab('')+
labs(title='Boxplot dos focos de queimadas no Brasil (2003-2019)',
subtitle='Dados dessazonalizados',
caption='Fonte: http://queimadas.dgi.inpe.br/queimadas/portal')

E o boxplot...

Novamente aqui, os dados referentes a 2019 estão em linha com a média histórica, à exceção de março, que está no último quartil da distribuição. Por fim, vi o histograma da série dessazonalizada com o código abaixo.


ggplot(df, aes(x=queimadas_sa/1000))+
geom_histogram(binwidth = 1, fill='#E69F00', colour='black')+
xlab('')+ylab('')+
labs(title='Histograma dos focos de queimadas no Brasil (2003-2019)',
subtitle='Dados dessazonalizados',
caption='Fonte: http://queimadas.dgi.inpe.br/queimadas/portal')

E o histograma...

Como esperado, há uma assimetria no formato da distribuição da nossa série. Tudo isso feito, não me parece que 2019 esteja tendo um comportamento diferente dos demais anos.

Esse é, a propósito, o terceiro post dessa série. Um quarto post encerra a série e será publicado nos próximos dias, com um .Rmd completo disponível no Clube do Código. Será a 65ª edição do Clube. Até lá!

____________________

OBS: Para quem gostou da análise descritiva, temos um Curso de Introdução à Estatística usando o R que trata dessas questões.

O papel do sistema financeiro na desigualdade de renda

By | Clube do Código

Qual é o papel do desenvolvimento do sistema financeiro na pobreza e na desigualdade de renda? Como seria possível verificar essa relação? Essas são as perguntas abordadas na Edição 63 do Clube do Código. Usando dados do FMI, construímos um painel de 22 países de modo a identificar o papel do desenvolvimento financeiro na desigualdade de renda. Os resultados encontrados sugerem que quanto mais desenvolvido é o sistema financeiro, menor é a desigualdade de renda, representada pelo índice de Gini. De forma a dar robustez aos resultados, também foi testado o efeito do desenvolvimento do sistema financeiro na participação dos 20% mais pobres na renda: quanto mais desenvolvido é o sistema financeiro, maior é a participação desse extrato na renda nacional.

Para além dos resultados encontrados, talvez a parte mais importante do exercício é o tratamento dos dados, uma vez que para construir um modelo de painel é preciso fazer um empilhamento dos dados. A Edição 63, diga-se, estará disponível na sexta-feira no repositório do Clube no Github!

Se você ainda não é assinante, não perca tempo e assine já!

Cadastre-se na newsletter
e receba nossas novidades em primeira mão!