Propensity Score com Múltiplas Variáveis no R

O escore de propensão é provavelmente a maneira mais comum de agregar múltiplas variáveis de correspondência em um único valor que pode ser correspondido, ou seja, muito útil para a realização de pareamento. O escore de propensão é a probabilidade estimada de que uma determinada observação teria sido tratada. A correspondência de escore de propensão muitas vezes significa selecionar um conjunto de observações de controle correspondidas com valores semelhantes do escore de propensão.

O escore de propensão é a probabilidade estimada de que uma determinada observação teria sido tratada. A correspondência de escore de propensão muitas vezes significa selecionar um conjunto de observações de controle correspondidas com valores semelhantes do escore de propensão.

Como exemplo para mostrar o poder dos métodos de pareamento utilizaremos o caso do impacto econômico do metrô de São Paulo. O transporte pode ter grande impacto nos aspectos econômicos de uma localidade, pois permite e expande o acesso das pessoas aos empregos, promove a eficiência e fomenta economias de aglomeração. Assim, estimaremos o impacto da construção de estações de metrô na verticalização, medida pela proporção de domicílios que são apartamentos, dos domicílios próximos a elas. Mais especificamente, analisaremos o impacto das estações de metrô construídas em São Paulo entre 2002 e 2007, das linhas verdes e lilás.

Seja aluno da nossa formação Do Zero à Avaliação Prática de Política Públicas com a Linguagem R, e tenha acesso às aulas teóricas e práticas, com o código disponibilizado em R .

Utilizaremos dados dos censos de 1991, 2000 e 2010 com algumas variáveis em nível de setor censitário para a cidade de São Paulo. Para fins de definição dos setores censitários tratados, ou seja, que sofreram a intervenção da política pública, estamos considerando a distância de até 1km até a estação construída mais próxima. No mapa a seguir, mostramos como era a renda per capita dos setores censitários de São Paulo em 1991. Os números estão deflacionados e constantes para valores de 2010.Quando comparamos a distribuição da verticalização entre estes dois grupos (tratados (1) e restantes (0)) isso fica mais claro.Veja que se formos estimar o modelo de diferenças-em-diferenças, nós precisamos adequar o grupo de controle para que as tendências fiquem paralelas.

Assim, para avaliar o efeito, é preciso tornar esses grupos semelhantes. Para isso, utilizaremos o pareamento, que permite selecionar setores de dentro do grupo restante para formar um grupo de controle parecido com o grupo de tratamento.

Além da variável de verticalização, também utilizamos a renda domiciliar per capita, a proporção de pessoas com ensino superior, a proporção de domicílios que são alugados e a proporção de jovens adultos (25-34 anos) entre os moradores do setor censitário. O resultado mostra que a distruibuição do grupo de controle fica mais próxima a distribuição que ocorre nos setores tratados.

Além disso, até aqui estamos tratando apenas da variável de interesse. Ainda não podemos afirmar que o equilíbrio dos dois grupos está adequado.

	Type	Diff.Un	Diff.Adj	M.Threshold
distance	Distance	0.1748641	-0.0001736	Balanced, <0.1
RPC_1991	Contin.	0.0850701	-0.0077821	Balanced, <0.1
AP_1991	Contin.	-0.0332663	-0.0126687	Balanced, <0.1
grad_1991	Contin.	0.0849201	0.0265063	Balanced, <0.1
Rent_1991	Contin.	0.0291053	0.0017758	Balanced, <0.1
youngadults_1991	Contin.	0.0062660	-0.0895888	Balanced, <0.1
Single_1991	Contin.	0.1389738	-0.0342860	Balanced, <0.1

Veja que, utilizando o critério de até 0.1 desvio padrão de tolerância, há um bom balanceamento entre os grupos em todas as variáveis.

Podemos utilizar o método “ótimo” para testar se podemos melhorar ainda mais o equilíbrio.

O uso desse método piorou bastante os resultados. Dado os bons resultados, podemos voltar para o método padrão de vizinhos mais próximos. Veja que, apesar das médias estarem equilibradas, a distribuição da nossa variável de interesse ainda está um pouco longe do ideal. A depender do objetivo de análise, pode ser interessante testar outras possibilidades para tentar melhorar esse fator.

Assim, podemos mostrar o poder do pareamento com um gráfico das diferenças médias padronizadas absolutas entre os grupos de tratamento e controle, antes (azul) e depois (vermelho) do pareamento. Veja que não havia um severo desbalanceamento entre as variáveis antes, mas ele melhorou significativamente. Entretanto, a variável que mede a proporção de jovens adultos teve uma piora, mas está ainda dentro do limite nós impusemos.Portanto, podemos ver se o pareamento corrigiu as tendências dos grupos no momento anterior ao tratamento, tornando possível a utilização do modelo de diferenças-em-diferenças.

Propensity Score com Múltiplas Variáveis no R

Compartilhe esse artigo

Boletim AM

Encontre o seu conteúdo

Categorias

Artigos mais acessados

Agente de IA que coleta dados do BCB e do IBGE sozinho

Como construímos um agente de IA que lê as atas do Copom

Pipeline de relatório de IPCA com agentes no Claude Code

Skills no Claude Code: o que são, onde ficam e como acionar

Context Engineering: o que o modelo lê quando responde

MCP: como conectar o Claude ao mundo real