Propensity Score com Múltiplas Variáveis no R

O escore de propensão é provavelmente a maneira mais comum de agregar múltiplas variáveis de correspondência em um único valor que pode ser correspondido, ou seja, muito útil para a realização de pareamento.

O escore de propensão é a probabilidade estimada de que uma determinada observação teria sido tratada. A correspondência de escore de propensão muitas vezes significa selecionar um conjunto de observações de controle correspondidas com valores semelhantes do escore de propensão.

Como exemplo para mostrar o poder dos métodos de pareamento utilizaremos o caso do impacto econômico do metrô de São Paulo. O transporte pode ter grande impacto nos aspectos econômicos de uma localidade, pois permite e expande o acesso das pessoas aos empregos, promove a eficiência e fomenta economias de aglomeração. Assim, estimaremos o impacto da construção de estações de metrô na verticalização, medida pela proporção de domicílios que são apartamentos, dos domicílios próximos a elas. Mais especificamente, analisaremos o impacto das estações de metrô construídas em São Paulo entre 2002 e 2007, das linhas verdes e lilás.

Seja aluno da nossa formação Do Zero à Avaliação Prática de Política Públicas com a Linguagem R, e tenha acesso às aulas teóricas e práticas, com o código disponibilizado em R .

Utilizaremos dados dos censos de 1991, 2000 e 2010 com algumas variáveis em nível de setor censitário para a cidade de São Paulo. Para fins de definição dos setores censitários tratados, ou seja, que sofreram a intervenção da política pública, estamos considerando a distância de até 1km até a estação construída mais próxima. No mapa a seguir, mostramos como era a renda per capita dos setores censitários de São Paulo em 1991. Os números estão deflacionados e constantes para valores de 2010.Quando comparamos a distribuição da verticalização entre estes dois grupos (tratados (1) e restantes (0)) isso fica mais claro.Veja que se formos estimar o modelo de diferenças-em-diferenças, nós precisamos adequar o grupo de controle para que as tendências fiquem paralelas.

Assim, para avaliar o efeito, é preciso tornar esses grupos semelhantes. Para isso, utilizaremos o pareamento, que permite selecionar setores de dentro do grupo restante para formar um grupo de controle parecido com o grupo de tratamento.

Além da variável de verticalização, também utilizamos a renda domiciliar per capita, a proporção de pessoas com ensino superior, a proporção de domicílios que são alugados e a proporção de jovens adultos (25-34 anos) entre os moradores do setor censitário. O resultado mostra que a distruibuição do grupo de controle fica mais próxima a distribuição que ocorre nos setores tratados.

Além disso, até aqui estamos tratando apenas da variável de interesse. Ainda não podemos afirmar que o equilíbrio dos dois grupos está adequado.

Type Diff.Un Diff.Adj M.Threshold
distance Distance 0.1748641 -0.0001736 Balanced, <0.1
RPC_1991 Contin. 0.0850701 -0.0077821 Balanced, <0.1
AP_1991 Contin. -0.0332663 -0.0126687 Balanced, <0.1
grad_1991 Contin. 0.0849201 0.0265063 Balanced, <0.1
Rent_1991 Contin. 0.0291053 0.0017758 Balanced, <0.1
youngadults_1991 Contin. 0.0062660 -0.0895888 Balanced, <0.1
Single_1991 Contin. 0.1389738 -0.0342860 Balanced, <0.1

Veja que, utilizando o critério de até 0.1 desvio padrão de tolerância, há um bom balanceamento entre os grupos em todas as variáveis.

Podemos utilizar o método “ótimo” para testar se podemos melhorar ainda mais o equilíbrio.

O uso desse método piorou bastante os resultados. Dado os bons resultados, podemos voltar para o método padrão de vizinhos mais próximos. Veja que, apesar das médias estarem equilibradas, a distribuição da nossa variável de interesse ainda está um pouco longe do ideal. A depender do objetivo de análise, pode ser interessante testar outras possibilidades para tentar melhorar esse fator.

Assim, podemos mostrar o poder do pareamento com um gráfico das diferenças médias padronizadas absolutas entre os grupos de tratamento e controle, antes (azul) e depois (vermelho) do pareamento. Veja que não havia um severo desbalanceamento entre as variáveis antes, mas ele melhorou significativamente. Entretanto, a variável que mede a proporção de jovens adultos teve uma piora, mas está ainda dentro do limite nós impusemos.Portanto, podemos ver se o pareamento corrigiu as tendências dos grupos no momento anterior ao tratamento, tornando possível a utilização do modelo de diferenças-em-diferenças.

Compartilhe esse artigo

Facebook
Twitter
LinkedIn
WhatsApp
Telegram
Email
Print

Comente o que achou desse artigo

Outros artigos relacionados

Como tratar dados no Python? Parte 5: renomeando colunas

Como dar novos nomes significativos para as colunas em uma tabela de dados usando Python? Neste tutorial mostramos os métodos de renomeação de colunas disponíveis na biblioteca pandas, que tem como vantagem sua sintaxe simples e prática.

Como tratar dados no Python? Parte 4: operações por grupos

Como mensalizar dados diários? Ou como filtrar os valores máximos para diversas categorias em uma tabela de dados usando Python? Estas perguntas são respondidas com os métodos de operações por grupos. Neste tutorial mostramos estes métodos disponíveis na biblioteca pandas, que tem como vantagem sua sintaxe simples e prática.

Boletim AM

Receba diretamente em seu e-mail gratuitamente nossas promoções especiais e conteúdos exclusivos sobre Análise de Dados!

Boletim AM

Receba diretamente em seu e-mail gratuitamente nossas promoções especiais e conteúdos exclusivos sobre Análise de Dados!

como podemos ajudar?

Preencha os seus dados abaixo e fale conosco no WhatsApp

Boletim AM

Preencha o formulário abaixo para receber nossos boletins semanais diretamente em seu e-mail.