Avaliando o impacto do aumento do bolsa família nas despesas orçamentárias totais usando Propensity Score

Introdução

Neste exercício, avaliamos o impacto do aumento do programa Bolsa Família sobre as despesas orçamentárias totais das famílias brasileiras, utilizando dados da Pesquisa de Orçamentos Familiares (POF) 2017-2018. O método empregado foi o Propensity Score Matching (PSM), que visa emparelhar famílias que receberam o benefício com aquelas que não receberam, buscando controlar por possíveis vieses de seleção observáveis. A análise foi realizada em R, onde utilizamos diversos pacotes para coleta de dados, cálculo do propensity score, matching e estimativa dos efeitos.

Avaliação de Impacto e Propensity Score Matching

O Propensity Score Matching (PSM) é uma técnica de avaliação de impacto que permite simular as condições de um experimento controlado, emparelhando unidades de tratamento (famílias que recebem o Bolsa Família) com unidades de controle (famílias que não recebem o benefício), de forma que ambos os grupos sejam comparáveis em termos de características observáveis. O objetivo é estimar o Efeito Médio do Tratamento sobre os Tratados (ATT), ou seja, o impacto médio do aumento do Bolsa Família nas despesas orçamentárias totais das famílias beneficiadas.

Dados

Para realizar a análise, os dados foram coletados a partir da Base dos Dados, utilizando as tabelas referentes às despesas coletivas e informações dos moradores da POF 2017-2018. Tomamos como ponto de referência para o recebimento do Bolsa Família famílias com renda total per capita abaixo de 170 reais.

Modelo

Avaliação do Propensity Score

Após a coleta dos dados, foi implementado o cálculo do Propensity Score usando um modelo de regressão logística (glm) para prever a probabilidade de uma família ser beneficiada com o Bolsa Família, com base nas covariáveis como idade, sexo, raça/cor, anos de estudo, e região.

Código

Call:
glm(formula = tratamento ~ idade + sexo + raca_cor + anos_estudo + 
    situacao + regiao, family = binomial(), data = dados)

Coefficients:
                Estimate Std. Error z value Pr(>|z|)    
(Intercept)     0.017610   0.111253   0.158    0.874    
idade          -0.061917   0.001372 -45.133  < 2e-16 ***
sexo2           0.478163   0.034689  13.784  < 2e-16 ***
raca_cor2       0.292215   0.058692   4.979 6.40e-07 ***
raca_cor3       0.370513   0.246465   1.503    0.133    
raca_cor4       0.252897   0.043282   5.843 5.13e-09 ***
raca_cor5       0.233691   0.211891   1.103    0.270    
raca_cor9      -0.191785   0.426159  -0.450    0.653    
anos_estudo    -0.160653   0.004415 -36.385  < 2e-16 ***
situacao2       0.547094   0.037572  14.561  < 2e-16 ***
regiaonordeste  1.270255   0.072379  17.550  < 2e-16 ***
regiaonorte     1.377499   0.075863  18.158  < 2e-16 ***
regiaosudeste   0.518487   0.080322   6.455 1.08e-10 ***
regiaosul      -0.032775   0.099705  -0.329    0.742    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 30596  on 57917  degrees of freedom
Residual deviance: 25480  on 57904  degrees of freedom
AIC: 25508

Number of Fisher Scoring iterations: 6
  • Idade (idade, Coeficiente: -0.0619): A idade tem um impacto negativo significativo na probabilidade de uma família receber o Bolsa Família. Isso significa que, conforme a idade do chefe de família aumenta, a chance de receber o benefício diminui.
  • Sexo (sexo2, Coeficiente: 0.4782): Mulheres têm uma probabilidade significativamente maior de receber o benefício, em comparação aos homens (sexo 1 é a classe de referência).
  • Raça/Cor:
    • raca_cor2 (Coeficiente: 0.2922): Indivíduos da raça/cor 2 (pretos) têm maior chance de receber o Bolsa Família em relação à classe de referência raca_cor1 (brancos).
    • raca_cor4 (Coeficiente: 0.2529): Pardos também têm uma maior chance em comparação à classe de referência.
  • Anos de Estudo (anos_estudo, Coeficiente: -0.1607): Quanto maior o nível de escolaridade, menor a probabilidade de a família ser beneficiada pelo Bolsa Família. Isso reflete a tendência de que o programa atenda famílias com menor escolaridade.
  • Região:
    • Nordeste (regiaonordeste, Coeficiente: 1.2703): Famílias da região Nordeste têm uma probabilidade muito maior de serem beneficiadas em relação àquelas do Centro-Oeste (classe de referência).
    • Norte (regiaonorte, Coeficiente: 1.3775): Famílias da região Norte também têm maior probabilidade de serem beneficiadas.

Avaliação do Pareamento

Utilizamos o método de Nearest Neighbor Matching para emparelhar as famílias tratadas com as não tratadas, com base no propensity score calculado.

Após o pareamento, o balanceamento das covariáveis foi avaliado, mostrando que o processo de matching reduziu consideravelmente os desvios entre os grupos de tratamento e controle, tornando os grupos comparáveis.

Código

Call:
matchit(formula = tratamento ~ idade + sexo + raca_cor + anos_estudo + 
    situacao + regiao, data = dados, method = "nearest", distance = "glm", 
    link = "probit")

Summary of Balance for All Data:
                   Means Treated Means Control Std. Mean Diff. Var. Ratio
distance                  0.1742        0.0661          0.9124     2.5488
idade                    41.7223       50.5102         -0.6815     0.6665
sexo1                     0.5217        0.5895         -0.1358          .
sexo2                     0.4783        0.4105          0.1358          .
raca_cor1                 0.2088        0.3938         -0.4552          .
raca_cor2                 0.1393        0.1125          0.0774          .
raca_cor3                 0.0049        0.0053         -0.0052          .
raca_cor4                 0.6384        0.4814          0.3268          .
raca_cor5                 0.0070        0.0052          0.0210          .
raca_cor9                 0.0016        0.0018         -0.0044          .
anos_estudo               6.1500        8.3544         -0.5322     0.6995
situacao1                 0.6249        0.7860         -0.3329          .
situacao2                 0.3751        0.2140          0.3329          .
regiaocentro-oeste        0.0550        0.1295         -0.3268          .
regiaonordeste            0.4953        0.3175          0.3557          .
regiaonorte               0.2614        0.1336          0.2908          .
regiaosudeste             0.1400        0.2673         -0.3666          .
regiaosul                 0.0482        0.1521         -0.4848          .
                   eCDF Mean eCDF Max
distance              0.2932   0.4612
idade                 0.0955   0.2400
sexo1                 0.0678   0.0678
sexo2                 0.0678   0.0678
raca_cor1             0.1850   0.1850
raca_cor2             0.0268   0.0268
raca_cor3             0.0004   0.0004
raca_cor4             0.1570   0.1570
raca_cor5             0.0017   0.0017
raca_cor9             0.0002   0.0002
anos_estudo           0.1297   0.2168
situacao1             0.1612   0.1612
situacao2             0.1612   0.1612
regiaocentro-oeste    0.0745   0.0745
regiaonordeste        0.1778   0.1778
regiaonorte           0.1278   0.1278
regiaosudeste         0.1272   0.1272
regiaosul             0.1039   0.1039

Summary of Balance for Matched Data:
                   Means Treated Means Control Std. Mean Diff. Var. Ratio
distance                  0.1742        0.1740          0.0017     1.0091
idade                    41.7223       41.8521         -0.0101     0.9239
sexo1                     0.5217        0.5305         -0.0177          .
sexo2                     0.4783        0.4695          0.0177          .
raca_cor1                 0.2088        0.2036          0.0126          .
raca_cor2                 0.1393        0.1300          0.0269          .
raca_cor3                 0.0049        0.0033          0.0234          .
raca_cor4                 0.6384        0.6559         -0.0364          .
raca_cor5                 0.0070        0.0056          0.0168          .
raca_cor9                 0.0016        0.0016          0.0000          .
anos_estudo               6.1500        6.0739          0.0184     0.9302
situacao1                 0.6249        0.6407         -0.0327          .
situacao2                 0.3751        0.3593          0.0327          .
regiaocentro-oeste        0.0550        0.0489          0.0266          .
regiaonordeste            0.4953        0.4858          0.0191          .
regiaonorte               0.2614        0.2740         -0.0286          .
regiaosudeste             0.1400        0.1426         -0.0074          .
regiaosul                 0.0482        0.0487         -0.0022          .
                   eCDF Mean eCDF Max Std. Pair Dist.
distance              0.0000   0.0028          0.0018
idade                 0.0047   0.0144          0.3477
sexo1                 0.0089   0.0089          0.4403
sexo2                 0.0089   0.0089          0.4403
raca_cor1             0.0051   0.0051          0.3142
raca_cor2             0.0093   0.0093          0.3687
raca_cor3             0.0016   0.0016          0.1169
raca_cor4             0.0175   0.0175          0.3361
raca_cor5             0.0014   0.0014          0.1510
raca_cor9             0.0000   0.0000          0.0028
anos_estudo           0.0101   0.0242          0.3693
situacao1             0.0158   0.0158          0.3706
situacao2             0.0158   0.0158          0.3706
regiaocentro-oeste    0.0061   0.0061          0.1697
regiaonordeste        0.0096   0.0096          0.3751
regiaonorte           0.0126   0.0126          0.4072
regiaosudeste         0.0026   0.0026          0.2169
regiaosul             0.0005   0.0005          0.1609

Sample Sizes:
          Control Treated
All         53626    4292
Matched      4292    4292
Unmatched   49334       0
Discarded       0       0

  • Número de Observações:
    • Antes do Emparelhamento: Havia 4.292 unidades tratadas (famílias que recebem o Bolsa Família) e 53.626 unidades de controle (famílias que não recebem).
    • Após o Emparelhamento: Todas as 4.292 unidades tratadas foram emparelhadas com 4.292 unidades de controle, indicando que o emparelhamento foi bem-sucedido.

Balanceamento de Covariáveis

  • Antes do Matching:
    • As covariáveis apresentavam diferenças consideráveis entre os grupos de tratamento e controle. Por exemplo, a média de idade era 41.7 anos para o grupo tratado e 50.5 anos para o grupo controle, com um desvio padronizado de -0.6815, indicando um grande desbalanceamento.
    • A distribuição de anos de estudo e as proporções de regiões geográficas também mostravam grandes diferenças entre os grupos, evidenciando a necessidade de emparelhamento para tornar os grupos comparáveis.
  • Após o Matching:
    • O balanceamento das covariáveis melhorou significativamente. Por exemplo, a média de idade entre os dois grupos emparelhados era praticamente idêntica: 41.7 anos para o grupo tratado e 41.9 anos para o grupo controle, com um desvio padronizado de apenas -0.0101, indicando excelente balanceamento.
    • As outras covariáveis (sexo, raça/cor, anos de estudo, e região) também apresentaram reduções drásticas nos desvios padronizados, indicando que o emparelhamento foi eficaz em tornar os grupos comparáveis.

O emparelhamento foi bem-sucedido em reduzir as diferenças iniciais entre os grupos tratados e de controle. O balanceamento das covariáveis foi alcançado com sucesso, o que sugere que o impacto do Bolsa Família pode ser comparado de maneira mais robusta entre os dois grupos, uma vez que o viés de seleção com base nas covariáveis observadas foi substancialmente reduzido.

Resultado do Efeito Médio de Tratamento

O modelo avalia o efeito médio do tratamento sobre os tratados (ATT), ou seja, o impacto do programa Bolsa Família sobre os gastos orçamentários (despesa_total).

Código

 Estimate Std. Error     z Pr(>|z|)    S 2.5 % 97.5 %
    -1104        147 -7.53   <0.001 44.1 -1392   -817

Term: tratamento
Type:  response 
Comparison: mean(1) - mean(0)
Columns: term, contrast, estimate, std.error, statistic, p.value, s.value, conf.low, conf.high, predicted_lo, predicted_hi, predicted 

Estimativa do Efeito do Tratamento

Estimativa (Estimate = -1104): A estimativa indica que, em média, as pessoas que recebem o Bolsa Família têm R$ 1.104 a menos de despesa total em comparação com aquelas que não recebem o benefício. Esse é o efeito médio do tratamento sobre os tratados (ATT), calculado como a diferença média entre os dois grupos, ajustada pelas covariáveis (idade, sexo, raça/cor, anos de estudo, situação e região).

Essa estimativa é negativa, sugerindo que o Bolsa Família não proporciona um aumento no valor gasto em despesas totais, devido ao aumento da renda ocasionado pelo programa.

p-valor < 0.001: O valor-p muito pequeno (menor que 0.001) indica que a probabilidade de essa diferença ser devida ao acaso é extremamente baixa. Portanto, podemos concluir que a diferença entre os dois grupos é estatisticamente significativa.

Conclusão

O Bolsa Família parece estar associado a uma redução significativa nos gastos orçamentários das famílias que recebem o benefício. Em média, as famílias beneficiárias do Bolsa Família gastam R$ 1.104 a menos do que as famílias não beneficiárias, com alta significância estatística e um intervalo de confiança relativamente estreito.

Colocamos como ressalvas a simplicidade dos pressupostos e especificação do modelo de Propensity Score, bem como não ser realizado comparativos de diferentes métodos de Propensity Score e Matching, portanto, o resultado encontrado neste exercício pode não ser usado com a finalidade de tomada de decisão para estudos e avaliação de impacto, mas, meramente auxilio na construção de exercícios aplicados à avaliação de impacto usando a linguagem R, usando todo o processo de coleta, análise e modelagem de dados.

Tenha acesso ao código e suporte desse e de mais 500 exercícios no Clube AM!

Quer o código desse e de mais de 500 exercícios de análise de dados com ideias validadas por nossos especialistas em problemas reais de análise de dados do seu dia a dia? Além de acesso a vídeos, materiais extras e todo o suporte necessário para você reproduzir esses exercícios? Então, fale com a gente no Whatsapp e veja como fazer parte do Clube AM, clicando aqui.

 

Compartilhe esse artigo

Facebook
Twitter
LinkedIn
WhatsApp
Telegram
Email
Print

Comente o que achou desse artigo

Outros artigos relacionados

Previsão do Desemprego: Redes Neurais vs. Previsões do Focus

Não é de hoje que técnicas de machine learning vêm sendo usadas para explorar características não lineares de séries temporais (econômicas), especialmente para finalidade de previsão. Como exemplo, apresentamos uma abordagem híbrida do modelo NNAR e comparamos suas previsões com as de mercado, encontrando resultados em linha com a literatura recente.

Incorporando IA na previsão do PIB

O PIB é uma variável econômica complexa e de difícil previsão. Neste artigo, mostramos que unir métodos simples e métodos avançados pode aumentar significativamente a previsibilidade do crescimento da economia.

Boletim AM

Receba diretamente em seu e-mail gratuitamente nossas promoções especiais e conteúdos exclusivos sobre Análise de Dados!

Boletim AM

Receba diretamente em seu e-mail gratuitamente nossas promoções especiais e conteúdos exclusivos sobre Análise de Dados!

como podemos ajudar?

Preencha os seus dados abaixo e fale conosco no WhatsApp

Boletim AM

Preencha o formulário abaixo para receber nossos boletins semanais diretamente em seu e-mail.