Qual o efeito do consumo de álcool na mortalidade usando a idade mínima para beber como limite?

Diversos métodos econométricos têm como principal finalidade melhorar o processo de investigar o efeito de uma variável sobre a outra, e um importante método encontra-se no uso de Regressão Descontínua na análise de regressão linear. Mas como podemos utilizar essa ferramenta para auxiliar no estudo da avaliação de impacto?

Neste post, oferecemos uma breve introdução a esse importante método da área de inferência causal, acompanhado de um estudo de caso para uma compreensão mais aprofundada de sua aplicação. Os resultados foram obtidos por meio da implementação em Python, como parte integrante do nosso curso sobre Avaliação de Políticas Públicas utilizando esta linguagem de programação.

Regressão Descontínua

Regressão descontínua (RDD) é um método que estima o efeito da política em casos que o tratamento é definido com base em um linha de corte em uma variável, chamada variável de atribuição. Assim, sendo X a variável de atribuição, T, o tratamento e C, a linha de corte:

(1)   \begin{equation*} \begin{array}{c} \mathrm{T}=1 \text { se } \mathrm{X} \geq {\mathrm{C}} \\ \mathrm{T}=0 \text { se } \mathrm{X}<\mathrm{C} \end{array} \end{equation*}

Para deixar mais claro, imagine uma política de transferência de renda em que todas as pessoas que ganham abaixo de 500 reais são elegíveis para o programa. Neste caso, a variável de atribuição é o rendimento e a linha de corte é 500 reais.

A lógica dos desenhos de regressão descontínua é explorar essa linha de corte pra simular um processo de aleatorização. Para isso, a premissa básica é de que indivíduos logo acima e logo abaixo da linha corte são extremamente semelhantes e só estão de um grupo ou no outro por motivos aleatórios.

Pensando nos termos do modelo de resultados potenciais, o que aconteceu com os indivíduos logo acima da linha é uma boa medida para o que aconteceria se aqueles abaixo da linha tivessem sido alvos da política. Assim, esses indivíduos próximos a linha são utilizados para medir o efeito causal do programa.

Suponha a existência do programa de transferência de renda mencionado acima. Sendo A, a renda no momento anterior a política e a variável de atribuição. Já Y é a renda no momento posterior ao programa. Assim, podemos que há uma clara quebra ao longo da linha de corte de 500 reais.

Observando apenas os pontos mais próximos do limite.

Essa aproximação levanta uma questão bastante relevante na hora de realizar estimações com regressão descontínua que é a seleção da proximidade à linha de corte. Há um trade-off nessa escolha. Quanto mais próximos do limite, mais próximos da quebra e, portanto, mais próximos do efeito real. Entretanto, teremos menos dados e, portanto, maior variância.

Primeiramente, é preciso centralizar a variável A, ou seja, diminuir seus valores pelo valor da linha de corte. Para estimarmos o RDD, o jeito mais simples para é rodarmos um OLS com a seguinte especificação:

(2)   \begin{equation*} y_{i}=\beta_{0}+\beta_{1} A_{i}+\beta_{2} L_{i}+\beta_{3} L_{i} A_{i} \end{equation*}

Sendo L uma variável binária que assume valor 1 quando A > C e 0, caso contrário. Veja que isso é equivalente a estimar duas regressões, uma a esquerda de C e uma a direita de C. Nosso parâmetro de interesse é o \beta_2, que mede o efeito direto da política. Se quisermos o valor percentual, é só utilizarmos \frac{\beta_{2} + \beta_{0}}{\beta_{0}}

Entretanto, para que a diferença na média da variável de interesse entre os grupos seja o efeito da política, é necessário que qualquer fator relevante que possa afetar o Y tenha uma transição suave (seja contínuo) na linha de corte. Por exemplo, se houvesse uma descontinuidade em uma característica importante, como educação, ao longo dos 500 reais, o estimador sofreria de viés de seleção.

Também é necessário que não haja possibilidade do participante controlar a variável de atribuição para definir seu grupo. No caso da política de renda isso pode ser um fator relevante, já que a pessoa pode escolher ganhar menos ou ocultar rendimentos para participar do programa.

Qual o efeito do consumo de álcool na mortalidade usando a idade mínima para beber como limite?

Um bom exemplo de uso da de regressão descontínua é o artigo de Carpenter e Dobkin (2009), que estimam o efeito do consumo de álcool na mortalidade usando a idade mínima para beber como limite no RDD.

Quer saber como essa análise foi construída? Seja aluno do nosso curso Avaliação de Políticas Públicas usando Python, e tenha acesso às aulas teóricas e práticas, com o código disponibilizado em Python.

Essa é uma questão importante em termos de pesquisa, dado que diferentes países utilizam diferentes idades e isso pode ter impacto significativo em diversos fatores. Nos Estados Unidos, país do estudo, a idade mínima é 21, 3 anos maior do que a maior parte do resto do mundo.

Utilizando os dados do trabalho, iremos estimar o efeito desse limite na mortalidade por diversos fatores. Os dados já estão agregados por mês de nascimento. Portanto, representam a média dos valores por idade em anos-meses.

Podemos fazer a inspeção visual para avaliar a relação das causas de morte com a idade. É possível perceber que há uma descontinuidade muito clara em algumas variáveis e em outras não há nenhuma aparente. Chama atenção as mortes relacionadas diretamente ao consumo de álcool, que aumentam significativamente no primeiro mês pós aniversário de 21 anos, mas depois volta para a tendência anterior.

Assim, estimaremos a regressão descontínua para as variáveis com quebras mais aparentes na linha de corte. São elas: Todas as causas, relacionadas ao consumo de álcool, acidentes de transito e suicídio.

Para estimarmos, realizamos o procedimento de interagir uma dummy, que reflete a unidade estar ou não acima da linha de corte com a variável de idade.

Aqui, o intercepto \beta_0 é o parâmetro da regressão abaixo da linha de corte. Já \beta_0 + \beta_2 é o intercepto para a regressão acima da linha de corte.

Os resultados mostram que o consumo de álcool aumenta as chance de morte para todas as causas em 8% (100*((7.6627+93.6184)/93.6184 - 1).

coef std err t P>|t| [0.025 0.975]
Intercept 93.6184 0.932 100.399 0.000 91.739 95.498
idade 0.8270 0.819 1.010 0.318 -0.823 2.477
threshold 7.6627 1.319 5.811 0.000 5.005 10.320
idade:threshold -3.6034 1.158 -3.111 0.003 -5.937 -1.269

Referências

Facure, Matheus. 2022. Causal Inference for The Brave and True. https://matheusfacure.github.io/python-causality-handbook/landing-page.html.

Carpenter, Christopher, e Carlos Dobkin. 2009. «The effect of alcohol consumption on mortality: regression discontinuity evidence from the minimum drinking age». American Economic Journal: Applied Economics 1 (1): 164–82.

Compartilhe esse artigo

Facebook
Twitter
LinkedIn
WhatsApp
Telegram
Email
Print

Comente o que achou desse artigo

Outros artigos relacionados

Como planejar um pipeline de previsão macroeconômica: da coleta ao dashboard

Montar um pipeline de previsão macroeconômica não é apenas uma tarefa técnica — é um exercício de integração entre dados, modelos e automação. Neste post, apresento uma visão geral de como estruturar esse processo de ponta a ponta, da coleta de dados até a construção de um dashboard interativo, que exibe previsões automatizadas de inflação, câmbio, PIB e taxa Selic.

Coletando e integrando dados do BCB, IBGE e IPEA de forma automatizada

Quem trabalha com modelagem e previsão macroeconômica sabe o quanto é demorado reunir dados de diferentes fontes — Banco Central, IBGE, IPEA, FRED, IFI... Cada um com sua API, formato, frequência e estrutura. Esse gargalo de coleta e padronização consome tempo que poderia estar sendo usado na análise, nos modelos ou na comunicação dos resultados.

Foi exatamente por isso que criamos uma rotina de coleta automatizada, que busca, trata e organiza séries temporais econômicas diretamente das APIs oficiais, pronta para ser integrada a pipelines de previsão, dashboards ou agentes de IA econometristas.

Criando operações SQL com IA Generativa no R com querychat

No universo da análise de dados, a velocidade para obter respostas é um diferencial competitivo. Frequentemente, uma simples pergunta de negócio — “Qual foi nosso produto mais vendido no último trimestre na região Nordeste?” — inicia um processo que envolve abrir o RStudio, escrever código dplyr ou SQL, executar e, finalmente, obter a resposta. E se pudéssemos simplesmente perguntar isso aos nossos dados em português, diretamente no nosso dashboard Shiny?

Boletim AM

Receba diretamente em seu e-mail gratuitamente nossas promoções especiais e conteúdos exclusivos sobre Análise de Dados!

Boletim AM

Receba diretamente em seu e-mail gratuitamente nossas promoções especiais e conteúdos exclusivos sobre Análise de Dados!

como podemos ajudar?

Preencha os seus dados abaixo e fale conosco no WhatsApp

Boletim AM

Preencha o formulário abaixo para receber nossos boletins semanais diretamente em seu e-mail.