Introdução ao pensamento bayesiano

Digamos que você tem um vizinho que possui 4 gatos, e gostaria de saber quantos deles são pretos (P) e brancos (B). Como eles não se dão bem entre si, é impossível vê-los juntos, de modo que sua estratégia é todos os dias anotar a cor daquele que está deitado sob o sol na sacada (supomos aqui que a chance de qualquer um deles ganhar a disputa pelo espaço ao sol é a mesma). Após 3 dias, você tem uma amostra: PBP. Com isso, fica a dúvida, qual é a melhor estimativa sobre o número de gatos pretos?

A maneira mais simples de fazermos isso é contar as possibilidades, partindo de um número suposto de gatos pretos. Se supomos que são todos pretos ou todos brancos, não há nenhuma possibilidade, dado que há observações de ambas as cores. Se supomos que há apenas 1 preto, então ele deve estar na sacada nos dias 1 e 3, e quaisquer outros 3 gatos estariam lá no dia 2, contando 3 casos. Na mesma lógica, chegamos a 8 casos para P=2 e 9 casos para P=3.

Partindo do ponto inicial de que qualquer número de gatos pretos de 0 a 4 é válido, consideramos que cada um deles tem a mesma chance de ser verdadeiro. O método que utilizaremos para atualizar essa chance será então multiplicar esse valor pelo número de casos possíveis gerados:

(1)   \begin{equation*} P(\text{X pretos sabendo PBP}) = \frac{\text{maneiras de gerar PBP com X pretos} \times P(\text{X pretos})}{\text{soma dos produtos}} \end{equation*}

Para facilitar as coisas, tomamos as chances como somando 1, logo seriam 0,2 para cada caso. O resultado final é então:

peso para as possibilidades de 2 ou 3 gatos pretos. O ponto importante aqui não é a acurácia do resultado, mas sim a definição do processo de atualização: a partir da fórmula acima, podemos reprocessar nossas estimativas para cada dado novo coletado, agregando todo o conhecimento disponível.

Caso você já possua conhecimento de estatística frequentista, como é padrão para a maioria dos cursos de graduação de exatas, irá reconhecer muitos termos utilizados nesse curso. Isso é de se esperar, afinal, o ferramental de probabilidade é o mesmo, e, em muitos casos, as conclusões encontradas são iguais. Apesar disso, pouco iremos falar sobre a perspectiva frequentista, se resumindo a uma comparação: enquanto a análise frequentista compreende distribuições populacionais e seus parâmetros como uma forma de descrever os processos da vida real ao se repetirem um grande número de vezes, a análise bayesiana toma essas formas como um fato desconhecido, e todo o desenvolvimento feito busca reduzir nossa incerteza sobre essa natureza. Desse modo, o primeiro método justifica ferramentas certas sobre um mundo incerto, enquanto o segundo faz exatamente o contrário.

Apesar desse diagnóstico dicotômico, não devemos tomar tais vertentes como antagônicas. A análise frequentista se provou extremamente útil ao longo do século passado, e se tornou o mainstream, porém vemos cada vez mais a busca por métodos bayesianos, pois sua principal limitação - a computacional - rapidamente se desfaz. Ademais, não somente os métodos frequentistas são casos especiais de inferências bayesianas, como também existem inúmeros casos onde os resultados matemáticos encontrados partindo de ambos os métodos chegam ao mesmo lugar.

________________________
(*) Para entender mais sobre análises estatísticas, confira nosso Curso de Estatística Bayesiana usando o R.

Compartilhe esse artigo

Facebook
Twitter
LinkedIn
WhatsApp
Telegram
Email
Print

Comente o que achou desse artigo

Outros artigos relacionados

Usando IA para prever o consumo de energia no Brasil com Python

Neste exemplo mostramos o poder da IA, especificadamente o uso de modelos de Machine Learning de Séries Temporais, para prever os valores da Curva de Carga Horária de Energia Elétrica do Sudeste disponibilizada pela ONS. Para realizar as previsões, além dos modelos, empregamos métodos de machine learning já conhecidos, como cross-validation, usando a biblioteca MlForecast do Python.

Controle Sintético: Lei Anti Fumo na Califórnia

O que é Controle Sintético e como podemos utilizar essa ferramenta para auxiliar no estudo da avaliação de impacto? Neste post, oferecemos uma breve introdução a esse importante método da área de inferência causal, acompanhado de um estudo de caso para uma compreensão mais aprofundada de sua aplicação. Os resultados foram obtidos por meio da implementação em Python, como parte integrante do nosso curso sobre Avaliação de Políticas Públicas utilizando esta linguagem de programação.

Previsão de crises financeiras com IA usando Python

Fazer investimentos sem analisar dados é como atirar no escuro. Ninguém quer estar numa posição errada na hora que uma nova crise estourar. Para mitigar estes riscos, modelos de probabilidade de recessão podem trazer informações relevantes para a tomada de decisão. Neste artigo mostramos uma aplicação destes modelos para a economia norte-americana, usando o ferramental de pacotes do Python.

como podemos ajudar?

Preencha os seus dados abaixo e fale conosco no WhatsApp

Boletim AM

Preencha o formulário abaixo para receber nossos boletins semanais diretamente em seu e-mail.