Digamos que você tem um vizinho que possui 4 gatos, e gostaria de saber quantos deles são pretos (P) e brancos (B). Como eles não se dão bem entre si, é impossível vê-los juntos, de modo que sua estratégia é todos os dias anotar a cor daquele que está deitado sob o sol na sacada (supomos aqui que a chance de qualquer um deles ganhar a disputa pelo espaço ao sol é a mesma). Após 3 dias, você tem uma amostra: PBP. Com isso, fica a dúvida, qual é a melhor estimativa sobre o número de gatos pretos?
A maneira mais simples de fazermos isso é contar as possibilidades, partindo de um número suposto de gatos pretos. Se supomos que são todos pretos ou todos brancos, não há nenhuma possibilidade, dado que há observações de ambas as cores. Se supomos que há apenas 1 preto, então ele deve estar na sacada nos dias 1 e 3, e quaisquer outros 3 gatos estariam lá no dia 2, contando 3 casos. Na mesma lógica, chegamos a 8 casos para e 9 casos para .
Partindo do ponto inicial de que qualquer número de gatos pretos de 0 a 4 é válido, consideramos que cada um deles tem a mesma chance de ser verdadeiro. O método que utilizaremos para atualizar essa chance será então multiplicar esse valor pelo número de casos possíveis gerados:
(1)
Para facilitar as coisas, tomamos as chances como somando 1, logo seriam para cada caso. O resultado final é então:
peso para as possibilidades de 2 ou 3 gatos pretos. O ponto importante aqui não é a acurácia do resultado, mas sim a definição do processo de atualização: a partir da fórmula acima, podemos reprocessar nossas estimativas para cada dado novo coletado, agregando todo o conhecimento disponível.
Caso você já possua conhecimento de estatística frequentista, como é padrão para a maioria dos cursos de graduação de exatas, irá reconhecer muitos termos utilizados nesse curso. Isso é de se esperar, afinal, o ferramental de probabilidade é o mesmo, e, em muitos casos, as conclusões encontradas são iguais. Apesar disso, pouco iremos falar sobre a perspectiva frequentista, se resumindo a uma comparação: enquanto a análise frequentista compreende distribuições populacionais e seus parâmetros como uma forma de descrever os processos da vida real ao se repetirem um grande número de vezes, a análise bayesiana toma essas formas como um fato desconhecido, e todo o desenvolvimento feito busca reduzir nossa incerteza sobre essa natureza. Desse modo, o primeiro método justifica ferramentas certas sobre um mundo incerto, enquanto o segundo faz exatamente o contrário.
Apesar desse diagnóstico dicotômico, não devemos tomar tais vertentes como antagônicas. A análise frequentista se provou extremamente útil ao longo do século passado, e se tornou o mainstream, porém vemos cada vez mais a busca por métodos bayesianos, pois sua principal limitação - a computacional - rapidamente se desfaz. Ademais, não somente os métodos frequentistas são casos especiais de inferências bayesianas, como também existem inúmeros casos onde os resultados matemáticos encontrados partindo de ambos os métodos chegam ao mesmo lugar.
________________________
(*) Para entender mais sobre análises estatísticas, confira nosso Curso de Estatística Bayesiana usando o R.