Entendendo intervalos de confiança

Ao calcular um parâmetro populacional, realiza-se uma estimação pontual, entretanto, ao realizar a estimação através de uma amostra, é possível obter uma amplitude de possíveis valores dentro dos quais os verdadeiros valores da estimação podem se encontrar. Como é possível construir um intervalo em que há confiança nos valores estimados?  No post de hoje, mostramos uma solução para este problema, conceituando o Intervalo de Confiança e realizando um exemplo com o R.

Ao contrário da estimação pontual/estatística amostral, que calcula o valor de um parâmetro populacional não conhecido como apenas um único valor, o intervalo de confiança entrega o que podemos entender como uma amplitude de possíveis valores deste parâmetro.

Basicamente: queremos encontrar, por exemplo, a média $\sigma$. Podemos calcular um único valor, porém, é possível também calcular uma amplitude de possíveis valores, no qual podemos ter a confiança de que os pontos estimados estejam em determinado intervalo dado uma suposição.

E como definir o Intervalo de Confiança? O IC é definido em 90% =< IC =< 99%. Outra forma de definir o IC é através do nível de significância ( $\alpha$), calculando como IC = 1 -   $\alpha$. O mais comum é definir o IC em 95%, significando que em uma amostra que segue distribuição normal, esses 95% representam +- 1,96 desvios da média.

Exemplo com o pacote {infer} no R

Podemos realizar um exemplo utilizando o R. O código completo do exemplo e o vídeo comentado estão disponíveis para os membros do Clube AM.

Consideramos uma suposição: se uma pessoa boceja, é provável que ao presenciar o momento, uma outra pessoa boceja logo em seguida?

O dataset mithbuster_yawn representa os dados de uma pesquisa realizada por um episódio da série Mithbuster, em que uma pessoa bocejava em frente aos participantes, e realizava-se a anotação se os participantes bocejavam ou não em seguida.

É possível calcular a diferença de proporção entre aqueles que bocejaram e aqueles não bocejaram a partir da amostra. O resultado pode nos mostrar se essa suposição é verdadeira ou não. Entretanto, não iremos apenas estimar esse único ponto, vamos trabalhar com os possíveis valores estimados e construir um intervalo de confiança para os resultados.

No R, calculamos a distribuição de pontos estimados através de uma simulação bootstrap repetindo o processo 1000 vezes. Com base nos valores obtidos, calculamos o intervalo de confiança em dois erros padrão de distância para cima e para baixo. A linha vertical representa o ponto estimado original, sem realizar a simulação de reamostragem.

Se esse procedimento é repetido 1000 vezes, então é esperado que em 950 vezes, o intervalo de confiança captura o verdadeiro valor da diferença de proporção entre aqueles que bocejaram e não bocejaram, enquanto os 50 restantes não.

Em outras palavras, definimos: Estamos 95% confiantes de que o verdadeiro valor da diferença de proporção entre aqueles que bocejaram e não bocejaram está entre (-0.216, 0.304).

A questão é: como sabemos se há diferença? Sabemos que o valor 0 é abrangido pelo intervalo de confiança. Se a diferença é igual a 0, sabemos que bocejar não há efeito.

Ao calcular o ponto estimado 1000 vezes através do método bootstrap, chegamos ao resultado de que o valor era tanto abaixo de 0, quanto acima de 0, o que sugere que não há evidencias de que há diferença no efeito de bocejar previamente antes de alguém bocejar em seguida.

Se os 95% de confiança estivessem acima de 0, poderíamos concluir que aqueles expostos pelo bocejo, bocejariam logo em seguida.

Faça parte do Clube AM!

Acesse o que há de mais moderno em scripts de R e Python para coletar, tratar, analisar e apresentar dados. Receba todos os exercícios produzidos diariamente na Análise Macro.

Acesse o link por aqui.

Quer saber mais?

Veja nossos cursos de R e Python aplicados para a Análise de Dados e Economia

_____________________________________________

Veja os post anteriores sobre o assunto

Referências

Kim, Y. Albert. Ismay, Chester. Statistical Inference via Data Science A ModernDive into R and the Tidyverse

Compartilhe esse artigo

Facebook
Twitter
LinkedIn
WhatsApp
Telegram
Email
Print

Comente o que achou desse artigo

Outros artigos relacionados

Como choques inflacionários afetam a previsão da Selic?

Como mensurar a importância de choques na inflação sobre o erro de previsão da taxa de juros? Neste exercício quantificamos esta pergunta sob a ótica de um modelo VAR, usando dados recentes da macroeconomia brasileira. Especificamente, estimamos a decomposição da variância dos erros de previsão do modelo, analisando choques na inflação da gasolina e sua importância sobre a variância dos erros de previsão da taxa Selic.

Modelo de previsão para o preço da gasolina

Neste exercício exploramos os dados públicos sobre o preço da gasolina no Brasil, sua composição, evolução temporal, políticas associadas e, por fim, construímos um modelo simples de previsão. Com um modelo em mãos, o analista pode cenarizar o comportamento futuro da série da forma como preferir. Todos os procedimentos foram feitos usando a linguagem de programação Python.

Boletim AM

Receba diretamente em seu e-mail gratuitamente nossas promoções especiais e conteúdos exclusivos sobre Análise de Dados!

Boletim AM

Receba diretamente em seu e-mail gratuitamente nossas promoções especiais e conteúdos exclusivos sobre Análise de Dados!

como podemos ajudar?

Preencha os seus dados abaixo e fale conosco no WhatsApp

Boletim AM

Preencha o formulário abaixo para receber nossos boletins semanais diretamente em seu e-mail.