O que é Inferência Estatística?

É extremamente difícil obter dados para uma população inteira, desta forma, ao realizar uma análise de dados, devemos utilizar métodos para generalizar os resultados de uma amostra para uma população, e podemos atingir o objetivo utilizando a inferência estatística. No post de hoje, elencamos o processo de inferência estatística e como podemos aplicar utilizando um exemplo com o R.

Com o objetivo de estimar os parâmetros de uma análise de dados de uma amostra para uma população, devemos ter em mãos ferramentas que possibilitam alcançar este objetivo. Através dos conhecimentos obtidos através de um rigor crítico, da AED e dos conceitos de probabilidade, conseguimos realizar uma análise dos dados. Mas como agir nos passos seguintes para saber se uma amostra é significativa? Para isso utilizamos a inferência estatística e o método de testes de hipóteses.

Mas afinal, o que é inferência? Como devemos seguir os passos para generalizar os resultados de uma amostra para uma população? A inferência estatística segue uma estrutura que provê  passos para que possamos ser bem sucedidos no processo:

  1. Coletar uma amostra representativa: É necessário realizar este procedimento antes do teste de hipóteses (que iremos explicar adiante), pois é crucial para o sucesso dos passos seguintes. Devemos ter certeza que a amostra coletada é representativa da população, senão, incorremos de um viés estatístico. Este processo de certeza é realizado durante a fase de coleta, no qual deve ser bem definido todos os processos.
  2. Crie as hipóteses: Devemos criar a motivação do trabalho e confeccionar uma hipótese, que pode ser criada das seguintes formas: afirmar ou contrapor um senso comum; testar alguma teoria criada pela literatura; certificar o comportamento do objeto analisado;  e entre outras formas.
  3. Formular um plano de analise: será o ferramental utilizado para conduzir o teste, ou seja, os métodos estatísticos utilizados para mensurar a amostra, realizar o teste e a avaliação.
  4. Analisar os dados: De fato, estará sendo feito a analisar dos dados, de forma a obter um insight prévio sobre como conduzir os testes. Construir as estatísticas descritivas, e construir visualizações para entender a distribuição dos dados é crucial. Realiza os testes
  5. Faça uma decisão: com base nos resultados da análise, iremos avaliar se o plano construído foi alcançado, sendo avaliado as hipóteses. Aqui será crucial conhecimento da significância estatísticas.

Inferência no R

Como exemplo, utilizaremos o dataset Housing, oriundo do pacote Ecdat, que fornece o preços de casas a vendas na cidade de Windsor. Com base nestes dados, seguiremos os passos elencados acima para obter um ideia de como podemos entender a inferência estatística.

Amostra Representativa

Obviamente, seria dificultoso capturar os preços de todas as casas da cidade de Windsor, entretanto, mesmo com este problema, a amostra deve ser suficientemente grande o bastante para retirar quaisquer conclusões. Com 546 observações, sabemos que pode ser útil para a realização de uma inferência.

Apesar do tamanho, não sabemos como foi realizado a pesquisa, e portanto, não podemos ter certeza se há algum viés na coleta ou se houve algum problema na coleta de dados, entretanto, são dados oriundos do Journal of Applied Econometrics, o que nos leva a crer que há autoridade e confiabilidade sobre os dados.

Criar as Hipóteses

Ao tentar entender como é formado os preços das casas, podemos entender inúmeras variáveis, desde o tamanho da casa, a arquitetura, sua localização e entre diversas outras. Para formular uma hipótese sobre o que pode afetar o preço de uma casa, devemos divagar sobre todas estas variáveis. Dentro da amostra, veja que há variável airco, que relata se a casa observada possui ar condicionado ou não. Bem, é lógico pensar: é difícil encontrar alguém que não goste de usufruir de um air condicionado, aumenta o bem estar das pessoas, logo, entendemos que para que haja esse aumento de bem estar, os indivíduos paguem mais pela casa, certo?

Para saber se esse pensamento é válido, podemos criar hipóteses estatística que podem nos auxiliar a provar essa relação.

H0: não há diferença no preço médio das casas a vendas com ou sem ar condicionado

H1: há diferença no preço médio das casas a vendas com ou sem ar condicionado

Como dito, essas hipóteses são mutuamente exclusivas, ou seja, se uma é verdadeira a outra necessita ser falsa.

Formular um plano de análise

Devemos agora definir os métodos que usaremos para analisar as hipóteses criadas. O ferramental da estatística é grande, logo devemos sempre realizar uma análise sobre os dados antes de partir para os testes de fato. Acima, ao analisar o data frame, vimos que o preço das casas vendidas é definido por uma variável continua e a variável airco é um factor, representando uma variável categórica binária. Também formulamos que o fato de uma casa ter ou não ar condicionado afeta o seu preço, logo, entendemos que o price é uma variável dependente e airco é uma variável independente.

Para entender esse relacionamento, utilizaremos o teste t para amostras independentes, que irá assumir que as observações são independentes e que a amostra segue distribuição normal.

Como temos incerteza sobre o resultado da amostra em relação a população, devemos definir como podemos alcançar a significância estatística do teste. Isto é, como na probabilidade, podemos quantificar essa incerteza, portanto, definimos um número de forma a obter a certeza do efeito média de uma variável em relação a outra, convencionalmente (e aqui utilizando teste bicaudal) utiliza-se 5%.

Analisar os dados

Podemos enfim realizar análise dos dados pensando crucialmente nas hipóteses definidas. A realização da análise pode ser um dos primeiros passos, de forma a ser familiarizar com os dados e obter insights, entretanto, para obtermos respostas sobre alguma hipótese, devemos faze-lo depois que é realizado todos os passos anteriores.

Para analisar os dados, utilizamos o pacote {skimr}, que irá calcular as estatísticas descritivas do dataset, veja que agrupamos pela variável airco, de forma que possamos obter os resultados separados por suas categorias.

Temos então uma ideia de como ser comporta o efeito de airco sobre price. As casas que possuem ar condicionado possuem um preço médio maior que as que não possuem, bem como possuem uma variabilidade menor.

Como o teste t presume que os dados sejam normais, podemos ver a distribuição para que possamos realizar o teste.

Obviamente não é uma distribuição normal perfeita, mas pode ser utilizada para realizar o teste.

Por fim, conduzimos o teste t utilizando a função t.test(). Abaixo, nos resultados, vemos que com um nível de significância (95% porcento de confiança) de 5%, que o efeito é significativo, pois o p-valor da estatística é menor de 0.05, ou seja, rejeitamos H0 e aceitamos H1.

Podemos afirmar também que, com significância, que casas com ar condicionado possuem uma diferença negativa de aproximadamente  $ 26000,00 em relação a casas com ar condicionado.


____________________________________________

Quer saber mais?

Veja nossos cursos de R e Python aplicados para a Análise de Dados e Economia

_____________________________________________

Referências

Mount, G. Advancing Into Analytics. Estados Unidos, O'Reilly Media, 2021.

 

Compartilhe esse artigo

Facebook
Twitter
LinkedIn
WhatsApp
Telegram
Email
Print

Comente o que achou desse artigo

Outros artigos relacionados

Qual o efeito de um choque de juros sobre a inadimplência?

Neste exercício, exploramos a relação dinâmica entre o custo do crédito (juros na ponta) e o risco realizado (taxa de inadimplência) através de uma análise exploratória de dados e modelagem econométrica utilizando a linguagem de programação R.

Qual a relação entre benefícios sociais e a taxa de participação do mercado de trabalho?

Este exercício apresenta uma investigação econométrica sobre a persistente estagnação da taxa de participação no mercado de trabalho brasileiro no período pós-pandemia. Utilizando a linguagem R e dados públicos do IBGE e Banco Central, construímos um modelo de regressão linear múltipla com correção de erros robustos (Newey-West). A análise testa a hipótese de que o aumento real das transferências de renda (Bolsa Família/Auxílio Brasil) elevou o salário de reserva, desincentivando o retorno à força de trabalho.

Estamos em pleno emprego no mercado de trabalho?

Este artigo investiga se o mercado de trabalho brasileiro atingiu o nível de pleno emprego, utilizando uma estimativa da NAIRU (Non-Accelerating Inflation Rate of Unemployment) baseada na metodologia de Ball e Mankiw (1997). Através de uma modelagem em Python que unifica dados históricos da PME e PNAD Contínua com as expectativas do Boletim Focus, comparamos a taxa de desocupação corrente com a taxa neutra estrutural. A análise visual e quantitativa sugere o fechamento do hiato de desemprego, sinalizando potenciais pressões inflacionárias. O texto detalha o tratamento de dados, a aplicação do Filtro Hodrick-Prescott e discute as vantagens e limitações da metodologia econométrica adotada.

Boletim AM

Receba diretamente em seu e-mail gratuitamente nossas promoções especiais e conteúdos exclusivos sobre Análise de Dados!

Boletim AM

Receba diretamente em seu e-mail gratuitamente nossas promoções especiais e conteúdos exclusivos sobre Análise de Dados!

como podemos ajudar?

Preencha os seus dados abaixo e fale conosco no WhatsApp

Boletim AM

Preencha o formulário abaixo para receber nossos boletins semanais diretamente em seu e-mail.