Regressões com variáveis qualitativas

Ao construir relações de diversas variáveis por meio dos dados, o mais comum é pensar em realizar esta tarefa com variáveis quantitativas, isto é, de forma totalmente numérica. Mas, e se tivermos apenas variáveis nominais, isto é, categóricas, como podemos incorporá-las em um modelo? Para tanto, é possível construir uma Regressão com variáveis qualitativas. No post de hoje, abordaremos duas formas de se utilizar variáveis qualitativas em regressões: o modelo que utiliza variáveis binárias (dummies) nos preditores e o modelo que utiliza variáveis de respostas qualitativas, conhecido como Regressão Logística.

Regressão com Variáveis Binárias (dummies)

Na investigação de uma variável dependente em relação as suas variáveis independente, isto é, as formas da qual as duas se relacionam, sempre pensamos que elas sejam valores numéricos, conhecidos como variáveis proporcionais ou contínuas. Porém, não é a única forma associação entre variáveis, é comum que o regressando seja influenciado não só por essas variáveis proporcionais (como preços, renda, idade, etc), mas também por variáveis especialmente qualitativa, conhecidos com variáveis nominais, tais como gênero, raça, cor, nacionalidade, etc.

Em geral, quando indicamos que as variáveis independentes são nominais, dizemos que há a presença ou "ausência" de uma "qualidade" ou atributo. É possível "quantificar" essa lógica criando variáveis binárias que assumem valores de 1 ou 0.

Variável Binária

Portanto, uma variável binária (dummy) pode representar dois estados:

  1. 0, ausência da característica de interesse
  2. 1, presença da característica de interesse

Podemos então estimar uma Regressão com variáveis independente nominais e ordinais, da mesma forma que estimamos uma Regressão Linear. Nesse caso, utilizamos uma variável categórica com dois estados, 0 e 1.  Podemos definir a equação com variáveis independentes com duas categorias como:

     $$Y_i = \alpha + \beta_1 X_i +\beta_2 D_i  + e_i$$

Em que X representa a variável independente proporcional ou numérica, e D representa a variável qualitativas ou nominal. O  $\beta_2$ indica o quanto Y seria, em média,  maior (menor) para a categoria D = 1 que a categoria D = 0, independente do valor de X, sendo a categoria de referência da análise D = 0 (podendo ser escolhido ao contrário também).

Regressão com variável binária (dummy) no R

No R, é possível criar facilmente uma Regressão com variáveis binárias, tudo o que necessitamos é ter mãos as variáveis qualitativas bem definidas e utilizar a função lm() para realizar os cálculos. Utilizaremos como exemplo o dataset wage1 contido no pacote do {wooldridge}, que traz características de diversas pessoas, sejam qualitativas ou quantitativas.

Como objetivo, iremos desvendar o que afeta o salário hora, para isso, utilizaremos as variáveis female (1 se é mulher), educ (anos de educação), exper (anos de experiência) e ternure (anos com o atual emprego).

Com efeito, vimos que a variável qualitativa escolhida realmente afeta o salário hora, no caso, como temos como referência 1 como sendo mulher, o efeito da variável female diz há uma relação negativa com o salário hora.

Regressão com variável binária (dummy) no Python

No Python, seguimos a mesma lógica que fizemos no R, porém, utilizando a função ols() da biblioteca statsmodels. Para exemplificar, utilizamos também o dataset do wooldridge, wage1, obtendo os mesmo resultado que anteriormente.

Regressões Logísticas

Diferente das regressões com variáveis binárias, que utilizam dois valores para os preditores como forma de explicar o relacionamento de duas variáveis, e se quisermos ao invés de utilizar uma variável proporcional (quantitativa) como dependente, utilizar uma variável binária como resposta? Isto é, uma forma de probabilidade de algo acontecer ou não? Nesse caso, é possível utilizar a Regressão Logística.

O recurso que temos em mãos é poder estimar a probabilidade associada a ocorrência de determinado evento, sendo útil em diversos estudos. Como a ideia é estimar uma probabilidade, os resultados estarão contidos entre 0 e 1.  Se utiliza do estimador de máxima verossimilhança, como forma de maximizar a probabilidade de ocorrência da amostra, dado os coeficientes das variáveis independentes.

Regressão Logística no R

Para implementar a regressão logística no R, utilizaremos a função glm(), com o dataset affairs  do wooldridge, que traz os dados de uma pesquisa sobre relações extraconjugais. A coluna "affair' é uma variável binária, que retorna 1, em caso de relações extraconjugal, e 0, caso contrário. Desta forma, utilizaremos a variáveis independentes de algumas colunas para estimar a variável dependente.

As coluna que iremos utilizar são: male (em que 1 é homem), age (idade) e ysrmarr (anos de casado). Vemos nos resultados que há grande significância na variável anos de casado, com um coeficiente positivo.

Regressão Logística no Python

Utilizar a Regressão logística no Python segue os mesmo princípios que no R, no código iremos apenas adicionar a api do statsmodels que permitira escolhe a família de distribuição que iremos utilizar na função glm(), que será a binomial (conhecida como logit), igual realizamos no R.

Quer saber mais sobre R e Python?

Veja nossos cursos de aplicados de R e Python para Economistas, Estatística usando R e Python, Econometria usando R e Python.

Compartilhe esse artigo

Facebook
Twitter
LinkedIn
WhatsApp
Telegram
Email
Print

Comente o que achou desse artigo

Outros artigos relacionados

Criando um Dashboard de análise de Ações no Python

Um Dashboard é um painel de controle que consolida uma variedade de informações sobre um determinado objeto de estudo em um ou mais painéis. Ele simplifica significativamente o processo de análise de dados, oferecendo uma visão global e fácil de entender. Uma maneira simples de construir um Dashboard para acompanhar uma ação específica é utilizando duas ferramentas: Quarto e Python. Neste post, mostramos o resultado da criação de um Dashboard de Ação.

Analisando séries temporais no Python e esquecendo de vez o Excel

Séries temporais representam uma disciplina extremamente importante em diversas áreas, principalmente na economia e na ciência de dados. Mas, afinal, como lidar com esses dados que se apresentam ao longo do tempo? Neste exercício, demonstraremos como compreender uma série temporal e como o Python se destaca como uma das melhores ferramentas para analisar esse tipo de dado.

Cálculo do Retorno Econômico de uma Política Pública

Como podemos traduzir os efeitos de uma política pública para valores monetários? Essa é uma tarefa árdua que requer algumas premissas, entretanto, com métodos bem definidos, é possível obter estimativas precisas dos ganhos e os gastos de uma política pública.

Neste exercício, demonstramos tal método usando a política hipotética "Mãe Paranense”, um conjunto de ações que visam reduzir a mortalidade materna e infantil no estado. Usamos a linguagem R como ferramenta para analisar os dados.

como podemos ajudar?

Preencha os seus dados abaixo e fale conosco no WhatsApp

Boletim AM

Preencha o formulário abaixo para receber nossos boletins semanais diretamente em seu e-mail.