Regressões com variáveis qualitativas

Ao construir relações de diversas variáveis por meio dos dados, o mais comum é pensar em realizar esta tarefa com variáveis quantitativas, isto é, de forma totalmente numérica. Mas, e se tivermos apenas variáveis nominais, isto é, categóricas, como podemos incorporá-las em um modelo? Para tanto, é possível construir uma Regressão com variáveis qualitativas. No post de hoje, abordaremos duas formas de se utilizar variáveis qualitativas em regressões: o modelo que utiliza variáveis binárias (dummies) nos preditores e o modelo que utiliza variáveis de respostas qualitativas, conhecido como Regressão Logística.

Regressão com Variáveis Binárias (dummies)

Na investigação de uma variável dependente em relação as suas variáveis independente, isto é, as formas da qual as duas se relacionam, sempre pensamos que elas sejam valores numéricos, conhecidos como variáveis proporcionais ou contínuas. Porém, não é a única forma associação entre variáveis, é comum que o regressando seja influenciado não só por essas variáveis proporcionais (como preços, renda, idade, etc), mas também por variáveis especialmente qualitativa, conhecidos com variáveis nominais, tais como gênero, raça, cor, nacionalidade, etc.

Em geral, quando indicamos que as variáveis independentes são nominais, dizemos que há a presença ou "ausência" de uma "qualidade" ou atributo. É possível "quantificar" essa lógica criando variáveis binárias que assumem valores de 1 ou 0.

Variável Binária

Portanto, uma variável binária (dummy) pode representar dois estados:

  1. 0, ausência da característica de interesse
  2. 1, presença da característica de interesse

Podemos então estimar uma Regressão com variáveis independente nominais e ordinais, da mesma forma que estimamos uma Regressão Linear. Nesse caso, utilizamos uma variável categórica com dois estados, 0 e 1.  Podemos definir a equação com variáveis independentes com duas categorias como:

     $$Y_i = \alpha + \beta_1 X_i +\beta_2 D_i  + e_i$$

Em que X representa a variável independente proporcional ou numérica, e D representa a variável qualitativas ou nominal. O  $\beta_2$ indica o quanto Y seria, em média,  maior (menor) para a categoria D = 1 que a categoria D = 0, independente do valor de X, sendo a categoria de referência da análise D = 0 (podendo ser escolhido ao contrário também).

Regressão com variável binária (dummy) no R

No R, é possível criar facilmente uma Regressão com variáveis binárias, tudo o que necessitamos é ter mãos as variáveis qualitativas bem definidas e utilizar a função lm() para realizar os cálculos. Utilizaremos como exemplo o dataset wage1 contido no pacote do {wooldridge}, que traz características de diversas pessoas, sejam qualitativas ou quantitativas.

Como objetivo, iremos desvendar o que afeta o salário hora, para isso, utilizaremos as variáveis female (1 se é mulher), educ (anos de educação), exper (anos de experiência) e ternure (anos com o atual emprego).

Com efeito, vimos que a variável qualitativa escolhida realmente afeta o salário hora, no caso, como temos como referência 1 como sendo mulher, o efeito da variável female diz há uma relação negativa com o salário hora.

Regressão com variável binária (dummy) no Python

No Python, seguimos a mesma lógica que fizemos no R, porém, utilizando a função ols() da biblioteca statsmodels. Para exemplificar, utilizamos também o dataset do wooldridge, wage1, obtendo os mesmo resultado que anteriormente.

Regressões Logísticas

Diferente das regressões com variáveis binárias, que utilizam dois valores para os preditores como forma de explicar o relacionamento de duas variáveis, e se quisermos ao invés de utilizar uma variável proporcional (quantitativa) como dependente, utilizar uma variável binária como resposta? Isto é, uma forma de probabilidade de algo acontecer ou não? Nesse caso, é possível utilizar a Regressão Logística.

O recurso que temos em mãos é poder estimar a probabilidade associada a ocorrência de determinado evento, sendo útil em diversos estudos. Como a ideia é estimar uma probabilidade, os resultados estarão contidos entre 0 e 1.  Se utiliza do estimador de máxima verossimilhança, como forma de maximizar a probabilidade de ocorrência da amostra, dado os coeficientes das variáveis independentes.

Regressão Logística no R

Para implementar a regressão logística no R, utilizaremos a função glm(), com o dataset affairs  do wooldridge, que traz os dados de uma pesquisa sobre relações extraconjugais. A coluna "affair' é uma variável binária, que retorna 1, em caso de relações extraconjugal, e 0, caso contrário. Desta forma, utilizaremos a variáveis independentes de algumas colunas para estimar a variável dependente.

As coluna que iremos utilizar são: male (em que 1 é homem), age (idade) e ysrmarr (anos de casado). Vemos nos resultados que há grande significância na variável anos de casado, com um coeficiente positivo.

Regressão Logística no Python

Utilizar a Regressão logística no Python segue os mesmo princípios que no R, no código iremos apenas adicionar a api do statsmodels que permitira escolhe a família de distribuição que iremos utilizar na função glm(), que será a binomial (conhecida como logit), igual realizamos no R.

Quer saber mais sobre R e Python?

Veja nossos cursos de aplicados de R e Python para Economistas, Estatística usando R e Python, Econometria usando R e Python.

Compartilhe esse artigo

Facebook
Twitter
LinkedIn
WhatsApp
Telegram
Email
Print

Comente o que achou desse artigo

Outros artigos relacionados

Análise regional do mercado de trabalho com dados do CAGED usando Python

Os microdados dos CAGED fornecem informações detalhadas a nível de cidade, sexo, raça, nível de instrução, idade, salário e outras sobre os trabalhadores formais do Brasil, possibilitando ricas análises regionais de dados. Neste artigo mostramos como acessar, processar e analisar estes dados utilizando o Python.

Transfer Learning: mostrando porque o Python está na ponta do desenvolvimento

A aprendizagem por transferência (transfer learning) é o reuso de um modelo pré-treinado em um novo problema. Portanto, sua utilização torna-se um avanço enorme para a previsão de diferentes tipos de variáveis, principalmente para aquelas ordenadas no tempo. Mostramos nesta postagem o uso do Transfer Learning com o Python para o caso de Séries Temporais.

como podemos ajudar?

Preencha os seus dados abaixo e fale conosco no WhatsApp

Boletim AM

Preencha o formulário abaixo para receber nossos boletins semanais diretamente em seu e-mail.