Ao construir relações de diversas variáveis por meio dos dados, o mais comum é pensar em realizar esta tarefa com variáveis quantitativas, isto é, de forma totalmente numérica. Mas, e se tivermos apenas variáveis nominais, isto é, categóricas, como podemos incorporá-las em um modelo? Para tanto, é possível construir uma Regressão com variáveis qualitativas. No post de hoje, abordaremos duas formas de se utilizar variáveis qualitativas em regressões: o modelo que utiliza variáveis binárias (dummies) nos preditores e o modelo que utiliza variáveis de respostas qualitativas, conhecido como Regressão Logística.
Regressão com Variáveis Binárias (dummies)
Na investigação de uma variável dependente em relação as suas variáveis independente, isto é, as formas da qual as duas se relacionam, sempre pensamos que elas sejam valores numéricos, conhecidos como variáveis proporcionais ou contínuas. Porém, não é a única forma associação entre variáveis, é comum que o regressando seja influenciado não só por essas variáveis proporcionais (como preços, renda, idade, etc), mas também por variáveis especialmente qualitativa, conhecidos com variáveis nominais, tais como gênero, raça, cor, nacionalidade, etc.
Em geral, quando indicamos que as variáveis independentes são nominais, dizemos que há a presença ou "ausência" de uma "qualidade" ou atributo. É possível "quantificar" essa lógica criando variáveis binárias que assumem valores de 1 ou 0.
Variável Binária
Portanto, uma variável binária (dummy) pode representar dois estados:
- 0, ausência da característica de interesse
- 1, presença da característica de interesse
Podemos então estimar uma Regressão com variáveis independente nominais e ordinais, da mesma forma que estimamos uma Regressão Linear. Nesse caso, utilizamos uma variável categórica com dois estados, 0 e 1. Podemos definir a equação com variáveis independentes com duas categorias como:
Em que X representa a variável independente proporcional ou numérica, e D representa a variável qualitativas ou nominal. O indica o quanto Y seria, em média, maior (menor) para a categoria D = 1 que a categoria D = 0, independente do valor de X, sendo a categoria de referência da análise D = 0 (podendo ser escolhido ao contrário também).
Regressão com variável binária (dummy) no R
No R, é possível criar facilmente uma Regressão com variáveis binárias, tudo o que necessitamos é ter mãos as variáveis qualitativas bem definidas e utilizar a função lm() para realizar os cálculos. Utilizaremos como exemplo o dataset wage1 contido no pacote do {wooldridge}, que traz características de diversas pessoas, sejam qualitativas ou quantitativas.
Como objetivo, iremos desvendar o que afeta o salário hora, para isso, utilizaremos as variáveis female (1 se é mulher), educ (anos de educação), exper (anos de experiência) e ternure (anos com o atual emprego).
Com efeito, vimos que a variável qualitativa escolhida realmente afeta o salário hora, no caso, como temos como referência 1 como sendo mulher, o efeito da variável female diz há uma relação negativa com o salário hora.
Regressão com variável binária (dummy) no Python
No Python, seguimos a mesma lógica que fizemos no R, porém, utilizando a função ols() da biblioteca statsmodels. Para exemplificar, utilizamos também o dataset do wooldridge, wage1, obtendo os mesmo resultado que anteriormente.
Regressões Logísticas
Diferente das regressões com variáveis binárias, que utilizam dois valores para os preditores como forma de explicar o relacionamento de duas variáveis, e se quisermos ao invés de utilizar uma variável proporcional (quantitativa) como dependente, utilizar uma variável binária como resposta? Isto é, uma forma de probabilidade de algo acontecer ou não? Nesse caso, é possível utilizar a Regressão Logística.
O recurso que temos em mãos é poder estimar a probabilidade associada a ocorrência de determinado evento, sendo útil em diversos estudos. Como a ideia é estimar uma probabilidade, os resultados estarão contidos entre 0 e 1. Se utiliza do estimador de máxima verossimilhança, como forma de maximizar a probabilidade de ocorrência da amostra, dado os coeficientes das variáveis independentes.
Regressão Logística no R
Para implementar a regressão logística no R, utilizaremos a função glm(), com o dataset affairs do wooldridge, que traz os dados de uma pesquisa sobre relações extraconjugais. A coluna "affair' é uma variável binária, que retorna 1, em caso de relações extraconjugal, e 0, caso contrário. Desta forma, utilizaremos a variáveis independentes de algumas colunas para estimar a variável dependente.
As coluna que iremos utilizar são: male (em que 1 é homem), age (idade) e ysrmarr (anos de casado). Vemos nos resultados que há grande significância na variável anos de casado, com um coeficiente positivo.
Regressão Logística no Python
Utilizar a Regressão logística no Python segue os mesmo princípios que no R, no código iremos apenas adicionar a api do statsmodels que permitira escolhe a família de distribuição que iremos utilizar na função glm(), que será a binomial (conhecida como logit), igual realizamos no R.
Quer saber mais sobre R e Python?
Veja nossos cursos de aplicados de R e Python para Economistas, Estatística usando R e Python, Econometria usando R e Python.