Análise de Correlação em Estatística

A análise de correlação desempenha um papel importante na análise e ciência de dados, dado que pode ser útil como indicativo de relação previsível entre variáveis, o que pode ser explorado de forma prática. No entanto, há muita confusão sobre sua interpretação e a aplicação em situações com dados reais pode ser, às vezes, desastrosa.

Neste artigo, vamos apresentar o conceito de correlação na estatística, avaliar sua aplicabilidade no mundo real, verificar como estimar e interpretar o coeficiente de correlação e, por fim, vamos ver como aplicar a análise de correlação com dados macro-financeiros do Brasil, usando as linguagens de programação R e Python.

O que é correlação?

Em estatística, a correlação é qualquer relação estatística, causal ou não, entre duas variáveis aleatórias. Mas o que isso significa? Em termos técnicos, a correlação entre duas variáveis denota o grau em que as variáveis estão linearmente relacionadas. Ou seja, é uma medida de quanto as variáveis se relacionam em termos de força e direção.

Alguns possíveis exemplos de correlação são:

Altura dos pais vs. altura dos filhos
Preço do produto vs. quantidade do produto (curva de demanda)
Tamanho dos sapatos vs. quantidade de filmes assistidos
Taxa básica de juros vs. taxa de inflação
Taxa de câmbio vs. volume de exportação

Note que, dos exemplos acima, podemos considerar razoável pensar que algumas correlações podem ser mais fortes do que outras e que algumas correlações “não façam sentido”, ou seja, sejam nulas. Exploraremos mais essa intuição na seção de interpretação do coeficiente de correlação adiante.

Também é importante notar que a correlação estatística aqui mencionada só mede a relação linear entre duas variáveis. Variáveis que se relacionam de forma não linear (i.e., tempo e crescimento populacional) não podem ser captadas corretamente por medidas de correlação linear, sendo necessário utilizar medidas apropriadas para analisar essas relações.

Prós e contras: quando usar e quando não usar correlação?

Nem tudo na vida é fácil e, apesar da simplicidade da análise de correlação, ao analisar o relacionamento entre duas variáveis usando medidas de correlação linear precisamos ter cuidado. Se usada incorretamente, a análise de correlação deixa de ser simples, rápida e visualmente apelativa e passa a ser um monstro atacando relações não lineares ou cuspindo relações causais.

A seguir vamos pontuar a aplicabilidade da análise de correlação, contextualizando para quando devemos decidir usá-la ou não.

Use análise de correlação para:

Explorar relacionamentos: a análise de correlação ajuda a determinar a força e a direção de uma relação linear entre variáveis, através de uma medida de coeficiente numérico.
Seleção de variáveis: a análise de correlação pode ajudar em tarefas de modelagem preditiva para identificar variáveis que são fortemente correlacionadas com uma variável alvo.
Tomada de decisão: a análise de correlação pode ajudar com informações úteis e insights para o processo de tomada de decisão na análise entre duas variáveis.

Não use análise de correlação para:

Causalidade: o coeficiente da análise de correlação não deve ser interpretado como uma evidência de causalidade entre as variáveis.
Relações não lineares: o coeficiente de correlação linear mede relações lineares entre variáveis e não deve ser usada para relacionamentos não lineares.
Valores extremos: a análise de correlação é sensível a valores extremos (outliers), que podem produzir um coeficiente indicando uma forte relação mesmo que as variáveis não sejam lineares.

Note que há exceções para esses casos de uso, devendo o contexto, o problema e o objetivo da análise ser sempre considerado ao aplicar a análise de correlação. Não use a lista acima cegamente!

Como calcular a correlação entre duas variáveis?

Existe mais de um método diferente de medir a relação entre duas variáveis, mas o mais conhecido e utilizado é o coeficiente de correlação de Pearson.

Esse método só mede a relação linear e é comumente denotado com os símbolos p (rho) ou r para medir o grau de correlação. Ele pode ser calculado pela divisão da covariância das duas variáveis pelo produto dos seus desvios padrão.

A fórmula matemática para calcular o coeficiente de correlação amostral de Pearson é:

onde:

n é o nº total de observações na amostra.

x_i e y_i são os valores individuais das duas variáveis.

x_barra e y_barra são as médias amostrais de x e y, respectivamente.

Como interpretar o valor da correlação?

O coeficiente de correlação de Pearson pode assumir valores no intervalo entre -1 e + 1, inclusive. Isso implica que a correlação entre duas variáveis pode ser negativa, positiva ou nula, além de indicar, informalmente, a força da relação linear. Formalmente, qualquer valor do coeficiente entre os extremos indica apenas o grau de dependência linear entre as variáveis.

Note que nenhuma referência sobre causalidade entre variáveis foi feita no parágrafo anterior. O motivo é que a análise de correlação não deve ser usada como evidência de relação causa-efeito entre variáveis. Esse é um grande erro que muitas pessoas cometem (basta navegar em qualquer rede social para verificar), que acontece há muito tempo e é motivo de piada para quem estuda ou trabalha com estatística, econometria ou aprendizado de máquina.

Um guia prático comumente utilizado para interpretar o coeficiente de correlação de Pearson é o que se segue:

±0.9 a ±1 indica correlação muito forte
±0.7 a ±0.9 indica correlação forte
±0.5 a ±0.7 indica correlação moderada
±0.5 a ±0.3 indica correlação fraca
±0.3 a 0 indica correlação desprezível ou nula

Exemplo prático: correlação entre variáveis macro-financeiras

Para fixar o conhecimento de forma aplicada usando ferramentas práticas de linguagem de programação, abaixo calculamos o coeficiente de correlação de Pearson entre as variáveis “taxa de juros Selic” e “taxa de inflação IPCA”, período 2005 a 2023. A fonte dos dados é o BCB e o IBGE.

R

Código

[1] -0.06123199

Código

[1] -0.06123199

Python

Código

array([[ 1.        , -0.06123199],
       [-0.06123199,  1.        ]])

Código

-0.061231993258718864

O procedimento pode ser feito com funções prontas de bibliotecas ou com a implementação da fórmula vista acima. Recomenda-se usar sempre as funções prontas, dado que a implementação exposta é limitada e tem finalidade didática.

Note que a correlação encontrada é negativa, mas muito próxima a zero, ou seja, desprezível. Isso vai de encontro com a teoria econômica, porém essa análise de correlação é simples demais para investigar com profundidade a real relação entre essas variáveis.

Conclusão

Neste artigo, apresentamos o conceito de correlação na estatística, avaliamos sua aplicabilidade no mundo real, verificamos como estimar e interpretar o coeficiente de correlação e, por fim, aplicamos a análise de correlação com dados macro-financeiros do Brasil, usando as linguagens de programação R e Python.

Saiba mais

Se você se interessa por análise e ciência de dados e quiser adquirir os conhecimentos e habilidades destacados neste artigo, dê uma olhadinha nessa formação especial que a Análise Macro preparou:

Especialista em Econometria e Machine Learning

E para obter os códigos completos deste exercício e de vários outros, dê uma olhada no Clube AM da Análise Macro, onde publicamos exercícios de ciência de dados toda semana em R e Python.

Referências

Bussab, Wilton de O.; Morettin, Pedro A. (2010). Estatística Básica 6ª ed. Saraiva.

Mukaka, M. M. (2012). A guide to appropriate use of correlation coefficient in medical research. Malawi medical journal, 24(3), 69-71.

Compartilhe esse artigo

Comente o que achou desse artigo

Boletim AM

Receba diretamente em seu e-mail gratuitamente nossas promoções especiais
e conteúdos exclusivos sobre Análise de Dados!

Assinar

Encontre o seu conteúdo

Categorias

Artigos mais acessados

Análise do Censo Demográfico com o R

Deploy de modelos com Python + Shinylive + GitHub gastando ZERO reais

Como automatizar tarefas repetitivas usando Python? Um exemplo para largar o Excel

Criando um Dashboard de análise de Ações no Python

Analisando séries temporais no Python e esquecendo de vez o Excel

Cálculo do Retorno Econômico de uma Política Pública

Outros artigos relacionados

Análise do Censo Demográfico com o R

Como podemos analisar dados do Censo Demográfico para produzir pesquisas e implementar políticas públicas? Mostramos nesta postagem o resultado de uma breve análise dos dados preliminares do Censo Demográfico de 2022 usando o R.

Deploy de modelos com Python + Shinylive + GitHub gastando ZERO reais

Colocar modelos em produção pode ser um grande desafio. Lidar com custos monetários, infraestrutura operacional e complexidades de códigos e ferramentas pode acabar matando potenciais projetos. Uma solução que elimina todos estes obstáculos é a recém lançada Shinylive. Neste artigo mostramos um exemplo com um modelo de previsão para o preço do petróleo Brent.

Como automatizar tarefas repetitivas usando Python? Um exemplo para largar o Excel

Manter relatórios diários com dados e análises atualizados é um desafio, pois envolve várias etapas: coleta de dados, tratamento de informações, produção de análises e atualização de relatório. Para superar este desafio algumas ferramentas como Python + Quarto + GitHub podem ser usadas para automatizar tudo que for automatizável. Neste artigo mostramos um exemplo com dados do mercado financeiro.