Analisando o mercado acionário brasileiro com aprendizado não supervisionado no Python

Como identificar os fatores significativos que influenciam a variabilidade nos retornos de ações individuais? Como comparar esses fatores ao selecionar empresas de setores distintos? Neste artigo, aplicamos a Análise de Componentes Principais para examinar ações que compõem o índice bovespa, com o objetivo de identificar os fatores estatísticos relevantes. Usamos o Python como ferramenta para aplicar a análise.

Um tópico importante na análise de séries temporais multivariadas é o estudo da estrutura de covariância (ou correlação) das séries. Por exemplo, a estrutura de covariância de uma série de retornos desempenha um papel importante na seleção de portfólio. Isto porque, dados multivariados frequentemente exibem padrões semelhantes, indicando a existência de uma estrutura comum oculta. A análise fatorial estatística é um desses métodos simplificadores disponíveis na literatura. O objetivo da análise fatorial estatística é identificar, a partir dos dados observados, alguns fatores que podem explicar a maior parte das variações na matriz de covariância ou correlação dos dados.

Aprenda a coletar, processar e analisar dados na formação de Do Zero à Análise de Dados Econômicos e Financeiros com Python.

Como usar o PCA em análise de investimentos?

O PCA desempenha um papel fundamental na criação de estratégias de investimento e na seleção de portfólio. Ele nos permite isolar os fatores estatísticos subjacentes que influenciam os retornos das ações em uma carteira. Esses fatores, frequentemente chamados de “fatores alpha,” são essenciais porque geram retornos que não podem ser atribuídos simplesmente ao desempenho do mercado ou a um índice de referência.

A utilização dos fatores alpha identificados pelo PCA pode ser estratégica. Primeiramente, isolamos esses componentes chave. Em seguida, adotamos uma abordagem de compra e venda seletiva: compramos as ações que têm maior exposição a um fator específico e vendemos aquelas com menor exposição a esse mesmo fator. Isso nos permite criar portfólios otimizados que visam aproveitar ao máximo as fontes de retorno identificadas pelos fatores.

Essa metodologia de seleção de portfólio baseada em fatores estatísticos oferece uma abordagem poderosa para gestores de investimentos, permitindo-lhes tomar decisões mais informadas e melhorar o desempenho da carteira. Ela é especialmente útil para diversificar e gerenciar o risco.

Exemplo:

Como exemplo, importamos os dados do preço de fechamento ajustado das ações que compõe o índice bovespa na data 09/07/2024, consistindo em 86 empresas. Há a retirada de dados faltantes, resultando em uma amostra com menor quantidade de empresas. Utiliza-se o retorno simples padronizados dos preços para estimar o PCA. Os dados compreendem o período de jan/2021 até jun/2024 em periodicidade diária.

O primeiro gráfico à esquerda abaixo expõe a contribuição de cada um dos sete componentes em relação a variância total, enquanto o segundo, ao lado direito, acumula a contribuição da variância de cada componente.

O primeiro componente explica boa parte da variação dos retornos do portfólio. Usualmente, esse fator representa o movimento do portfólio de mercado. O segundo componente explica uma fração menor dos retornos, e os componentes seguintes seguem um decaimento. Usualmente esse fatores representam a variabilidade causada pelos setores e valores intrínsecos às companhias.

Pelo gráfico de contribuição acumulada, podemos ver que os sete fatores explicam mais ou menos 50% da variabilidade dos retornos do portfólio.

Existem forças que movem os preços das ações que não podemos ver. Esses fatores latentes são captados por meio do PCA e isolados como componentes principais. O mercado de ações (portfólio de mercado) em geral é geralmente um forte impulsionador dos retornos. As forças macroeconômicas, como as taxas de juro, desemprego e PIB também impulsionam os retornos. O PCA permite isolar esses fatores estatísticos para ter uma ideia de quanto o retorno do portfólio vem dessas características não observadas.

Pelo gráfico abaixo, podemos ver o valor do primeiro fator em relação aos ativos. Usualmente, o primeiro fator representa o risco de mercado, e no geral, empresas com alto valor no primeiro fator possuem uma relação significativa com o  fator de mercado.

Uma forma interessante de entender a relação da variabilidade dos retornos por setor, é traçar um gráfico de dispersão em que o eixo x representa o fator 1 e o eixo y representa o fator 2.

Em podemos relacionar a exposição das empresas ao primeiro fator, e a exposição ao segundo fator.

Considerações

O PCA mostrar ser uma ferramenta interessante para compreender a relação das ações com variáveis latentes, permitindo entender melhor a situação de cada empresa com os fatores com maior variância dentre os retornos das empresas que compõe o índice bovespa. Faz-se necessário, entretanto, uma análise mais aprofundada sobre a relação das variáveis latentes em relação aos fatores de risco dos retornos, permitindo compreender melhor a relação de cada empresa.

Quer aprender mais?

Clique aqui para fazer seu cadastro no Boletim AM e baixar o código que produziu este exercício, além de receber novos exercícios com exemplos reais de análise de dados envolvendo as áreas de Data Science, Econometria, Machine Learning, Macroeconomia Aplicada, Finanças Quantitativas e Políticas Públicas diretamente em seu e-mail.

Compartilhe esse artigo

Facebook
Twitter
LinkedIn
WhatsApp
Telegram
Email
Print

Comente o que achou desse artigo

Outros artigos relacionados

Técnicas de machine learning para mineração de textos

Neste artigo apresentamos o modelo Naive Bayes para problemas de classificação binária de textos. Mostramos a intuição do modelo e sua formulação matemática, além de pontuar as principais aplicações e casos de uso. Ao final, demonstramos um exemplo aplicado à classificação de spam em comentários do YouTube, usando a linguagem de programação Python.

Técnicas de extração de informação com text mining

Como quantificar sobre o que se trata um texto? Que tipo de informação podemos obter a partir destes dados? Como identificar a relevância das palavras? Neste artigo exploramos técnicas estatísticas de frequência de tokens para extrair informação de dados textuais.

como podemos ajudar?

Preencha os seus dados abaixo e fale conosco no WhatsApp

Boletim AM

Preencha o formulário abaixo para receber nossos boletins semanais diretamente em seu e-mail.