Como usar Principal Component Analysis para analisar ações

Como identificar os fatores significativos que influenciam a variabilidade nos retornos de ações individuais? Como comparar esses fatores ao selecionar empresas de setores distintos? Neste artigo, aplicamos a Análise de Componentes Principais para examinar ações nos setores de tecnologia e bancário, com o objetivo de identificar os fatores estatísticos relevantes.

Um tópico importante na análise de séries temporais multivariadas é o estudo da estrutura de covariância (ou correlação) das séries. Por exemplo, a estrutura de covariância de uma série de retornos desempenha um papel importante na seleção de portfólio. Isto porque, dados multivariados frequentemente exibem padrões semelhantes, indicando a existência de uma estrutura comum oculta. A análise fatorial estatística é um desses métodos simplificadores disponíveis na literatura. O objetivo da análise fatorial estatística é identificar, a partir dos dados observados, alguns fatores que podem explicar a maior parte das variações na matriz de covariância ou correlação dos dados.

Como usar o PCA em análise de investimentos?

O PCA desempenha um papel fundamental na criação de estratégias de investimento e na seleção de portfólio. Ele nos permite isolar os fatores estatísticos subjacentes que influenciam os retornos das ações em uma carteira. Esses fatores, frequentemente chamados de "fatores alpha," são essenciais porque geram retornos que não podem ser atribuídos simplesmente ao desempenho do mercado ou a um índice de referência.
A utilização dos fatores alpha identificados pelo PCA pode ser estratégica. Primeiramente, isolamos esses componentes chave. Em seguida, adotamos uma abordagem de compra e venda seletiva: compramos as ações que têm maior exposição a um fator específico e vendemos aquelas com menor exposição a esse mesmo fator. Isso nos permite criar portfólios otimizados que visam aproveitar ao máximo as fontes de retorno identificadas pelos fatores.
Essa metodologia de seleção de portfólio baseada em fatores estatísticos oferece uma abordagem poderosa para gestores de investimentos, permitindo-lhes tomar decisões mais informadas e melhorar o desempenho da carteira. Ela é especialmente útil para diversificar e gerenciar o risco.

Exemplo:

Vamos utilizar como exemplo os dados da série de retornos simples diários (com dividendos) das seguintes empresas:

- 'INTB3.SA'
- 'MLAS3.SA'
- 'POSI3.SA'
- 'TOTS3.SA'
- 'BMOB3.SA'
- 'BPAC11.SA'
- 'BBDC4.SA'
- 'ITUB4.SA'
- 'BBAS3.SA'
- 'SANB11.SA'

Usamos o período de 23-08-2021 até 29-06-2023, com 476 observações para cada variável.

Observe que há cinco empresas do setor de tecnologia e cinco empresas do setor bancário. O objetivo aqui é identificar quais fatores mais impactam a variabilidade dos retornos dessas ações. Além disso, vamos determinar o valor de cada fator e analisar as relações entre os fatores nas empresas.

O primeiro gráfico à esquerda abaixo expõe a contribuição de cada um dos 3 componentes em relação a variância total, enquanto o segundo, ao lado direito, acumula a contribuição da variância de cada componente.
O primeiro componente explica 51,48% da variação dos retornos do portfólio. Usualmente, esse fator representa o movimento do portfólio de mercado. O segundo componente explica 14,8% dos retornos, enquanto o terceiro explica 0,09%. Usualmente esse fatores representam a variabilidade causada pelos setores e valores intrínsecos às companhias.
Pelo gráfico de contribuição acumulada, podemos ver que os três fatores explicam 76% da variabilidade dos retornos do portfólio. Ou seja, encontrar esse três fatores podem auxiliar na criação de uma carteira de investimentos.

Existem forças que movem os preços das ações que não podemos ver. Esses fatores latentes são captados por meio do PCA e isolados como componentes principais. O mercado de ações (portfólio de mercado) em geral é geralmente um forte impulsionador dos retornos. As forças macroeconômicas, como as taxas de juro, desemprego e PIB também impulsionam os retornos. O PCA permite isolar esses fatores estatísticos para ter uma ideia de quanto o retorno do portfólio vem dessas características não observadas.
Pelo gráfico abaixo, podemos ver o valor do primeiro fator em relação aos ativos. Há uma relação negativa no período, ou seja, durante todo o período o fator 1 teve um efeito negativo sobre todos os ativos analisados.
Uma forma interessante de entender a relação da variabilidade dos retornos por setor, é traçar um gráfico de dispersão em que o eixo x representa o fator 1 e o eixo y representa o fator 2. Pelo resultado, vemos que ações de bancos tendem a ficar agrupadas, enquanto do setor de tecnologia possuem um padrão diferente. Veja que BPAC11 destoa do seus pares, muito provável por possuir uma estrutura diferente.

Quer aprender mais?

 -  Cadastre-se gratuitamente aqui no Boletim AM e receba toda terça-feira pela manhã nossa newsletter com um compilado dos nossos exercícios com exemplos reais de análise de dados envolvendo as áreas de Data Science, Econometria, Machine Learning, Macroeconomia Aplicada, Finanças Quantitativas e Políticas Públicas;

 - Quer ter acesso aos códigos, vídeos e scripts de R/Python desse exercício? Vire membro do Clube AM aqui e tenha acesso à nossa Comunidade de Análise de Dados;

 - Quer aprender a programar em R ou Python com Cursos Aplicados e diretos ao ponto em Data Science, Econometria, Machine Learning, Macroeconomia Aplicada, Finanças Quantitativas e Políticas Públicas? Veja nossos Cursos aqui.

Compartilhe esse artigo

Facebook
Twitter
LinkedIn
WhatsApp
Telegram
Email
Print

Comente o que achou desse artigo

Outros artigos relacionados

O que é e como funcionam Sistemas Multi-Agentes

Sistemas multi-agentes (MAS) representam uma nova forma de estruturar aplicações de inteligência artificial, especialmente úteis para lidar com problemas complexos e distribuídos. Em vez de depender de um único agente generalista, esses sistemas são compostos por múltiplos agentes especializados que colaboram, competem ou se coordenam para executar tarefas específicas. Neste post, explicamos o que são os MAS, seus principais componentes (como LLMs, ferramentas e processos) e as arquiteturas mais comuns.

O que é um Vector Database e como criar um com LangChain

Nesta postagem, mostramos como construir um pipeline simples de RAG (Retrieval-Augmented Generation) usando o LangChain, o modelo Gemini 2.0 Flash e o Vector Database Chroma. Utilizamos como exemplo o Relatório de Inflação de junho de 2025 do Banco Central do Brasil. O fluxo envolve o download e leitura do PDF, divisão do texto com RecursiveCharacterTextSplitter, geração de embeddings com Gemini, armazenamento vetorial com Chroma e busca semântica para responder perguntas com base no conteúdo do relatório. É uma aplicação prática e didática para economistas que desejam integrar IA ao seu fluxo de análise.

Automatizando a Construção de Códigos em Python com LangGraph

Neste post, mostramos como construir um agente de código em Python utilizando LangGraph, LangChain e Gemini. A proposta é construir um protótipo para automatizar o ciclo completo de geração, execução e correção de código com o uso de LLMs, organizando o processo em um grafo de estados.

Boletim AM

Receba diretamente em seu e-mail gratuitamente nossas promoções especiais e conteúdos exclusivos sobre Análise de Dados!

Boletim AM

Receba diretamente em seu e-mail gratuitamente nossas promoções especiais e conteúdos exclusivos sobre Análise de Dados!

como podemos ajudar?

Preencha os seus dados abaixo e fale conosco no WhatsApp

Boletim AM

Preencha o formulário abaixo para receber nossos boletins semanais diretamente em seu e-mail.