Introdução

A dinâmica do mercado de trabalho é um dos principais termômetros da saúde econômica de um país. Um dos fenômenos mais observados por economistas ao analisar o turnover (rotatividade) da mão de obra é a diferença salarial entre os trabalhadores que são desligados das empresas e aqueles que são recém-contratados para ocupar novas vagas. Historicamente, em momentos de reestruturação ou crise, empresas tendem a substituir funcionários mais antigos e com salários maiores por novos empregados ganhando menos, gerando um "gap" salarial.

Para investigar essa dinâmica na economia brasileira recente (2020 em diante), utilizamos os microdados do Novo CAGED (Cadastro Geral de Empregados e Desempregados). Lidar com essa base de dados, no entanto, impõe um desafio técnico considerável: estamos falando de milhões de registros mensais. É aqui que a linguagem Python se consolida como uma ferramenta indispensável, permitindo não apenas a coleta e o processamento de Big Data, mas também a aplicação de tratamentos econométricos, como deflacionamento e ajuste sazonal.

O Desafio dos Microdados e a Engenharia de Dados em Python

O Novo CAGED não disponibiliza a série histórica de salários médios de forma mastigada em uma API simples. Para obter o valor exato do salário contratual de admissões e demissões, é necessário baixar os microdados mensais diretamente do servidor FTP do Ministério do Trabalho e Emprego (MTE). Cada arquivo compactado contém milhões de linhas.

Para contornar o limite de memória RAM e automatizar o processo dentro do Google Colab, o script em Python foi estruturado com a seguinte arquitetura:

  1. Coleta e Extração: O código acessa o FTP, baixa os arquivos .7z e os descompacta dinamicamente.
  2. Processamento em Lotes (Chunks): Utilizando a biblioteca pandas, os arquivos de texto gigantescos são lidos em pedaços de 200 mil linhas por vez.
  3. Limpeza e Agregação: Em cada lote, removem-se salários zerados ou inválidos e aplica-se um filtro de outliers (excluindo o 1% dos maiores salários para evitar distorções por erros de preenchimento). Em seguida, os salários são separados por tipo de movimentação (Admissão = 1, Desligamento = -1).
  4. Armazenamento em Banco de Dados: Os dados agregados (soma dos salários e número de vínculos) são salvos em um banco de dados local SQLite. Isso garante que, caso o processo seja interrompido, o código não precise reprocessar os meses já concluídos.

Metodologia Econômica

Analisar apenas os salários nominais ao longo de vários anos gera uma ilusão de ótica devido à inflação. Para que a análise tenha validade econômica, o Python foi utilizado para aplicar duas transformações fundamentais:

1. Deflacionamento (Salário Real): Através da biblioteca sidrapy, o código consome automaticamente os dados do INPC (Índice Nacional de Preços ao Consumidor) diretamente da API do IBGE (Tabela 1736). Os salários nominais de toda a série histórica foram trazidos para o valor presente (preços do último mês disponível), revelando o verdadeiro poder de compra dos trabalhadores.

2. Ajuste Sazonal (X-13ARIMA-SEATS): O mercado de trabalho possui forte sazonalidade (ex: contratações temporárias no final do ano, demissões em janeiro). Para enxergar a tendência estrutural dos salários, aplicamos o algoritmo X-13ARIMA-SEATS — o padrão ouro desenvolvido pelo US Census Bureau — integrado ao Python através da biblioteca statsmodels.

Salários Médios Nominais de Admissão e Demissão CAGED

O primeiro gráfico exibe a série bruta. Observa-se uma tendência de alta contínua em ambas as linhas (admitidos em azul, demitidos em laranja), o que é o comportamento natural em uma economia com inflação positiva e reajustes anuais do salário mínimo. Fica evidente, desde já, que a linha de desligamentos corre sistematicamente acima da linha de admissões.

Salários Médios Reais de Admissão e Demissão CAGED

Ao ajustarmos os dados pela inflação (INPC), a história muda. O gráfico revela a forte perda de poder de compra sofrida pelos trabalhadores entre 2021 e meados de 2022, período marcado por choques inflacionários globais. A partir do final de 2022 e ao longo de 2023 e 2024, nota-se uma recuperação gradual da massa salarial real. Contudo, a série ainda se mostra bastante ruidosa devido aos efeitos sazonais de contratação.

Salários Médios Reais de Admissão e Demissão CAGED (Sazonalmente Ajustados)

O terceiro gráfico, com o ajuste X-13ARIMA-SEATS, entrega a visão analítica definitiva. A remoção dos ruídos sazonais permite constatar fatos estilizados importantes:
O Gap Salarial: Confirma-se a tese econômica de que o trabalhador desligado possui, em média, um salário superior ao recém-contratado. Isso reflete o prêmio por tempo de casa (anuênios, dissídios acumulados, promoções) que o demitido possuía, enquanto o admitido entra ganhando o piso da função.
Aceleração Recente: Na ponta final da série (2024/2025), observa-se uma inclinação positiva e consistente em ambas as curvas. Isso indica um mercado de trabalho aquecido, onde as empresas estão precisando oferecer salários reais maiores para atrair novos talentos (linha azul subindo), ao mesmo tempo em que os salários de quem sai também estão mais altos.