pnadc

Neste exercício, investigamos a influência do trimestre de nascimento como um possível determinante dos rendimentos efetivos no Brasil. Pessoas nascidas em determinados trimestres tendem a acumular mais anos de estudo. Com base em uma observação empírica, utilizamos o trimestre de nascimento como uma variável instrumental para os anos de estudo em um modelo de Regressão Linear com Variáveis Instrumentais (IV). O objetivo é avaliar como essa relação afeta os rendimentos. Usamos a linguagem de programação R para a coleta, tratamento e análise de dados.
No contexto de ciência de dados, é comum ter que lidar com problemas nos dados de um modelo preditivo, tais como valores extremos (outliers) ou valores ausentes (missing data). Em muitos casos, é preciso aplicar pré-processamentos para validar e utilizar um modelo, ao mesmo tempo que é necessário evitar o vazamento de dados (data leakage). Abordamos estes desafios neste artigo mostrando exemplos com dados reais em aplicações nas linguagens de programação R e Python.

como podemos ajudar?

Preencha os seus dados abaixo e fale conosco no WhatsApp

Boletim AM

Preencha o formulário abaixo para receber nossos boletins semanais diretamente em seu e-mail.