Previsão econômica com métodos de Suavização Exponencial

Neste texto abordamos métodos de suavização exponencial simples, com tendência e com sazonalidade para finalidade de previsão de séries temporais. Mostramos as diferenças de cada método com exemplos de dados econômicos do Brasil, em aplicações nas linguagens de programação R e Python.
Regressão linear: teoria e prática

Como estimar uma regressão linear sem linguagem de programação? Nesse texto introduzimos esse modelo fundamental de ciência de dados, abrindo as fórmulas e ajustando uma regressão “na mão”, para que o código pronto não seja uma caixa preta. Usamos como exemplo o problema da precificação de imóveis, com aplicações em R e Python.
O dilema de viés e variância em modelos preditivos

Modelos muito simples ou muito complexos podem gerar previsões com alto viés ou alta variância. A grande tarefa de quem trabalha com modelos preditivos é explorar uma especificação de modelo de modo a minimizar o erro de previsão, mas sem cair nestes dois extremos, o que pode ser desafiador. Neste artigo apresentamos estes conceitos e mostramos como analisar ajustes e previsões de modelos de modo a compreender o trade-off entre viés e variância.
Pré-processamento de dados: lidando com valores extremos e valores ausentes

No contexto de ciência de dados, é comum ter que lidar com problemas nos dados de um modelo preditivo, tais como valores extremos (outliers) ou valores ausentes (missing data). Em muitos casos, é preciso aplicar pré-processamentos para validar e utilizar um modelo, ao mesmo tempo que é necessário evitar o vazamento de dados (data leakage). Abordamos estes desafios neste artigo mostrando exemplos com dados reais em aplicações nas linguagens de programação R e Python.
Reamostragem em modelos preditivos: separação treino e teste

Nesse artigo abordamos técnicas de reamostragem de dados, conhecidas como separação treino/validação/teste, úteis para avaliar a acurácia de modelos preditivos. Mostramos exemplos e aplicações das técnicas, destacando o contexto e os desafios que podem emergir, usando problemas de regressão e de classificação com dados temporais e de corte transversal. Códigos dos exemplos são expostos nas linguagens de programação R e Python.