Como saber se o desempenho de um modelo preditivo se generaliza para dados desconhecidos? Dividir a tabela de dados em duas amostras, treinar o modelo e calcular o erro é um processo comum e bastante simples, mas pouco informativo. As técnicas de validação cruzada podem ajudar neste aspecto e neste artigo mostramos como funcionam e como implementar usando linguagem de programação.
Como estimar uma regressão linear sem linguagem de programação? Nesse texto introduzimos esse modelo fundamental de ciência de dados, abrindo as fórmulas e ajustando uma regressão “na mão”, para que o código pronto não seja uma caixa preta. Usamos como exemplo o problema da precificação de imóveis, com aplicações em R e Python.
Modelos muito simples ou muito complexos podem gerar previsões com alto viés ou alta variância. A grande tarefa de quem trabalha com modelos preditivos é explorar uma especificação de modelo de modo a minimizar o erro de previsão, mas sem cair nestes dois extremos, o que pode ser desafiador. Neste artigo apresentamos estes conceitos e mostramos como analisar ajustes e previsões de modelos de modo a compreender o trade-off entre viés e variância.
Gerar previsões quantitativas passa por satisfazer os seguintes passos: o quanto nós sabemos sobre os fatores que influenciam determinado evento ou variável? Existem dados disponíveis? O quanto as previsões que estamos fazendo podem afetar os eventos ou observações futuras? Satisfeita essas condições, podemos utilizar uma Regressão Linear para prever os valores de uma variável.
Como avaliar a relação entre lucro e gastos em marketing em uma empresa? Ou como saber como o anos de educação de uma pessoa impacta o seu rendimento? Conhecer a quantidade que deve ser produzida de um determinado produto em uma indústria no próximo mês? Todos esses problemas podem ser resolvidos por meio do uso da Regressão Linear, uma técnica estatística poderosa.