ciência de dados

Regressão linear: teoria e prática

Como estimar uma regressão linear sem linguagem de programação? Nesse texto introduzimos esse modelo fundamental de ciência de dados, abrindo as fórmulas e ajustando uma regressão “na mão”, para que o código pronto não seja uma caixa preta. Usamos como exemplo o problema da precificação de imóveis, com aplicações em R e Python.

O dilema de viés e variância em modelos preditivos

Modelos muito simples ou muito complexos podem gerar previsões com alto viés ou alta variância. A grande tarefa de quem trabalha com modelos preditivos é explorar uma especificação de modelo de modo a minimizar o erro de previsão, mas sem cair nestes dois extremos, o que pode ser desafiador. Neste artigo apresentamos estes conceitos e mostramos como analisar ajustes e previsões de modelos de modo a compreender o trade-off entre viés e variância.

Pré-processamento de dados: lidando com valores extremos e valores ausentes

No contexto de ciência de dados, é comum ter que lidar com problemas nos dados de um modelo preditivo, tais como valores extremos (outliers) ou valores ausentes (missing data). Em muitos casos, é preciso aplicar pré-processamentos para validar e utilizar um modelo, ao mesmo tempo que é necessário evitar o vazamento de dados (data leakage). Abordamos estes desafios neste artigo mostrando exemplos com dados reais em aplicações nas linguagens de programação R e Python.

O Alicerce da Ciência de Dados: entendendo o Processo Gerador dos Dados

No impulso de assumir uma distribuição normal para qualquer variável que aparecer em sua frente, o cientista de dados comete o erro de desconhecer os dados sendo trabalhados e, consequentemente, realiza inferências e previsões pouco acuradas. Infelizmente, isso é um problema comum com o boom da ciência de dados nos anos recentes, mas neste artigo vamos tentar trazer um pouco de luz sobre o assunto.

Variáveis Quantitativas e Qualitativas: o que são e como analisar?

O que é uma variável quantitativa? E uma variável qualitativa? Quais são os exemplos dessas variáveis? E quais ferramentas de análise exploratória de dados podem ser usadas para cada caso? Neste artigo mostramos as diferenças entre os principais tipos de variáveis usadas em ciência de dados e vemos exemplos práticos com dados públicos.

Boletim AM

Receba diretamente em seu e-mail gratuitamente nossas promoções especiais e conteúdos exclusivos sobre Análise de Dados!

Boletim AM

Receba diretamente em seu e-mail gratuitamente nossas promoções especiais e conteúdos exclusivos sobre Análise de Dados!

como podemos ajudar?

Preencha os seus dados abaixo e fale conosco no WhatsApp

Boletim AM

Preencha o formulário abaixo para receber nossos boletins semanais diretamente em seu e-mail.