Tag

datascience Archives - Análise Macro

Machine Learning usando o R: Inscrições Abertas!

By | Cursos da Análise Macro

Estão abertas as inscrições, com preço super promocional, do nosso novo Curso de Machine Learning usando o R. Fruto de mais de dois anos de consultorias e cursos in company, o novíssimo Curso on-line da Análise Macro traz o que há de mais avançado em modelos de machine learning operacionalizados na linguagem preferida dos Cientistas de Dados. Não perca tempo e garanta já a sua vaga aqui. O 1º lote não durará muito porque o preço está muito abaixo da reserva de mercado!

Novos Exercícios são publicados no Clube do Código

By | Clube AM

Informamos aos membros e alunos do plano premium dos nossos Cursos Aplicados de R que foram publicados hoje no Clube do Código três novos exercícios: (1) Edição 65 - A Econometria das Queimadas; (2) Edição 66 - Policiais mortos vs. mortes por policiais no RJ: há causalidade?; (3) Uma comparação econométrica entre o CAGED e a PNAD Contínua. Todos os códigos utilizados nos exercícios estão disponíveis no github.

Além dos exercícios, também foram adicionados os últimos Comentários de Conjuntura publicados no Blog da Análise Macro.

Palestra: Como entender o que dizem os dados com o R?

By | Eventos

No último sábado, 15/06, o professor Vítor Wilher ministrou a palestra "R vs. Data Science: como entender o que dizem os dados com o R?" para cerca de 100 estudantes de tecnologia da informação da Faculdade Newton Paiva, em Belo Horizonte. O objetivo da apresentação foi mostrar como é possível integrar as etapas de coleta, tratamento, análise e apresentação de dados através de uma linguagem de programação como o R. Para ter acesso aos slides da apresentação, clique aqui. Ainda não conhece o R? Veja nosso novíssimo curso de Introdução ao R para Análise de Dados.

Por que aprender R e Data Science?

By | Artigos de Economia

Na semana passada, dei mais uma edição da minha palestra sobre R & Data Science: como entender o que dizem os dados com o R?, dessa vez no Instituto de Economia da UFRJ, a convite do pessoal da Liga de Mercado Financeiro daquela instituição ao Instituto Millenium. Falei um pouco sobre o que de fato é ciência de dados e por que o R tem sido cada vez mais utilizado por cientistas de dados e profissionais ligados a essa área. Ao contrário do que possa parecer, a princípio, data science não é algo distante do dia a dia da maioria dos profissionais e, mais cedo ou mais tarde, eles terão que conhecer seus fundamentos e as ferramentas disponíveis. Nesse post, procuro explicar os motivos.

Em primeiro lugar, é preciso compreender que o avanço da informática e das telecomunicações possibilitou o armazenamento e a distribuição de conjuntos de dados cada vez mais complexos. Lidar com essas bases de dados exigiu a sistematização de diversas técnicas de coleta, tratamento, análise e apresentação de dados. Essa sistematização de técnicas deu origem ao que hoje chamamos de data science, cujo objetivo principal é extrair informações úteis de conjuntos de dados aparentemente confusos.
O que chamamos de data science, portanto, nada mais é do que a organização dessas técnicas, divididas por cada uma daquelas etapas para lidar com os dados.

Você que atua no mercado de trabalho como profissional de nível superior já deve ter percebido que as suas planilhas EXCEL ficaram absurdamente maiores com o passar dos anos, não é mesmo? A quantidade de informação disponível em grandes empresas é, de fato, enorme, o que tem exigido tanto um maior conhecimento técnico para lidar com ela quanto mesmo a organização de setores específicos para explorar as possibilidades desses bancos dados. Sobre esse último ponto, há diversas empresas no Brasil e no mundo investindo milhões na criação de equipes de dados ou de business inteligence.

Seja em equipes específicas ou em departamentos tradicionais, ter a exata compreensão do ciclo do dado é algo que será cada vez mais exigido do profissional de nível superior. Isto porque, não apenas o armazenamento como a distribuição de dados ficou menos custosa, como a sua exploração passou a ter papel fundamental nas estratégias das empresas. Transformar conjuntos de dados aparentemente confusos e complexos em informação valiosa para gestores exigirá profissionais que entendam o ciclo do dado e as diversas técnicas associadas a esse processo.

Abaixo, algumas aplicações interessantes...

  • Previsão de receitas e despesas;
  • Melhor uso dos dados de clientes;
  • Identificar mensagens indesejáveis em um e-mail (spam);
  • Segmentação do comportamento de consumidores para propagandas direcionadas;
  • Redução de fraudes em transações de cartão de crédito;
  • Predição de eleições;
  • Otimização do uso de energia em casas ou prédios;
  • etc.

As aplicações são mesmo muito abrangentes considerando um conhecimento profundo sobre o ciclo do dado. O ciclo do dado aqui pode ser resumido pelas quatro operações abaixo:

  • É preciso coletar os dados;
  • Dados brutos precisam ser tratados;
  • Uma vez disponíveis, os dados precisam ser analisados de forma a extrair informações relevantes e/ou responder determinados questionamentos;
  • Com as respostas em mãos, é preciso apresentar os resultados.

Cada uma dessas etapas vai exigir do profissional conhecimentos específicos. Afinal, os dados podem estar em uma planilha excel, em uma página web, em arquivo json, em um banco de dados SQL, etc. Uma vez coletados, esses dados brutos podem necessitar de diversos tratamentos, como retirar valores ausentes, construir números índices, retirar tendências, dessazonalizar, criar variações mensais, trimestrais, anuais, etc. Somente após fazer esse trabalho de coleta e tratamento, é que o profissional poderá construir relações entre as variáveis e, por fim, apresentar o seu trabalho para um gestor ou colega de equipe. Será que você está preparado para fazer isso?

De todas as linguagens e ambientes criados para lidar com essas quatro operações do ciclo do dado, talvez a mais completa hoje seja o R. Basicamente pelos seguintes motivos:

  • A existência de uma comunidade grande e bastante entusiasmada, que compartilha conhecimento todo o tempo;
  • O R é gratuito, open source, de modo que você não precisa comprar licenças de software para instalá-lo;
  • Tem inúmeras bibliotecas pacotes em estatística, machine learning, visualização, importação e tratamento de dados;
  • Possui uma linguagem estabelecida para data analysis;
  • Ferramentas poderosas para comunicação dos resultados da sua pesquisa, seja em forma de um website ou em pdf;
  • Possui a melhor IDE do mercado, o RStudio, para integrar aquelas quatro operações do ciclo do dado.

Ao aprender R, você conseguirá integrar as etapas de coleta, tratamento, análise e apresentação de dados em um único ambiente. Você vai esquecer ter de abrir o excel, algum pacote estatístico, depois o power point ou o word, depois um compilador de pdf para gerar seu relatório. Todas essas etapas serão feitas em um único ambiente. E essa talvez seja a grande motivação para você entrar de cabeça nesse mundo.

Se você está convencido em aprender R & Data Science, dê uma olhada nos nossos Cursos Aplicados de R e sinta-se a vontade para tirar suas dúvidas conosco. Somos apaixonados por dados e queremos que você não fique para trás nessa grande revolução que estamos vivendo!

______________________________________________

Baixe os slides da palestra na UFRJ aqui.

Estimando regressões múltiplas com o R

By | Cursos da Análise Macro

A turma de setembro do nosso Curso de Introdução à Econometria usando o R terá uma grande novidade. A apostila e as listas de exercício foram revisadas e atualizadas com exercícios do livro clássico de Jeffrey Marc Wooldridge. Todos feitos no R, de modo a mostrar para o aluno como a teoria pode ser complementada com a prática. Com isso, trazemos ainda mais aplicações para o curso, o que garante total absorção do conteúdo. Para ilustrar, vamos considerar nesse post o modelo de regressão múltipla. Primeiro, um pouco de teoria e depois um exemplo do Wooldridge feito no R.

Em post anterior nesse blog, vimos o modelo de regressão simples, onde y pode ser explicado por uma única variável x. O problema básico desse tipo de análise é que ela faz uma suposição bastante forte, qual seja, que x não está correlacionado com o erro, dificultando a aplicação da condição ceteris paribus. A análise de regressão múltipla, por outro lado, é mais receptiva a esse tipo de condição, uma vez que ela permite que controlemos outros fatores que afetam y, adicionando os mesmos na equação. Assim, por suposto, se queremos explicar y, podemos utilizar k variáveis, como abaixo:

(1)   \begin{align*} y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \beta_3 x_3 + ... + \beta_k x_k + u,  \end{align*}

onde \beta_0 é o intercepto, \beta_k é o parâmetro associado a x_k. De modo a obter uma estimativa para 1, devemos observar que

(2)   \begin{align*} E(u|x_1, x_2, ..., x_k) = 0. \end{align*}

Isto é, que todos os fatores no termo de erro não observado u sejam não correlacionados com as variáveis explicativas. De modo a obter estimativas para os \beta_k parâmetros, é possível recorrer ao método de mínimos quadrados ordinários. Isto é, dado

(3)   \begin{align*} \hat{y} = \hat{\beta_0} + \hat{\beta_1} x_1 + \hat{\beta_2} x_2 + ... + \hat{\beta_k} x_k, \end{align*}

onde \hat{\beta_k} é a estimativa de \beta_k, o método de MQO escolhe as estimativas \hat{\beta_k} que minimizam a soma dos quadrados dos resíduos:

(4)   \begin{align*} \sum_{i=1}^{n} (y_i - \hat{\beta_0} - \hat{\beta_1} x_{i1} - ... - \hat{\beta_k} x_{ik})^2. \end{align*}

O problema acima pode ser resolvido por meio de cálculo multivariado, de onde obtemos as condições de primeira ordem

(5)   \begin{align*} \sum_{i=1}^{n} (y_i - \hat{\beta_0} - \hat{\beta_1} x_{i1} - ... - \hat{\beta_k} x_{ik}) = 0 \nonumber \\ \sum_{i=1}^{n} x_{i1} (y_i - \hat{\beta_0} - \hat{\beta_1} x_{i1} - ... - \hat{\beta_k} x_{ik}) = 0 \nonumber \\ \sum_{i=1}^{n} x_{i2}(y_i - \hat{\beta_0} - \hat{\beta_1} x_{i1} - ... - \hat{\beta_k} x_{ik}) = 0 \nonumber \\ \sum_{i=1}^{n} x_{ik}(y_i - \hat{\beta_0} - \hat{\beta_1} x_{i1} - ... - \hat{\beta_k} x_{ik}) = 0, \nonumber \end{align*}

ou simplesmente, E(u) = 0 e E(x_j u) = 0.

Interpretação da equação de regressão de MQO

Suponha, agora, que tenhamos

(6)   \begin{align*} \hat{y} = \hat{\beta_0} + \hat{\beta_1} x_1 + \hat{\beta_2} x_2. \end{align*}

O intercepto \beta_0 será então o valor previsto de y quando x_1 = x_2 = 0. Já as estimativas \hat{\beta_1} e \hat{\beta_2} devem ser interpretadas como efeito parcial ou simplesmente ceteris paribus. Isto é,

(7)   \begin{align*} \Delta \hat{y} = \hat{\beta_1} \Delta x_1 + \hat{\beta_2} \Delta x_2, \nonumber \end{align*}

de modo que obtemos a variação prevista em y dadas as variações em x_1 e x_2. Em particular, quando x_2 é mantido fixo, de modo que \Delta x_2 = 0, teremos

(8)   \begin{align*} \Delta \hat{y} = \hat{\beta_1} \Delta x_1. \nonumber \end{align*}

Ou, simplesmente,

(9)   \begin{align*} \frac{\partial \hat{y}}{\partial \hat{x_1}} = \hat{\beta_1}, \nonumber \end{align*}

onde \hat{\beta_1} irá medir o efeito da variação de x_1 em y, mantido x_2 constante.

Exemplo: equação do salário-hora

De modo a ilustrar, vamos considerar o exemplo 3.2 do livro do Wooldridge, em que o mesmo utiliza o conjunto de dados wage1, disponível no pacote wooldridge. Ele pode ser acessado como abaixo.


data(wage1, package='wooldridge')

De posse desse conjunto de dados, você pode estimar o modelo abaixo:


lm(log(wage) ~ educ+exper+tenure, data=wage1)

De modo a obter a seguinte reta de regressão para o log do salário-hora

(10)   \begin{align*} \hat{log(wage)} = 0.284 + 0.092 educ + 0.0041 exper + 0.022 tenure. \end{align*}

De onde se conclui, por exemplo, que o aumento de um ano na educação formal equivale a um aumento de 9.2\% no salário-hora, mantidos exper e tenure fixos.

Receba diretamente em seu e-mail gratuitamente nossas promoções especiais
e conteúdos exclusivos sobre Análise de Dados!

Assinar Gratuitamente