Artigos de Economia

Por que aprender R e Data Science?

By 13 de novembro de 2018 No Comments

Na semana passada, dei mais uma edição da minha palestra sobre R & Data Science: como entender o que dizem os dados com o R?, dessa vez no Instituto de Economia da UFRJ, a convite do pessoal da Liga de Mercado Financeiro daquela instituição ao Instituto Millenium. Falei um pouco sobre o que de fato é ciência de dados e por que o R tem sido cada vez mais utilizado por cientistas de dados e profissionais ligados a essa área. Ao contrário do que possa parecer, a princípio, data science não é algo distante do dia a dia da maioria dos profissionais e, mais cedo ou mais tarde, eles terão que conhecer seus fundamentos e as ferramentas disponíveis. Nesse post, procuro explicar os motivos.

Em primeiro lugar, é preciso compreender que o avanço da informática e das telecomunicações possibilitou o armazenamento e a distribuição de conjuntos de dados cada vez mais complexos. Lidar com essas bases de dados exigiu a sistematização de diversas técnicas de coleta, tratamento, análise e apresentação de dados. Essa sistematização de técnicas deu origem ao que hoje chamamos de data science, cujo objetivo principal é extrair informações úteis de conjuntos de dados aparentemente confusos.
O que chamamos de data science, portanto, nada mais é do que a organização dessas técnicas, divididas por cada uma daquelas etapas para lidar com os dados.

Você que atua no mercado de trabalho como profissional de nível superior já deve ter percebido que as suas planilhas EXCEL ficaram absurdamente maiores com o passar dos anos, não é mesmo? A quantidade de informação disponível em grandes empresas é, de fato, enorme, o que tem exigido tanto um maior conhecimento técnico para lidar com ela quanto mesmo a organização de setores específicos para explorar as possibilidades desses bancos dados. Sobre esse último ponto, há diversas empresas no Brasil e no mundo investindo milhões na criação de equipes de dados ou de business inteligence.

Seja em equipes específicas ou em departamentos tradicionais, ter a exata compreensão do ciclo do dado é algo que será cada vez mais exigido do profissional de nível superior. Isto porque, não apenas o armazenamento como a distribuição de dados ficou menos custosa, como a sua exploração passou a ter papel fundamental nas estratégias das empresas. Transformar conjuntos de dados aparentemente confusos e complexos em informação valiosa para gestores exigirá profissionais que entendam o ciclo do dado e as diversas técnicas associadas a esse processo.

Abaixo, algumas aplicações interessantes...

  • Previsão de receitas e despesas;
  • Melhor uso dos dados de clientes;
  • Identificar mensagens indesejáveis em um e-mail (spam);
  • Segmentação do comportamento de consumidores para propagandas direcionadas;
  • Redução de fraudes em transações de cartão de crédito;
  • Predição de eleições;
  • Otimização do uso de energia em casas ou prédios;
  • etc.

As aplicações são mesmo muito abrangentes considerando um conhecimento profundo sobre o ciclo do dado. O ciclo do dado aqui pode ser resumido pelas quatro operações abaixo:

  • É preciso coletar os dados;
  • Dados brutos precisam ser tratados;
  • Uma vez disponíveis, os dados precisam ser analisados de forma a extrair informações relevantes e/ou responder determinados questionamentos;
  • Com as respostas em mãos, é preciso apresentar os resultados.

Cada uma dessas etapas vai exigir do profissional conhecimentos específicos. Afinal, os dados podem estar em uma planilha excel, em uma página web, em arquivo json, em um banco de dados SQL, etc. Uma vez coletados, esses dados brutos podem necessitar de diversos tratamentos, como retirar valores ausentes, construir números índices, retirar tendências, dessazonalizar, criar variações mensais, trimestrais, anuais, etc. Somente após fazer esse trabalho de coleta e tratamento, é que o profissional poderá construir relações entre as variáveis e, por fim, apresentar o seu trabalho para um gestor ou colega de equipe. Será que você está preparado para fazer isso?

De todas as linguagens e ambientes criados para lidar com essas quatro operações do ciclo do dado, talvez a mais completa hoje seja o R. Basicamente pelos seguintes motivos:

  • A existência de uma comunidade grande e bastante entusiasmada, que compartilha conhecimento todo o tempo;
  • O R é gratuito, open source, de modo que você não precisa comprar licenças de software para instalá-lo;
  • Tem inúmeras bibliotecas pacotes em estatística, machine learning, visualização, importação e tratamento de dados;
  • Possui uma linguagem estabelecida para data analysis;
  • Ferramentas poderosas para comunicação dos resultados da sua pesquisa, seja em forma de um website ou em pdf;
  • Possui a melhor IDE do mercado, o RStudio, para integrar aquelas quatro operações do ciclo do dado.

Ao aprender R, você conseguirá integrar as etapas de coleta, tratamento, análise e apresentação de dados em um único ambiente. Você vai esquecer ter de abrir o excel, algum pacote estatístico, depois o power point ou o word, depois um compilador de pdf para gerar seu relatório. Todas essas etapas serão feitas em um único ambiente. E essa talvez seja a grande motivação para você entrar de cabeça nesse mundo.

Se você está convencido em aprender R & Data Science, dê uma olhada nos nossos Cursos Aplicados de R e sinta-se a vontade para tirar suas dúvidas conosco. Somos apaixonados por dados e queremos que você não fique para trás nessa grande revolução que estamos vivendo!

______________________________________________

Baixe os slides da palestra na UFRJ aqui.

Comments

Cadastre-se na newsletter
e receba nossas novidades em primeira mão!