Por que aprender R e Data Science?

[et_pb_section admin_label="section"][et_pb_row admin_label="row"][et_pb_column type="4_4"][et_pb_text admin_label="Texto" background_layout="light" text_orientation="justified" text_font="Verdana||||" text_font_size="18" use_border_color="off" border_color="#ffffff" border_style="solid"]

Na semana passada, dei mais uma edição da minha palestra sobre R & Data Science: como entender o que dizem os dados com o R?, dessa vez no Instituto de Economia da UFRJ, a convite do pessoal da Liga de Mercado Financeiro daquela instituição ao Instituto Millenium. Falei um pouco sobre o que de fato é ciência de dados e por que o R tem sido cada vez mais utilizado por cientistas de dados e profissionais ligados a essa área. Ao contrário do que possa parecer, a princípio, data science não é algo distante do dia a dia da maioria dos profissionais e, mais cedo ou mais tarde, eles terão que conhecer seus fundamentos e as ferramentas disponíveis. Nesse post, procuro explicar os motivos.

Em primeiro lugar, é preciso compreender que o avanço da informática e das telecomunicações possibilitou o armazenamento e a distribuição de conjuntos de dados cada vez mais complexos. Lidar com essas bases de dados exigiu a sistematização de diversas técnicas de coleta, tratamento, análise e apresentação de dados. Essa sistematização de técnicas deu origem ao que hoje chamamos de data science, cujo objetivo principal é extrair informações úteis de conjuntos de dados aparentemente confusos.
O que chamamos de data science, portanto, nada mais é do que a organização dessas técnicas, divididas por cada uma daquelas etapas para lidar com os dados.

Você que atua no mercado de trabalho como profissional de nível superior já deve ter percebido que as suas planilhas EXCEL ficaram absurdamente maiores com o passar dos anos, não é mesmo? A quantidade de informação disponível em grandes empresas é, de fato, enorme, o que tem exigido tanto um maior conhecimento técnico para lidar com ela quanto mesmo a organização de setores específicos para explorar as possibilidades desses bancos dados. Sobre esse último ponto, há diversas empresas no Brasil e no mundo investindo milhões na criação de equipes de dados ou de business inteligence.

Seja em equipes específicas ou em departamentos tradicionais, ter a exata compreensão do ciclo do dado é algo que será cada vez mais exigido do profissional de nível superior. Isto porque, não apenas o armazenamento como a distribuição de dados ficou menos custosa, como a sua exploração passou a ter papel fundamental nas estratégias das empresas. Transformar conjuntos de dados aparentemente confusos e complexos em informação valiosa para gestores exigirá profissionais que entendam o ciclo do dado e as diversas técnicas associadas a esse processo.

Abaixo, algumas aplicações interessantes...

Previsão de receitas e despesas;
Melhor uso dos dados de clientes;
Identificar mensagens indesejáveis em um e-mail (spam);
Segmentação do comportamento de consumidores para propagandas direcionadas;
Redução de fraudes em transações de cartão de crédito;
Predição de eleições;
Otimização do uso de energia em casas ou prédios;
etc.

As aplicações são mesmo muito abrangentes considerando um conhecimento profundo sobre o ciclo do dado. O ciclo do dado aqui pode ser resumido pelas quatro operações abaixo:

É preciso coletar os dados;
Dados brutos precisam ser tratados;
Uma vez disponíveis, os dados precisam ser analisados de forma a extrair informações relevantes e/ou responder determinados questionamentos;
Com as respostas em mãos, é preciso apresentar os resultados.

Cada uma dessas etapas vai exigir do profissional conhecimentos específicos. Afinal, os dados podem estar em uma planilha excel, em uma página web, em arquivo json, em um banco de dados SQL, etc. Uma vez coletados, esses dados brutos podem necessitar de diversos tratamentos, como retirar valores ausentes, construir números índices, retirar tendências, dessazonalizar, criar variações mensais, trimestrais, anuais, etc. Somente após fazer esse trabalho de coleta e tratamento, é que o profissional poderá construir relações entre as variáveis e, por fim, apresentar o seu trabalho para um gestor ou colega de equipe. Será que você está preparado para fazer isso?

De todas as linguagens e ambientes criados para lidar com essas quatro operações do ciclo do dado, talvez a mais completa hoje seja o R. Basicamente pelos seguintes motivos:

A existência de uma comunidade grande e bastante entusiasmada, que compartilha conhecimento todo o tempo;
O R é gratuito, open source, de modo que você não precisa comprar licenças de software para instalá-lo;
Tem inúmeras bibliotecas pacotes em estatística, machine learning, visualização, importação e tratamento de dados;
Possui uma linguagem estabelecida para data analysis;
Ferramentas poderosas para comunicação dos resultados da sua pesquisa, seja em forma de um website ou em pdf;
Possui a melhor IDE do mercado, o RStudio, para integrar aquelas quatro operações do ciclo do dado.

Ao aprender R, você conseguirá integrar as etapas de coleta, tratamento, análise e apresentação de dados em um único ambiente. Você vai esquecer ter de abrir o excel, algum pacote estatístico, depois o power point ou o word, depois um compilador de pdf para gerar seu relatório. Todas essas etapas serão feitas em um único ambiente. E essa talvez seja a grande motivação para você entrar de cabeça nesse mundo.

Se você está convencido em aprender R & Data Science, dê uma olhada nos nossos Cursos Aplicados de R e sinta-se a vontade para tirar suas dúvidas conosco. Somos apaixonados por dados e queremos que você não fique para trás nessa grande revolução que estamos vivendo!

______________________________________________

Baixe os slides da palestra na UFRJ aqui.

[/et_pb_text][et_pb_image admin_label="Imagem" src="https://analisemacro.com.br/wp-content/uploads/2017/11/cursosaplicados.png" show_in_lightbox="off" url="https://analisemacro.com.br/cursos-de-r/" url_new_window="off" use_overlay="off" animation="off" sticky="off" align="center" force_fullwidth="off" always_center_on_mobile="on" use_border_color="off" border_color="#ffffff" border_style="solid"] [/et_pb_image][/et_pb_column][/et_pb_row][/et_pb_section]

Compartilhe esse artigo

Comente o que achou desse artigo

Boletim AM

Receba diretamente em seu e-mail gratuitamente nossas promoções especiais
e conteúdos exclusivos sobre Análise de Dados!

Assinar

Encontre o seu conteúdo

Categorias

Artigos mais acessados

Criando estratégias de investimento com IA no Python

Análise de Tendência de Mercado com IA usando Python

Análise de Sentimento de Mercado com IA usando Python

Analisando o mercado acionário brasileiro com aprendizado não supervisionado no Python

Analisando Ações do Mercado Acionário Brasileiro usando IA

Otimizando tarefas com técnicas de Engenharia de Prompt aplicadas em IA generativa

Outros artigos relacionados

Criando estratégias de investimento com IA no Python

Imagine ter a capacidade de pedir à inteligência artificial para criar uma estratégia de investimento baseada em indicadores técnicos ou regras específicas. Com o tempo sendo um recurso valioso, nem sempre é possível desenvolver um código por conta própria. Vamos mostrar como a IA, junto com Python, pode facilitar a criação de estratégias de investimento.

Análise de Tendência de Mercado com IA usando Python

Você está analisando o mercado acionário e se concentrando nos preços de uma ação específica. Ao longo dos dias, percebe uma mudança na trajetória dos preços e deseja entender o que está acontecendo por meio de notícias. Como automatizar esse processo de forma eficiente usando IA? Neste exercício, mostramos como utilizar o Python para essa tarefa.

Análise de Sentimento de Mercado com IA usando Python

Ler notícias diárias sobre empresas e ações listadas na bolsa pode ser maçante e cansativo. Mas, e se houvesse uma maneira de simplificar todo esse processo? Mostraremos como a IA generativa pode ajudar a captar o sentimento de notícias sobre companhias, automatizando todo o processo com Python e Gemini.