Sem resumo de edição
Maxley (discussão | contribs)
 
(56 revisões intermediárias por 7 usuários não estão sendo mostradas)
Linha 1: Linha 1:
Descrição Cientistas de Dados
= Evolução na profissão =
No inicio o profissional começou com um curso básico de informatica, que teve o seu foco no aprendizado de algumas ferramentas, sendo elas o Word, Excel e o Power point, outro curso que o profissional também fez foi um de montagem, manutenção e configuração de computadores e redes que no futuro rendeu a ele um estagio na área, também cursou um curso técnico em informatica e depois começou sua graduação em computação.


----
Durante a graduação iniciou um estagio em manutenção de computadores e também começou uma iniciação cientifica, outro estagio que o profissional trabalhou foi em desenvolvimento web PHP e apos sua graduação, iniciou o mestrado em mineração de dados aplicados a engenharia de software.  
O cientista de dados, nome dado ao profissional desta área, vive em três mundos: o dos negócios, o da matemática e o de TI. Sua função é transformar os dados disponíveis em balizadores de decisões a serem tomadas. Esse processo de trabalho com dados exige que este profissional tenha qualificações na área de TI para que consiga acessar e processar o dado de forma eficiente e em tempo hábil, capacidades matemáticas para entender as implicações dos modelos utilizados e de negócio para que possa traduzir tudo isso em relatórios que possibilitem decisões assertivas.


----
Já no mercado de trabalho começou como um analista de BI júnior na Algar Telecom, depois passou a ser um analista de dados DW (Data Warehouse) e apos um analista de DBM (Data Base Marketing) para assim então chegar a posição de ser um cientista de dados.
Funções Típicas de cientistas de dados
<br>


Coletar grandes quantidades de dados “unruly” ou desafiadores e transformá-los em um formato mais prático;
= Descrição da atividade atual =
Solucionar problemas de negócios com técnicas de orientação à dados;
Atualmente o profissional trabalha como analista de dados, engenheiro de dados e cientista de dados, basicamente como analista ele monta dashboards que tem como objetivo apresentar a situação do cenário de vendas e lucros por exemplo, já como engenheiro de dados ele processa um conjunto de informações e transforma em uma data warehouse e como cientista de dados ele analisa vários dados e supõe a próxima ação do cliente, se ele tem tendencias ou não de cancelar o contrato com a empresa.
Trabalhar com uma variedade de linguagens de programação, incluindo SAS, R e Python;
<br>
Ter uma sólida compreensão de estatísticas, incluindo testes estatísticos e distribuições;
Manter-se a par das técnicas analíticas, como a aprendizagem de máquinas, ou machine learning, a aprendizagem profunda, ou deep learning e análise de dados textuais, ou text analytics;
Comunicar-se e colaborar com TI e área de negócios;
Procurar por ordens e padrões nos dados, bem como detectar tendências que podem ajudar os resultados de uma empresa;


----
= Requisitos mínimos para exercer a profissão =
Como se tornar um cientista de dados
Para exercer a função e necessário ter o domínio do inglês, possuir conhecimento sobre logica, estruturação de dados (lista, matriz, tabela), estatística descritiva e probabilidade e possuir conhecimento do negocio e do problema a ser resolvido.


Escolher uma universidade que ofereça um diploma em ciência de dados, ou pelo menos, uma que ofereça aulas de ciência de dados e analytics é um primeiro passo importante. É importante também que tenham um talento especial para a resolução de problemas, a capacidade de comunicação e uma curiosidade insaciável sobre como as coisas funcionam.Além dessas qualidades, você também precisará de um sólido conhecimento em:
É de extrema importância também possuir algumas habilidades em programação,SQL, modelagem de dados em bancos relacionais e plotagem de gráficos e dashboards.


Estatística e machine learning;
Outro fator necessário para exercer a profissão são algumas atitudes como ser autodidata, possuir pensamento critico, criatividade e perseverança, alem de estar disposto a colaborar com seus colegas de equipe.
Linguagens de codificação, como SAS, R ou Python;
<br>
Bancos de dados como MySQL e Postgres;
Visualização de dados e tecnologias de informação;
Hadoop e MapReduce;


----
= Ferramentas usadas no dia-a-dia =
* Participantes:
Algumas ferramentas usadas no dia-a-dia são Knime, Google Data Studio e jupyter.
** Guilherme Vasconcelos Costa
<br>
** Luiz Felipe Vasconcelos Costa
 
** André Felipe Machado
= Tecnologias envolvidas =
** Bruno Coelho Lopes
Algumas tecnologias envolvidas são BIG DATA, CLOUD e IOT.
** Patrick Coelho Freitas
 
** João Victor da Costa Gonçalves.
Aprofundando um pouco mais sobre computação em nuvem ou CLOUD, definimos ela como um armazenamento de dados feito em serviços que poderão ser acessados de qualquer lugar do mundo, a qualquer hora, não havendo necessidade de instalação de programas ou de armazenar dados. O acesso a programas, serviços e arquivos é remoto, através da Internet. O uso desse modelo se torna mais viável do que o uso de unidades físicas. Num sistema operacional disponível na Internet, a partir de qualquer computador e em qualquer lugar, pode-se ter acesso a informações, arquivos e programas num sistema único, independente de plataforma. O requisito mínimo é um computador compatível com os recursos disponíveis na Internet. O PC torna-se apenas um chip ligado à Internet sendo necessários somente os dispositivos de entrada (teclado) e saída (monitor).
 
= Ética profissional =
O Cientista de Dados é um profissional que trabalha e manipula diversos tipos de dados, muitos desses dados são pessoais e obtidos de dispositivos privados de pessoas comuns, o Cientista de Dados deve ser ético e reconhecer quais dados caracterizam uma invasão de privacidade e não utilizá-los nem acessá-los para obter vantagens no ambiente onde está trabalhando. Deve zelar também por todos os dados com os quais está trabalhando e também deve ser transparente nos seus métodos de análise e manipulação desses dados.
 
Esse profissional deve saber usar as estatísticas obtidas desses dados para se chegar a algum resultado condizente com os dados levantados e não forçar resultados por intuição ou para levar vantagem em algo.
 
É importante também o profissional sempre admitir seus erros e também aprender com eles(ou também aprender com os erros dos outros).
 
Um ótimo texto sobre dilemas éticos e responsabilidade envolvendo tanto a Ciência de Dados quanto a Inteligência Artificial no que tange a manipulação de dados de terceiros pode ser acessado pelo link: [https://medium.com/@fleurynewton/%C3%A9tica-e-responsabilidade-social-na-ci%C3%AAncia-de-dados-e-na-intelig%C3%AAncia-artificial-d648bd7e4afc]. O texto questiona e deixa dúvidas de como tratar esses dados e até mesmo o que as empresas e funcionários acham dessa manipulação de dados privados.
 
<br>
 
= Exemplo de resultado tangível =
Um exemplo de resultado tangível criado por cientistas de dados é o Customer and Network Analytics da IBM. Algumas das funcionalidades desse software são:
*Ajudar  a entender sua rede, equilibrar e utilizar recursos da melhor maneira possível para otimizar o desempenho e reduzir as estruturas de custo.
*Pode ajudar a tornar o planejamento de capacidade mais fácil para novos serviços. Como resultado, os recursos necessários para um serviço novo ou expandido podem ser calculados e provisionados bem antes da ativação, garantindo que os produtos cheguem ao mercado a tempo.
*Desempenha um papel fundamental em insights de mineração que podem identificar novos fluxos de receita e criar casos de negócios.
<br>
 
= Upload da apresentação =
- https://drive.google.com/open?id=1yp90I8JYkhFj_BaLXzzTB0qigl7HM8RZ
<br>
 
= Dúvidas =
<br>
 
* 01. O que é BigData? E DataLake?
**  Big data é o termo dado para o grande volume de dados estruturados e não estruturados gerado a todo momento no mundo. Esse grande volume de dados aumenta de forma exponencial a cada minuto e aplicativos de processamento de dados não conseguem lidar com todos esses dados em um tempo tolerável.
** Data Lake é um repositório que armazena grandes quantidades de dados geradas pela ou para uma determinada empresa. Geralmente grandes empresas que produzem ou recebem grandes quantidade de dados possuem data lakes para armazenar dados ainda em estado bruto e esses dados podem ou não vir a ser uteis posteriormente em uma análise, geralmente feita por cientistas de dados.
 
<br>
 
* 02. O que são Dashboards? Para que servem?
** Dashboard é um painel visual que apresenta um conjunto de informações de maneira limpa e objetiva. Os Dashboards geralmente são adotados por empresas para ajudar no monitoramento dos resultados e gestão de negócios mostrando dados atualizados em tempo real sem a necessidade de um profissional para atualizar tudo manualmente.
<br>
 
* 03. Qual a característica da Linguagem R? É procedimental, lógica, funcional?
** R é uma linguagem de programação funcional muito usada por cientista de dados para análise de dados.
<br>
 
* 04. O que faz o Analista de DBM?
** Realiza a Gestão do DBM (Database Marketing) da empresa, acompanhando de perto melhorias e alterações. As principais funções deste profissional são a coleta e tratamento de informações da base de dados, analise destes dados e a geração de inteligência a partir destes dados (o que pode render muito para o financeiro da empresa).
<br>
 
* 05. Qual a diferença entre DataWarehouse e Data Mining?
** Data mining é um conjunto de processos utilizado para tratar grandes volumes de dados procurando obter padrões como regras ou associações para que seja possível extrair informações dos mesmos.
**Data warehouse é um grande repositório onde ficam armazenados dados estruturados e tratados com o propósito de serem estudados ou “minerados” através do data mining.
<br>
 
* 06. Como funciona o ETL? Dê um exemplo de utilização prática.
** ETL (Extract, Transformation and Load) é um processo de extração, transformação e carga para a construção de um Data Warehouse.
**No transporte de dados de um ou mais Data Lake para um Data Warehouse (processo de extract) deve haver um processamento para definir claramente quais desses dados são relevantes para o tipo de problema que será analisado. Após selecionados os dados que alimentarão o Data Warehouse os mesmos deverão ser tratados (processo de transformação) e processos como padronização de tamanhos e tipos, substituição de caracteres estranhos, correção de erros de digitação são iniciados para que em seguida os dados sejam carregados no Data Warehouse (processo de carga).
 
<br>
 
* 07. Para que serve um CahtBot?
** Chatbots são muito uteis para otimização na resolução de problemas padrões ou para comunicação básica com clientes virtuais de uma determinada loja ou empresa que acaba poupando tempo e recursos no atendimento. Geralmente os chatbots são equipados com soluções para problemas básicos que o cliente esteja enfrentando, caso o problema persista o cliente é direcionado ao suporte técnico e somente a partir daí uma pessoa vai se disponibilizar a resolver o problema do mesmo.
<br>

Edição atual tal como às 00h02min de 2 de julho de 2019

Evolução na profissão

No inicio o profissional começou com um curso básico de informatica, que teve o seu foco no aprendizado de algumas ferramentas, sendo elas o Word, Excel e o Power point, outro curso que o profissional também fez foi um de montagem, manutenção e configuração de computadores e redes que no futuro rendeu a ele um estagio na área, também cursou um curso técnico em informatica e depois começou sua graduação em computação.

Durante a graduação iniciou um estagio em manutenção de computadores e também começou uma iniciação cientifica, outro estagio que o profissional trabalhou foi em desenvolvimento web PHP e apos sua graduação, iniciou o mestrado em mineração de dados aplicados a engenharia de software.

Já no mercado de trabalho começou como um analista de BI júnior na Algar Telecom, depois passou a ser um analista de dados DW (Data Warehouse) e apos um analista de DBM (Data Base Marketing) para assim então chegar a posição de ser um cientista de dados.

Descrição da atividade atual

Atualmente o profissional trabalha como analista de dados, engenheiro de dados e cientista de dados, basicamente como analista ele monta dashboards que tem como objetivo apresentar a situação do cenário de vendas e lucros por exemplo, já como engenheiro de dados ele processa um conjunto de informações e transforma em uma data warehouse e como cientista de dados ele analisa vários dados e supõe a próxima ação do cliente, se ele tem tendencias ou não de cancelar o contrato com a empresa.

Requisitos mínimos para exercer a profissão

Para exercer a função e necessário ter o domínio do inglês, possuir conhecimento sobre logica, estruturação de dados (lista, matriz, tabela), estatística descritiva e probabilidade e possuir conhecimento do negocio e do problema a ser resolvido.

É de extrema importância também possuir algumas habilidades em programação,SQL, modelagem de dados em bancos relacionais e plotagem de gráficos e dashboards.

Outro fator necessário para exercer a profissão são algumas atitudes como ser autodidata, possuir pensamento critico, criatividade e perseverança, alem de estar disposto a colaborar com seus colegas de equipe.

Ferramentas usadas no dia-a-dia

Algumas ferramentas usadas no dia-a-dia são Knime, Google Data Studio e jupyter.

Tecnologias envolvidas

Algumas tecnologias envolvidas são BIG DATA, CLOUD e IOT.

Aprofundando um pouco mais sobre computação em nuvem ou CLOUD, definimos ela como um armazenamento de dados feito em serviços que poderão ser acessados de qualquer lugar do mundo, a qualquer hora, não havendo necessidade de instalação de programas ou de armazenar dados. O acesso a programas, serviços e arquivos é remoto, através da Internet. O uso desse modelo se torna mais viável do que o uso de unidades físicas. Num sistema operacional disponível na Internet, a partir de qualquer computador e em qualquer lugar, pode-se ter acesso a informações, arquivos e programas num sistema único, independente de plataforma. O requisito mínimo é um computador compatível com os recursos disponíveis na Internet. O PC torna-se apenas um chip ligado à Internet sendo necessários somente os dispositivos de entrada (teclado) e saída (monitor).

Ética profissional

O Cientista de Dados é um profissional que trabalha e manipula diversos tipos de dados, muitos desses dados são pessoais e obtidos de dispositivos privados de pessoas comuns, o Cientista de Dados deve ser ético e reconhecer quais dados caracterizam uma invasão de privacidade e não utilizá-los nem acessá-los para obter vantagens no ambiente onde está trabalhando. Deve zelar também por todos os dados com os quais está trabalhando e também deve ser transparente nos seus métodos de análise e manipulação desses dados.

Esse profissional deve saber usar as estatísticas obtidas desses dados para se chegar a algum resultado condizente com os dados levantados e não forçar resultados por intuição ou para levar vantagem em algo.

É importante também o profissional sempre admitir seus erros e também aprender com eles(ou também aprender com os erros dos outros).

Um ótimo texto sobre dilemas éticos e responsabilidade envolvendo tanto a Ciência de Dados quanto a Inteligência Artificial no que tange a manipulação de dados de terceiros pode ser acessado pelo link: [1]. O texto questiona e deixa dúvidas de como tratar esses dados e até mesmo o que as empresas e funcionários acham dessa manipulação de dados privados.


Exemplo de resultado tangível

Um exemplo de resultado tangível criado por cientistas de dados é o Customer and Network Analytics da IBM. Algumas das funcionalidades desse software são:

  • Ajudar a entender sua rede, equilibrar e utilizar recursos da melhor maneira possível para otimizar o desempenho e reduzir as estruturas de custo.
  • Pode ajudar a tornar o planejamento de capacidade mais fácil para novos serviços. Como resultado, os recursos necessários para um serviço novo ou expandido podem ser calculados e provisionados bem antes da ativação, garantindo que os produtos cheguem ao mercado a tempo.
  • Desempenha um papel fundamental em insights de mineração que podem identificar novos fluxos de receita e criar casos de negócios.


Upload da apresentação

- https://drive.google.com/open?id=1yp90I8JYkhFj_BaLXzzTB0qigl7HM8RZ

Dúvidas


  • 01. O que é BigData? E DataLake?
    • Big data é o termo dado para o grande volume de dados estruturados e não estruturados gerado a todo momento no mundo. Esse grande volume de dados aumenta de forma exponencial a cada minuto e aplicativos de processamento de dados não conseguem lidar com todos esses dados em um tempo tolerável.
    • Data Lake é um repositório que armazena grandes quantidades de dados geradas pela ou para uma determinada empresa. Geralmente grandes empresas que produzem ou recebem grandes quantidade de dados possuem data lakes para armazenar dados ainda em estado bruto e esses dados podem ou não vir a ser uteis posteriormente em uma análise, geralmente feita por cientistas de dados.


  • 02. O que são Dashboards? Para que servem?
    • Dashboard é um painel visual que apresenta um conjunto de informações de maneira limpa e objetiva. Os Dashboards geralmente são adotados por empresas para ajudar no monitoramento dos resultados e gestão de negócios mostrando dados atualizados em tempo real sem a necessidade de um profissional para atualizar tudo manualmente.


  • 03. Qual a característica da Linguagem R? É procedimental, lógica, funcional?
    • R é uma linguagem de programação funcional muito usada por cientista de dados para análise de dados.


  • 04. O que faz o Analista de DBM?
    • Realiza a Gestão do DBM (Database Marketing) da empresa, acompanhando de perto melhorias e alterações. As principais funções deste profissional são a coleta e tratamento de informações da base de dados, analise destes dados e a geração de inteligência a partir destes dados (o que pode render muito para o financeiro da empresa).


  • 05. Qual a diferença entre DataWarehouse e Data Mining?
    • Data mining é um conjunto de processos utilizado para tratar grandes volumes de dados procurando obter padrões como regras ou associações para que seja possível extrair informações dos mesmos.
    • Data warehouse é um grande repositório onde ficam armazenados dados estruturados e tratados com o propósito de serem estudados ou “minerados” através do data mining.


  • 06. Como funciona o ETL? Dê um exemplo de utilização prática.
    • ETL (Extract, Transformation and Load) é um processo de extração, transformação e carga para a construção de um Data Warehouse.
    • No transporte de dados de um ou mais Data Lake para um Data Warehouse (processo de extract) deve haver um processamento para definir claramente quais desses dados são relevantes para o tipo de problema que será analisado. Após selecionados os dados que alimentarão o Data Warehouse os mesmos deverão ser tratados (processo de transformação) e processos como padronização de tamanhos e tipos, substituição de caracteres estranhos, correção de erros de digitação são iniciados para que em seguida os dados sejam carregados no Data Warehouse (processo de carga).


  • 07. Para que serve um CahtBot?
    • Chatbots são muito uteis para otimização na resolução de problemas padrões ou para comunicação básica com clientes virtuais de uma determinada loja ou empresa que acaba poupando tempo e recursos no atendimento. Geralmente os chatbots são equipados com soluções para problemas básicos que o cliente esteja enfrentando, caso o problema persista o cliente é direcionado ao suporte técnico e somente a partir daí uma pessoa vai se disponibilizar a resolver o problema do mesmo.