Evolução na profissão
Uma grande parte dos Cientistas de dados começaram suas carreiras como analistas de dados ou até mesmo no ramo da estatística, entretando, devido ao crescimento do chamado "Big Data" juntamente com a evolução de processadores e memórias essa profisão ganhou um espaço de destaque no mercado de trabalho.
Isso se deve a forma criativa e inovadora que esses profissionais tem de solucionar problemas que ninguém jamais conseguiu, gerando assim um alto lucro.
Descrição da atividade atual
Cientista de dados são uma nova geração de especialistas em analisar dados, os quais possuem uma habilidade técnica genuina para resolver problemas de alta complexidade.
Tais profissionais são considerados meio matemáticos,meio cientistas da computação. Isso significa que, é o cientista de dados que deve manipular essa gigantesca massa de informações disponível a ele e extrair da mesma dados que sejam de seu interesse. Um cientista de dados não necessita de codificar os algoritmos a utilizados, pois na maioria das vezes há um grupo de cientistas de dados, onde cada um pode assumir responsabilidade em um determinado segmento.
Requisitos mínimos para exercer a profissão
1º) Autoconhecimento.
2º)Possuir um equipamento adequado, isso quer dizer, ter a sua disposição um computador/notebook com um bom processador.
3º)Ter conhecimentos na área de estatística e matemática.
4º)Ter conhecimentos e saber trabalhar com BigData.
5º)Ter um conhecimento sobre Python e R.
6º)Ter conhecimento sobre a área de negócios.
7º)Possuir boas técnicas de apresentação de dados.
8º)Praticar !!!
Ferramentas usadas no dia-a-dia
Python, Java, R e Hadoop
Tecnologias envolvidas
Hadoop (framework para processamento paralelo de dados),além disso, tecnologias voltadas a IA,machine learning e deep learning.
Ética profissional
Em uma empresa o cientista de dados muitas vezes possui acesso a informações de alto valor para empresa, já que ele é responsável pela manipulação de BigData, uma falta de ética nessa situação poderia causar sérios problemas, tais como vazamento de informações e afins.
Exemplo de resultado tangível
Arthur atuou no Bradesco Cartões, na antecipação de recebíveis, seu trabalho consistiu em elaborar um previsão de quais clientes do Bradesco Cartões estariam dispostos a antecipar seus recebíveis, podendo assim ter uma porcentagem de antecipação maior, que de acordo com Arthur , a taxa de acerto nas previsões era de mais de 80%, oque trouxe muito lucro a empresa.
Upload da apresentação
- Utilize o ícone (Arquivo Embutido), ao lado do A maiúsculo para inserir a apresentação.
Dúvidas
- 01. O que é Análise Estatística? De que forma ela pode ajudar o Cientista de Dados?
- Análise Estatística é a ciência de coletar, explorar e apresentar dados para encontrar padrões escondidos e tendências. O conhecimento em Matemática faz parte do pacote essencial para quem pretende trabalhar como Cientista de Dados. Modelos estatísticos e algoritmos de Machine Learning, dependem de conhecimentos em Estatística.
- 02. Machine Learning: Explique a interação entre entradas, saídas e regras. Dê um exemplo.
- Em Machine Learning, os dados de entrada e resultados desejados são fornecidos e o algoritmo se encarrega de encontrar relações estatísticas dentro desse "banco de dados" para encontrar as entradas para os resultados desejados, ou seja, eles “aprendem” com o passar do tempo e com o acúmulo de “experiência”.
Um exemplo de Machine Learning é a recomendação de produtos nas propagandas pela internet, oferecendo aos clientes, itens com base naquilo que eles estão comprando.
- 03. Quais as 3 habilidades básicas que definem o perfil do Cientista de Dados? Discuta um caso se acontecer apenas 2 destas habilidades.
- Um cientista de dados deve dominar, pelo menos parcialmente, 3 áreas de conhecimento que são chamadas de Hacking, Matemática e Estatística; e, Negócios. Caso aconteça apenas Hacking e Negócios , é possível que o profissional possa usar de suas habilidades em Hacking para lucrar de forma ilegal, eles se tornaram os chamados "Black Hat Hackers".
- 04. O que é Analytics? Descreva um resultado fornecido por essa prática.
- Analytics, refere-se à possibilidade de se utilizar dados, análises e raciocínio sistemático para seguir em um processo de tomada de decisão muito mais eficiente. Com isso, é possível, por exemplo, uma empresa prever a probabilidade de seus clientes desistirem do plano de tv a cabo, e assim, recapturá-los por meio de ofertas.
- 05. Cite, no mínimo, 3 ferramentas usadas por um Cientista de Dados.
- R, Python, SQL, Java.
- 06. Como resolver a questão da ineficiência do Python se podemos lidar com petabytes de dados?
- Apesar de Python ser uma linguagem simples de se codificar, ela é interpretada, o que causa ineficiência para uma grande quantidade de dados como petabytes, por isso, geralmente se utiliza Java para superar esse problema.
-----------------------------------------------
Questões
- DAdos ----> Decisão
- Descritivo: o que aconteceu
- Diagnóstico: por que
- Preditivo: O que vai acontecer
- Prescritivo: O que devo fazer
Site: Datascience.pizza / Kaggle.com
- PAsssos para ser um CD
- Matemática e estatistiva
- Negócios
- Linguagens de programação
- Técnicas de apresentação
- Pratique
- Quais as 3 habilidades básicas que definem o perfil do Cientista de Dados? Discuta um caso se acontecer apenas 2 destas habilidades.
- Hacking + Business + Matemática e Estatística. Hack + Busin = perigo, fraude?
- 3 ferramentas para o CD:
- Python, R e Java
- Deep learning?
- Afeta a eficiência do Python?
- Quanto custa o tempo de processamento x tempo do programador? Prog mais barato
- Como resolver a questão da ineficiência do Python se podemos lidar com petabytes de dados?
- Usando rotinas ou módulos em Java ou C para melhorar a eficiência
- Qual a função do Hadoop?
- Distribuir
- E do MapReduce?
- Mapear os dados armazenados e consolidar estes dados com um objetivo final
- Exemplo de resultado tangível. Case da empresa
- Exemplo de Deep learning
- Chinês localizado frente a milhares de pessoas baseado no reconhecimento de imagem, Bigdata e STT
- 1. Descreva um exemplo prático gerado pelos resultados de um Cientista de Dados.
- 2. O que é deep learning?
- Ramo do Machine Learning baseado em um conjunto de algoritmos que promovem abstrações de alto nível em dados usando um grafo de profundidade com múltiplas camadas de processamento compostas de múltiplas transformações não-lineares
- 3. Defina "“full stack engineer”
- Alguém que domina todo o processo de ciência de dados
- 4. Destaque 3 tecnologias que fazem parte do BigData.
- Hadoop, MapReduce e NoSQL
- 5. O que é Data Mining?
- Mineração de Dados
Descrição Cientistas de Dados
O cientista de dados, nome dado ao profissional desta área, vive em três mundos: o dos negócios, o da matemática e o de TI. Sua função é transformar os dados disponíveis em balizadores de decisões a serem tomadas.
Esse processo de trabalho com dados exige que este profissional tenha qualificações na área de TI para que consiga acessar e processar o dado de forma eficiente e em tempo hábil, capacidades matemáticas para entender as implicações dos modelos utilizados e de negócio para que possa traduzir tudo isso em relatórios que possibilitem decisões assertivas.
Funções Típicas dos cientistas de dados
• Coletar grandes quantidades de dados “unruly” ou desafiadores e transformá-los em um formato mais prático;
• Solucionar problemas de negócios com técnicas de orientação à dados;
• Trabalhar com uma variedade de linguagens de programação, incluindo SAS, R e Python;
• Ter uma sólida compreensão de estatísticas, incluindo testes estatísticos e distribuições;
• Manter-se a par das técnicas analíticas, como a aprendizagem de máquinas, ou machine learning, a aprendizagem profunda, ou deep learning e análise de dados textuais, ou text analytics;
• Comunicar-se e colaborar com TI e área de negócios;
• Procurar por ordens e padrões nos dados, bem como detectar tendências que podem ajudar os resultados de uma empresa;
Como se tornar um cientista de dados
Escolher uma universidade que ofereça um diploma em ciência de dados, ou pelo menos, uma que ofereça aulas de ciência de dados e analytics é um primeiro passo importante. É importante também que tenham um talento especial para a resolução de problemas, a capacidade de comunicação e uma curiosidade insaciável sobre como as coisas funcionam.Além dessas qualidades, você também precisará de um sólido conhecimento em:
Estatística e machine learning; Linguagens de codificação, como SAS, R ou Python; Bancos de dados como MySQL e Postgres; Visualização de dados e tecnologias de informação; Hadoop e MapReduce;
Mercado de Trabalho
A escassez deste profissional se reflete nos salários. Ao longo de toda a carreira, os cientistas de dados têm remuneração superior à dos técnicos, que até o surgimento do big data eram os responsáveis por cuidar da manutenção dos bancos de dados.
No Brasil, um profissional recém-formado pode ganhar até 6 000 reais, enquanto os gerentes chegam a receber cerca de 20 000 reais. Segundo a empresa de recolocação americana Glassdoor, os profissionais do big data também são valorizados nos Estados Unidos. Lá, o ganho médio de um cientista de dados em início de carreira é de 10 000 dólares mensais, o dobro do de um programador.
Referências Bibliográficas