Data Scientist

Revisão de 18h29min de 1 de outubro de 2025 por 161.69.101.64 (discussão)
(dif) ← Edição anterior | Revisão atual (dif) | Versão posterior → (dif)
  • Sophia
  • Carlos
  • PEdro
  • Samuel
  • Helô



Evolução na profissão

Tiago Kerr, 26 anos, foi um estudante de Estatística na UFU antes de se tornar um Cientista de Dados. Através de pesquisas de estatísticas de dados que conheceram a Ciência de dados. teve iniciação cientifica em estatística multivariaveis que é muito similar a Machine Learning, o que lhe deu acesso aos principais algoritmos. Após a iniciação cientifica, começou a prestar consultoria para pós graduação e sempre utilizando algoritmos de Ciência de dados. Com essa experiência, passou por diversas empresas até chegar nos dias de hoje onde atua aplicando Ciência de dados em redes sociais pela Brivia.

Descrição da atividade atual

A empresa trás uma certa demanda e o Cientista de Dados é responsável por, através de analise do banco de dados, identificar o que é mais e menos relevante/impactante para tal demanda, ou seja, transformar dados em informação de valor para a empresa. Através de metodologia chamada CRISP-DM que é: Business Understanding > Data Understanding > Data Preparation > Modeling > Evaluation > Deployment > DATA. (Sempre acompanhado de especialistas de determinada área)

Requisitos mínimos para exercer a profissão

Data Scientist (cientista de dados) é abordada em graduação de Ciência da Computação, Estatística, Sistemas de Informação e outros derivados da Tecnologia. E também, existem diversos cursos e livros sobre Ciência de dados que ensinam algoritmos que podem ser utilizados, porém existe diversos algoritmos e diversas situações que requer certo tipo de algoritmo. Recomenda-se conhecer mais sobre Data Science, desenvolver habilidades de programação (se especializar em uma linguagem primeiro), aprofundar em conceitos básicos de estatística/matemática, aprender a usar a linguagem de programação para manipulação de dados, fazer analises exploratórias e descritivas (como gráficos e relatórios), aprender sobre o conceito de aprendizado da maquina e ver modelos e algoritmos, aprender linguagem de banco de dados e por fim desenvolver o primeiro projeto.

Ferramentas usadas no dia-a-dia

Usa-se bastante ferramentas para divresas funções como Data Plataform & Ingestion Tools (Spark), Development Tools (Visual Studio), Linguagem de Programação (Java, R, Python), Deep Learning Tools (Open Neural Network Exchange), ML & AI Tools ( Microsoft ML), Data Exploration & Visualization (SQL server).

Tecnologias envolvidas

Deep learning é um tipo de machine learning que treina computadores para realizar tarefas como seres humanos, o que inclui reconhecimento de fala, identificação de imagem e previsões. Em vez de organizar os dados para serem executados através de equações predefinidas, o deep learning configura parâmetros básicos sobre os dados e treina o computador para aprender sozinho através do reconhecimento padrões em várias camadas de processamento. Em uma palavra, compreender. Deep learning é uma das bases da inteligência artificial (IA), e o interesse atual em deep learning se deve, em parte, à fascinação por IA. Por exemplo, sistemas como Siri e Cortana são parcialmente alimentados por deep learning. Vários desenvolvimentos estão hoje avançando graças ao deep learning como: Melhorias nos algoritmos; Novas abordagens de machine learning pra aprimorar a precisão dos modelos; novas classes de rede neurais estão sendo desenvolvidas para se adaptarem a diversas aplicações, etc. Ao mesmo tempo, interfaces homem-máquina evoluíram igualmente bem. O mouse e o teclado estão sendo substituídos por gestos, deslizares de telas, toques e linguagem natural, levando a um interesse renovado em IA e deep learning. Embora o foco atual do mercado em técnicas de deep learning seja para aplicações de computação cognitiva, há também um grande potencial para aplicações analíticas mais tradicionais, como na análise de séries temporais. Uma abordagem tradicional para analytics é utilizar os dados em mãos para desenvolver recursos que criam novas variáveis, então selecionar um modelo analítico e, finalmente, estimar os parâmetros (ou as incógnitas) desse modelo. Essas técnicas podem produzir sistemas preditivos que não difundem bem, uma vez que a integridade e a exatidão dependem da qualidade do modelo e de suas características.

Pesquisar
Deep Learning

Ética profissional

No contrato de um Cientista de dados, geralmente, possui uma parte especifica sobre a ética da empresa, sigilo e uma multa caso o profissional exponha os dados propositalmente. No geral, caso um cientista de dados perceba algo de diferente e incomum na analise de dados, ele deve comunicar o gestor. Caso um Cientista de dados descumpra essa ética, dificilmente ele conseguirá um novo emprego nessa área.

Exemplo de resultado tangível

Uma empresa tem muitos fornecedores e baseado em dados, (geografia, característica do cliente, do fornecedor, etc) dos últimos 4 anos e através desse conjunto de variáveis e um modelo aplicado, definiram qual fornecedor é o que menos atrasaria uma entrega em determinada situação.

Upload da apresentação

https://www.youtube.com/watch?v=VwfY-5Zw9FY


Dúvidas


  • 01. [Luiz Cláudio] O que são Dashboards? Para que servem? Cite um exemplo de Tomada de Decisão baseado num deles
    • Um dashboard é uma ferramenta de gestão da informação que ajuda no acompanhamento e exibição de indicadores chave de performance (KPIs), métricas e dados que indicam a saúde de um negócio, setor ou processo. Por meio de um Dashboard a empresa Callink define o perfil de desempenho de um certo funcionário.


  • 02. [Luiz Cláudio] Como funciona o ETL? Dê um exemplo de utilização prático.
    • ETL é um tipo de data integration em três etapas (extração, transformação, carregamento) usado para combinar dados de diversas fontes. Nesse processo, os dados são retirados (extraídos) de um sistema-fonte, convertidos (transformados) em um formato que possa ser analisado, e armazenados (carregados) em um armazém ou outro sistema.

Como exemplo, podemos considerar um Banco de dados de Clientes Especiais com todas as informações essenciais. O processo de limpeza removerá erros e padronizará as informações. O processo de complementação implicará no acréscimo de dados.

  • 03. [Luiz Cláudio] O que é DataLake?
    • O data lake é um tipo de repositório que armazena conjuntos grandes e variados de dados brutos em formato nativo. Com os data lakes, você tem uma visão não refinada dos dados.


  • 04. [Luiz Cláudio] Qual a vantagem da empresa em usar um BigData?
    • Mais precisão para a tomada de decisões; Diagnósticos cada vez mais completos; Maior volume de dados armazenados.


  • 05. [Luiz Cláudio] O que é uma Análise Exploratória?
    • É examinar os dados previamente à aplicação de qualquer técnica estatística. Desta forma o analista consegue um entendimento básico de seus dados e das relações existentes entre as variáveis analisadas.


  • 06. [Luiz Cláudio] Explique Clusterização e sua função nos desafios de uma atividade de Ciência de Dados.
    • Clusterização é agrupar uma base de dados em uma nova variável, por exemplo, um banco de dados de uma escola possui dados de todos os alunos como Sexo, Idade e etnia, você pode "clusterizar" esses dados pra achar um padrão e agrupar em uma nova variável como "alunos de 15 anos do sexo masculino branco".


  • 07. [Luiz Cláudio] Qual a competência (responsabilidade) de um Engenheiro de Dados?
    • Eles são responsáveis ​​por encontrar tendências nos conjuntos de dados e desenvolver algoritmos para ajudar a tornar os dados brutos informações úteis para a empresa.


  • 08. [Luiz Cláudio] Cite alguns algoritmos considerados como básicos para o iniciante.
    • Um dos algoritmos considerado para iniciante é o banco de dados da embarcação Titanic. que é muito vasta e através de seus conhecimentos em linguagem de programação pode manipular e clusterizar da maneira que quiser.


  • 09. [Luiz Cláudio] Vocês lidam com Banco de Dados NoSQL? Qual ou quais?


  • 10. [Davy Bittencourt Lima] Vcs tem algum papel em casos de vazamentos de dados?
    • O papel do Cientista de dados é comunicar seu gestor qualquer tipo de anomalia.