- 2a. Prova - Banco de Dados
- Questão 9:
- Data mining:
- Objetivo: vasculhar uma grande quantidade de dados armazenados em depósito de dados, banco de dados ou outros repositórios de informação.
- Etapas básicas: exploração, construção de modelo, definição de padrão e validação e verificação
- Tarefas: detecção de anomalias, aprendizagem da regra de associação (modelo de dependência), clustering (agrupamento), classificação, regressão e sumarização.
- Etapas aprofundadas:
- Análise do problema: selecionar os dados e definir as técnicas utilizadas na análise.
- Preparação dos Dados: Coletânea de dados, Avaliação, Consolidação e limpeza, Seleção de dados e Transformação
- Modelagem: gera um modelo a ser analisado posteriormente.
- Análise e validação de resultados: visa detectar o que há de implícito num modelo.
- Exemplos: Wal- Mart, Telecomunicações, Administração em Alto Nível, Medicina
- Ferramentas: RapidMiner, MOA Massive Online Analysis, WEKA, Enterprise Miner.
- Datawarehouse:
- Objetivo: armazenar em um único local, somente os dados considerados uteis no momento de tomar decisões
- O que é? coleção de dados orientada por assuntos, integrada, variante no tempo, que tem por objetivo dar suporte aos processos de tomada de decisão.
- Funções:
- Permitem que sistemas mais antigos continuem em operação
- Consolidam dados inconsistentes dos sistemas mais antigos em conjuntos coerentes
- Extraem benefícios de novas informações oriundas das operações correntes
- Provém ambiente para o planejamento e arquitetura de novos sistemas de cunho operacional
- Exemplos: empresas de transporte aéreo
- Ferramentas: Hive.
- NoSQL:
- Objetivo: suprir necessidades em demandas onde os bancos de dados relacionais são ineficazes
- Vantagem: tem uma grande facilidade na distribuição horizontal, ou seja, mais dados, mais servidores, não necessariamente de alta performance e são muito tolerantes a erros
- Requisitos:
- alta performance
- escalabilidade
- replicação
- suporte à dados estruturados e sub colunas
- Núcleos:
- Wide Column Store/Column Families
- Document Store
- Key Value/Tuple Store
- Eventually Consistent Key Value Store
- Graph Databases
- Object Databases
- Grid Database Solutions
- XML Databases
- Exemplos: Google, Hypertable
- Data mining:
- Questão 10:
- Sistemas Distribuídos:
- Definiçao: conjunto de computadores independentes entre si que se apresenta a seus usuários como um sistema único e coerente
- Vantagens:
- Acesso a recursos: o usuário independe de uma máquina especifica e local para acessar os dados e recursos de computação.
- Transparência: Todo o processo é transparente ao usuário de acordo com seu nível.
- Abertura : capacidade de acesso do usuário para melhorias, capacidade de expansão e manutenção.
- Escalabilidade: resume-se no tamanho, localização e administração.
- Caracteristicas:
- Ausência de um relógio universal
- Sistemas autônomos de diferentes regiões
- Tipos de computação em sistemas distribuídos:
- Cluster : hardware e software semelhante, utilizado em programação paralela
- Grade : componentes predominantemente heterogêneos embasando o SD e suas respectivas aplicações
- Business Inteligence:
- O que é BI? Conjunto de teorias, metodologias, arquiteturas e tecnologias que transformam dados crus em informação útil e significativa para interesses empresariais
- Utilização: tornar a interpretação de dados voluptuosos algo amigável e são capazes por prover visões do passado, do presente e também preditivas das operações empresariais
- Objetivo: auxiliar as empresas em estratégias de mercado e decisões considerando informações detalhadas usando uma tecnologia que propicia a transformação dos dados em informação qualitativa
- Tecnologia: utiliza softwares para obtenção, armazenamento, análise e acesso para os objetivos específicos de cada negócio como por exemplo, Data Warehouse (DW), Data Mart, ODS, Data Mining, ETL e outras
- Benefícios:
- Tomada de decisão de forma mais pautada
- Minimização de riscos
- Utilização de fatos ao invés da subjetividade
- Velocidade de respostas
- Previsão através de tendências
- Diminuição de custos
- Aumento dos lucros
- Procedimento:
- Identificação dos stakeholders
- Levantamento de todos indicadores
- Escolha de ferramenta
- Mapeamento correto da fonte dos dados
- Mobilização dos usuários
- Ferramentas mais utilizadas: Pentaho, WebFocus, SAP Netweaver, MicroStrategy, SAS, SAP Business Objects, IBM COGNOS, Board, ActuateOne, Oracle Hyperion e Microsoft BI Tools
- BigData:
- Conceito: conjuntos de dados extremamente grandes e que, por este motivo, necessitam de ferramentas especialmente preparadas para lidar com grandes volumes, de forma que toda e qualquer informação nestes meios possa ser encontrada, analisada e aproveitada em tempo hábil
- 5 “Vs”:
- Volume: Quantidades de dados realmente grandes e que crescem exponencialmente
- Velocidade: Tratamento dos dados (obtenção, gravação, atualização, ...) deve ser feito em tempo hábil - muitas vezes em tempo real
- Variedade: Dados de “tipos” diferentes, como imagens, áudios, vídeos e não apenas números e textos
- Veracidade: Processos que garantem o máximo possível a consistência dos dados
- Valor: determinar a relevância entre os grandes volumes de dados e como criar valor a partir dessa relevância
- Dealhe: Bancos do tipo NoSQL são mais flexíveis, sendo inclusive compatíveis com um grupo de premissas que "compete" com as propriedades ACID e BASE (Basically Available, Soft state, Eventually consistency)
- Ferramenta atual: Haddop.
- Sistemas Distribuídos: