Discussão:Hadoop

Revisão de 17h16min de 1 de junho de 2015 por Lclaudio (discussão | contribs) (Criou página com '== Conceito == O Hadoop é um projeto da Apache Foundation para o desenvolvimento de ferramentas para computação distribuída e que inclui os seguintes sub-projetos: *Ha...')
(dif) ← Edição anterior | Revisão atual (dif) | Versão posterior → (dif)

Conceito

O Hadoop é um projeto da Apache Foundation para o desenvolvimento de ferramentas para computação distribuída e que inclui os seguintes sub-projetos:

  • Hadoop Common: Programas que dão suporte aos demais subprojetos do Hadoop.
  • HDFS: É um sistema de arquivos distribuídos que provê um alto throughput no accesso aos dados de aplicações.
  • MapReduce: É um framework para a distribuição do processamento de grandes volumes de dados em clusters de computadores.


Outros projetos relacionados com o Hadoop:

  • Avro: Sistema de serialização de dados.
  • Chukwa: A data collection system for managing large distributed systems.
  • HBase: A scalable, distributed database that supports structured data storage for large tables.
  • Hive: A data warehouse infrastructure that provides data summarization and ad hoc querying.
  • Mahout: A Scalable machine learning and data mining library.
  • Pig: Linguagem de fluxo de dados de alto nível e framework de execução para computação paralela.
  • ZooKeeper: Serviço de coordenação de alta performance para aplicações distribuídas.