Discussão:Hadoop

Conceito

O Hadoop é um projeto da Apache Foundation para o desenvolvimento de ferramentas para computação distribuída e que inclui os seguintes sub-projetos:

Hadoop Common: Programas que dão suporte aos demais subprojetos do Hadoop.
HDFS: É um sistema de arquivos distribuídos que provê um alto throughput no accesso aos dados de aplicações.
MapReduce: É um framework para a distribuição do processamento de grandes volumes de dados em clusters de computadores.

Outros projetos relacionados com o Hadoop:

Avro: Sistema de serialização de dados.
Chukwa: A data collection system for managing large distributed systems.
HBase: A scalable, distributed database that supports structured data storage for large tables.
Hive: A data warehouse infrastructure that provides data summarization and ad hoc querying.
Mahout: A Scalable machine learning and data mining library.
Pig: Linguagem de fluxo de dados de alto nível e framework de execução para computação paralela.
ZooKeeper: Serviço de coordenação de alta performance para aplicações distribuídas.