Conceito
O Hadoop é um projeto da Apache Foundation para o desenvolvimento de ferramentas para computação distribuída e que inclui os seguintes sub-projetos:
- Hadoop Common: Programas que dão suporte aos demais subprojetos do Hadoop.
- HDFS: É um sistema de arquivos distribuídos que provê um alto throughput no accesso aos dados de aplicações.
- MapReduce: É um framework para a distribuição do processamento de grandes volumes de dados em clusters de computadores.
Outros projetos relacionados com o Hadoop:
- Avro: Sistema de serialização de dados.
- Chukwa: A data collection system for managing large distributed systems.
- HBase: A scalable, distributed database that supports structured data storage for large tables.
- Hive: A data warehouse infrastructure that provides data summarization and ad hoc querying.
- Mahout: A Scalable machine learning and data mining library.
- Pig: Linguagem de fluxo de dados de alto nível e framework de execução para computação paralela.
- ZooKeeper: Serviço de coordenação de alta performance para aplicações distribuídas.