Hadoop




Apache Hadoop est un écosystème (framework Java) adapté aux architectures pouvant gérer de grands volumes de données, distribuées (milliers de nœuds et des pétaoctets de données sur de simples machines x86 montées en grappe ou Cluster), scalables et avec une tolérance aux pannes et une disponibilité maximum.

Cette architecture reposait initialement sur

  • HDFS (système de gestion de fichiers) => Hadoop Distribued File System
  • MapReduce (approche d’interrogation de données) => Modèle de programmation massivement parallèle adapté au traitement de très grandes quantités de données
  • YARN qui constituent le noyau d'Hadoop. => Yet Another Resource Negociator. YARN vient se placer au dessus de HDFS (Hadoop Destributed File System) afin d’offrir des fonctionnalités de système d’exploitation pour les applications analytiques Big Data