L’ensemble des métriques pour étalonner un cluster Hadoop sont disponibles dans les consoles du jobtracker.
Malheureusement ces métriques ne sont pas conservés. Ils sont effacés progressivement et seuls les derniers jobs Hadoop sont conservés.
Il existe plusieurs solutions disponibles en opensource pour pallier ce problème et réaliser facilement ses graphiques et ses rapports d’execution :
- Apache chukwa
- Un simple outil permettant d’intéroger le jobtracker grâce à l’API jobclient (fluxua) et de le stocker dans une base de données relationnel (starea)
- Metric Factory permettant de produire des formats affichable dans Graphite
- JMXTrans permettant d’afficher les informations JMX dans Graphite
- Ambari, outil complet d’HortonWorks
Voici les avantages/inconvénients de ces différentes solutions :
Solutions | Technologie | Web GUI | Agent | Stockage |
Apache Chukwa | Java | Portail configurable JSP/Servlet | Apache HBase | |
Starea et fluxua | Java | MySQL ou PostGRES | ||
MetricFactory avec Graphite | Java | Graphite frontend (Python) | Agent collecteur Python Carbon Graphite | MySQL ou PostGRES |
JMXTrans avec Graphite | Java | Graphite frontend (Python) | Agent collecteur Java JMX (JMXTrans) + Agent collecteur Python Carbon Graphite | MySQL ou PostGRES |
Apache Ambari | Java et Node.js | Frontend NodeJS | A votre choix |