Alimenter au fil de l’eau Apache Hadoop

Contrairement à l’import massif de données comme évoqué dans le dernier billet, Apache Hadoop peut être alimenté par 2 autres applications Apache au fil de l’eau.
Apache Kafka : développé initialement par Linkedin, Kafka est un système de messagerie asynchrone (broker de messages) s’appuyant sur Zookeeper pour synchroniser les différentes instances.
Kafka est plus rapide que les classiques brokers JMS (Apache ActiveMQ, JBossMQ, Websphere MQ, …) car la distribution des messages se fait sans garantie d’ordre et sans confirmation du la réception du message (acknowledge).
Apache Flume: developpé pour alimenter initialement Hadoop des fichiers de logs, il existe plusieurs connecteurs permettant de collecter d’autres sources d’information (JMS, IRC,…)

Leave a Reply

Your email address will not be published. Required fields are marked *

Human comment ? *