L’architecture Apache Pig repose sur deux composants principaux : le langage Pig Latin et l’environnement runtime permettant l’exécution des programmes PigLatin.

Le langage Pig Latin permet d’écrire des programmes d’analyse de données. Il délivre divers opérateurs que les programmeurs peuvent utiliser pour développer leurs propres fonctions pour lire, écrire ou traiter des données.

Un programme Pig Latin est composé d’une série de transformations ou d’opérations, appliquées aux données ” input ” (entrée) pour produire un ” output  “. Ces opérations décrivent un flux de données traduit en une représentation exécutable par l’environnement d’exécution Hadoop Pig.

Pour analyser des données en utilisant Apache Pig, les programmeurs doivent impérativement écrire des scripts avec le langage Pig Latin. Tous ces scripts sont convertis en tâches Map et Reduce de façon interne. Le composant Pig Engine se charge de convertir les scripts en jobs MapReduce.

Toutefois, le programmeur n’a même pas connaissance de ces jobs. C’est ainsi que Pig permet aux programmeurs de se concentrer sur les données plutôt que sur la nature de l’exécution.

On distingue deux modes d’exécution pour Pig. Le mode Local s’exécute sur un JVM unique et utilise le système de fichier local. Ce mode est adapté pour l’analyse de petits ensembles de données.

En mode Map Reduce, les requêtes écrites en Pig Latin sont traduites en jobs MapReduce et exécutées sur un cluster Hadoop. Ce dernier peut être partiellement ou entièrement distribué. Le mode MapReduce combiné avec un cluster entièrement distribué est utile pour exécuter Pig sur de larges ensembles de données.

Write A Comment

fr_FRFrench