L'outil, la phase, le processus ETL

Première étape d’une solution complète de BI, la phase d’extraction, transformation et chargement, plus communément appelé ETL est l’outil informatique par excellence. Destiné à extraire des données de diverses sources (bases de données de production, fichiers, Internet, etc.), à les transformer et à les charger dans un entrepôt de données, l’outil ETL intègre des données dans différents systèmes (applications) de l’entreprise nécessaires à un futur traitement. Pour cela, l’outil stocke toutes ses données qui proviennent donc de différents systèmes dans une seule grande base de données (datawarehouse). On parle souvent d’outil et processus « d’alimentation » car l’outil va chercher des données un peu partout pour les centraliser et ainsi alimenter le datawarehouse.

Je vais maintenant décrire les trois différentes étapes du processus ETL et différencier l’outil du processus ETL.

L’intégration ou alimentation de données

Les outils ETL gèrent toutes les étapes de la collecte des données au sein des systèmes d'information hétérogènes : SGBD, ERP, applications spécifiques, fichiers plats, bases hiérarchiques... depuis le nettoyage des données collectées, la consolidation et la mise en concordance des données éparses jusqu’à leur distribution (notion d’alimentation) auprès des applications cibles ou des systèmes décisionnels centralisés (analyse, tableau de bord...).

Le processus ETL est une opération de migration de données (de différents systèmes à un datawarehouse) qui consiste aussi à la rendre facilement lisible et disponible. Ce processus représente une part majeure des traitements et nécessite une attention régulière tout au long du cycle de vie du système, dans la mesure où il est garant de la qualité des données finale.

C’est le processus ETL qui se décompose en trois phases : l'extraction, la préparation/transformation et le chargement.

L’extraction des données

Comme expliqué ci-dessus, la première phase consiste à acquérir des données éparses. L'outil ETL a la capacité de se connecter aux différentes applications, bases de données ou fichiers à différents endroits dans l’entreprise.

Pour ce faire, outre un outil de spécification d’extraction de données, plusieurs technologies sont utilisables :

  • Les passerelles fournies par les éditeurs de logiciels de gestion de bases de données.

  • Les utilitaires de réplication, utilisables si les systèmes de production et décisionnels, sources et cibles, sont homogènes.

L’outil doit être à même de lire sélectivement les données sources (c’est l’intérêt de l’étape), et donc de filtrer les données en lecture afin de n’extraire que l’information pertinente.

La transformation et le contrôle des données

Les ETL sont des ateliers spécialisés dans la migration de données. La transformation des données est leur fonctionnalité principale. Ils doivent disposer d’une fonction permettant de vérifier qu’une donnée est cohérente par rapport aux données déjà existantes dans la base centrale. Ils doivent aussi fournir des outils pour convertir des données différentes (par exemple un langage ou une interface graphique de description de transformation).

Evidemment, ils doivent être conçus pour manipuler de gros volumes de données.

Le chargement et le transfert des données

Le chargement prend en compte la gestion du format final voulu des données.

Pour la mise en oeuvre du transfert de données, on distingue deux approches possibles :

  • Le transfert de fichiers : l’ETL transporte les données du système source vers le système cible via un moteur.
  • Le transfert de base à base. Dans ce cas, les outils travaillent en mode connecté, d’une source de données à une cible. Les données sont extraites ensemble à la source, puis transférées à la cible en y appliquant éventuellement des transformations à la volée. Un seul processus, plus rapide, a ainsi l’avantage de pouvoir effectuer, sans rupture, les transferts et toutes les autres opérations d’alimentation.

Liste des outils ETL

Outil très prisé par les DG, on peut en trouver au minimum une vingtaine sur le marché actuel. En voici une vingtaine justement par ordre alphabétique :

  • Ab Initio
  • Ascential DataStage (qui a acheté Mercator Inside Integrator)
  • BusinessObjects Data Integrator
  • Cognos DecisionStream ( Data Manager)
  • Computer Associates Advantage Data Transformation
  • CrossAccess eXadas
  • Data Junction Integration Studio (acheté par Pervasive)
  • DataHabitat ZeroCode ETL
  • DataMirror Transformation Server
  • Embarcadero DT/Studio
  • ETI (Evolutionary Technologies International)
  • Hummingbird ETL
  • IBM DB2 Data Warehouse Manager
  • Informatica (PowerCenter et SuperGlue)
  • Information Builder iWay
  • Microsoft SQL Server DTS
  • Oracle Warehouse Builder
  • Sagent Data Flow Server (acheté par Group 1)
  • SAS Enterprise ETL Server
  • Sunopsis

5 commentaires:

Olivier a dit…

Le Guide Utilisateur au format pdf est en effet une lecture à conseiller !

Pour maniluler le logiciel, je vous invite à utiliser les projets démo (1 Java et 1 Perl) inlus dans Talend Open Studio. Ils contiennent des Job Designs prêt à être éxécuter. Vous pouvez ainsi observer le fonctionnement d'un job, puis le déformer pour mieux comprendre les possibilités offertes par chacun des composants Talend. Le Wiki publié sur http://www.talendforge.org est aussi une ressource intérréssante, Use Case et didactitiels y sont en effet présentés !

Julien BICHON a dit…

C'est sût que le guide est une excellente base, qui intéresse nos francophones car il est en français...ou alors passer par une formation..Voir : http://formation-talend.blogspot.com/

Unknown a dit…

Bonjour,

J'aurais une question ou plutôt quelques petites questions concernant pentaho.

Voila, j'ai deux base de données distinctes.

la première contient des remontées d'alarmes avec un identifiant pour chaques type d'alarme.

la deuxième contient la listes des mesures iso 27001 avec les types d'alarmes qui corrrespondent à ces mesures.

je voudrais en fonction des différentes alarmes remontées faire un rapport des mesures iso 27001 qui sont le plus impactées.

Est-ce que pentaho est bien adapté pour ça?
Si oui quels modules utilisés?
Et enfin où trouver ce fameux "Guide Utilisateur au format pdf":)?

Je sais pas si j'ai été clair. En tous cas merci d'avance pour vos réponses.

Anonyme a dit…

Bonjour,

Les commentaires ne sont plus en cohérence avec le billet ? Y'aurai t il eu une mise à jour du billet ou une bizarrerie dans la gestion des commentaires ?

Le guide utilisateur pdf évoqué dans ces commentaires est en lien avec le logiciel Talend Open Studio et non Pentaho. Ce guide est téléchargeable sur http://www.talend.com/resources/documentation.php

hadriannadler a dit…

Blue Titanium Art & Concepts | TITaniumArt
Blue Titanium Art citizen titanium dive watch & suunto 9 baro titanium Concepts is titanium chain an art collection which provides a ford edge titanium broad range of art and concept art that sugarboo extra long digital titanium styler can be found on T-shirts, artwork,