Talend OpenStudio : une solution ETL

Talend OpenStudio : l’outil ETL Open source par excellence.


Comme mon blog est axé sur les outils Open Source, je parlerai dans ce post de l'ETL Talend OpenStudio (en plus made in d’un éditeur français…). La première version date de octobre 2006. Talend OpenStudio, c’est quoi ? C’est un outil graphique qui permet de tout faire en mode Drag and Drop. Elle permet d'appeler des Web Services, d'extraire des données de fichiers (en local ou via le ftp) et de bases de données pour réaliser des traitements complexes (sortie sous Java / Perl). Une interface intuitive permet également une écriture aisée des scripts et la réalisation de documents relativement facilement.

Talend a sorti la version 2.2.0 de Talend Open Studio le 8 octobre 2007.
Au rythme d'une release tous les 3 mois, la 2.2.0 apporte de nombreux enrichissements par rapport à la 2.1.x, côté studio de conception et côté génération de script Perl ou Java. Voici une liste des principales évolutions.

Les nouvelles fonctionnalités de Talend Open Studio 2.2.0 sont nombreuses, en voici quelques unes :

  • amélioration de la gestion de contexte (GUI, nouveaux composant tContextDump),
  • exportation des jobs comme des services Web Java,
  • interface de construction d’expression graphique (Expression Builder)

Nouveautés du studio : basé sur Eclipse 3.3, constructeur graphique d'expressions, glisser/déposer des metadonnées pour créer des composants pré configurés ainsi qu'une refonte de la gestion des contextes simplifiant leur utilisation. Vous bénéficierez donc de toutes les améliorations inhérentes à ce nouveau framework (support de Windows Vista…).

En Java :

  • Support de nouvelles bases de données : connecteur AS400 / connecteur Generic JDBC...
  • Le composant de Slowly Changing Dimension supporte désormais les bases MySQL, Oracle, Ingres, MSSQL, DB2 et Sybase. Il intègre désormais les types 1, 2 et 3 et supporte les surrogate key…
  • Support des procédures stockées pour les bases Oracle, MS SQL, Ingres, MySQL et DB2
  • Partage de connexion pour Oracle et PostgreSQL...
  • Support LDIF/LDAP
  • Les "wait for file" et "wait for SQL data" (déclenchement du job en fonction de l’apparition d’un fichier, de l’arrivée de lignes dans une table…)
  • Fusion et séparation de flux (tUnite et tReplicate)
  • Support de SCP

En Perl :

  • Composant permettant les substitutions multiples (simple et advanced) : tReplace
  • Partage de connexion pour les bases Oracle et PostgreSQL...
  • Lookup multiples
  • Les "wait for file" et "wait for SQL data" (déclenchement du job en fonction de l’apparition d’un fichier, de l’arrivée de lignes dans une table…)
  • Flow data metering
  • File touch
  • Fusion et séparation de flux (tUnite et tReplicate)
  • Support SCP
Enfin, si vous souhaitez trouver débuter (et même vous perfectionner, tout dépend de votre état d'avancement), je ne saurais vous conseiller le tutorial (en français) en format pdf. Quelques 130 pages auront raison de votre patience pour devenir autonome sur Talend ! Une simple indication de quelques informations personnelles vous seront demandées (email non vérifié).
Bon courage ! Et très bientôt un post sur son concurrent Kettle...

3 commentaires:

Unknown a dit…

salut;
merci de m'indiquer comment télécharger le tutoriel indiqué dans l'article?
merci d'avance

Talend-Community Manager a dit…
Ce commentaire a été supprimé par l'auteur.
Talend-Community Manager a dit…

Bonjour,

Le plus simple est d'aller voir sur la page des tutoriels de Talend pour le logiciel Talend Open Studio.

Les tutorials: http://www.talendforge.org/tutorials/menu.php