Image Qu’est ce que l’ETL ?

A l'origine, les solutions d'ETL sont apparues pour le chargement régulier de données agrégées dans les entrepôts de données (ou datawarehouse), avant de se diversifier vers les autres domaines logiciels. Ces solutions sont largement utilisées dans le monde bancaire et financier, et en développement dans l'industrie.

Elle est basée sur des connecteurs servant à exporter ou importer les données dans les applications (Ex : connecteur Oracle ou SAP...), des transformateurs qui manipulent les données (agrégations, filtres, conversions...), et des mises en correspondance (mappages). Le but est l'intégration de l'entreprise par ses données.

ETL « Extract-Transform-Load » est aussi connu sous le terme Datapumping. Il s'agit d'une technologie informatique intergicielle permettant d'effectuer des synchronisations massives d'information d'une banque de données vers une autre. Selon le contexte, on traduira par « alimentation », « extraction », « transformation », « constitution » ou « conversion », souvent combinés.

Actuellement il existe trois catégories d’outils ETL

Engine-based : les transformations sont exécutées sur un serveur ETL, disposant en général d’un référentiel. Ce genre de d’outil dispose d’un moteur de transformation ;

Database-embedded : les transformations sont intégrées dans la BD ;

Code-generators : les transformations sont conçues et un code est généré. Ce code est déployabe indépendamment de la base de données.


Les processus d’ETL (Extraction, Transformation et Chargement) regroupent plusieurs étapes, qui ont pour objet de transférer des données depuis les applications de production vers les systèmes décisionnels :

  • Extraction de données des applications et des bases de données de production (ERP, CRM, SGBDR, fichiers, etc.)
  • Transformation de ces données pour les réconcilier entre les différentes sources, pour effectuer des calculs ou du découpage de texte, pour les enrichir avec des données externes et aussi pour respecter le format requis par les système cibles (Troisième Forme Normale, Schéma en Etoile, Dimensions à Evolution Lente, etc.)
  • Chargement des données résultantes dans les différentes applications décisionnelles : Data Warehouse ou Enterprise Data Warehouse, Data Marts, applications OLAP (Online Analytical Processing) ou “cubes”, etc.

La latence des processus d’ETL varie du mode batch (parfois mensuel ou hebdomadaire, le plus souvent quotidien) jusqu’au temps quasi-réel avec des rafraîchissements plus fréquents (toutes les heures, toutes les minutes, etc.).
 

Les Challenges de l’ETL


L’implémentation de processus d’ETL efficaces et fiables comprend de nombreux challenges.

  • Les volumes de données sont en croissance exponentielle, et les processus d’ETL doivent traiter des quantités importantes de données granulaires (produits vendus, appels téléphoniques, transactions bancaires, etc.). Certains systèmes décisionnels sont mis à jour de façon incrémentale, alors que d’autres sont rechargés dans leur totalité à chaque itération.
  • Alors que les systèmes d’information se complexifient, la variété des sources de données s’accroît également. Les processus d’ETL doivent disposer d’une large palette de connecteurs à des progiciels (ERP, CRM, etc.), bases de données, mainframes, fichiers, Services Web etc.
  • Les structures et applications décisionnelles incluent des data warehouses, des data marts, des applications OLAP - pour l’analyse, le reporting, les tableaux de bord, le scorecarding, etc. Toutes ces structures cibles présentent des besoins différents en termes de transformation de données, ainsi que des latences différentes.
  • Les transformations des processus d’ETL peuvent être très complexes. Les données doivent être agrégées, parsées, calculées, traitées statistiquement, etc. Certaines transformations spécifiques au décisionnel sont aussi requises, comme les Dimensions à Evolution Lente.
  • Alors que le décisionnel se rapproche du temps réel, les data warehouses et data marts doivent être rafraîchis plus souvent, alors que les fenêtres de chargement se raccourcissent.

 

ImageSolutions d’Intégration Open Source pour l’ETL


Les solutions d’intégration de données Talend sont optimisées pour les besoins ETL de l’entreprise. Les options suivantes sont particulièrement décisives pour le design, le développement, l’exécution et la maintenance des processus ETL :

  •     Modèle orienté Business qui assure une communication optimale entre l’informatique et le business
  •     Environnement de développement graphique pour améliorer la productivité et faciliter la maintenance
  •     Plateforme très évolutive avec un déploiement en mode Grid et exploitant les architectures ETL et ELT
  •     Connectivité étendue à tous les systèmes
  •     Composants avancés pour l’ETL comme les Dimensions à Evolution Lente, le chargement bulk, etc.

Image

Source: Talend.com
 
ActualitésQlikView modules

article thumbnailQlikView : un Déploiement Modulaire :QlikView Enterprise :  Pour le développeurQlikView Enterprise est l’outil complet du développeur pour la construction...
+ Lire la suite

ActualitésBIRT open source

article thumbnail  BIRT chez LIMTREE.BIRT est un système de reporting open source basé sur Eclipse pour les applications web, spécialement celles basés sur Java et...
+ Lire la suite

Derniers tutoriels
Club Alliances IBM

 

Limtree devient membre du Club Alliances IBM avec Limtree SaaS

LIMTREE TV
QlikView Solutions

Qlikview Analyse Commerciale

Qlikview Publisher

Qlikview Serveur

Clients Qlikview

Qlikview et Qliktech