Bin tiens, c'est drôle, très régulièrement, je constate que la première réaction d'un développeur face à un ETL, c'est “ a quoi ça sert, je fais pareil en codant !”
Ce qui est vrai globalement.
Sauf qu'un développeur (un vrai, un bon) coute plus cher et est plus rare que la plupart des gens qui travaillent dans les sociétés d'informatique (ironie inside), que les besoins changent parfois plus vite que le temps de les coder, et qu'un bon ETL fournit tout prêt des tas d'outils de manipulation de données qu'un développeur même bon va mettre pas mal de temps à mettre en place.
un ETL fournit aussi un cadre général pour la gestion des données (et des métadonnées), et est plus accessible à un non codeur (pas trop rétif à la complexité informatique quand même, j'ai pas dit que c'était à mettre dans les mains de tout le monde).
Si tu voyais le nombre de traitements et d'outils faits sur un bout de bureau dans un tableur Excel, dans des grosses boites, (mais je pense que la maladie Excel est une maladie généralisée), tu pleurerais. Y compris des traitements qui, généralisés aux besoin de l'entreprise, ne tiennent pas dans un tableau Excel.
Si tu voyais combien de fois les mêmes données sont extraites plusieurs fois des mêmes bases de données, recoupées avec d'autres, en réinventant à chaque fois les règles métier pour réconcilier tout ça (en Excel ou dans des super logiciels d'entreprise super couteux) , tu ne douterais plus de l'intérêt d'un ETL.
Un autre cas d'usage concret vécu récemment :
un traitement big data migré d'un cluster Cloudera à un cluster Hortonworks, modification du job talend : 30 secondes (bon, ok un bon dev aurait pris pas beaucoup plus de temps).
Pour en revenir à Talend, des tas de modules ont été ajoutés à l'ETL initial pour gérer des webservices en un temps recore, mettre en place une infrastructure ESB, alimenter en continu un référentiel de données, ouvrir son infra aux multiples technos big data, modéliser et gérer les process business, bref, plein de trucs pour gérer plus proprement son SI.
Justement demain matin, réunion d'évangélisation d'un groupe de devs , sur l'intérêt d'utiliser un ETL plutôt que d'extraire des données avec les outils propriétaires fournis avec l'entrepôt de données.
Bon j'arrête là, mais y'a plein de trucs à dire.
je me demande à quoi est majoritairement utilisé Talend (vraie question)
C'est un ETL, donc c'est utilisé pour les transformations de données, tout simplement.
un petit exemple peut-être ? transformation des données j'imagine à quoi ça peut servir mais je ne vois pas un cas d'usage précis.
Bin tiens, c'est drôle, très régulièrement, je constate que la première réaction d'un développeur face à un ETL, c'est “ a quoi ça sert, je fais pareil en codant !” Ce qui est vrai globalement. Sauf qu'un développeur (un vrai, un bon) coute plus cher et est plus rare que la plupart des gens qui travaillent dans les sociétés d'informatique (ironie inside), que les besoins changent parfois plus vite que le temps de les coder, et qu'un bon ETL fournit tout prêt des tas d'outils de manipulation de données qu'un développeur même bon va mettre pas mal de temps à mettre en place. un ETL fournit aussi un cadre général pour la gestion des données (et des métadonnées), et est plus accessible à un non codeur (pas trop rétif à la complexité informatique quand même, j'ai pas dit que c'était à mettre dans les mains de tout le monde).
Si tu voyais le nombre de traitements et d'outils faits sur un bout de bureau dans un tableur Excel, dans des grosses boites, (mais je pense que la maladie Excel est une maladie généralisée), tu pleurerais. Y compris des traitements qui, généralisés aux besoin de l'entreprise, ne tiennent pas dans un tableau Excel.
Si tu voyais combien de fois les mêmes données sont extraites plusieurs fois des mêmes bases de données, recoupées avec d'autres, en réinventant à chaque fois les règles métier pour réconcilier tout ça (en Excel ou dans des super logiciels d'entreprise super couteux) , tu ne douterais plus de l'intérêt d'un ETL.
Un autre cas d'usage concret vécu récemment : un traitement big data migré d'un cluster Cloudera à un cluster Hortonworks, modification du job talend : 30 secondes (bon, ok un bon dev aurait pris pas beaucoup plus de temps).
Pour en revenir à Talend, des tas de modules ont été ajoutés à l'ETL initial pour gérer des webservices en un temps recore, mettre en place une infrastructure ESB, alimenter en continu un référentiel de données, ouvrir son infra aux multiples technos big data, modéliser et gérer les process business, bref, plein de trucs pour gérer plus proprement son SI.
Justement demain matin, réunion d'évangélisation d'un groupe de devs , sur l'intérêt d'utiliser un ETL plutôt que d'extraire des données avec les outils propriétaires fournis avec l'entrepôt de données. Bon j'arrête là, mais y'a plein de trucs à dire.