Build Predictive Machine Learning with Flink | Workshop on Dec 18 | Register Now
Un pipeline de données déplace des données brutes provenant de diverses sources vers une banque de données en vue d'une analyse ultérieure. Les systèmes modernes de pipelines de données automatisent les processus ETL (extraction, transformation, chargement) via l'ingestion, le traitement, le filtrage, la transformation et le déplacement des données dans tout type d'architecture cloud. Ils ajoutent également des couches de résilience qui protègent les données contre les défaillances.
Découvrez comment créer un pipeline de données en temps réel en seulement quelques minutes.
La plupart des entreprises doivent composer avec des quantités massives de données provenant de multiples sources, dans des formats variés, qui circulent à travers différentes infrastructures cloud. Elles sont aussi souvent confrontées à des silos de données. Sans une vue complète et unifiée de vos données, vous ne pourrez pas disposer d'informations véritablement exhaustives qui vous permettront d'améliorer votre efficacité et de prendre des décisions éclairées.
C'est pourquoi les pipelines de données sont essentiels. Ils constituent la première étape vers la centralisation des données à des fins d'utilisation commerciale, opérationnelle et analytique.
Pour comprendre le fonctionnement d'un pipeline de données, considérons un pipeline qui reçoit un élément d'une ou plusieurs source(s) de données et le transporte vers une destination. Ce processus de transport des données depuis un ou plusieurs source(s) vers un support de stockage où les collaborateurs d'une entreprise pourront y accéder, les utiliser et les analyser, est connu sous le nom d'ingestion.
Tout au long du transport, les données sont soumises à différents processus en fonction du cas d'usage et de la destination elle-même. Un pipeline de données peut consister en un simple processus d'extraction et de chargement des données, ou il peut être conçu pour traiter les données de manière plus avancée (par exemple en utilisant un entrepôt de données à des fins d'analyse prédictive ou d'apprentissage automatique).
Lorsque des données circulent dans un pipeline, quatre processus se produisent : l'extraction, la gouvernance, la transformation et la virtualisation des données.
Au début de chaque pipeline, on trouve un jeu de données ou un ensemble de jeux de données bruts extraits de plusieurs sources. Les données sont disponibles dans différents formats : des tables de base de données, des noms de fichiers, des topics (Kafka), des files d'attente (JMS), des chemins d'accès (HDFS), etc. Il n'y a pas de structure ni de classification des données à ce stade : il s'agit d'un simple ensemble de données qui ne peuvent pas être interprétées dans leur format brut.
Une fois les données prêtes à être utilisées, elles doivent être organisées à grande échelle. Ce processus s'appelle la gouvernance des données. En reliant les données brutes à leur contexte métier, celles-ci prennent du sens. C'est à ce stade que les entreprises peuvent prendre la main sur la qualité et la sécurité de leurs données, et les organiser pour qu'elles puissent ensuite être utilisées à grande échelle.
Le processus de transformation des données nettoie et modifie les jeux de données pour qu'ils puissent faire l'objet d'un reporting correctement formaté. Cela inclut l'élimination des données inutiles ou non valides, ainsi que l'enrichissement des données conformément aux règles et réglementations déterminées par les besoins de l'entreprise.
Une fois les données transformées, les données fiables sont enfin prêtes à être partagées. Elles sont souvent envoyées dans un entrepôt de données cloud ou une application de endpoint pour permettre à plusieurs parties d'y accéder facilement.
Adoptée par Walmart, Expedia et Bank of America, Confluent est aujourd'hui la seule plateforme de streaming conçue pour streamer des données depuis n'importe quelle source et à n'importe quelle échelle. Conçue par les créateurs d'Apache Kafka, sa technologie de streaming est aujourd'hui utilisée par 80 % des entreprises du classement Fortune 100. Capable d'ingérer des données en temps réel, Confluent permet également la création de pipelines de données de streaming à grande échelle. Ceux-ci automatisent les flux de données en temps réel sur n'importe quel(le) système, application ou magasin de données grâce à plus de 120 connecteurs préconfigurés.