Build Predictive Machine Learning with Flink | Workshop on Dec 18 | Register Now
Eine Daten-Pipeline verschiebt Rohdaten aus verschiedenen Quellen zur weiteren Analyse in einen Datenspeicher. Moderne Daten-Pipeline-Systeme automatisieren den ETL-Prozess (Extrahieren, Transformieren, Laden) mittels der Datenerfassung, -verarbeitung, -filterung, -transformation und -verschiebung in beliebigen Cloud-Architekturen und fügen zusätzliche Ausfallsicherheitsebenen hinzu.
Erfahren, wie in wenigen Minuten eine Echtzeit-Daten-Pipeline aufgebaut werden kann.
Da Daten aus zahlreichen Quellen, in unterschiedlichen Formaten und aus verschiedenen Cloud-Infrastrukturen stammen, haben die meisten Unternehmen mit riesigen Datenmengen zu tun – und mit Datensilos. Ohne eine vollständige, einheitliche Sicht auf Daten sind Unternehmen nicht in der Lage, tiefe Einblicke zu gewinnen, die Effizienz zu verbessern und fundierte Entscheidungen zu treffen.
Aus diesem Grund sind Daten-Pipelines von entscheidender Bedeutung. Sie sind der erste Schritt zur Zentralisierung von Daten für zuverlässige Business Intelligence, operative Insights und Analysen.
Um zu verstehen, wie eine Daten-Pipeline funktioniert, betrachten wir eine beliebige Pipeline, die etwas von einer Datenquelle empfängt und an ein Ziel weiterleitet. Dieser Prozess des Transports der Daten aus verschiedenen Quellen zu einem Speichermedium, wo sie abgerufen, verwendet und analysiert werden können, wird als Datenaufnahme bezeichnet.
Auf dem Transportweg durchlaufen die Daten je nach Anwendungsfall und Ziel unterschiedliche Prozesse. Eine Daten-Pipeline kann ein einfacher Prozess der Extraktion und des Ladens von Daten darstellen. Sie kann aber auch so konzipiert sein, dass Daten auf eine anspruchsvollere Art und Weise verarbeitet werden, wie z. B. ein Data Warehouse für prädiktive Analysen oder maschinelles Lernen.
Wenn Daten eine Pipeline durchlaufen, finden vier Prozesse statt: Extraktion, Governance, Transformation und Datenvirtualisierung.
Jede Daten-Pipeline startet mit einem Datensatz oder einer Sammlung von Rohdatensätzen, die aus einer beliebigen Anzahl von Quellen extrahiert werden. Die Daten werden in diversen Formaten bereitgestellt, von Datenbanktabellen, Dateinamen, Topics (Kafka), Queues (JMS) bis hin zu Dateipfaden (HDFS). Zu diesem Zeitpunkt gibt es keine Struktur oder Klassifizierung der Daten. Es handelt sich um einen Data-Dump in unstrukturierter Rohform.
Sobald die Daten zur Verwendung bereit stehen, müssen sie umfangreich organisiert werden. Diese Disziplin wird als Data Governance bezeichnet. Durch die Verknüpfung von Rohdaten mit ihrem Geschäftskontext werden sie aussagekräftig. Unternehmen übernehmen dann die Kontrolle über ihre Datenqualität und -sicherheit und organisieren sie vollständig für die umfassende Verarbeitung.
Der Prozess der Datentransformation bereinigt und ändert die Datensätze, um die richtigen Reporting-Formate anwenden zu können. Dazu gehört die Beseitigung unnötiger oder ungültiger Daten sowie die Datenanreicherung gemäß den Regeln und Vorschriften, die sich aus den Anforderungen des Unternehmens ergeben.
Nachdem die Daten transformiert wurden, können vertrauenswürdige Daten weitergegeben werden. Sie werden häufig in ein Cloud-Data-Warehouse oder eine Endpunktanwendung gesendet, damit mehrere Parteien problemlos darauf zugreifen können.
Heutzutage nutzen unter anderem Walmart, Expedia und Bank of America Confluent – die einzige umfassende Daten-Streaming-Plattform, die darauf ausgelegt ist, Daten aus jeder Quelle und in jedem Umfang zu streamen.
Die Streaming-Technologie wurde von den ursprünglichen Entwicklern von Apache Kafka geschaffen und wird heute von 80 % der Fortune-100-Unternehmen genutzt. Confluent ist nicht nur in der Lage, Daten in Echtzeit aufzunehmen, sondern ermöglicht auch groß angelegte Daten-Streaming-Pipelines, die den Echtzeit-Datenfluss über jedes System, jede Anwendung oder jeden Datenspeicher mit über 120 vorgefertigten Connectors automatisieren.