[Webinar] Michelin’s Evolution to Cloud-Native Microservices | Register Today

Was ist eine Daten-Pipeline?

Eine Daten-Pipeline verschiebt Rohdaten aus verschiedenen Quellen zur weiteren Analyse in einen Datenspeicher. Moderne Daten-Pipeline-Systeme automatisieren den ETL-Prozess (Extrahieren, Transformieren, Laden) mittels der Datenerfassung, -verarbeitung, -filterung, -transformation und -verschiebung in beliebigen Cloud-Architekturen und fĂŒgen zusĂ€tzliche Ausfallsicherheitsebenen hinzu.

Erfahren, wie in wenigen Minuten eine Echtzeit-Daten-Pipeline aufgebaut werden kann.

Daten-Pipeline-Prozess

Da Daten aus zahlreichen Quellen, in unterschiedlichen Formaten und aus verschiedenen Cloud-Infrastrukturen stammen, haben die meisten Unternehmen mit riesigen Datenmengen zu tun – und mit Datensilos. Ohne eine vollstĂ€ndige, einheitliche Sicht auf Daten sind Unternehmen nicht in der Lage, tiefe Einblicke zu gewinnen, die Effizienz zu verbessern und fundierte Entscheidungen zu treffen.

Aus diesem Grund sind Daten-Pipelines von entscheidender Bedeutung. Sie sind der erste Schritt zur Zentralisierung von Daten fĂŒr zuverlĂ€ssige Business Intelligence, operative Insights und Analysen.

So funktionieren Daten-Pipelines

Um zu verstehen, wie eine Daten-Pipeline funktioniert, betrachten wir eine beliebige Pipeline, die etwas von einer Datenquelle empfÀngt und an ein Ziel weiterleitet. Dieser Prozess des Transports der Daten aus verschiedenen Quellen zu einem Speichermedium, wo sie abgerufen, verwendet und analysiert werden können, wird als Datenaufnahme bezeichnet.

Auf dem Transportweg durchlaufen die Daten je nach Anwendungsfall und Ziel unterschiedliche Prozesse. Eine Daten-Pipeline kann ein einfacher Prozess der Extraktion und des Ladens von Daten darstellen. Sie kann aber auch so konzipiert sein, dass Daten auf eine anspruchsvollere Art und Weise verarbeitet werden, wie z. B. ein Data Warehouse fĂŒr prĂ€diktive Analysen oder maschinelles Lernen.

Daten-Pipeline-Prozess

Wenn Daten eine Pipeline durchlaufen, finden vier Prozesse statt: Extraktion, Governance, Transformation und Datenvirtualisierung.

Datenextraktion

Jede Daten-Pipeline startet mit einem Datensatz oder einer Sammlung von RohdatensÀtzen, die aus einer beliebigen Anzahl von Quellen extrahiert werden. Die Daten werden in diversen Formaten bereitgestellt, von Datenbanktabellen, Dateinamen, Topics (Kafka), Queues (JMS) bis hin zu Dateipfaden (HDFS). Zu diesem Zeitpunkt gibt es keine Struktur oder Klassifizierung der Daten. Es handelt sich um einen Data-Dump in unstrukturierter Rohform.

Data Governance

Sobald die Daten zur Verwendung bereit stehen, mĂŒssen sie umfangreich organisiert werden. Diese Disziplin wird als Data Governance bezeichnet. Durch die VerknĂŒpfung von Rohdaten mit ihrem GeschĂ€ftskontext werden sie aussagekrĂ€ftig. Unternehmen ĂŒbernehmen dann die Kontrolle ĂŒber ihre DatenqualitĂ€t und -sicherheit und organisieren sie vollstĂ€ndig fĂŒr die umfassende Verarbeitung.

Datentransformation

Der Prozess der Datentransformation bereinigt und Ă€ndert die DatensĂ€tze, um die richtigen Reporting-Formate anwenden zu können. Dazu gehört die Beseitigung unnötiger oder ungĂŒltiger Daten sowie die Datenanreicherung gemĂ€ĂŸ den Regeln und Vorschriften, die sich aus den Anforderungen des Unternehmens ergeben.

Datenvirtualisierung

Nachdem die Daten transformiert wurden, können vertrauenswĂŒrdige Daten weitergegeben werden. Sie werden hĂ€ufig in ein Cloud-Data-Warehouse oder eine Endpunktanwendung gesendet, damit mehrere Parteien problemlos darauf zugreifen können.

Daten-Streaming-Pipelines in wenigen Minuten erstellen

Heutzutage nutzen unter anderem Walmart, Expedia und Bank of America Confluent – die einzige umfassende Daten-Streaming-Plattform, die darauf ausgelegt ist, Daten aus jeder Quelle und in jedem Umfang zu streamen.

Die Streaming-Technologie wurde von den ursprĂŒnglichen Entwicklern von Apache Kafka geschaffen und wird heute von 80 % der Fortune-100-Unternehmen genutzt. Confluent ist nicht nur in der Lage, Daten in Echtzeit aufzunehmen, sondern ermöglicht auch groß angelegte Daten-Streaming-Pipelines, die den Echtzeit-Datenfluss ĂŒber jedes System, jede Anwendung oder jeden Datenspeicher mit ĂŒber 120 vorgefertigten Connectors automatisieren.