Build Predictive Machine Learning with Flink | Workshop on Dec 18 | Register Now

データパイプラインとは?

データパイプラインは、さまざまなソースから Raw データ(生データ)をデータストアに移動し、さらに分析します。最新のデータパイプラインシステムは、ETL(抽出、変換、読み込み)プロセスを自動化し、あらゆるクラウドアーキテクチャにおけるデータの取り込み、処理、フィルタリング、変換、移動に対応するうえ、障害に対するさらなる回復力が備わっています。

リアルタイムデータパイプラインを数分で構築する方法を学びましょう。

データパイプラインプロセス

さまざまなクラウドインフラストラクチャにわたる多数のソースから異なる形式でデータが取得される中、ほとんどの組織が大量のデータとデータサイロを処理しています。データを完全かつ包括的に見渡すことができなければ、有益なインサイトを見出し、効率を向上させ、情報に基づいた意思決定を行うことはできません。

データパイプラインが重要な理由はここにあり、信頼性の高いビジネスインテリジェンス、運用上のインサイト、分析のためにデータを一元化するための最初のステップとなります。

データパイプラインの仕組み

データパイプラインの仕組みを理解するために、データソースから何かを受け取り、それを宛先に運ぶパイプラインを例に考えてみましょう。さまざまなソースからストレージメディアにデータを転送し、組織がアクセス、使用、分析できるようにするこのプロセスは、データの取り込みと呼ばれます。

データは、送信される過程で、ビジネスユースケースや宛先そのものに応じてさまざまなプロセスを経ます。データパイプラインは、データの抽出と読み込みから成る単純なプロセスである場合もあれば、予測分析や機械学習のためのデータウェアハウスなど、より高度な方法でデータを処理するよう設計されている場合もあります。

データパイプラインプロセス

データがパイプライン内を移動する際には、抽出、管理、変換、データ仮想化の4つのプロセスが発生します。

データの抽出

データパイプラインそれぞれは、データセットか任意の数のソースから抽出された未加工のデータセットのコレクションから始まります。データには、データベーステーブル、ファイル名、Topic (Kafka) 、キュー (JMS) からファイルパス (HDFS) まで、幅広い形式があります。この段階ではデータの構造や分類がないデータダンプであり、この未加工の形式ではデータに意味を見出すことはできません。

データのガバナンス

データを使用する準備ができたら、大規模に整理する必要があります。この規律はデータガバナンスと呼ばれます。未加工データをそのビジネス上のコンテキストにリンクすることで、データは意味のあるものになります。その後、企業はデータの品質とセキュリティを管理し、大量消費できるように完全に整理します。

データの変換

データ変換のプロセスでは、データセットをクレンジングして変更し、正しいレポート形式にします。これには、不要や無効なデータの排除や、ビジネスニーズによって決定された規則や規制に従ってデータを充実化させるプロセスが含まれます。

データの仮想化

データが変換されると、信頼できるデータを最終的に共有する準備が整います。多くの場合、複数の関係者が簡単にアクセスできるよう、クラウドデータウェアハウスまたはエンドポイントアプリケーションにデータが出力されます。

ストリーミングデータパイプラインを数分で構築

Confluent は、あらゆるソースからのデータを規模の大小にかかわらずストリームするために設計された唯一のストリーミングデータプラットフォームで、Walmart、Expedia、Bank of America などの有名企業でも活用されています。Apache Kafka を生んだ開発者チームの構築したそのストリーミングテクノロジーは、現在、Fortune 100 企業の 80% で使用されています。リアルタイムのデータ取り込みだけでなく、Confluent は、120点以上のプレビルド型 Connector を使用して、あらゆるシステム、アプリケーションやデータストアにわたりリアルタイムデータフローを自動化する大規模なストリーミングデータパイプラインを実現します。