[Webinar] From Fire Drills to Zero-Loss Resilience | Register Now

ストリーミングデータをAI対応テーブルへ:Delta LakeおよびDatabricks Unity Catalog対応Tableflowの一般提供を開始

作成者 :

データの真の力は、ストリーミング、分析、AIが融合し、リアルタイムのストリーミングデータをアクションが取れるインテリジェンスへと変換することで発揮されます。しかし、これらの間のギャップを埋めることは、現代のデータアーキテクチャにおける長年の最も複雑な課題の一つでした。Confluentは、継続的なデータストリームの取得と処理を容易にし、Databricksは、Unity Catalogを通じてチームがA分析、管理、AIに適用できるようにします。これまで、これらを融合させるには、複雑で脆弱なパイプラインが必要でした。

Confluent Tableflowは、Apache Kafka®からのストリーミングデータを、Databricks Unity Catalogで管理されるオープンでガバナンスが確立されたAI対応のDelta Lakeテーブルにシームレスに変換することで、この複雑さを解消します。これにより、カスタムETLやバッチジョブを必要とせず、リアルタイムデータを分析やAIに即座に利用できるようになります。

TableflowのDelta LakeとUnity Catalogサポートが一般提供開始されました。これにより、企業はリアルタイムのストリーミングデータをDatabricksの分析機能やAIにシームレスに接続し、イベントストリームからインサイトに至るまで、ガバナンスとインテリジェンスの継続的な流れを実現できます。

Confluentによるストリーミングデータ

Confluentのデータストリーミングプラットフォーム(DSP)は、次から次へと生成されるあらゆるデータを接続・変換し、リアルタイム性、コンテキスト性、信頼性、そしてあらゆるシステムとチーム間での再利用性を高めます。Kafka、ガバナンスが確保されたデータストリーミング、そしてApache Flink®のストリーム処理のパワーを統合し、企業全体で容易に共有・再利用できるユニバーサルなデータプロダクトを整備します。Confluentによって、データは継続的かつ安全に流れ、最新のガバナンスの効いたインテリジェンスによって、最新のアプリケーション、分析、AIの基盤を強化します。

Databricksによるガバナンスが確保された分析とAI

ストリーミングデータが Confluent を介して継続的に流れるようになると、Databricksはデータのガバナンスを確保し、検索可能にし、分析とAIに即座に活用できる状態にします。

Databricksデータインテリジェンスプラットフォームは、データ、分析、AIを連携させ、企業や組織があらゆるデータをリアルタイムで理解し、それに基づいて行動できるようにします。レイクハウスアーキテクチャを基盤とするDatabricksは、信頼性の高いデータ管理、高速なSQL分析、そしてスケーラブルなAIを、すべて単一のガバナンスモデルの下で提供します。

Databricks と Confluent を組み合わせることで、業務系のイベントから分析や AI の結果に至るまで、継続的なインテリジェンスの流れを作れます。

主なメリットは以下のとおりです。

  • リアルタイム分析 – Unity Catalog にストリーミングデータが来たらすぐにクエリを実行し、可視化できます。

  • 統合データ&AI プラットフォーム – SQL、ビジネスインテリジェンス (BI)、機械学習 (ML)、AI ワークロードを単一の環境で実行できます。

  • オープンな相互運用性 – Delta と Apache Iceberg™ を活用することで、ツールやエンジンをまたいだ柔軟性を実現できます。

  • エンドツーエンドのガバナンス – Unity Catalog を通じて、一貫したポリシーとリネージを維持できます。

  • AI 対応基盤 – 信頼できるデータを Mosaic AI モデルとエージェントに直接フィードできます。

Unity Catalogの紹介 

Databricks データ インテリジェンス プラットフォームの中核となるのは、すべてのデータと AI 資産を対象とする業界初の統合ガバナンスソリューションである Unity Catalog です。

Unity Catalog は、Delta テーブルとIceberg テーブル、非構造化データ、AI モデルなど、すべてのデータ資産にわたる統合ガバナンスと、従来のアクセス制御や監査を超えて検出、検索、系統、品質監視、ビジネスセマンティクスを含む統合機能を提供します。

課題: Apache Kafka®データをDatabricksに取り込む

Kafka のトピックを分析テーブルに変換する作業は、従来、複雑でコストがかかり、エラーが発生しやすいものでした。従来のデータパイプラインでは、Kafka からデータを読み取り、Sinc コネクタを使用して Amazon S3 などのオブジェクトストレージに生のレコードをダンプするのが一般的です。そこから、チームは一連の ETL ジョブを構築し、イベントを解析し、Parquet、Delta Lake、または Iceberg 形式に変換し、スキーマ進化を管理し、小さなファイルを圧縮し、変更データキャプチャ (CDC) のストリームをマテリアライズし、Unity Catalog などのカタログにテーブルを公開する必要がありました。

Sinc Connector の設定からETLジョブのオーケストレーションに至るまで、各ステップで運用上のオーバーヘッドが増加します。コネクタはスループット、再試行、リカバリに合わせて調整する必要があり、ETLパイプラインはオフセットを安全に管理し、遅延または順序外のイベントを処理し、アトミックコミットを確実に実行する必要があります。さらに、圧縮、スナップショットの有効期限切れ、スキーマの管理と進化、カタログへの公開といった継続的なメンテナンスタスクには、継続的なエンジニアリング作業が必要です。その結果、複雑で脆弱、そしてコストのかかるデータ準備プロセスとなり、拡張が困難になります。

Databricks Unityカタログを使用したDelta Lake テーブル用のTableflow

Tableflowは、このプロセスを根本的に見直します。コネクタ、ETLジョブ、データ準備パイプラインを管理する代わりに、TableflowはConfluentからの業務データをオブジェクトストレージ内のガバナンスの確保されたDelta LakeまたはIcebergテーブルに直接ストリーミングします。そして、それらのテーブルをDatabricks Unityなどのカタログにシームレスに公開します。

Tableflowは、型変換、スキーマ化、スキーマ進化、テーブルメンテナンス、カタログ同期を自動化し、面倒なデータ準備作業を削減します。Tableflowを使用すると、すべてのKafkaトピックをAI対応のDeltaテーブルに変換できます。Deltaテーブルは、Databricks SQLで即座にクエリでき、Unity Catalogによって管理され、ストリーミングの鮮度と分析パフォーマンスの両方が最適化されます。

Confluent Tableflow が Delta テーブルを Unity Catalog に登録すると、テーブルは Unity Catalog 内でシームレスに管理され、検出可能になります。お客様は一貫したガバナンスとアクセス制御を適用でき、下流のリネージと監査を即座に追跡できるようになります。

Tableflow + Delta Lake + Unity Catalog を一般公開

Confluent Tableflow の Delta Lake サポートと Databricks Unity Catalog の統合が一般提供開始となり、Kafka トピックから AI および分析対応の Delta テーブルへの、よりシンプルで管理されたパスが提供されます。

今回のリリースでは、次の主要な機能が追加されました。

  • Delta Lake テーブルのスキーマ進化 – 既定値と型の拡張を持つオプション フィールドの追加がサポートされます。

  • Delta テーブルの Upsert – TableflowのDelta Lake テーブル内の個々の行を挿入、更新、および削除します。

  • マルチフォーマット制御 – フォーマットごとに有効化/無効化しながら Delta と Iceberg を並行して実行します。

  • クラスターごとに複数のカタログ統合 – 同じ Confluent Cloud クラスターに個別のカタログ (Unity Catalog、AWS データカタログなど) を接続します。

TableflowのDelta Lakeサポート: その仕組み

Tableflow の Delta Lake テーブルのサポートが内部的にどう実装されているかを詳しく見てみましょう。

Tableflowは、Confluent CloudのクラウドネイティブストリーミングエンジンであるKora上で動作し、柔軟なスケール、高い信頼性、そして効率的なコスト効率を実現します。Koraは最新のデータを高速なローカルディスク(ホット層)に保存し、ログセグメントを耐久性の高いクラウドオブジェクトストレージ(コールド層)に非同期でオフロードします。Tableflowはこれらの層を活用して、ストリームを分析可能なテーブルに変換します。以下の図は、コアコンポーネントの概要を示しています。

ユーザーが Kafka トピックで Tableflow を有効にすると、システムは自動的にそのトピックをオープンテーブル形式 (Iceberg または Delta) にマテリアライズします。

  • ステップ1:メタデータの取得とスキーマの検出 – Tableflowは、Confluent Schema Registryからトピックに関連付けられたスキーマを取得し、それを使用してターゲットテーブルスキーマを生成します。これにより、Avro、Protobuf、またはJSONメッセージが列指向テーブルに正しくマッピングされます。TableflowはKafkaのメタデータをクエリし、トピックパーティションのログセグメントとオフセットを決定します。このメタデータは、Tableflowのマテリアライズジョブによる取り込みをガイドし、処理が必要なセグメントファイルと並列読み取りの開始位置を定義します。

  • ステップ2:階層型ストレージからの読み取り – Tableflowは、KafkaコンシューマーAPIを介してイベントを読み取る代わりに、メタデータで識別されるセグメントファイルをKafkaの階層型クラウドオブジェクトストレージから直接取得します。ブローカーをバイパスすることで、このアプローチはクラスターのオーバーヘッドを削減し、並列セグメント処理を可能にし、テーブルのマテリアライゼーションを大幅に効率化します。

  • ステップ 3: 変換と保存 – セグメントファイルはデコードされ、Apache Parquet™️ ファイルに変換され、ユーザーが設定したオブジェクトストレージ (Amazon S3、Google Cloud Storage、Microsoft Azure Data Lake Storage など) に Iceberg または Delta テーブルのデータファイルとして書き込まれます。

  • ステップ4:メタデータとカタログのコミット – Unity Catalog, making the tables discoverable and queryable across multiple analytics and compute engines. Tableflowは、データの書き込みに加えて、IcebergまたはDeltaメタデータ(マニフェスト、スナップショット、コミットログ)を生成し、Icebergテーブルを組み込みのIceberg RESTカタログにコミットします。Deltaテーブルの場合、TableflowはDeltaカーネルを活用してDelta準拠のメタデータとコミットログを作成・管理します。また、TableflowはテーブルメタデータポインターをDatabricks Unity Catalogなどの外部カタログサービスに自動公開し、複数の分析エンジンやコンピューティングエンジンでテーブルを検出およびクエリできるようにします。

  • ステップ5:テーブルのメンテナンスと最適化 – テーブルが構築されると、Tableflowは小さなファイルの圧縮、スナップショットの有効期限切れ、マニフェストの書き換え、クエリパターンの変化に応じたパーティションの拡張など、テーブルを積極的に最適化します。upsertなどの高度な機能が有効になっている場合は、重複排除や等価削除などの追加ロジックが適用されます。

TableflowのDelta Lakeテーブルを強化するDeltaカーネル

TableflowのDelta Lakeサポートは、Databricksが開発したオープンソースライブラリであるDelta Kernel上に構築されており、Delta Lakeをあらゆる処理エンジンで普遍的にアクセス可能にします。Delta Kernelは、Java そして Rust開発者が低レベルのDeltaプロトコルの詳細を処理せずに、Deltaテーブルを直接読み取り、書き込み、コミットできるAPIです。これにより、コネクタ開発や、コネクタがカタログ管理コミット、VARIANT データ型、型拡張などの最新の Delta イノベーションを簡単に採用できるようになります。

Tableflow は Delta Kernel を活用することで、高いパフォーマンス、強力な互換性、オープンな相互運用性を実現するとともに、リアルタイムストリーミングデータから Databricks Unity Catalog 内の完全に管理された Delta テーブルへのパスを簡素化します。

具体的には、Delta Kernel によりTableflow は次のことが可能になります。

  • 完全な原子性、一貫性、独立性、および耐久性 (ACID) の保証と Delta 準拠のトランザクションログを維持し、信頼性の高いテーブル更新をします。

  • 大規模に書き込み、Kafkaトピックを効率的に最適化されたParquetデータおよびメタデータコミットとして具現化します。

  • 新しい Delta Lake 機能とプロトコルバージョンを透過的に採用することで、将来にも対応可能です。

Confluent CloudとTableflowを使ってみましょう

Confluent Cloud 上の Tableflow は、セキュリティ、スケール、柔軟性を損なうことなく、企業が急速に変化する業務データと、分析に利用できる信頼性の高いガバナンスの利いたテーブルとの間のギャップを埋めます。Delta Lake および Databricks Unity Catalog との容易で自動的な統合、真の CDC/UPSERT テーブルマテリアライゼーション、Bring Your Own Key (BYOK) によるエンタープライズセキュリティ、そして回復力の高いエラー処理により、リアルタイムデータとビジネスインサイトをこれまで以上に容易に結び付けることができます。

最先端の AI と高度な分析のために、ストリーミング データの潜在能力を最大限に引き出して変革を起こします。 今すぐ Tableflow をお試しください。

Tableflowの個別デモをご希望の方は、今すぐお問い合わせください。Confluent Cloudはストリーミングデータの潜在能力を最大限に引き出し、その可能性を最大限に引き出します。Tableflowを活用して、リアルタイムデータストリームを具体的なビジネス価値へと変換できることを願っています。


Apache®、Apache Kafka®、Apache Flink®、Flink®、およびFlinkロゴは、米国およびその他の国におけるApache Software Foundationの商標です。これらの商標の使用は、Apache Software Foundationによる推奨を意味するものではありません。その他の商標はすべて、それぞれの所有者に帰属します。

  • Confluent のシニアプロダクトマネージャーであり、Tableflow 製品のイノベーションを推進しています。データストリーミングとアプリケーション統合に関する広範な専門知識を持ち、以前は Microsoft で Azure Event Hubs 製品の製品管理を主導していました。『gRPC: Up and Running』と『Microservices for Enterprise』の著者でもあります。また、Current、KubeCon、GOTO などの人気カンファレンスで講演者として見識を共有しています。

  • Michelle は、Databricks のシニアスタッフプロダクトマネージャーであり、Open Lakehouse (Unity Catalog、Delta Lake、Iceberg) のあらゆる業務に取り組んでいます。以前は Webflow と Airbnb でチームを率いており、サンフランシスコを拠点としています。

このブログ記事は気に入りましたか?今すぐ共有