[Demo] How to Build Streaming Agents with Flink, Claude LLM, & Anthropic’s MCP | Register Now

Confluent と Databricks でAIを活用したパーソナライゼーションエンジンを構築するための7つのステップ

作成者 :
  • Greg MurphyDirector of Product Marketing, Confluent
  • Kyle KleinSenior Technical Marketing Manager, Confluent

Databricks Data Intelligence Platform や Mosaic AI といったプラットフォームを通じた新しいAIの進歩や普及は、あらゆる業界のエンジニアリングチームに対する期待を根本からリセットしました。ビジネスのペースは変わり、数ヶ月前に定義され、スコープが決められた問題を解決するためにシステムをじっくり組み合わせるのではなく、インテリジェントでリアルタイムなアプリケーションのスピーディな提供が必要です。しかし、最先端のAIプラットフォームでさえ、その効果はそれを支えるデータによってのみ発揮されます。真の価値を提供するには、AIが最新のリアルタイムデータを継続的に供給する必要があります。

Apache Kafka® の開発者によって構築された Confluent のデータストリーミングプラットフォームは、Databricks とリアルタイムに連携することで全ビジネス領域を結び、高度にコンテキスト化されたAIと大規模な分析を行えるようにします。旧来のメインフレームから最新のクラウドデータベース、エンタープライズアプリケーション、エッジの IoT デバイスまで、Confluent はあらゆるデータを Databricks に取り込み、インテリジェントなアプリケーションと、プロアクティブで自動化された意思決定を促進します。

このブログでは、AIを活用したマーケティングパーソナライゼーションエンジンを構築するためのステップ毎のガイドを含む実践的なチュートリアルに進む前に、Confluent と Databricks を連携させてリアルタイム AI を活用する方法を学びます。

デモへ進む準備はできましたか?

業務系と分析系の分断を埋めるAI戦略の展開

多くのエンタープライズ組織は、データが連携を想定していない異なるシステムでサイロとなってえいるため、AIの実用化に苦労しています。ほとんどの組織には以下の2つの重要なデータサイロが存在します。

  • アプリケーション、トランザクション、リアルタイムイベントを支える業務システム

  • データインテリジェンスとAIを活用し、より優れた意思決定を実現するための分析システム

データはこれらのサイロ間を、マニュアル作業を要するバッチ処理で、時間がかかって、かつ不安定に移動することが多く、その過程でガバナンスやリネージが失われることがあります。これは、大規模言語モデル(LLM)やエージェント型AIにとって大きな問題であり、誤ったデータや古いデータはレベルの低い推論を招き、誤った判断につながります。業務システムと分析システムの間には、信頼性が高くリアルタイムの橋渡しが不可欠です。高価値な業務データを分析し、履歴データと結合してAIモデルに取り込んで、実際の意思決定を実現するには、Kafka のデータスリームをデータレイクハウスアーキテクチャと互換性のある形式で構造化する必要があります。

Tableflow を使用すれば、Kafkaトピックと関連スキーマが数クリックで Delta Lake テーブル(プレビュー版)で扱えます。パイプラインの結合作業は不要、データの重複も少なく、スキーマの煩わしさもありません。Tableflow を有効にするだけで、Kafka データが分析ツールやAIツールから瞬時にアクセスできるようになります。とても簡単です。

Tableflowが、Kafka トピックを  Delta Lake テーブル (プレビューを開く) として容易に扱える

信頼性の高いリアルタイムデータプロダクトでAIを活性化

Tableflowは次から次へと生成されるデータと保存されているデータ(業務環境と分析環境)の間にシームレスで高速なパスを構築します。このパス(=ハイウェイ)は、AIを活性化する原動力となるリアルタイムで信頼性の高いデータプロダクトの交換メカニズムです。単なる生データではなく、ガバナンスが確立された再利用可能なデータアセットであり、その出所を問わず、AIと分析を強化するように設計されています。Confluentは、これらのデータプロダクトの構築を容易にします。

データエコシステム全体を網羅する120+ 以上のプリビルト・コネクターにより、チームはあらゆる業務システムやアプリケーションからのデータストリームをシームレスに統合し、AIモデルと分析が常に最新かつ最も関連性の高い情報に基づいて動作することを保証します。Apache Flink® のストリーム処理とスキーマ管理や検証を含むビルトインのガバナンス機能と組み合わせることで、これらのツールはあらゆる生成され続けるデータのクリーニング、プロセス、高品質化を可能にし、下流のデータレイクハウスや分析プラットフォームには、高品質でガバナンスの効いた、検索可能なデータのみが確実に格納されます。

Confluent によって、Databricks 上のAIを強化するためのリアルタイムでコンテキスト化された信頼できるナレッジ ベースの構築が可能

クイックスタート: AIを活用したマーケティングのパーソナライゼーションエンジンの構築

このワークショップでは、架空の高級ホテルブランド向けに、AIを活用したマーケティングのパーソナライゼーションエンジンの構築方法を学びます。 リバーホテル社(架空)は、Confluent と Databricks を活用して、予約数が少ないホテルのロケーションを特定し、売上向上のためのプロモーションコンテンツをレコメンデーションするアプリケーションの構築を考えています。

Confluent は Oracle XStream CDC Source Connector を含むコネクタを使用して複数のソースからデータを取り込み統合することで、予約数の少ない宿泊施設を特定するリアルタイムのデータプロダクトを生成します。これらは、TableflowによってDelta Tables に変換され Databricks に書き込まれます。Mosaic AI上に構築された Databricks Genie を使えば、最適なプロモーションのキャッチコピーと対象ユーザーの分類を即座に生成できます。では、始めてみましょう。

クイックスタートに必要な環境

  • 管理者権限を持つ Confluent Cloud アカウント

  • Databricks アカウントと既存のワークスペース(トライアルアカウントも可)

  • AWS CLI がインストールされ、リソース作成権限で認証されていること

  • Terraform がインストールされていること

  • Docker Desktop がインストールされていること

  • Gitがインストールされていること

推奨される技術的知識

  • クラウドプラットフォーム(AWS)に関する実務知識

  • 基本的なSQLスキル

  • ストリーミングデータの概念に関する知識

アーキテクチャ

下図はリバーホテル社での、Confluent と Databricks の実装概要を示しています。

リバーホテル社は、Confluent と Databricks を併用し予約数が少ないホテルの場所を特定、売上を伸ばすためのプロモーションコンテンツをレコメンドするアプリケーションの構築を検討

データフローと主要なテクニカルコンポーネント

Oracle からの顧客情報とホテルの最新情​​報は Oracle XStream CDC Source Connectorにより継続的にキャプチャされ Kafka にストリーミングされます。また、予約、レビュー、クリックは Kafka トピックにリアルタイムで送信されます。Apache Flink はこれらの一連を処理・結合し、サイトを閲覧しながらも20分以内に予約しなかった顧客など、購入意欲の高い顧客を特定します。

そこから、Databricks のAIモデルがホテルのレビューを分析し、パーソナライズされたマーケティングコンテンツを作成します。Tableflow は、高価値を付加された Kafka データを Databricks の Delta Lake テーブルとして同期し、そこから分析がなされ、AIを活用したキャンペーンが開始され潜在顧客への再アプローチが実現します。

機能

コンポーネント

Data Ingestion (データの取得)

Oracle XStream CDC ソースコネクタを有効化したOracle XEデータベース(顧客データおよびホテルデータ用)

現実の予約、レビュー、クリックといったイベントを生成するデータ生成ツール

Oracle XStream CDC ソースコネクタによるリアルタイム変更データキャプチャ

Stream Processing (ストリーム処理)

変動するデータ量とレイテンシに対応するKafkaクラスタを備えたConfluent Cloud

リアルタイムデータ処理とAIモデル推論のためのApache Flink

データガバナンスと品質のためのスキーマレジストリ

Data Enrichment (データの強化・データ品質向上)

ネイティブFlinkとAIモデルの統合

データ集約

リアルタイムのレビュー要約と顧客ターゲティング

Integration & Analytics (統合と分析)

TableflowによるAmazon S3とのシームレスなDelta Lake統合

Databricks Genie AIによる自然言語データ探索

ターゲットを定めたソーシャルメディア投稿作成のためのDatabricks Notebook

クイックスタートを実行

以下は、このクイックスタートを実行する手順の概要です。GitHub リポジトリ全体にアクセスして、全ての手順を確認してください。

1. ローカル環境の準備: 第一ステップでは、必要なツールをローカルにインストールし、AWS、Confluent、および Databricks アカウントにサインアップまたはログインして前提条件を完了します。

2. クラウドインフラストラクチャのデプロイ:次に、Terraform を初期化し、AWS、Confluent、Databricks を使用する本ワークショップのクラウドリソースを起動するために必要なAPIとアカウント情報を追加します。初期化と検証完了後、Terraform の1 コマンドのみで 、(手品のように)クラウドリソースがデプロイされます。

3. モックデータの取り込み:この時点で、Oracle へ2つのデータストリーム、Kafka へ3つのデータストリームを生成するローカルサービスを実行し、ワークショップのモックデータを生成します。Oracle データを Confluent に取り込むには、データの変更を簡単にキャプチャできる Oracle XStream CDC ソースコネクタを使用します。

フルマネージドの Confluent Cloud 用 Oracle XStream CDC ソースコネクタ は、Oracle データベースの行に加えられたすべての変更をキャプチャし、その変更を Apache Kafka® トピックの変更イベントレコードとして表現します

4. Apache Flink によるデータの処理およびデータエンリッチ: データが Confluent Cloud に取り込まれたら、AIで要約されたレビューとホテル + 予約の組み合わせテーブルを含む対象顧客のテーブルを作成し、Flink を使用してこれらのデータストリームをエンリッチされたデータプロダクトに変換します。

5. Tableflow によるデータプロダクトの Delta Lake へのストリーミング:Tableflow を有効にして、これらのデータプロダクトをDeltaテーブルとしてストリーミングされます。これにより、Databricks アカウントからもアクセスできるS3バケットに同期されます。

6. Databricks を使用した分析〜ターゲットを絞ったキャンペーンを作成: Databricks では、AI/BI Genie を使用してこれらのデータプロダクトから容易に視覚化した分析を行い、追加のAI機能を利用してターゲット毎のソーシャルマーケティングキャンペーンを作成できます。

7. クリーンアップ:最後のステップでは、Confluent と Databricks UI で作成したクラウドリソースをいくつか手動で削除します。その後、Terraform を使用して残りのリソースを効率的に停止・削除できます。

Confluent で始めましょう

準備はいかがでしょうか? クイックスタートをチェックして、今すぐ Confluent と Databricks を試してみましょう。Tableflow を介した Confluent と Databricks の連携が、複雑なデータエンジニアリングのコストや手間をかけずに、業務系と分析系の分断を埋めるAI戦略を展開できます。

Confluentを初めてご利用になる方は、Confluent Cloudのフリートライアル版にご登録のうえ新機能をお試しください。新規登録された方には、最初の30日間、 Confluent Cloud を400ドル分ご利用いただけます。

‎ 

Apache Software Foundation in the United States and/or other countries. Apache®、Apache Kafka®、Apache Flink®、Apache Iceberg™️、およびそれぞれのロゴは、米国およびその他の国における Apache Software Foundation の登録商標または商標です。これらの使用は、Apache Software Foundationによる推奨を意味するものではありません。その他の全ての商標は、それぞれの所有者に帰属します。

  • GregMurphy (グレッグ・マーフィー)は、Confluent のテクノロジーパートナープログラムの開発と普及に注力するスタッフプロダクトマーケティングマネージャーです。Confluent のデータストリーミングプラットフォームがより広範なパートナーエコシステムの中でどのように位置づけられるかを理解していただくよう努めています。Confluent 入社以前は、Salesforce と Google Cloud でプロダクトマーケティングおよびプロダクトマネジメントを担当していました。

  • Kyle Klein (カイル・クライン)は、Confluent 製品の機能とデータストリーミングに関する各業界の実例を主としたテクニカルな資料の作成に取り組んでいます。サイバーセキュリティ企業のデジタルマーケティングマネージャーとしてキャリアをスタートし、ソフトウェア評価、ソフトウェアエンジニア、デベロッパーアドボケートなど、それぞれの職務において長年にわたり貴重な経験を積んできました。

このブログ記事は気に入りましたか?今すぐ共有