昨年、当社はクラウドにおけるスケーラブルかつ効率的なストリーム処理ソリューションに対する需要の高 まりに応えるため、クラウドネイティブな Apache Flink® サービスを構築する計画を発表しました。
本日、3つの主要クラウドすべてで Confluent Cloud for Apache Flink の一般提供を開始したことをお知らせいたします。これにより、Apache Kafka® と Flink を、必要なあらゆる場所でリアルタイムにデータを接続・処理する統合されたエンタープライズグレードのプラットフォームとして活用できるようになりました。このブログ投稿では、当社の提供する Flink の完全マネージド型サービスが際立っている点と、最もミッションクリティカルなユースケースを大規模に処理するための本番環境への対応について説明します。
まずは、以下の Flink クイックスタートと製品ビデオをご覧になり、詳細をご確認ください。Kafka と Flink コミュニティの一員となるには本当にエキサイティングな時期であり、皆様がこの機会を利用してストリーミング機能を向上させていただければ幸いです。
まずは、ストリーム処理の重要性に注目し、Confluent Cloud for Apache Flink の特長や他にはない強みを探っていきましょう。
データストリーミングのインフラストラクチャ・スタックにおいてストリーム処理は重要な役割を果たします。開発者は、これを使用して、データストリームのフィルタリング、結合、集約、変換をその場で行い、不正検出、予知保全、リアルタイムの在庫管理とサプライチェーン管理などの最先端のユースケースをサポートできます。
数あるストリーム処理フレームワークの中で、パフォーマンスと豊富な機能セットにより、Apache Flink® がデファクトスタンダードとして台頭しました。LinkedIn、Uber、Netflix などの革新的なデジタルネイティブ企業と、Apple、ING、Goldman Sachs などの大手企業の両方が、ミッションクリティカルなストリーミングワークロードをサポートするためにこれを採用しています。ただし、運用の複雑さ、学習の困難さ、社内サポートのコストの高さなどにより、Flink の自己管理は (Kafka などの他のオープンソースツールと同様に) 難しい場合があります。
そのため、当社は Confluent Cloud for Apache Flink® で Flink を真のクラウドネイティブサービスとして再構築し、ユーザーが運用ではなくビジネスロジックに集中できるようにしました。サーバーレス Flink の主な利点を詳しく見ていきましょう。
Flink は ANSI SQL 標準をサポートしているため、SQL に精通してい る方はどなたでも数秒で Flink SQL クエリを開始できます。Confluent は、SQL を活用してストリーミングデータを探索し、リアルタイムアプリケーションを構築するための多様な方法をサポートしています。
CLI
開発者は、Confluent CLI の SQL シェルを使用して Flink SQL クエリを記述・実行できます。これには、効率的なクエリ開発のための自動補完などの機能が含まれています。
SQL ワークスペース
よりグラフィカルなアプローチとして、SQL Workspaces は Kafka データと対話するためのブラウザベースの SQL インターフェイスを提供します。このインターフェイスにより、Kafka Topic をデータベーステーブルのように簡単に探索・クエリできます。また、SQL ワークスペースは複数の独立した SQL セルをサポートしているため、ユーザーは複数のクエリを同時に実行し、複雑なワークフローを管理できます。クエリは自動的に保存されるため、ユーザーはログアウトした後でもシームレスに作業を再開できます。
Data Portal と Flink Action
Data Portal は、データの発見、探索、アクセスのためのセルフサービスインターフェイスであり、トピックビューでコンテキストに応じたエントリポイントを提供し、数回のクリックで新しい SQL ワークスペースを開き、Kafka データにクエリを実行できます。
最近導入された Flink Actions は Data Portal から直接アクセスでき、ドメインに依存しない一般的な要件に対応する、事前構築されたターンキーストリーム処理変換のセットです。ユーザーは直感的なユーザーインターフェイスを使用してアクションを簡単に定義でき、Flink ジョブは自動的に作成・維持されます。アクションは直感的に操作できるように設計されており、ユーザーは Flink SQL を深く理解していなくても、最小限の労力で Flink のパワーを活用できます。
ユーザー定義関数 (UDF)
Flink SQL の機能を拡張するために、Java のユーザー定義関数 (UDF) の一部のお客様への早期アクセス提供を開始しました。UDF を使用すると、Flink SQL でカスタマイズされたデータ処理が可能になり、特定のユースケースやビジネス要件に合わせて複雑な計算やカスタムビジネスロジックを実行できます。UDF は SQL エディターから直接呼び出すことができ、クエリの表現力を高めます。SQL と UDF 以外にも、今年後半には Flink Table API を含む追加の Flink API のサポートを強化する予定です。
Apache Flink のワークロードを自社で導入・管理・スケーリングするには、クラスターの規模設計や構成にかかる初期コスト、継続的な保守作業、Flink アプリケーションの管理の複雑さなど、多くの課題が伴います。当社のクラウドネイティブな Flink ソリューションは、シンプルでサーバーレスなストリーム処理を提供し、運用負荷を一切かけずにこれらの課題を解決します。
真にサーバーレス
当社の Flink サービスは、弾力性のある自動スケーリング、常に更新されるランタイム、使用量ベースの課金という3つの主要な側面でサーバーレスエクスペリエンスを提供します。オートスケーラーはスケールアウト、並列処理、負荷分散を管理し、ワークロードサイズの予測や容量計画の必要性を排除します。セキュリティパッチと最新機能を使用して Flink を最新の状態に保つために、自動アップグレードを提供します。さらに、分単位の使用量ベースの請求により、ユーザーは使用したリソースに対してのみ料金を支払い、未使用のリソースは自動的にスケールダウンされます。
また、Flink が本番環境での使用に耐えられるように機能強化を実施し、組織が重要なデータ処理タスクを安心して Flink に任せられるようにしました。これにより、データの整合性やシステムのダウンタイムを心配することなく、主要なビジネス目標に集中できます。
クラウドネイティブの信頼性
Apache Flink のアーキテクチャは、信頼性の高いデータ処理に不可欠な、「1回のみ」処理のメカニズムによって正確性の保証を保証します。その耐障害性に優れた設計は、分散スナップショットを使用して障害を正常に処理し、一貫したチェックポイントと迅速な復元を実現し、状態を維持しながらダウンタイムを最小限に抑えます。Flink を分散トランザクション用の2フェーズコミットプロトコルと Kafka と統合することで、トランザクションのサポートが強化され、Exactly-Once-Semantics (EOS) に基づく潜在的なデータ損失の問題に対処し、データの整合性と信頼性のための Apache Flink と Kafka の緊密な連携を示します。
Confluent Cloud for Apache Flink を利用すれば、自動アップデートにより、ソフトウェアの老朽化や脆弱性によるダウンタイムやデータ損失のリスクを軽減できます。さらに、当社のオートスケーラーはリソースを効率的に割り当て、ピーク時の使用においてパフォーマンスのボトルネックやスロットリング、障害のリスクを低減します。
SLA と専門家によるサポート
当社の Flink サービスは、分単位で 99.99% の稼働率保証により支えられており、最も厳しいストリーミング処理ワークロードをサポートします。また、コミッター主導のサポートと Kafka と Flink の第一線の専門家によるサービスも提供しています。
さらに、Deloitte、Ness Digital Engineering、Somerford Associates、Improving、Psyncopate、Platformatory、Synthesis Software Technologies(Pty)Ltd、iLink Digital などの Confluent の認定システムインテグレーターのグローバルネットワークを利用して、Flink ベースのアプリケーションの構築、デプロイ、チューニングを行うことができます。これらのインテグレーターは、オンサイトでのエンジニアリング支援とスタッフ増員を提供し、お客様が市場投入までの時間を短縮し、コストを削減し、ストリーム処理のユースケースでよりよい成果を達成できるよう支援します。
本番運用
プログラムによるデプロイやInfrastructure as Code(IaC)などの機能により、Flinkアプリケーションの展開がより迅速かつ信頼性の高いものになります。
Confluent の REST API を使用すると、お客様はアプリケーションのライフサイクル全体をエンドツーエンドで管理でき、カスタマイズ可能で柔軟な展開をサポートできます。Flink ステートメントの Terraform サポートにより、デプロイプロセスがさらに合理化され、Git などのバージョン管理システムと統合され、完全に自動化されたデプロイが可能になり、開発、テスト、運用など、さまざまな環境で一貫したデプロイが実現します。開発者は、これらのプログラムによるデプロイを GitHub、GitLab、Jenkins などの既存のツールと統合し、パイプラインを自動化することもできます。
メトリクスおよび監視ツールとの統合により、Flink アプリケーションの運用上の可視性が向上します。Flink メトリクスは Confluent Cloud Metrics API を通じてアクセス可能であり、ユーザーはすべてのリソースを一元的に監視できます。また、Prometheus、Grafana、Datadog などの一般的なツールを使用してアラートを設定し、プロアクティブに問題に対応することができます。
Kafka と Flink はストリーム処理で組み合わせられることがよくありますが、データ形式とスキーマが一致しないため、統合が複雑になり、信頼性と精度が損なわれるという課題が発生します。Confluent の Flink サービスは、Kafka サービスとシームレスに統合され、Kora Engine を活用したデータの移動とストレージにおけるストリーミングコンピューティングの一般化されたレイヤーによって機能を強化します。
データの互換性とガバナンス
Confluent Cloud は、メタデータの重複を排除し、データの発見と探索を強化することでメタデータ管理を簡素化します。当社の Flink サービスは Kafka および Schema Registry とネイティブに統合されており、Kafka Topic は Flink ですぐにクエリでき、Flink で作成されたテーブルはスキーマ付きの Kafka Topic としてアクセス可能なため、すべての Topic が Confluent Cloud の Flink SQL 経由で即座にクエリ可能となります。
さらに、Confluent の Stream Lineage と Flink の統合でストリーミングデータ処理を可視化および追跡できるようになり、ユーザーは Flink でデータがどのように変換・処理されるかを視覚的に追跡できます。この機能は、Flink クエリを通過するメッセージのリネージをキャプチャし表示することで、ユーザーが各データフローの起点、変換、宛先を追跡できるようにします。
セキュリティ
オープンソースの Apache Flink には組み込みのセキュリティモデルがないため、組織は導入時にセキュリティ上の考慮事項に対処する必要があり、それ自体がかなりリスクを伴う可能性があります。対照的に、Confluent Cloud は、すべての重要なデータストリームへのアクセスを制御、管理、統制するための実証済みの包括的なセキュリティ機能スイートを提供します。Confluent Cloud 内の Flink は、ロールベースのアクセス制御(RBAC)を含む同じアイデンティティおよびアクセス管理プロバイダーを継承し、安全でスケーラブルな権限管理が可能になります。さらに、Flink は継続的なステートメントの実行にマネージドサービスアカウントを使用し、管理性を向上させます。
マルチクラウド
当社の完全マネージド型 Flink サービスは三大クラウドサービスプロバイダー全てで利用可能であり、データやアプリケーションが存在するあらゆる場所でストリーム処理ワークロードをシームレスに展開する柔軟性をお客様に提供します。最新の対応リージョンについてはドキュメントを参照してください。
Flink がサポートする一般的なユースケースの一つは、生成 AI と大規模言語モデル(LLM)のためのストリーミングデータパイプラインです。生成 AI アプリの構築が多くの企業にとって最優先事項となる中、ベクターデータベースはしばしば LLM と組み合わせられ、その精度とビジネスの特定のユースケースとの関連性を向上させるための追加のコンテキストを提供します。
ベクターデータベースを最大限に活用し、最適な推奨事項を作成するには、リアルタイムの在庫レベル、サプライチェーンの状態と物流、金融市場レートなど、ビジネスの現在の状態を正確に反映するよう、リアルタイムで更新する必要があります。定期的なバッチ処理や公開データセットに依存するパイプラインが原因でベクターデータベース内のデータが古くなったり、忠実度が低下したりすると、生成 AI の結果の信頼性と関 連性が低下します。
Confluent を使用した統合プラットフォームとして Kafka と Flink を活用することで、チームはあらゆる環境のデータソースに接続し、データストリームをオンザフライでクリーンアップして拡充し、リアルタイムでベクターデータベースに即時使用可能な入力として配信できます。当社の完全マネージド型 Flink サービスにより、ユーザーはリアルタイムでデータを処理し、高品質なデータストリームを生成して、最も影響力のある AI アプリケーションを支えることができます。Confluent のデータストリーミングアーキテクチャは、Elastic、MongoDB、Pinecone、Rockset、SingleStore、Weaviate、Zilliz などの主要なベクターデータベース・ベンダーとの統合により、リアルタイム生成 AI アプリの開発を簡素化し、加速します。これにより、生成 AI アプリがビジネスの最新の状況を確実に把握できるようになります。
Confluent Cloud for Apache Flink の一般提供に至るまでの道のりは、継続的な改善と革新の連続でした。当社のサーバーレス Flink 製品はミッションクリティカルなアプリケ ーションの厳しい要件を満たすように設計されており、ストリーミングユースケースで頻繁に必要とされる大規模なスケールと複雑さに対応できるように準備されています。
当社は Apache Flink を真のクラウドネイティブサービスとして再構築し、運用を処理している間、ユーザーはビジネスロジックに集中できるようにしました。導入と管理の合理化から Kafka とのシームレスな統合の提供まで、当社のサーバーレスかつ完全マネージド型の Flink サービスは、最高クラスのストリーム処理機能を提供します。また、信頼性とパフォーマンスの確保においても大きな進歩を遂げ、業界トップクラスの Kafka と Flink の専門家が支える 99.99% の稼働率保証で信頼性の高いストリーム処理を実現しています。
すべての主要クラウドで Confluent Cloud for Apache Flink が一般提供されるようになったことで、統合されたエンタープライズグレードのデータストリーミングプラットフォームとしての Kafka と Flink の力をお客様に体験していただけることを嬉しく思います。当社が Flink サービスの可能性を探求し、リアルタイムのストリーム処理のための最先端のソリューションを革新し、提供し続ける中で、追加のプログラマティック API を含む将来の製品発表にご期待ください。詳細については、近日公開予定の Flink ウェビナー に登録して、Kafka と Confluent と統合された Flink の全機能を紹介するテクニカルデモをぜひお試しください。
In this blog post, we will provide an overview of Confluent's new SQL Workspaces for Flink, which offer the same functionality for streaming data that SQL users have come to expect for batch-based systems.
Several key new features have been added to Confluent Cloud for Apache Flink this year including Topic Actions, Terraform support, and expansion into GCP and Azure. Let's take a look at these enhancements and how they empower users to harness the full potential of streaming data.