エンタープライズ AI は、個別のモデルを超えて統合されたデータエコシステムへと進化しています。
組織が AI イニシアチブを拡張するにつれて、未加工データからコンピューティング処理、機能カタログ、モデル提供まで、AI パイプラインのすべてのステップをつなぐ統合データゲートウェイを構築するという優れた機会が生まれます。これは単に複雑さを管理するだけでなく、イノベーションを加速するのに役立つ基盤を構築することを意味します。
組織が直面する繰り返しの課題の 1 つとして、データサイエンティストが同じ特徴量を何度も再構築するという点があります。あるチームがチャーン予測モデルの顧客生涯価値を計算し、3 か月後、別のチームがレコメンデーションエンジン用に同じ計算を必要とするとしても、それがすでに存在することを知りません。そのため、最初から再構築し、それにより不整合が持ち込まれ、数週間の開発時間が無駄に費やされることになります。
これは特徴量の再利用に関する問題であり、組織では、時間と品質の両面で余計なコストが発生します。
特徴量ストアとは
特徴量ストアは、機械学習の特徴量 (モデルが予測を行うために使用する入力変数) を管理、保存、および提供する一元化されたプラットフォームです。これは AI 用に特別に設計されたデータカタログだと言えます。データサイエンティストは、ドキュメントを探したり、同僚に「月次の購買速度を計算したことはありますか?」と尋ねたりする必要はありません。これにより、データサイエンティストは、すべての機械学習(ML) プロジェクトで特徴量を発見し、再利用し、共有することができます。
しかし、特徴量ストアは特徴量のカタログ化するだけでなく、3 つの重要な課題を解決します。
- 特徴量の再利用: 開発者は特徴量をゼロから再構築するのではなく、既存のものを見つけて再利用できます。
- トレーニングと提供の一貫性: 一貫性を確保し、モデルがトレーニングと本番環境で同じ特徴量計算を使用できるようにします(「このノートブックでは動作した」というような厄介な問題を解消)。
- 運用の単純化: 単一のインターフェースを通じて、特徴量パイプライン、バージョン管理、監視の管理を可能にします。
Red Hat OpenShift AI には、プラットフォームのネイティブコンポーネントとして、オープンソースの Feast プロジェクトに基づく特徴量ストア機能が組み込まれています。個別のインストールは不要で、チームが特徴量優先の開発プラクティスを導入する準備ができたら、これを利用可能にして有効にできます。
統合データゲートウェイの機会
Feast は、すべての AI データパイプラインに対応する単一の、一貫したアクセスレイヤーとして機能します。6,500 以上の GitHub スターと 1,600 万以上のダウンロードを持つ実績のあるオープンソース基盤上に構築された Feast は、データソース、コンピューティングエンジン (Ray/Spark)、オーケストレーター (KFP/Airflow) を統合カタログに接続するため、組織はいずれかのベンダーに偏らないデータを構築できます。
パイプラインのフロントエンド:複雑な AI データワークフローを単純化
Red Hat OpenShift AI の特徴量ストアは、この統合アプローチをサポートします。
- 特定のベンダーに依存しない基盤: Spark、Ray、Milvus、Elastic、Postgres、その他多くの一般的なデータベースと統合します。インフラストラクチャを自由に選択できます。
- パイプラインの完全な可視性: 未加工データから特徴量エンジニアリング、モデル推論までの可視性が確保されます。
- ハイブリッドデプロイメントの自由度: オンプレミス、クラウド、エッジ環境全体で一貫して実行されます
- オープンソース・イノベーション: Feast の実績のある基盤上に構築されており、1,600 万回以上ダウンロードされ、Shopify、NVIDIA、Walmart などの多くの企業がこれを使用し、さらにこれに貢献しています。
このアプローチは、実際的なエンタープライズの課題も解決します。連邦政府機関は、クラウドコンピューティングを活用しながら、オンプレミスで機密データを処理できます。金融機関は、運用上の柔軟性を維持しながら、コンプライアンス要件を満たすことができます。製造会社は、一元化された分析に接続しながら、エッジでデータを処理できます。
3 層アーキテクチャ:データ、コンピューティング、カタログ
AI データ管理に対する Red Hat のアプローチは、シンプルながら強力な洞察に基づいています。それは、最高のエンタープライズプラットフォームは、既存のインフラストラクチャを置き換えるのではなく、それに接続できるものだということです。ここでは、特徴量ストアを採用している金融サービス会社の事例を通して、これが実際にどのように機能するかを紹介します。
レイヤー 1:データソース—データが存在する場所でデータに対応する
不正検出を実装している大規模な銀行について考えてみましょう。顧客データはオンプレミスの Oracle データベースに存在し (規制コンプライアンス要件)、トランザクション・ストリームは AWS 上の Kafka を通過し (最新のリアルタイム処理)、履歴パターンは Snowflake データウェアハウスに存在します (3 年前の分析チームの投資)。
従来の特徴量ストアソリューションでは、すべてをプラットフォームに移行するか、特徴量ストアをまったく使用しないかを選択する必要がありました。これにより、非常に困難な状況が生じます。Oracle データベースはコンプライアンスのために移動できず、チームは Snowflake への投資を放棄せず、リアルタイム Kafka パイプラインは運用に不可欠です。
Red Hat の特徴量ストアは、ユニバーサルデータ接続によってこれを解決します。
- どこにでも接続可能: 特徴量は、オンプレミスのデータベース、クラウドストレージ、エッジセンサー、およびストリーミングプ・ラットフォームから、すべて同じ特徴量定義を使用してプルできます。
- 投資を維持: 不正検出チームは、移行コストや運用の中断なしに、既存のインフラストラクチャを引き続き使用します
- コンプライアンスを維持: 機密性の高い顧客データは、コンプライアンスに準拠したオンプレミスデータベースに保持され、特徴量ストアは管理されたアクセスを調整します
銀行の不正検出チームは、特徴量を 1 回定義し、「customer_transaction_velocity_30d」、「account_risk_score」、「merchant_category_pattern」などと定義します。特徴量ストアは、Oracle からのプル、Kafka ストリームとの結合、Snowflake 履歴による拡張などの複雑さを処理します。データサイエンティストは、これらのソースをまとめるために別の JOIN ステートメントを作成することはありません。
レイヤー 2:コンピューティング処理—すべてのワークロードに対応する柔軟性
次に、これらの特徴量がどのように計算されるかについて説明します。不正検出チームは、1 日あたり数十億件のトランザクションを処理する必要がありますが、特徴量ごとに計算ニーズが異なります。
- 単純な集計 (トランザクション数) は SQL で効率的に実行されます。
- 複雑なパターン検出 (行動異常) には、分散処理のために Spark が必要です。
- リアルタイムのリスクスコアリング (1 秒未満のレイテンシー) には、軽量ストリーミング計算が必要です。
ほとんどの特徴量プラットフォームは、それぞれが優先するコンピューティングエンジンにユーザーをロックインします。Spark の専門知識とインフラストラクチャに投資した場合、それを放棄して独自のシステムを学習するように指示されます。ML を多用する変換に Ray が必要な場合は、さらに複雑になります。
Red Hat の特徴量ストアは、コンピューティングにおける柔軟性を提供します。
- 特定のベンダーに依存しないエンジン:Ray と Spark のネイティブサポート、および独自のコンピューティングフレームワーク (Spark、Ray など) を持ち込める機能
- オープンスタンダード: ロックインを作成する独自の DSL ではなく、標準の Python と SQL を使用して定義された特徴量
不正検出チームは、単純な集計を Postgres (すでにデプロイ済み) で実行し、既存の Spark クラスタで複雑な行動モデルを実行し (長年のインフラストラクチャ投資を維持)、即座に不正検出を実行するためにブランチの場所にリアルタイムのスコアリングエンジンをデプロイします。同じ特徴量の定義が使用されますが、コンピューティング戦略はビジネス要件に基づいて異なります。
レイヤー 3:統合カタログはすべての特徴量に対応する単一インターフェース
実際の課題はここから始まります。不正検出チームは、3 つのデータソースからプルし、2 つのコンピューティングプラットフォームで実行する 50 以上の特徴量を定義しました。統合カタログがない場合、次のようになります。
- データサイエンティストは、誰かがすでに月次トランザクション速度計算ツールを構築しているかどうかを把握するために、Git リポジトリ、Jupyter ノートブック、およびチームの知識を調べて時間を無駄にします。
- 特徴量を見つけた場合も、列名やタイムスタンプ、集計ウィンドウが異なり、互換性がないことが判明する場合があります。
- プロダクションエンジニアにとって、どの特徴量がどのデータソースとコンピューティング・ジョブに依存するかなどの、特徴量の依存関係を把握することが容易ではありません。
- コンプライアンス担当者は、「機密性の高い顧客の特徴量に誰がアクセスできるか」という質問に答えることができません。
統合カタログ (Feast) は、これらすべてを解決します。
- 単一インターフェース: データサイエンティストは、1 つの検索インターフェースを通じて 50 の特徴量すべてを検索できます。リポジトリを検索したり、Slack で質問したりする必要はありません。
- パイプラインの完全な可視性: 各特徴量は、データがどこから来たのか、必要なコンピューティング、およびどのモデルがそれを使用するかを正確に示します。
- エンタープライズ対応ガバナンス: 組み込みのロールベースアクセス制御 (RBAC) は、承認されたチームのみが機密性の高い特徴量にアクセスできることを意味し、完全な監査証跡はすべてのアクセスを追跡し、承認ワークフローは本番環境のデプロイメント標準を適用します。
2 人の異なるユーザーがいる場合は、次のようになります。
管理ワークフロー (プラットフォームチーム):
- 特徴量ストアを有効にする:OpenShift AI ダッシュボードで、特徴量ストア設定に移動し、コンポーネントを有効にします (組み込まれているので個別のインストールは不要)
- アクセス許可を設定する: どのデータサイエンスチームが特徴量を作成でき、どのチームを特徴量を使用のみ可能とするか、また各チームがどのデータソースにアクセスできるかを定義します
- 運用を監視する: ダッシュボードには、特徴量パイプラインの正常性、リソース使用率、およびデータの鮮度が示されます
データサイエンティストのワークフロー:
- 特徴量を発見する: 特徴量カタログで「transaction (トランザクション)」を検索します - 前四半期に不正検出チームによって構築された「customer_transaction_velocity_30d」を含む 12 の既存の特徴量を見つけます。
- コンテキストを理解する: 特徴量をクリックして、データソース (Kafka トランザクション + Oracle 顧客)、コンピューティング要件 (Spark ジョブ、毎日実行)、および使用例コードを確認します。
- 新しいモデルで再利用する: 特徴量の定義をレコメンデーションエンジンのプロジェクトにコピーし、不正検出とレコメンデーション間で同じ計算ロジックと一貫性を得られます。
- 迅速な反復を実行する:認証がすでに設定されている特徴量カタログから、事前に統合された Jupyter ノートブックを直接起動します。
結果:かつては 3 日間の調査、5 件の Slack 会話、および一貫性のない計算のデバッグが必要だったものが、10 分で完了できるようになりました。また、不正検出チームがトランザクション速度計算を改善すると、すべてのダウンストリームモデルが自動的に拡張の恩恵を受けます。
これは統合カタログの複合的な価値です。作成されたすべての特徴量により、組織全体の AI 開発がより速く、より信頼性が高く、より一貫性のあるものになります。
ビジネスへの影響:戦術ツールから戦略プラットフォームへ
この 3 レイヤーからなるアーキテクチャは、特徴量ストアを戦術コンポーネントから、すべての AI データ消費をオーケストレーションする戦略データゲートウェイに変換します。さまざまな AI イニシアチブのために個別のパイプラインを管理する代わりに、従来の ML モデル、生成 AI アプリケーション、および高度なハイブリッドワークフローを提供する、単一の管理されたエントリポイントを確立します。
ビジネスへの影響は変革をもたらします。
- イノベーションの迅速化: データサイエンティストは、ゼロから再構築するのではなく、プロジェクト全体で特徴量を発見して再利用するため、市場投入までの時間が短縮されます。
- より強力なガバナンス:すべての AI イニシアチブにおけるデータアクセス・ポリシー、監査証跡、およびコンプライアンス要件の単一の制御ポイントが提供されます。
- 経済性の向上: 共有インフラストラクチャと再利用可能なアセットにより、品質を向上させながら、プロジェクトごとのコストを削減できます。
- 戦略的な柔軟性: テクノロジースタックの進化に合わせて適応するプラットフォームに依存しないアーキテクチャを活用でき、イノベーションを引き起こす能力を確保できます。
AI がビジネスの運用における中心的な一を占めるにつれて、ベンダーニュートラルなデータインフラストラクチャを早期に導入することにより、イノベーションの速度と業務運営の卓越性における持続可能な競争優位性を得ることができます。
まとめ:成功のための AI データ基盤の構築
Red Hat OpenShift AI の特徴量ストア機能は、特徴量管理ソリューション以上のものです。これは、イノベーションを加速し、運用を最適化し、戦略的な柔軟性を維持するのに役立つ、ベンダーニュートラルな AI データエコシステムを構築するためのプラットフォームです。
データ戦略は、組織の機能の拡大とともに拡張し、イノベーションの柔軟性を維持する基盤上で AI の未来を実現するための鍵となります。
今すぐ始める
企業向けの特徴量ストアのアプローチを検討する準備はできましたか?
- トライアルを開始する:Red Hat AI 製品トライアル
- Feast のサンプルを試す:コミュニティのデモとチュートリアル
- Red Hat で AI 導入を進めましょう: AI コンサルティングサービス
- チームに問い合わせる: jzarecki@redhat.com
- コードを確認する: Feast GitHub リポジトリ
- 詳細情報: OpenShift AI ドキュメント
リソース
適応力のある企業:AI への対応力が破壊的革新への対応力となる理由
執筆者紹介
Jonathan Zarecki is Principal Product Manager for AI data infrastructure at Red Hat, focusing on vendor-neutral solutions that accelerate enterprise AI innovation. He leads product strategy for feature stores, and enterprise AI data management within the Red Hat AI portfolio. Prior to Red Hat, Jonathan was a Co-founder & CPO at Jounce (acquired by Red Hat), where he specialized in MLOps platforms and enterprise AI deployment strategies.
Francisco has spent over a decade working in AI/ML, software, and fintech at organizations like AIG, Goldman Sachs, Affirm, and Red Hat in roles spanning software, data engineering, credit, fraud, data science, and machine learning. He holds graduate degrees in Economics & Statistics and Data Science & Machine Learning from Columbia University in the City of New York and Clemson University. He is a maintainer for Feast, the open source feature store and a Steering Committee member for Kubeflow, the open source ecosystem of Kubernetes components for AI/ML.
Seasoned Software and Security Engineering professional.
Primary interests are AI/ML, Security, Linux, Malware.
Loves working on the command-line.
類似検索
AI insights with actionable automation accelerate the journey to autonomous networks
Fast and simple AI deployment on Intel Xeon with Red Hat OpenShift
Technically Speaking | Build a production-ready AI toolbox
Technically Speaking | Platform engineering for AI agents
チャンネル別に見る
自動化
テクノロジー、チームおよび環境に関する IT 自動化の最新情報
AI (人工知能)
お客様が AI ワークロードをどこでも自由に実行することを可能にするプラットフォームについてのアップデート
オープン・ハイブリッドクラウド
ハイブリッドクラウドで柔軟に未来を築く方法をご確認ください。
セキュリティ
環境やテクノロジー全体に及ぶリスクを軽減する方法に関する最新情報
エッジコンピューティング
エッジでの運用を単純化するプラットフォームのアップデート
インフラストラクチャ
世界有数のエンタープライズ向け Linux プラットフォームの最新情報
アプリケーション
アプリケーションの最も困難な課題に対する Red Hat ソリューションの詳細
仮想化
オンプレミスまたは複数クラウドでのワークロードに対応するエンタープライズ仮想化の将来についてご覧ください