엔터프라이즈 AI는 개별 모델을 넘어 통합된 데이터 에코시스템으로 진화하고 있습니다.

AI 이니셔티브를 확장함에 따라 원시 데이터에서 컴퓨팅 처리, 기능 카탈로그, 모델 제공에 이르기까지 AI 파이프라인의 모든 단계를 연결하는 통합 데이터 게이트웨이를 구축할 수 있는 기회가 생깁니다. 이는 단순히 복잡성을 관리하는 차원을 넘어 혁신을 가속화하는 데 도움이 되는 기반을 구축하는 것입니다.

조직이 반복적으로 직면하는 문제 중 하나는 데이터 사이언티스트가 동일한 기능을 반복해서 다시 구축해야 한다는 것입니다. 한 팀이 이탈 예측 모델에 대한 고객 생애 가치를 계산하고 3개월 후 다른 팀에서 추천 엔진에 대해 동일한 계산이 필요하지만 이미 존재하는지 알지 못합니다. 따라서 처음부터 다시 빌드하여 불일치를 야기하고 몇 주간의 개발 시간을 낭비하게 됩니다.

이것이 기능 재사용 문제이며 조직의 시간과 품질 모두에 손해를 끼치고 있습니다.

기능 저장소란?

기능 저장소는 모델이 예측을 수행하는 데 사용하는 입력 변수인 머신 러닝 기능을 관리, 저장 및 제공하는 중앙 집중식 플랫폼입니다. AI를 위해 특별히 설계된 데이터 카탈로그를 활용하면 문서 검색이나 동료에게 “월별 구매 속도를 계산한 적이 있나요?”라고 묻는 대신, 데이터 사이언티스트는 모든 머신 러닝(ML) 프로젝트에서 기능을 검색, 재사용 및 공유할 수 있습니다.

하지만 기능 저장소는 단순히 기능을 카탈로그화하는 것 이상의 역할을 수행합니다. 기능 저장소는 다음과 같은 세 가지 중요한 문제를 해결합니다.

  1. 기능 재사용: 개발자는 기능을 처음부터 다시 빌드하는 대신 기존 기능을 검색하고 재사용할 수 있습니다.
  2. 학습-제공 일관성: 모델이 학습 및 프로덕션 환경에서 동일한 기능 계산을 사용하도록 일관성을 유지하여 “내 노트북에서는 작동했는데 왜 안될까”와 같은 문제를 해결합니다.
  3. 운영 단순화: 단일 인터페이스를 통해 기능 파이프라인, 버전 관리 및 모니터링을 관리할 수 있습니다.

Red Hat OpenShift AI에는 오픈소스 Feast 프로젝트를 기반으로 하는 기능 저장소 기능이 플랫폼의 기본 구성 요소로 내장되어 있습니다. 별도의 설치 없이 팀에서 기능 우선 개발 방식을 도입할 준비가 되면 바로 사용하고 활성화할 수 있습니다.

통합 데이터 게이트웨이의 기회

Feast는 모든 AI 데이터 파이프라인에 대해 일관된 단일 액세스 계층 역할을 할 수 있습니다. 6,500개 이상의 GitHub 스타와 1,600만 회 이상의 다운로드 수를 기록하며 검증된 오픈소스 기반으로 구축된 Feast는 데이터 소스, 컴퓨팅 엔진(Ray/Spark) 및 오케스트레이터(KFP/Airflow)를 통합 카탈로그로 연결하여 벤더에 종속되지 않는 데이터를 구축할 수 있도록 지원합니다.

파이프라인 프런트 엔드: 복잡한 AI 데이터 워크플로우 간소화

Red Hat OpenShift AI의 기능 저장소는 다음과 같은 통합 방식을 지원합니다.

  • 벤더 중립적 기반: Spark, Ray, Milvus, Elastic, Postgres 및 기타 널리 사용되는 데이터베이스와 통합되므로 원하는 인프라를 선택할 수 있습니다.
  • 완전한 파이프라인 가시성: 원시 데이터에서 기능 엔지니어링, 모델 추론에 이르기까지 전체 파이프라인을 가시적으로 관리할 수 있습니다.
  • 자유로운 하이브리드 배포: 온프레미스, 클라우드 및 엣지 환경 전반에서 일관되게 실행됩니다.
  • 오픈 소스 혁신: 1,600만 회 이상 다운로드된 Feast의 검증된 기반을 기반으로 구축되었으며 Shopify, NVIDIA, Walmart 등 여러 엔터프라이즈에서 사용하고 기여하고 있습니다.

이러한 접근 방식은 실제 엔터프라이즈 과제도 해결해 줍니다. 연방 기관은 클라우드 컴퓨팅을 활용하면서 중요한 데이터를 온프레미스에서 처리할 수 있습니다. 금융 기관은 운영 유연성을 유지하면서 규정 준수 요구 사항을 충족할 수 있습니다. 제조 회사는 중앙 집중식 분석에 연결하면서 엣지에서 데이터를 처리할 수 있습니다.

3계층 아키텍처: 데이터, 컴퓨팅, 카탈로그

AI 데이터 관리에 대한 Red Hat의 접근 방식은 단순하지만 강력한 통찰력을 기반으로 합니다. 즉, 최고의 엔터프라이즈 플랫폼은 기존 인프라를 대체하는 대신 연결한다는 것입니다. 기능 저장소를 도입한 금융 서비스 회사의 사례를 통해 실제로 어떻게 작동하는지 살펴보겠습니다.

계층 1: 데이터 소스 - 데이터가 있는 위치에서 데이터 활용

대규모 은행에서 사기 탐지 기능을 구현하는 경우를 예로 들어보겠습니다. 고객 데이터는 온프레미스 Oracle 데이터베이스(규제 준수 요구 사항)에 있고, 트랜잭션 스트림은 AWS의 Kafka(최신 실시간 처리)를 통해 흐르며, 과거 패턴은 Snowflake 데이터 웨어하우스(3년 전 분석 팀 투자)에 있습니다.

기존 기능 저장소 솔루션에서는 모든 것을 플랫폼으로 마이그레이션하거나 기능 저장소를 전혀 사용하지 않는 방법 중에서 선택해야 합니다. 규정 준수로 인해 Oracle 데이터베이스를 이동할 수 없고 팀에서 Snowflake 투자를 포기할 수 없으며 실시간 Kafka 파이프라인이 운영에 매우 중요한 상황이 발생합니다.

Red Hat 기능 저장소는 범용 데이터 연결을 통해 이 문제를 해결합니다.

  • 어디서나 연결: 온프레미스 데이터베이스, 클라우드 스토리지, 엣지 센서 및 스트리밍 플랫폼에서 동일한 기능 정의로 기능을 가져올 수 있습니다.
  • 투자 유지: 사기 탐지 팀은 마이그레이션 비용이나 운영 중단 없이 기존 인프라를 계속 사용할 수 있습니다.
  • 규정 준수 유지: 중요한 고객 데이터는 규정을 준수하는 온프레미스 데이터베이스에 보관하고 기능 저장소는 제어된 액세스를 오케스트레이션합니다.

은행의 사기 탐지 팀은 "customer_transaction_velocity_30d", "account_risk_score", "merchant_category_pattern"과 같은 기능을 정의하고 기능 저장소는 Oracle에서 가져오고 Kafka 스트림과 결합하고 Snowflake 기록을 보강하는 복잡성을 처리합니다. 데이터 사이언티스트는 이러한 소스를 통합하기 위해 더 이상 JOIN 문을 작성할 필요가 없습니다.

계층 2: 컴퓨팅 처리 - 모든 워크로드를 위한 유연성

이제 이러한 기능이 어떻게 계산되는지 살펴보겠습니다. 사기 탐지 팀은 매일 수십억 건의 트랜잭션을 처리해야 하지만 기능에 따라 컴퓨팅 요구 사항이 다릅니다.

  • SQL에서 간단한 집계(트랜잭션 수)를 효율적으로 실행
  • 복잡한 패턴 탐지(비정상적인 동작)에는 분산 처리를 위해 Spark가 필요
  • 실시간 위험 점수(1초 미만의 대기 시간)에는 경량 스트리밍 컴퓨팅이 필요

대부분의 기능 플랫폼은 특정 컴퓨팅 엔진에 종속됩니다. Spark 전문 지식과 인프라에 투자했다면 이를 포기하고 자체 시스템을 배워야 합니다. ML이 많이 필요한 변환에 Ray가 필요한 경우에도 사용할 수 없습니다.

Red Hat 기능 저장소는 컴퓨팅 유연성을 제공합니다.

  • 벤더 중립적 엔진: Ray 및 Spark에 대한 기본 지원은 물론, 자체 컴퓨팅 프레임워크(Spark, Ray 등)를 가져올 수 있는 기능도 제공합니다.
  • 개방형 표준: 종속성을 유발하는 독점 DSL이 아닌 표준 Python 및 SQL을 사용하여 기능을 정의합니다.

사기 탐지 팀은 Postgres(이미 배포됨)에서 간단한 집계를 실행하고 기존 Spark 클러스터에서 복잡한 행동 모델을 실행하며(수년간의 인프라 투자 유지), 즉각적인 사기 탐지를 위해 지점 위치에 실시간 점수 엔진을 배포합니다. 비즈니스 요구 사항에 따라 동일한 기능 정의를 사용하고 다양한 컴퓨팅 전략을 적용할 수 있습니다.

계층 3: 통합 카탈로그 - 모든 기능에 대한 단일 인터페이스

여기서부터 과제가 시작됩니다. 사기 탐지 팀은 3개의 데이터 소스에서 가져와 2개의 컴퓨팅 플랫폼에서 실행되는 50개 이상의 기능을 정의했습니다. 통합 카탈로그가 없으면 다음과 같은 문제가 발생합니다.

  • 데이터 사이언티스트는 월별 트랜잭션 속도 계산기를 이미 구축한 사람이 있는지 확인하기 위해 Git 리포지토리, Jupyter Notebook 및 팀 지식을 검색하는 데 시간을 낭비합니다.
  • 기능을 찾더라도 서로 다른 열 이름, 타임스탬프, 집계 기간 등으로 인해 호환되지 않는다는 것을 알게 됩니다.
  • 프로덕션 엔지니어는 기능 종속성, 즉 어떤 기능이 어떤 데이터 소스 및 컴퓨팅 작업에 의존하는지 파악하는 데 어려움을 겪습니다.
  • 규정 준수 담당자는 “민감한 고객 기능에 누가 액세스할 수 있습니까?”라는 질문에 답변할 수 없습니다.

통합 카탈로그(Feast)는 이러한 모든 문제를 해결합니다.

  • 단일 인터페이스: 데이터 사이언티스트는 리포지토리를 검색하거나 Slack에서 문의할 필요 없이 단일 검색 인터페이스를 통해 50개의 기능을 모두 검색할 수 있습니다.
  • 전체 파이프라인 가시성: 각 기능은 데이터 출처, 필요한 컴퓨팅 및 사용하는 모델을 정확하게 보여줍니다.
  • 엔터프라이즈급 거버넌스: 기본 제공되는 RBAC(역할 기반 액세스 제어)를 통해 권한이 부여된 팀만 중요한 기능에 액세스할 수 있으며, 완벽한 감사 추적을 통해 모든 액세스를 추적하고, 승인 워크플로를 통해 프로덕션 배포 표준을 적용할 수 있습니다.

두 명의 서로 다른 사용자에게는 다음과 같이 표시됩니다.

관리자 워크플로우(플랫폼 팀):

  1. 기능 저장소 활성화: OpenShift AI 대시보드에서 기능 저장소 설정으로 이동하여 구성 요소를 활성화합니다(기본 제공, 별도 설치 없음).
  2. 권한 구성: 기능을 생성할 수 있는 데이터 사이언스 팀, 기능만 사용할 수 있는 팀, 각 팀이 액세스할 수 있는 데이터 소스를 정의합니다.
  3. 운영 모니터링: 기능 파이프라인 상태, 리소스 활용률 및 데이터 최신 상태를 보여주는 대시보드입니다.

데이터 사이언티스트 워크플로우:

  1. 기능 검색: 기능 카탈로그에서 "transaction"을 검색합니다. 지난 분기에 사기 팀에서 구축한 "customer_transaction_velocity_30d"를 포함하여 12개의 기존 기능을 찾습니다.
  2. 컨텍스트 이해: 기능을 클릭하여 데이터 소스(Kafka 트랜잭션 + Oracle 고객), 컴퓨팅 요구 사항(Spark 작업, 매일 실행) 및 사용 예제 코드를 확인합니다.
  3. 새 모델에서 재사용: 기능 정의를 추천 엔진 프로젝트에 복사하고 사기 탐지와 추천 간에 동일한 계산 논리 및 일관성을 확보합니다.
  4. 빠른 반복: 인증이 이미 구성된 기능 카탈로그에서 직접 사전 통합된 Jupyter Notebook을 시작합니다.

결과: 이전에는 3일간의 조사, 5번의 Slack 대화, 일관성 없는 계산 디버깅에 소요되던 시간이 이제 10분으로 단축되었습니다. 또한 사기 팀에서 트랜잭션 속도 계산을 개선하면 모든 다운스트림 모델이 자동으로 개선된 기능을 활용할 수 있습니다.

이것이 바로 통합 카탈로그의 복합적인 가치입니다. 생성된 모든 기능은 조직 전체의 AI 개발 속도를 높이고 신뢰성을 향상하며 일관성을 유지하는 데 기여합니다.

비즈니스 영향: 전술적 도구에서 전략적 플랫폼으로

이 3계층 아키텍처는 기능 저장소를 전술적 구성 요소에서 모든 AI 데이터 소비를 오케스트레이션하는 전략적 데이터 게이트웨이로 전환합니다. 다양한 AI 이니셔티브를 위해 개별 파이프라인을 관리하는 대신 기존 ML 모델, 생성형 AI 애플리케이션 및 고급 하이브리드 워크플로를 지원하는 단일 제어 진입점을 구축할 수 있습니다.

비즈니스에 미치는 영향은 혁신적입니다.

  • 더 빠른 혁신: 데이터 사이언티스트는 처음부터 다시 빌드하는 대신 프로젝트 전반에서 기능을 검색하고 재사용하여 출시 시간을 단축합니다.
  • 더 강력한 거버넌스: 모든 AI 이니셔티브에서 데이터 액세스 정책, 감사 추적 및 규정 준수 요구 사항을 단일 제어 지점에서 관리합니다.
  • 향상된 경제성: 공유 인프라와 재사용 가능한 자산은 프로젝트당 비용을 줄이면서 품질을 개선합니다.
  • 전략적 유연성: 기술 스택이 진화함에 따라 적응하는 플랫폼 독립적인 아키텍처는 혁신 역량을 유지합니다.

AI가 비즈니스 운영의 핵심이 됨에 따라 벤더 중립적인 데이터 인프라를 조기에 도입한 기업은 혁신 속도와 운영 효율성에서 지속 가능한 경쟁 우위를 확보할 수 있습니다.

결론: 성공적인 AI 데이터 기반 구축

Red Hat OpenShift AI의 기능 저장소 기능은 단순한 기능 관리 솔루션 그 이상입니다. 이는 벤더에 종속되지 않는 AI 데이터 에코시스템을 구축하여 혁신을 가속화하고 운영을 최적화하며 전략적 유연성을 유지하도록 지원하는 플랫폼입니다.

데이터 전략을 통해 AI의 미래를 실현할 수 있습니다. 조직의 역량과 함께 성장하는 기반을 구축하는 동시에 혁신을 위한 유연성을 유지하십시오.

시작하기

엔터프라이즈 환경에 기능 저장소 접근 방식을 도입할 준비가 되셨습니까?

리소스

적응형 엔터프라이즈: AI 준비성은 곧 위기 대응력

Red Hat의 COO 겸 CSO인 Michael Ferris가 쓴 이 e-Book은 오늘날 IT 리더들이 직면한 AI의 변화와 기술적 위기의 속도를 살펴봅니다.

저자 소개

Jonathan Zarecki is Principal Product Manager for AI data infrastructure at Red Hat, focusing on vendor-neutral solutions that accelerate enterprise AI innovation. He leads product strategy for feature stores, and enterprise AI data management within the Red Hat AI portfolio. Prior to Red Hat, Jonathan was a Co-founder & CPO at Jounce (acquired by Red Hat), where he specialized in MLOps platforms and enterprise AI deployment strategies.

Francisco has spent over a decade working in AI/ML, software, and fintech at organizations like AIG, Goldman Sachs, Affirm, and Red Hat in roles spanning software, data engineering, credit, fraud, data science, and machine learning. He holds graduate degrees in Economics & Statistics and Data Science & Machine Learning from Columbia University in the City of New York and Clemson University. He is a maintainer for Feast, the open source feature store and a Steering Committee member for Kubeflow, the open source ecosystem of Kubernetes components for AI/ML.

Seasoned Software and Security Engineering professional.
Primary interests are AI/ML, Security, Linux, Malware.
Loves working on the command-line.

UI_Icon-Red_Hat-Close-A-Black-RGB

채널별 검색

automation icon

오토메이션

기술, 팀, 인프라를 위한 IT 자동화 최신 동향

AI icon

인공지능

고객이 어디서나 AI 워크로드를 실행할 수 있도록 지원하는 플랫폼 업데이트

open hybrid cloud icon

오픈 하이브리드 클라우드

하이브리드 클라우드로 더욱 유연한 미래를 구축하는 방법을 알아보세요

security icon

보안

환경과 기술 전반에 걸쳐 리스크를 감소하는 방법에 대한 최신 정보

edge icon

엣지 컴퓨팅

엣지에서의 운영을 단순화하는 플랫폼 업데이트

Infrastructure icon

인프라

세계적으로 인정받은 기업용 Linux 플랫폼에 대한 최신 정보

application development icon

애플리케이션

복잡한 애플리케이션에 대한 솔루션 더 보기

Virtualization icon

가상화

온프레미스와 클라우드 환경에서 워크로드를 유연하게 운영하기 위한 엔터프라이즈 가상화의 미래