요즘 엔터프라이즈 데이터웨어하우스(EDW) 환경을 클라우드에서 운영하는 것에 관심을 두는 기업이 늘고 있습니다. 그 이유는 간단합니다. 데이터는 늘어만 가는데, 필요에 맞춰 온프레미스 EDW 환경을 확장한다는 것은 엄두를 내기 어렵기 때문입니다. 관련해 영국에 위치한 가격 비교 관련 서비스 전문 업체 MoneySuperMarket이 사내 EDW 환경의 확장 문제를 BigQuery와 GKE를 이용해 해결한 사례를 소개합니다.
MoneySuperMarket은 한국의 ‘다나와’ 같은 회사라고 보면 됩니다. 이 회사는 가격 비교 외에 MoneySavingExpert, TravelSupermarket, Decision Tech 등의 서비스도 제공합니다. 모든 서비스를 관통하는 고객 가치는 ‘고객의 시간과 비용을 아껴주는 것’이 아닐까 싶네요.
MoneySuperMarket은 일반적인 기업처럼 사내에 EDW 시스템을 구축해 운영해왔습니다. 그러던 중 가격 비교 서비스에 대한 트래픽이 급증하는 시기를 맞이하면서 확장의 한계를 느끼게 됩니다. 보통 EDW 시스템 구축과 확장은 최소 1년은 잡고 해야 하는 작업이다 보니 사업 확장에 따른 데이터 증가를 그때그때 반영하기 쉽지 않습니다.
MoneySuperMarket은 먼저 증가한 데이터를 클라우드 상에 담아 두는 작업을 하였습니다. 이를 위해 구글 클라우드 플랫폼(GCP)에서 제공하는 Cloud Data Transfer를 이용해 사내 데이터를 클라우드 스토리지 버켓으로 보냈습니다. 다음으로 구글 쿠버네티스 엔진(GKE)과 Cloud Pub/Sub를 이용해 데이터 전처리 환경을 구축했습니다. 이 환경은 데이터를 정제하고 BigQuery에 로드하는 역할을 합니다. MoneySuperMarket은 BigQuery를 클라우드 데이터웨어하우스 환경으로 삼아 다양한 유형의 정보를 대상으로 한 분석 작업을 하고 있습니다.
“GKE를 참 잘 활용하는 사례, GCP를 이용해 머신러닝까지 접목!”
MoneySuperMarket은 GKE 환경을 토대로 머신 러닝을 적용하는 것까지 실험을 해봤습니다. GKE 환경에 머신 러닝을 위한 데이터 처리 파이프라인을 마련하는 프로젝트였습니다. 데이터 추출, 피처 정의, 모델 트레이닝, 모델 평가 등을 데이터 처리 파이프라인 전반을 GKE 환경에 올려놓은 컨테이너 기반 시스템에서 처리하는 작업입니다.
최근 데이터 과학자들 사이에서 컨테이너는 뜨거운 화두죠. AI 프로젝트와 워크로드마다 서로 다른 소프트웨어 스택이 적용되는데, 컨테이너는 환경 구축과 배포를 아주 간결하게 만들어 줍니다. MoneySuperMarket만 하더라도 머신 러닝 데이터 파이프라인 처리 환경을 GKE 환경에 구축한 결과 11시간 걸리던 작업이 5분이면 충분해졌다고 합니다. 이렇게 시간을 단축하면 생기는 효과는? 네, 주 단위로 업데이트하던 모델을 이제는 일 단위로 한다고 합니다.
빅데이터 기반 첨단 분석, 클라우드 기반 EDW 구축, 컨테이너 기반 머신 러닝 데이터 파이프라인 구축에 대한 상세 문의는 메가존으로 부탁드립니다.