Qoo10
On-Premise 상의 Netezza Workload 를 구글 클라우드 BigQuery 로 마이그레이션
모을수 있는 모든 데이터를 사용하여 데이터를 기반으로 의사 결정을 내리는 서비스를 만들기 위해서는 대용량의 데이터의 전송과 빠른 데이터 저장, 추출, 분석 처리가 필요합니다. 중단없는 서비스를 위해서는 안정성이 높고 쉽게 확장 가능한 시스템 환경이 요구되었고, 관리 부담을 줄이는 것이 현업의 요구 사항이었습니다. 이를 위해 완전 관리형 데이터 웨어하우스를 클라우드에서 사용하는 것으로 고려 하였습니다.
준 실시간 또는 주기적으로 시간별/일별 데이터를 수집하고, 정기적으로 하루에 한번씩 데이터를 가공하여 데이터 마트를 생성하였습니다. 이 데이터를 이용하여 마켓 분석이 가능하도록 프로세스를 만들어야 했습니다.
기존 Database 와도 연동하여 데이터를 주기적으로 이관하고 또한 Netezza Workload 의 데이터를 Migration 할 수 있는 데이터 파이프라인을 구성해서 원활하고 안정적인 네트워크 연결이 될 수 있도록 아키텍처를 구성해야 합니다.
대용량의 데이터를 활용하여 데이터 분석의 유효성이 보장되어야 하고, 전반적인 성능의 최적화와 비용 절감 효과로 비즈니스 성장에 지대한 영향력을 기대할 수 있어야 합니다.
Netezza Workload를 Google Cloud의 BigQuery 데이터 웨어하우스로 전환하여 데이터 전송, 추출, 가공, 분석이 용이하도록 데이터 파이프라인과 아키텍처를 구성하였습니다.
<간결하고 효율적인 데이터 웨어하우스 구성>
Database(MySQL)의 실시간 데이터 이관을 위해 CDC 기능이 가능한 GCP의 Datastream 서비스 기능을 이용하여 주기적으로 BigQuery에 데이터를 전송할 수 있도록 구성하였습니다.
리소스 자동 확장과 비용 최적화된 일괄 처리 기능의 결합으로 무제한에 가까운 용량을 제공하고 시기에 따라 변동하거나 급증하는 워크로드도 과다한 지출 없이 관리할 수 있는 Dataflow 와 온프레미스와 퍼블릭 클라우드 간 워크플로를 조정하여 클라우드로 쉽게 전환하거나 하이브리드 데이터 환경을 유지하고 배치 Job 관리를 위해 Composer를 통해 데이터 파이프 라인을 구성하였습니다.
기존 Netezza Workload에서 데이터 마트를 생성하는 프로시저를 BigQuery 에서도 호환 가능하도록 프로시저를 Conversion 하여 적용하고, 안정적으로 주기적인 배치가 실행 될 수 있도록 구성하였습니다. BigQuery 로 이관된 수집 데이터와 데이터 마트의 데이터 유효성 검증을 위해 검증 프로세스를 구성하고 데이터 분석시 안정적인 성능과 데이터 유효성을 높일 수 있도록 구성하였습니다.
Google Cloud의 BigQuery로 데이터 웨어하우스를 구성하면서 기존 데이터웨어 하우스 보다 성능이 기대 이상으로 빨라져서 업무 효율이 높아 졌습니다.
작업들을 관리를 효율적으로 할 수 있어 기능이 고도화 되었고, BigQuery 에서 데이터 분석과 서비스 분석을 다 할 수 있게 되어 고객의 성향을 빠르게 파악하여 적절하게 대응할 수 있는 프로세스 구현이 가능해 졌습니다.
“메가존소프트는 다양한 고객의 엔터프라이즈 데이터 웨어하우스(BigQuery) 설계 경험을 가지고 있어서 데이터웨어 하우스를 BigQuery로 옮겼을 때 프로세스가 얼마나 효율적으로 진행 되는지 잘 설명해 주었습니다. 프로젝트에 참여한 엔지니어의 적극적인 지원은 기존의 데이터웨어 하우스 보다 더 효율적인 프로세스를 만드는데 많은 도움이 되었습니다.
전문 SQL 엔지니어의 SQL 튜닝은 데이터 추출, 데이터 전송, 데이터 저장 등의 처리 속도를 높였고, 쿼리 비용을 많이 절감할 수 있었습니다.“