데이터 레이크(Data Lake) 현대화는 모든 기업의 공통된 고민입니다. 최근의 고민은 과거 빅 데이터가 처음 등장했을 때와는 좀 다릅니다. 분석을 넘어 AI/ML 솔루션의 접근성까지 고려해야 하기 때문입니다. 2021년 많은 조직은 데이터 레이크 현대화를 첨단 분석과 함께 AI/ML 데이터 파이프라인 연계까지 고민할 것입니다. 관련해 메가 트렌드를 간단히 살펴보았습니다.
Hadoop-as-a-Service (HaaS)
빅 데이터 기술은 모든 기업의 관심사입니다. 예전에도 그랬고 지금도 그렇고 앞으로도 그럴 것입니다. 이 관심사를 충족하기 위한 접근은 시대에 따라 진화하고 있습니다. 빅 데이터 초기 기업은 하둡 클러스터 구축과 운영에 힘을 썼습니다. 하지만 이 접근은 곧 한계에 다다릅니다. 정보의 양은 생각보다 더 빠른 속도로 늘었고, 빅 데이터 인재 영입과 팀 확대에 대한 부담도 커졌습니다. 이런 분위기 속에서 빅 데이터 생태계는 빠른 기술 진보를 이루었고, 팀의 기술 내재화는 점점 더 무거운 과제가 되었습니다. 하둡 외에도 NoSQL, 데이터베이스, 분석 소프트웨어, AI/ML 등 신경 써야 할 것이 너무 많다 보니 생긴 일이죠.
이에 대한 해결책으로 클라우드 서비스 기업은 서비스 형태로 이용할 수 있는 빅 데이터 서비스를 제공하기 시작했습니다. 최소한 인프라 구축과 운영 부담부터 덜자는 것이죠. 구글의 경우 Dataproc을 출시했죠. 여러 업체의 서비스는 대동소이 합니다. 대부분 관리형 서비스를 표방하며 컴퓨트와 스토리지를 분리해 클러스터 설정과 확장 등의 운영 부담을 줄이는 것을 주요 혜택으로 제공합니다.
관리형 서비스를 시작으로 더 편하고 빠른 분석 환경으로 발전
앞서 잠시 언급한 바와 같이 관리형 하둡 서비스는 신속한 클러스터 구축과 운영이 장점입니다. 초기에는 손쉬운 관리, 엔터프라이즈 수준 보안성 등이 주로 강조되었습니다. 최근에는 연계성에 힘을 주는 분위기입니다. 분석 못지않게 AI/ML 지원도 중요해졌기 때문입니다.
초반 관리형 서비스의 주요 이용 기업은 기존 빅 데이터 환경에서 작성한 작업을 클라우드 환경에서도 큰 수정 없이 할 수 있다는 데 이끌렸습니다. Dataproc 환경의 경우 단 몇 초 만에 클러스터를 만들어 기존 Spark 코드를 복사해 바로 실행할 수 있습니다. 이처럼 기존 투자분을 보호하면서 클라우드로 하둡 환경을 쉽고 편하게 마이그레이션 하는 데 많은 조직이 끌렸습니다.
관리형 서비스로 전환하는 기업들의 패턴을 보면 큰 흐름이 하나 있습니다. 일단 하둡 환경 일부를 클라우드로 옮기기 시작하면서 하나둘 더 편한 방식을 찾아 나서는 것입니다. 가령 기존에는 Spark를 사용하여 데이터 처리 작업을 하던 것을 Dataproc 사용 후부터는 BigQuery를 이용하는 것과 같이 더 편하고 빠른 방법으로 점진적으로 바꾸는 것을 예로 들 수 있습니다. 참고로 데이터 레이크에서 SQL 쿼리를 실행하는 것과 비교할 때 BigQuery는 더 높은 확장성과 속도를 제공합니다. 이런 식으로 레거시에서 현대화된 방식으로 바꾸어 나가는 시작점이 바로 Dataproc 같은 관리형 서비스가 맡을 수 있다고 볼 수 있습니다.
AI/ML까지 빠르게 수용하며 발전
관리형 빅 데이터 서비스는 데이터 과학 플랫폼으로 발전하고 있습니다. Dataproc 역시 마찬가지입니다. Dataproc 클러스터는 이상적인 데이터 과학 환경입니다. Apache Spark, NVIDIA RAPIDS, Jupyter 노트북 같은 오픈 소스 소프트웨어를 구글의 다양한 분석, AI/ML 서비스와 연계할 수 있습니다. GPU, TPU 같은 자원 연계도 물론 지원합니다.
Dataproc을 데이터 과학을 위한 환경으로 사용할 때도 빅 데이터 클러스터를 관리형 서비스로 이용할 때와 유사한 전환 효과가 발생합니다. 복잡하고 어려운 전통적인 방식보다 빠르고 효과적인 클라우드 식의 접근으로 자연스럽게 바뀝니다.
가령 MLlib와 함께 Spark를 이용해 머신 러닝 프로젝트를 추진하는 대신 Dataproc과 연계해 Google Cloud Machine Learning Engine을 쓰면 관리형 서비스 환경에서 AI 프로젝트를 효과적으로 가속할 수 있습니다.
다른 예로 Spark 환경에서 머신 러닝 작업을 실행하고 추가 분석을 위해 BigQuery로 출력을 보내는 것도 생각해 볼 있습니다. 이처럼 Google Cloud가 제공하는 다양한 첨단 분석, AI/ML 서비스와 연계를 통해 Dataproc은 새로운 시대적 요구에 맞는 데이터 레이크로 거듭나게 됩니다.
물론, 온프레미스 환경의 데이터 플랫폼 역시 중요합니다. 관련해 Cloud Storage 같은 클라우드 스토리지를 이용해 아카이빙 데이터 저장 비용 절감 등에 효과적으로 활용하는 것도 데이터 레이크 현대화에 이어 중요한 포인트입니다.
이상으로 데이터 레이크 현대화에 대한 큰 흐름을 살펴보았습니다. 더 자세한 내용은 메가존으로 문의 바랍니다.