구글이 최근 호튼웍스와 제휴를 강화했습니다. 이에 따라 구글 클라우드 플랫폼(GCP)에서 빅 데이터 프로젝트를 추진하는 기업은 더 많은 옵션이 생겼습니다. 매니지드 기반의 아파치 하둡과 스파크 서비스인 Cloud Dataproc과 호튼웍스가 제공하는 HDP(Hortonworks Data Platform)나 HDF(Hortonworks DataFlow) 플랫폼 중 원하는 것에 맞는 것을 고르면 됩니다.
구글의 빅 데이터 제안의 핵심 키워드는 ‘작업에 특화된 클러스터(job-scoped cluster)’입니다. 보통 사내에 하둡 클러스터를 구성하면 다목적으로 여러 부서나 사용자가 이용을 합니다. 클라우드에서는 쓴 만큼만 내면 되니 다목적 클러스터 대신 프로젝트 하나하나에 최적화된 환경을 쓰라는 것이 구글 제안의 핵심입니다. 이 제안에 호튼웍스가 포함된다는 것이 갖는 의미는? 네, ‘하이브리드’입니다.
호튼웍스 HDP 3.0에는 구글 Cloud Storage Connector가 통합되어 제공됩니다. 이 커넥터를 이용하면 호튼웍스 플랫폼에서 운영하는 하둡과 스파크 워크로드를 위한 데이터 처리를 클라우드 스토리지 환경에서 할 수 있습니다. 보통 온프레미스 환경에서 호튼웍스 플랫폼을 쓰는 기업들이 많은데요, 이들 기업의 한결같은 고민은 확장이죠. 물론 하둡 기반 생태계는 전반적으로 유연한 확장성을 제공합니다. 하지만 여기에 경제성을 더하면 클라우드가 더 유리할 수 있습니다.
빅 데이터 프로젝트라는 것이 장기간 추진되는 것이 있는가 하면 단기성 작업도 많습니다. 이런 요구를 고르게 수용하는 데 있어 가장 큰 비용 요소는 스토리지죠. 구글 클라우드 플랫폼과 호튼웍스 플랫폼의 탄탄한 연계는 이 부분의 고민을 풀어 줍니다.
또한, 양사의 협력은 기업이 호튼웍스 플랫폼을 운영하는 인프라로 다목적 클러스터를 더 이상 고집하지 않아도 되게 합니다. 프로젝트 목표와 목적에 맞는 클러스터를 구글 클라우드 플랫폼에 만들어 사용하는 새로운 옵션을 현업 사용자에게 제공할 수 있습니다.
이쯤에서 호튼웍스 플랫폼을 이용하는 기업이 누릴 수 있는 구글 클라우드 플랫폼의 혜택을 정리해 보죠.
- 확장성: 호튼웍스 HDP, HDF에서 운영하는 빅 데이터 애플리케이션을 클라우드로 확장하기 편합니다. 사내 환경과 여러 클라우드에 올린 호튼웍스 기반 워크로드는 모두 일관성 있게 관리되며, 보안 통제와 거버넌스가 체계적으로 이루어집니다.
- 하이브리드 구성: 하둡 환경에 연결할 수 있는 스토리지 옵션으로 클라우드가 붙는다는 것은 매우 유연하게 인프라를 하이브리드 구조로 가져갈 수 있다는 것을 뜻합니다. 단순히 데이터 저장소뿐 아니라 HDP, HDF를 클라우드에 프로비저닝 하는 것도 손쉬워서 다양한 목적에 맞는 하이브리드 구성이 가능합니다. 가령 워크로드는 클라우드에서 운영하고 민감한 데이터는 사내 스토리지에 두는 구성을 할 수도 있습니다.
- 실시간 스트리밍 분석: 호튼웍스 HDF는 IoT 데이터를 실시간으로 수집합니다. HDF를 구글의 Cloud IoT와 연계하여 데이터 처리 파이프라인을 만들면! 네, 매우 손쉽게 풍부한 실시간 분석에 대한 경험을 할 수 있습니다. 기업은 NiFi, Kafaka, SAM, Storm 등 기술을 신경 쓰지 않아도 됩니다. 분석에 집중할 수 있는 환경을 HDF와 구글 Cloud IoT 조합이 제시합니다.
이상으로 간단히 구글 환경에서 호튼웍스 플랫폼 활용 방안을 살펴보았습니다. 더 자세한 사항은 구글 클라우드 플랫폼 파트너 메가존으로 문의 바랍니다.