오늘날 기업들은 다양한 워크로드를 클라우드 환경에서 실행하고 있습니다. 클라우드 환경의 비용 및 운영 최적화의 핵심은 온프레미스와 크게 다르지 않습니다.
특히 지속해서 성능과 용량을 높여 가야 하는 스토리지 최적화의 중요성은 워크로드 실행 위치와 관계없이 똑같습니다.
스토리지 자원의 중요성은 AI/ML 워크로드, 클라우드 네이티브애플리케이션, 그리고 전통적인 엔터프라이즈 시스템 등 데이터 집약적인 워크로드의 비중이 높아지는 현재 더욱 커지고 있습니다.
구글 클라우드는 이러한 워크로드를 효과적으로 지원하기 위해
안정성, 보안성, 그리고 성능 최적화에 중점을 두고 서비스를 제공하고 있습니다.
관련해 이번 포스팅에서는 Google Cloud Next ’23의 기술 세션 중 스토리지를 주제로 한 ‘Cloud storage infrastructure optimized for your data-intensive workloads’의 내용을 소개합니다.
* 전체 내용과 최적화 사례는 하단 세션 영상을 참조 바랍니다.
⚙️ 빠르게 증가하고 있는 데이터 집약적 워크로드
데이터 집약적인 워크로드는 막대한 양의 데이터를 처리, 저장, 분석해야 하는 작업을 말합니다. 데이터 집약적 워크로드란 본질적으로 대규모 데이터 세트를 기반으로 분석이나 예측을 통해 질문에 답하는 과정입니다. 이런 과정을 처리하는 워크로드 유형으로 AI/ML, 첨단 분석, 고성능 컴퓨팅(HPC) 등을 꼽을 수 있습니다.
데이터 집약적인 워크로드 처리의 기반은 하이브리드 멀티 클라우드 환경입니다. 이 환경에서 스토리지 최적화를 하는 것은 쉬운 일이 아닙니다. 용량 계획, 성능 최적화, 비용 관리, 데이터 보안 및 규정 준수, 데이터 거버넌스 등 고려해야 할 것이 많습니다. 구글 클라우드는 이런 고민을 해결할 수 있는 명쾌한 방향을 제시합니다.
✍️ 데이터 사일로 문제
효율적인 데이터 관리를 위해 모든 데이터를 한곳에 모아 관리하는 것이 매우 중요합니다. 하지만 실제로는 데이터가 여러 곳에 흩어져 있어서, 이를 ‘데이터 사일로’라고 부르는 문제가 생기곤 합니다. 이런 데이터 사일로 때문에 데이터를 제대로 활용하지 못하고, 똑같은 데이터를 여러 번 복사해 두어야 하며, 데이터가 서로 맞지 않는 정합성 문제가 발생할 수 있습니다.
이런 상황은 데이터를 찾고 관리하는 데 드는 비용을 높이고 일을 더 복잡하게 만듭니다. 이 문제를 해결하는 방법은 모든 데이터를 한곳에 모으는 것입니다. 구글 클라우드 스토리지는 이를 위한 해결책을 제공합니다. 여러분의 데이터를 안전하게 한곳에 모아 두고, 어디서든 접근할 수 있게 하며, 데이터가 여러 지역에 중복 저장이 되도록 자동으로 관리해 줍니다.
🌍 구글 클라우드의 포괄적인 스토리지 서비스 생태계
구글 클라우드는 데이터를 쉽게 다룰 수 있도록 데이터 집약적인 워크로드를 위한 스토리지 서비스 생태계를 마련해 두었습니다. 이 생태계 안에서는 데이터를 모으고, 처리하는 데 필요한 다양한 도구와 서비스에 손쉽게 접근할 수 있습니다.
예를 들어 데이터를 클라우드로 옮기는 데는 ‘스토리지 전송 서비스’나 ‘데이터 어플라이언스’ 같은 도구를 사용할 수 있고, 클라우드에 올라온 데이터를 분석하고 처리하는 데는 ‘Dataproc’나 ‘BigQuery’ 같은 서비스를 활용할 수 있습니다. 만약 데이터가 많아져서 관리가 복잡해진다면 ‘Dataplex’ 같은 추가 서비스를 통해 이 문제를 해결할 수 있습니다.
데이터를 어디에 저장할지 결정하는 것도 중요한데요, 구글 클라우드 스토리지는 여러분의 필요에 맞게 데이터를 저장할 수 있는 세 가지 옵션을 제공합니다. ‘리전’은 특정 지역에 데이터를 저장하고, ‘듀얼-리전’은 두 개의 지역에, ‘멀티-리전’은 여러 지역에 데이터를 분산시켜 보관할 수 있게 해줍니다. 이렇게 다양한 저장 옵션을 제공하여 성능이나 비용 측면에서 가장 이상적인 선택을 할 수 있도록 도와줍니다.
📂 캐시, 폴더 관리
데이터 보호와 여러 지역에서 워크로드를 운영하고 싶은 경우처럼, 특별한 요구가 있을 때 구글 클라우드는 여러분의 요구를 충족시키기 위한 다양한 기능을 제공합니다. 첫째, ‘듀얼-리전’과 ‘멀티리전버킷’을 사용하면 데이터를 여러 지역에 복사하여 보관할 수 있어, 한 지역에 문제가 생겨도 데이터를 안전하게 보호할 수 있습니다.
둘째, ‘어디서나 캐시’ 기능을 통해 사용자가 컴퓨트 인스턴스와 같은 지역에 데이터 캐시를 만들 수 있어, 데이터 접근 속도를 빠르게 하고 성능을 높일 수 있습니다.
셋째, ‘관리 폴더’를 사용하면 특정 폴더에 대한 접근을 제어할 수 있는 IAM(Identity and Access Management) 정책을 설정할 수 있어, 데이터 접근 관리가 더 체계적이고 안전해집니다. 이 모든 기능은 데이터 관리를 더 간단하고 효율적으로 만들며, 동시에 데이터의 보안과 성능을 최대한으로 끌어올릴 수 있게 해줍니다.
살펴본 바와 같이 구글 클라우드는 기업이 데이터 집약적 워크로드를 더욱 효과적으로 운영할 수 있도록 지속해서 새로운 서비스를 추가하고 있습니다. 다음은 최근에 공개된 새로운 서비스입니다. 데이터 집약적인 워크로드를 포괄적으로 지원하기 위해 구글 클라우드의 스토리지 관련 서비스를 어떻게 이용해야 할지 궁금하다면, 구글 클라우드 넥스트 23의 스토리지 세션에서 소개한 Flipkart의 스토리지 최적화 사례를 참조 바랍니다.