Google 이 BigLake를 만든 이유가 뭘까?
데이터는 더 이상 디지털 기록이 아닙니다.
데이터는 비즈니스 그 자체이자, 경영의 핵심 자산입니다. 다들 아는 사실이지만, 실제로 데이터를 자산으로 활용하여 비즈니스 성과로 만드는 곳은 많지 않은 것이 현실입니다.
그 이유는 무엇일까요? 여러 원인 중 가장 많은 부분을 차지하는 것이 바로 ‘관리’ 입니다. 🙂
😃 데이터 관리 문제의 원인
데이터 관리를 현재 어떻게 하고 있는지 살펴보면, 아마 많은 조직이 사람과 기술 부족이라는 이슈에 직면하고 있을 것입니다.
📌 사람 부족
먼저 사람이 없다는 말이 무엇인지 알아보겠습니다. 데이터 관리는 이제 더 이상 데이터베이스 관리자(DBA) 만으로 충분하지 않습니다. 데이터를 요구하는 워크로드 유형이 늘고 있다는 현실을 떠올려 보십시오. DBA 외에 빅 데이터 플랫폼 엔지니어, 데이터 과학자, 개발자 등 더 많은 기능과 역할이 요구된다는 것을 알 수 있습니다. 문제는 원해도 사람을 찾기 어렵다는 것입니다. 요즘 IT 인력 부족은 거의 전 영역에서 일어나고 있는 현상입니다.
📌 기술 부족
다음 문제는 기술입니다. 데이터를 핵심으로 하는 워크로드는 우리가 아는 배치 작업을 통해 하는 분석만 있는 것이 아닙니다. 요즘에는 정적 분석보다 AI/ML, 실시간 분석을 더 중요하게 봅니다. 그런데 실제 AI/ML, 실시간 분석 같이 비즈니스 가치가 높은 작업에 데이터 자산을 제대로 활용하는 것이 어려운 일입니다. 다음 표는 현실을 잘 보여주는 통계 중 하나입니다. 이처럼 중요한 일에 데이터가 제대로 활용되지 못하는 이유는 바로 데이터 플랫폼 때문입니다. 전통적인 관계형 데이터베이스(RDBMS), 엔터프라이즈 데이터웨어하우스(EDW) 그리고 최근 구축한 하둡(Hadoop) 기반 빅 데이터 플랫폼은 기술적 측면에서 제약이 많아 현대적인 워크로드의 요구를 수용하기 어렵습니다.
😃 데이터레이크 시대
앞서 살펴본 문제의 해결책으로 시장에서 주목하는 것이 있는데요~ 바로 데이터레이크(DataLake)입니다. 이 개념은 RDBMS, EDW의 강력한 성능과 하둡 기반 빅 데이터 플랫폼의 대량 데이터 관리를 하나로 묶은 것입니다. 정형, 반정형, 비정형 등 데이터 유형에 관계없이 대량의 데이터를 단일 플랫폼에 넣어 두고 이를 강력한 성능을 바탕으로 정적 분석, AI/ML, 실시간 분석 등 다양한 워크로드의 요구를 충족하고자 하는 접근이라 보면 됩니다.
데이터레이크는 데이터 관리 측면에서 보면 기술적 혁신입니다. RDBMS, EDW 시대를 떠올려 보면 고성능 전용 시스템 이미지가 먼저 생각날 것입니다. 데이터레이크는 완전히 다릅니다. 데이터레이크는 서버리스를 토대로 합니다. 데이터레이크 시대를 연 선구자라 할 수 있는 데이터브릭스나 스노우플레이크 등의 기업이 클라우드 기반으로 서비스를 시작한 것도 같은 맥락에서 이해할 수 있습니다. 그리고 뒤를 이어 글로벌 클라우드 사업자들 역시 서버리스를 토대로 관련 서비스를 선보이고 있습니다. 이중 하나가 구글 클라우드가 최근에 진행한 『Google Cloud Next 2022』에서 화제를 모았던 주제인 ‘BigLake’입니다.
😃 BigLake에 거는 기대
구글이 공개한 BigLake는 데이터 관리 방식에 파괴적인 혁신을 불러올 전망입니다. BigLake는 정형, 반정형, 비정형 데이터를 단일 플랫폼에 담습니다. 데이터레이크의 개념에 충실한 서비스라 볼 수 있습니다. 서버리스 기반 서비스로 매우 높은 성능과 함께 탄력적인 확장성을 보장합니다. 가용성도 값비싼 EDW 어플라이언스 못지않습니다. 고가용성을 더 유연하게 확보할 수 있습니다.
BigLake는 단순히 여러 유형의 데이터를 한곳에 모으기 위한 수단이 아닙니다. 데이터를 필요로 하는 모든 워크로드 및 애플리케이션과 간편한 연계를 지원하는 매개체이기도 합니다. OLTP, OLAP, AI/ML, 실시간 분석 등 모든 데이터 요구에 대응할 수 있는 데이터 플랫폼이라 보면 됩니다. 사실 지금까지 이런 플랫폼은 없었죠. 이 어려운 것을 구글이 BigLake로 해낸 것입니다.
BigLake는 데이터의 자산 가치를 높일 수 있는 확실한 수단입니다. 많은 기업이 직면한 데이터 관리의 복잡성 문제를 명확하게 풀어 냅니다. 이를 정리하면 다음 장표와 같습니다.
이상으로 『 구글이 BigLake를 만든 이유 』 에 대해 알아보았습니다.
『 BigLake를 통해 데이터의 자산 가치를 높일 수 있는 방법 』 에 대해서는 별도의 포스팅을 통해 소개하겠습니다. 😎🤗🤗
더 자세한 내용은 메가존으로 문의 바랍니다. 👉 메가존소프트 문의 바로가기