메가존소프트의 Google Cloud 전문가들이 미국 샌프란시스코에서 열린
Google Cloud Next 2023에 직접 참여하여 전해주는 소식!
메가존소프트가 전하는 Next ’23 하이라이트 네 번째 주제는 데이터베이스 및 분석 서비스입니다.
자동화를 넘어 자율의 시대로 접어 드는가?
시장의 요구에 맞춰 디테일을 더해가는 데이터베이스 및 분석 서비스
Google Cloud Next 2023에서 데이터와 데이터베이스 분야에서 눈에 띄는 신기술들이 발표됐습니다. 세션에서 소개한 새로운 도구와 기능들을 보았을 때 앞으로 기업들이 데이터를 더 효과적으로 분석하고 관리할 수 있을 것으로 보이는데요. Next ’23 keynote & session에 참석한 메가존소프트 전문가들이 여러분이 주목해야 할 데이터베이스 및 분석 기술 관련 소식을 전달해 드립니다.
📈데이터 분석: 혁신적인 도구들
📌 Duet AI
이번 Next ’23 session에서 Duet AI가 가장 눈에 들어오는데요. 조만간 Duet AI는 클라우드를 쓰는 방법을 정말 획기적으로 바꿀 것 같습니다. Duet AI는 데이터 분석 부문에서도 두각을 나타낼 전망입니다. Duet AI는 우리가 구글 Bard를 쓰는 듯이 자연어로 원하는 것을 입력하면 원하는 결과를 받을 수 있는 서비스입니다. 지금까지 업계에서 누구나 할 수 있는 셀프 서비스 기반 데이터 분석에 대해 이야기해온 것과는 차원이 다른 편의성을 Duet AI가 제공할 것으로 보입니다. 실제로 Duet AI를 활용하면 데이터 기반 의사결정을 빠르게 할 수 있는데요. Duet AI는 Looker, BigQuery, Dataplex와 같은 Google Cloud 분석 서비스와 연동되어 데이터 과학자, 비즈니스 분석가 등 누구나 복잡한 작업을 단순히 수행할 수 있도록 돕습니다.
📌 BigLake
다음으로 주목할 주제는 BigLake입니다. 최근 엔터프라이즈 데이터 플랫폼 기술 동향을 잘 담고 있는 것은 바로 ‘데이터레이크 하우스’입니다. 데이터레이크 하우스는 데이터 레이크와 데이터 웨어하우스를 결합한 새로운 유형의 데이터 관리 아키텍처를 부르는 용어입니다. 이 아키텍처는 데이터 레이크의 유연성 및 확장성과 데이터 웨어하우스의 데이터 구조 및 데이터 관리 기능을 결합하여 데이터 관리의 새로운 장을 열고 있습니다.
이 기술을 잘 활용하면 기업은 다양한 데이터 소스에서 데이터를 통합하고 저장하며 분석할 수 있습니다. 가령 로우 데이터를 BigLake 오브젝트 테이블로 업로드하고 해당 테이블에 접근할 수 있는 읽기 권한만 부여하면 간단한 쿼리문으로 비정형 데이터를 정형화하여 볼 수 있습니다. 이를 놓고 볼 때 BigLake는 분석을 넘어 이제 AI/ML, API 기반 서비스 등 데이터 수요가 급증하는 요즘 분위기에 잘 맞는 기술이라 할 수 있습니다.
BigLake는 다양한 소스의 데이터를 안전하고 효율적으로 중앙에서 관리할 수 있어, 데이터 전략을 구축하는 데 핵심 역할을 할 수 있습니다. 이번 행사에서 구글 클라우드는 Hudi 및 Delta Lake와 같은 오픈 소스에 대한 지원을 강화한 것과 Apache Iceberg 성능 가속 관련 내용 그리고 BigLake와 BigQuery Omni의 연계 등의 새소식을 소개했습니다.
📌 BigLake와 BigQuery Omni 연계 서비스
그 중에서 BigLake와 BigQuery Omni의 연계 서비스 제공이 가장 눈에 들어왔는데요. BigQuery Omni는 BigQuery를 사용하여 온프레미스 또는 다른 클라우드의 데이터를 분석할 수 있는 멀티 클라우드 분석 플랫폼입니다. 이번 발표에 따르면 이제 BigQuery Omni를 사용하여 BigLake의 데이터를 다른 클라우드의 데이터와 함께 분석할 수 있게 됩니다. 예를 들어 온프레미스에 있는 데이터베이스와 AWS S3에 있는 데이터를 함께 분석하여 고객 행동에 대한 통찰력을 얻을 수 있습니다.
📌 BigQuery
Next ’23 session에서 BigQuery 관련해 두 가지 소식이 눈길을 끌었습니다. 첫 번째는 ETL 도구 없이 BigQuery에서 Bigtable로 내보내기가 가능한 기능이 프리뷰로 공개된 것입니다. 이 기능을 사용하면 ETL 도구를 건드릴 필요 없이 애플리케이션에서 분석 정보를 제공할 수 있습니다. 구글 클라우드를 이용하는 조직 중 상당 수는 소셜 미디어나 IoT 데이터를 Bigtable로 가져와 대시보드에 표시합니다.
그리고 데이터 과학자는 BigQuery에서 ML 모델을 만들고, 이를 Bigtable로 구체화하여 모델이 데이터에 빠르게 접근할 수 있도록 합니다. ETL 도구 없이 데이터 내보내기가 가능해지면 이런 작업들이 놀라운 정도로 간단해 진다고 보면 됩니다. 구글 클라우드가 공개한 BigQuery에서 Bigtable로 데이터를 내보내는 기능을 활용하면 개발자는 애플리케이션에 필요한 분석 데이터를 쉽게 가져올 수 있고, 데이터 과학자는 ETL 도구 없이 BigQuery 콘솔에서 직접 기능을 구현할 수 있습니다.
두 번째 소식은 BigQuery Studio 프리뷰에 대한 것입니다. BigQuery Studio는 데이터 엔지니어링과 분석, 예측 분석에 필요한 모든 것을 한 곳에서 관리할 수 있는 통합 인터페이스를 제공합니다. BigQuery Studio를 이용하면 BigQuery 내에서 SQL, Python, Spark, 자연어를 직접 사용하여 분석을 수행할 수 있습니다.
BigQuery 내에서 데이터 계보, 프로파일링, 품질을 통해 보안 정책을 일관되게 시행하고 거버넌스 통찰력을 얻는 것도 한결 간편해집니다. 더불어 DevOps나 MLOps 관련 파이프라인 효율도 높일 수 있습니다. BigQuery Studio를 활용하면 Vertex AI 및 기타 제품의 코드 자산을 쉽게 활용할 수 있습니다. 그리고 CI/CD, 버전 관리, 소스 제어와 같은 소프트웨어 개발 모범 사례를 데이터 자산에 적용하여 더욱 매끄러운 협업도 가능합니다.
📌 Cloud Spanner Data Boot
이외에도 Cloud Spanner Data Boot도 많은 이들의 관심을 끌었습니다. 전통적으로 기업들은 데이터의 저장 및 처리를 위해 트랜잭션 시스템과 분석 시스템을 별도로 운영해 왔습니다. 흔히 말하는 OLTP와 OLAP는 명확히 경계가 존재했습니다. 이런 방식은 데이터의 최적 활용에 제약을 가져올 수 있습니다. 구글 클라우드는 이러한 문제를 해결하고자 시스템 간의 장벽을 낮추는 혁신적인 기술인 Cloud Spanner Data Boost를 이번 행사에서 소개했습니다.
이를 활용하면 BigQuery, Spark on Dataproc, Dataflow 같은 서비스로 Cloud Spanner 데이터를 분석할 수 있습니다. 이 기술의 장점은 트랜잭션 워크로드에 거의 영향을 주지 않으면서도 분석과 보고를 위한 고성능 처리를 가능하게 한다는 것입니다. 구글 클라우드에 따르면 Cloud Spanner Data Boost는 분리된 컴퓨팅 및 스토리지 아키텍처를 기반으로 하며, 워크로드 격리와 주문형 운영 데이터 처리 기능을 제공하여 분석 작업을 효율적으로 지원한다고 합니다.
📈 데이터베이스 업데이트: 데이터 전문가를 위한 새로운 동반자
데이터베이스 관련 새소식 하이라트에도 Duet AI가 등장합니다. 이번에 발표된 Duet AI 관련 소식은 Database Migration Service와 Cloud Spanner 그리고 Looker와 연관된 것입니다.
📌Database Migration Service
먼저 Database Migration Service를 알아볼까요. 이 서비스는 클라우드로의 데이터베이스 마이그레이션을 간소화합니다. 사용자는 몇 번의 클릭만으로 마이그레이션을 시작해 온프레미스나 클라우드에서 운영 중인 기존 데이터베이스 환경을 구글 클라우드의 Cloud SQL 또는 AlloyDB로 빠르게 이전할 수 있습니다. 이번에 공개된 미리보기는 Oracle을 AlloyDB로 마이그레이션 하는 기능입니다. 더불어 구글 클라우드는 마이그레이션 관련해 코드를 자동으로 변환하는 Duet AI 기능도 미리보기로 발표했습니다. Duet AI를 활용하면 Oracle 데이터베이스 코드를 PostgreSQL로 변환하는 작업을 자동화 기반으로 할 수 있습니다.
📌Cloud Spanner
다음으로 Cloud Spanner에서도 Duet AI의 도움을 받을 수 있습니다. Duet AI를 활용하면 자연어 프롬프트를 통해 복잡한 SQL 쿼리를 쉽게 생성할 수 있습니다. 예를 들어 ’90년대에 태어난 가수는 몇 명이야?’라는 질문을 통해 관련 SQL 쿼리를 자동으로 생성할 수 있습니다. 또한, Duet AI는 Cloud Spanner의 쿼리 편집기에서 코드를 자동 완성해줍니다.
📌Looker
이외에 데이터 분석 과정을 자동화할 수 있는 Looker에 특화된 Duet AI 확장 기능도 공개되었습니다. 데이터 분석 부문에서 ‘셀프 서비스’ 개념을 강조해 왔었는데요. IT 팀에 의지하지 않고 사용자 스스로 데이터를 다루어 필요한 통찰력을 확보하려면 셀프 서비스로 이용할 수 있는 수준의 쉽고 편한 도구가 필요하다는 데 이견을 단 이가 없었죠. Duet AI는 셀프 서비스를 실제 세상에서 완성하는 기능이 될 것 같습니다.
Duet AI는 사용자가 제출한 자연어 질문(프롬프트)나 코드를 모델 학습에 사용하지 않으며, 이러한 데이터는 암호화되어 처리됩니다. 사용자는 자연어로 질문을 해 필요한 분석 정보를 바로 확인할 수 있습니다. Duet AI를 사용하면 데이터 및 비즈니스 분석가들은 BigQuery에서 데이터 분석 작업을 더 효과적으로 할 수 있습니다. Duet AI는 SQL과 Python 코드 작성에 필요한 실시간 지원을 제공하므로, 데이터 팀은 복잡한 코드 작성에 시간을 허비하지 않아도 됩니다.
Duet AI가 안끼는 곳이 없을 정도로 널리 쓰이는 핵심 기능이 된다면 자연스레 보안과 규제 관련 궁금증이 생길텐데요. Duet AI는 사용자의 데이터와 개인정보에 대한 엄격한 보호 조치를 취하고 있습니다. 구글 클라우드는 AI/ML 개인정보 보호 약속을 발표하였고, 이 약속은 Duet AI를 포함하여 모든 AI 서비스에 적용됩니다.
📌AlloyDB AI
데이터베이스 관련 소식 중 AlloyDB AI 미리 보기도 주목해야 합니다. AlloyDB AI는 PostgreSQL용 데이터베이스로, AI 앱을 위한 엔터프라이즈급 데이터베이스 솔루션을 제공합니다. 이 도구는 표준 PostgreSQL보다 최대 10배 빠른 벡터 검색을 가능하게 하고, 복잡한 데이터 유형에 대한 빠른 유사성 검색을 지원합니다. 자동 임베딩 생성, 로컬과 원격 모델 액세스, 그리고 엔터프라이즈급 확장성과 보안이 포함되어 있습니다.
📌 Cloud Bigtable
비공개 프리뷰 중에는 Cloud Bigtable 요청 우선순위 기능이 눈에 들어왔습니다. 이 기능을 이용하면 시간에 민감하지 않은 작업을 낮은 우선순위로 설정할 수 있습니다. 이 기능을 잘 활용하면 배치 작업이 중요 워크로드 처리에 미치는 영향을 효과적으로 제어할 수 있을 것 같습니다.
🤷♂️ 하이브리드 멀티 클라우드에서 데이터를 활용할 때 고려 사항은?
한편, 데이터베이스 및 분석 관련 세션 중 대량의 데이터를 온프레미스 또는 다른 클라우드 서비스에서 구글 클라우드로 옮기는 방법을 소개한 세션도 흥미로웠습니다. 요즘 하이브리드 멀티 클라우드가 대세가 되다 보니 데이터 백업이나 분석 등의 작업을 수행에 있어 대량의 데이터 전송 관련 요구가 늘고 있습니다. 구글 클라우드는 데이터 전송을 위해 Transfer Appliance, gcloud storage, 그리고 STS(Storage Transfer Service) 등 다양한 서비스를 제공합니다.
간단히 각각에 대해 알아보자면 먼저 Transfer Appliance는 물리적인 장치를 통해 데이터를 전송하는 방식을 제공합니다. 대용량 데이터를 안전하게 이동시키기 원할 때 이 방법이 적합한데, 물리적 장치의 특성상 추가적인 시간과 노력이 필요할 수 있습니다. 반면에 1TB 이하의 데이터 전송에는 Google Cloud 명령을 사용하여 GCS로 빠르게 이관하는 것이 효율적입니다. STS는 PB 수준의 대용량 데이터를 온라인으로 전송하는 서비스입니다. 이 서비스는 물리적인 장치 없이 데이터를 전송하며, 온프레미스 데이터 뿐만 아니라 AWS나 Azure와 같은 다른 클라우드 플랫폼에서 데이터 전송에도 활용될 수 있습니다.
이상으로 구글 클라우드 넥스트 2023의 하이라이트 4편의 주제인 데이터 및 데이터베이스 관련 주요 이야기를 정리해 보았습니다. 구글 클라우드와 관련한 더욱 자세한 설명이 궁금하다면, 👉 메가존소프트 문의 바로가기 로 접속하여 질문을 남겨주세요.
글: 메가존소프트 김보근, 김선진, 하대현, 신소희 매니저
Google Cloud Next ’23 하이라이트 이어보기
📌 Google Cloud Next ’23 Highlight 1편 : Duet AI 바로가기
📌 Google Cloud Next ’23 Highlight 2편 : GPU, TPU 바로가기
📌 Google Cloud Next ’23 Highlight 3편 : Vertex AI 바로가기
1개의 댓글