AI가 기업 경쟁력의 필수 요소가 되면서 기업은 첨단 AI 모델의 학습과 추론을 처리하기 위해 GPU 가속 워크로드를 확장하고 있습니다.
최근 IDC 보고서에 따르면, 기업들이 AI와 고성능 컴퓨팅 프로젝트(HPC)에 투자를 가속화하면서 클라우드 인프라 지출이 비클라우드 시스템을 압도하고 있습니다. 2024년 클라우드 인프라 지출은 전년 대비 74.3% 증가한 1,920억 달러에 이를 것으로 전망되며, 일반 기업과 정부 부문에서도 디지털 인프라와 역량 확장으로 인해 투자가 크게 늘어날 것으로 예상됩니다.
이런 과정에서 기업과 정부는 적합한 인프라와 플랫폼을 선택해야 하는 과제에 직면하게 됩니다. 현재 상황에서 최선의 환경은 무엇이며, 이러한 선택이 어려운 이유는 무엇일까요? 예를 들어, 기업들은 초기 단계에서 GPU 서버나 워크스테이션을 도입해 개념 검증이나 파일럿 프로젝트를 수행합니다. 그러나 프로젝트가 점점 복잡해지면서 기존 인프라와 플랫폼만으로는 한계를 느끼게 됩니다. 이로 인해 조직은 인프라를 확장하고 보다 복잡하고 기능이 많은 플랫폼을 도입해야 하며, 이 과정에서 선택의 어려움을 겪게 됩니다.
이러한 고민을 해결하기 위해 Google Cloud는 AI Hypercomputer라는 혁신적인 솔루션을 제안하고 있습니다.
맞춤형 서비스 AI Hypercomputer
구글 클라우드는 지난 해 next 2024 행사에서 AI Hypercomputer를 소개했습니다. 당시 AI Hypercomputer는 맞춤형 인프라와 플랫폼에 대한 기업의 갈증을 해소하는 솔루션으로 관심을 모았습니다. AI Hypercomputer란 하드웨어와 소프트웨어 요소들을 자유롭게 조합해 AI 워크로드를 운영할 수 있는 아키텍처 패턴입니다.
이 설명에 담긴 의미는 필요한 부분만 골라서 AI 환경을 구축할 수 있다는 것입니다. 기업은 현재 AI 프로젝트 요구 수준 그리고 향후 확장 계획을 고려해 컴퓨팅 리소스, 네트워킹, 스토리지, 오픈소스 라이브러리 등을 조합해 원하는 학습이나 미세 조정, 그리고 추론 환경을 마련할 수 있습니다.
AI Hypercomputer는 크게 세 가지 범주로 컴포넌트를 나눕니다. 첫 번째 요소는 컴퓨팅 리소스입니다. 기업은 필요에 맞게 Cloud GPU, Cloud TPU*를 선택할 수 있습니다. 두 번째 요소는 소프트웨어입니다. 구글 클라우드는 다양한 머신러닝 프레임워크와 유틸리티를 제공해, 개발자가 원하는 방식으로 모델을 활용할 수 있도록 지원합니다.
*TPU(Tensor Processing Unit): 구글이 설계한 AI 전용 칩으로, 대규모 행렬 연산에 최적화된 하드웨어입니다.
세 번째는 유연한 사용 환경입니다. 기업은 순간 순간 필요한 만큼 자원을 할당해 활용할 수 있습니다. 가령 자원이 가장 많이 필요한 훈련 단계에서 충분히 AI 가속기를 활용하고, 훈련을 마친 후에는 자원을 반납해 비용 효율설을 극대화할 수 있습니다.
이 모든 요소들은 구글이 이미 검증을 마친 것들입니다. 알려진 바와 같이 구글은 전 세계 사용자에게 다양한 서비스를 제공합니다. 이들 서비스는 나날이 AI 기능이 강화되어 사용자 편의를 높이고 있습니다. 이처럼 전 세계 시장을 대상으로 대규모 AI 서비스를 제공하면 축적한 노하우를 바탕으로 상품화한 것이 바로 AI Hypercomputer입니다.
AI Hypercomputer 활용 시나리오
AI Hypercomputer 아키텍처를 토대로 AI 에이전트를 개발하는 가상의 시나리오를 하나 살펴보겠습니다. A사라는 회사가 있다고 가정해보겠습니다. 이 회사는 AI Hypercomputer로 직접 하드웨어 옵션을 선택해 추론 엔드포인트를 구성하는 프로젝트를 진행합니다. A사의 선택은 Cloud TPU 중 최신 버전인 TPU v5e를 사용하는 것입니다. 참고로 TPU는 구글에서 설계한 ‘Tensor Processing Unit’ 가속기로 대규모 행렬 연산에 최적화되어 있습니다.
A사는 위 구성도와 같이 자사의 필요와 목표에 맞게 TPU 리소스를 기반으로 소프트웨어 환경을 구성했습니다. A사의 경우 Cloud TPU에서 다양한 NLP 모델을 실행하기 쉽게 도와주는 도구와 API 집합인 Optimum TPU* 런타임과 구글이 공개한 오픈소스 LLM 중 하나인 Gemma 2 모델로 구성했습니다.
*Optimum TPU: NLP 모델 실행을 위한 도구와 API를 포함한 구글의 소프트웨어 라이브러리입니다.
소개한 바와 같이 AI Hypercomputer 환경을 구성한 A사는 Cloud TPU 하드웨어 위에 Optimum TPU 라이브러리를 얹고, Gemma 2 모델을 가져와 API 엔드포인트를 띄우면, 원하는 맞춤형 추론 서버가 완성합니다.
나만의 AI Hypercomputer
A사의 가상 사례는 AI Hypercomputer 안에서 Cloud TPU + Optimum TPU + Gemma 2를 최소 단위로 조합해 텍스트 생성 엔드포인트를 구축한 매우 단순화된 예시일 뿐입니다. 사실 AI Hypercomputer가 제공하는 컴포넌트는 훨씬 다양합니다. 상황에 맞게 다음과 같은 엔터프라이즈 시나리오를 적용해 우리 회사의 필요애 맞게 AI Hypercomputer 환경을 활용할 수 있습니다. 특정 하드웨어, 모델, 네트워크 설정이 필요한 환경이라면 AI Hypercomputer 아키텍처를 고려해 보는 것을 추천합니다.
- GPU나 TPU 중 필요한 것만 골라서 대규모 학습/추론 인프라 구성
- 데이터 세트 규모이 방대하면, 고속 네트워킹과 분산 스토리지를 추가 도입
- 특정 프레임워크(JAX, PyTorch 등)에 최적화된 소프트웨어 스택만 골라서 세팅
- 동적 워크로드 스케줄러를 사용해 대규모 배치 작업이나 온디맨드 스케일링 자동화
AI Hypercomputer는 클라우드 환경에서 유연하고 확장 가능한 맞춤형 AI 인프라를 제공합니다. Google Cloud의 검증된 기술력과 폭넓은 옵션을 통해 기업은 AI 경쟁력을 강화하고, 더 효율적인 방식으로 프로젝트를 실행할 수 있습니다.
추가적인 정보나 지원이 필요하다면, 메가존소프트를 통해 전문가의 도움을 받아보세요.