ChatGPT 등장과 함께 대세가 된 생성 AI,
생성 AI 추론 가속을 위한 환상의 콤비
👉 구글 클라우드와 L4 GPU 👈
구글 클라우드와 NVIDIA는 긴밀한 협력 관계를 이어가고 있습니다. 🙂
최근 NVIDIA는 GTC 2023 행사 기조 연설에서 구글 클라우드의 NVIDIA L4 Tensor 코어 GPU(이하 L4 GPU) 기반 서비스 출시 관련 소식을 전했습니다.
젠슨 황(Jenson Huang)은 기조 연설을 통해 구글 클라우드와 L4 GPU 관련해 어떤 기술 협력을 하고 있는지 공개했습니다. 🤗
😃 생성 AI 모델 추론 가속
첫 번째는 생성 AI(Generative AI) 모델 추론 가속을 위해 L4 GPU 기반 클라우드 서버를 제공하는 것입니다. 2023년 3월 기준으로 L4 GPU 기반 클라우드 서버는 구글 클라우드의 서비스가 유일합니다.
구글 클라우드는 2023년 3월 22일 자로 L4 GPU가 탑재된 G2 VM 프리뷰를 공개했습니다. 이 클라우드 VM은 생성 AI 같이 대규모 추론 AI 워크로드에 특화된 서비스라 할 수 있습니다. 이 때문에 G2 VM 프리뷰가 더욱 주목을 받고 있습니다. ChatGPT로 생성 AI 기술이 디지털 세상에서 새로운 변곡점을 만들고 있다는 이야기는 이제 누구나 다 아는 사실입니다. 실제로 금융, 소매, 의료 등 다양한 산업계에서 생성 AI 기반 대화형 서비스를 제공하며 새로운 흐름을 발 빠르게 따라가고 있습니다. 앞으로 생성 AI의 쓰임은 더욱 확대될 전망입니다. 이런 분위기 속에서 출시된 것이 바로 생성 AI 추론에 최적화된 G2 VM입니다.
G2 VM 출시에 NVIDIA도 큰 의미를 두고 있습니다. NVIDIA 설립자이자 CEO인 젠슨 황은 보도자료를 통해 “생성 AI에 대한 관심이 급증하면서 많은 기업들이 클라우드 기반 컴퓨팅으로 전환해 비즈니스 모델을 지원하고 있습니다.”라며 “우리는 구글 클라우드와 협력하여 필요한 기능을 쉽게 사용할 수 있고 그들이 만들 놀라운 새 도구와 애플리케이션을 지원할 수 있도록 돕고 있습니다.”라고 의견을 밝혔습니다.
L4 GPU를 기반으로 한 G2 VM이 왜 생성 AI 추론에 적합할까요?
그 이유는 L4 GPU의 기반인 Ada 러브레이스 아키텍처에서 찾을 수 있습니다. Ada 러브레이스 아키텍처의 텐서 코어는 생성 AI, 자연어 처리(NLP), 컴퓨터 비전, NVIDIA 딥 러닝 슈퍼 샘플링 3.0(DLSS 3) 1과 같은 AI 기술을 가속할 수 있도록 설계되었습니다.
실제로 가속 성능이 뛰어납니다. 4세대 텐서 코어가 탑재된 Ada 러브레이스 아키텍처를 기반으로 하는 L4 GPU는 FP32의 경우 최대 30TFLOPS, FP16의 경우 242TFLOPS의 성능을 제공합니다. 이전 세대와 비교해 보자면 NVIDIA T4 GPU에서 L4 GPU로 전환하면 2~4배 가까운 성능 개선이 가능합니다.
😃 GKE, Vertex와 Triton 추론 서버 통합
두 번째는 NVIDIA Triton 추론 서버를 구글 클라우드의 GKE(Google Kubernetes Engine)와 VertexAI에 통합하는 것입니다.
먼저 NVIDIA Triton 추론 서버와 GKE가 긴밀히 통합되면 구글 클라우드 환경에서 추론 서버에 훈련된 AI 모델을 배포하는 과정이 간소화됩니다. 한 마디로 편해진다는 것입니다. ‘
보통 기업이 각종 앱에 AI 모델을 배포해 운영하려면 신경쓸 것이 많습니다. 여러 프레임워크에서 훈련된 모델을 제공하고, 다양한 유형의 추론 쿼리 유형을 처리하고, GPU 기반 인프라를 할당하는 등의 손이 많이 갑니다.
NVIDIA Triton 추론 서버는 단일 플랫폼을 이용해 훈련된 AI 모델을 온프레미스나 클라우드에 배포하는 것을 간소화합니다.
그렇다면 NVIDIA Triton 추론 서버가 GKE를 만난다면?
배포가 더욱 간편해집니다. 🤗 원클릭이면 됩니다. 👍👍👍
구글 클라우드 마켓 플레이스에 등록된 『 GKE용 원클릭 NVIDIA Triton 추론 서버 앱 』 을 이용하면 GKE 환경에서 컨테이너 기반 마이크로 서비스로 훈련된 AI 모델을 탑재한 추론 서버를 편리하게 배포할 수 있습니다.
NVIDIA Triton 추론 서버는 VertexAI와도 궁합이 좋습니다. VertexAI를 사용하면 ML 모델을 컨테이너로 배포할 수 있습니다. NVIDIA Triton 추론 서버는 ML 모델을 위한 컨테이너화된 배포 옵션을 제공하는 데 이를 VertexAI에서 사용할 수 있습니다. NVIDIA Triton 추론 서버는 VertexAI가 더 긴밀하게 통합되면 모델 버전 관리, 오토스케일링, 모니터링 등 추론 작업 전반에 걸쳐 편의성이 높아집니다. 이에 따라 구글 클라우드 플랫폼에서 대규모로 ML 모델을 배포하고 관리하는 것이 한결 편해질 전망입니다.
VertexAI 관련해 NVIDIA와 협력하는 것이 또 하나 있습니다. 이 역시 원클릭 편의성을 보장하는 것인데요. 구글 클라우드는 AI 개발 편의를 개선하기 위해 NVIDIA와 공동으로 NGC 카탈로그에서 클릭 한 번으로 훈련된 AI 모델을 배포할 수 있는 기능을 Vertex AI Workbench에 구현하였습니다.
이상으로 『 생성 AI 추론 가속을 위한 환상의 콤비 ‘구글 클라우드와 L4 GPU’ 』 에 대해 알아보았습니다. 😎🤗🤗
더 자세한 내용은 메가존소프트로 문의 바랍니다. 👉 메가존소프트 문의 바로가기