메가존소프트의 Google Cloud 전문가들이 미국 샌프란시스코에서 열린
Google Cloud Next ’23에 직접 참여하여 전해주는 소식!
메가존소프트가 전하는 Next ’23 하이라이트 두 번째 주제는
생성형 AI(Generative AI) 전략을 지원하는 GPU, TPU 기반 구글 클라우드의 서비스입니다.
🌟 구글 클라우드 GPU, TPU 및 GKE 등의 서비스로 기업의 생성형 AI 전략 가속
구글 클라우드는 다양한 초거대 모델을 제공하고, 이를 기업의 목적과 목표에 맞게 훈련하고 최적화할 수 있도록 GPU, TPU 기반 강력한 컴퓨팅 서비스를 제공합니다. 더불어, NVIDIA와 파트너십을 강화하며 생성형 AI 분야에서의 혁신을 더욱 가속화하고 있습니다. Google Cloud Next ’23(이하 Next ’23)의 기조연설 및 주요 기술 세션에 참석한 메가존소프트의 전문가들이 주목해야 할 GPU, TPU 관련 소식을 전달해 드립니다. 😊
🔥 생성형 AI가 곧 디지털 전략인 시대!
GPU, TPU 소식을 알아보기에 앞서 업종을 불문하고 생성형 AI가 모두의 관심사가 된 이유를 짚어 보겠습니다. 생성형 AI는 텍스트, 이미지, 음성, 동영상과 같은 새로운 콘텐츠를 생성하는 AI 기술입니다. 이러한 기술은 기업의 디지털 전환에 중요한 역할을 할 수 있는데요. 생성형 AI를 사용하면 고객의 요구를 더 잘 이해하고, 맞춤화된 고객 경험을 제공할 수 있습니다. 예를 들어 생성형 AI를 사용하여 고객 맞춤형 상품 추천을 제공하거나, 고객의 질문에 응답하는 챗봇을 개발할 수 있습니다.
다음으로 생성형 AI를 사용하면 새로운 제품 및 서비스의 아이디어를 도출하고, 시제품 제작 및 테스트할 수 있습니다. 대표적인 사례로 생성형 AI를 사용하여 신제품 디자인을 제작하거나, 신규 마케팅 캠페인의 컨텐츠를 생성이 있습니다. 이 외에도 생성형 AI로 각종 작업 자동화하고, 비용을 절감할 수 있습니다. 이는 Next ’23 하이라이트 시리즈 1편의 주제인 Duet AI에서 간단히 알아보았으니, 상세한 내용은 해당 포스팅을 참조 바랍니다.
😁 생성형 AI 전략을 실행에 옮기는 방법
생성형 AI를 기업의 각종 서비스나 디지털 제품(Digital Product)에 접목하는 것은 여러 옵션이 있습니다. 가장 쉬운 방법은 OpenAI 같은 기업이 제공하는 API를 이용하는 것입니다. 쉽고 편한 장점이 있지만 보안과 규제에서 아직 벗어나지 않았습니다. 그래서 인력과 노하우가 기업의 경우 자사 데이터를 이용해 모델을 직접 최적화하는 방법에 관심을 두고 있으나, 이 접근도 선택지가 존재합니다. 하나는 GTP, BERT, Llama 같은 파운데이션 모델(Foundation Model)을 활용하는 것입니다. 파운데이션 모델은 방대한 데이터 세트로 사전 훈련을 하여 다양한 용도로 활용할 수 있는 범용성을 갖고 있는 것이 특징입니다. 이 접근의 단점은 막대한 컴퓨팅 파워가 필요하다는 것입니다. 그러다 보니 파운데이션 모델을 직접 다룰 수 있는 곳은 그리 많지 않습니다.
다행히 거대 모델을 큰 투자 없이 이용하는 방법이 있습니다. 요즘 유행하고 있는 소형 거대 모델(Small Large Language Model, 이하 sLLMs)을 이용해 도메인 특화 방식으로 최적화하는 것입니다. sLLMs는 모델이 파운데이션 모델과 비교할 때 상대적으로 크기가 적어 훈련과 사용이 더 쉽고 컴퓨팅 자원이 적게 필요합니다. sLLMs 기업들이 관심을 보이는 이유는 보유한 데이터를 이용해 비즈니스 전략에 맞게 도메인 특화된 모델을 만들어 기존 서비스에 통합하거나 디지털 제품에 연계할 수 있기 때문입니다. 오픈 소스 기반 거대 모델 및 sLLMs 인기가 높아지면서 허깅 페이스 인기가 높아지는 것도 같은 맥락에서 이해하면 좋을 것 같습니다.
😊파운데이션 모델, sLLMs 모델 최적화의 길은 구글 클라우드로 통한다!
구글 클라우드의 인프라는 성능과 안전성으로 정평이 나 있습니다. 일반적인 워크로드 운영은 물론이고 생성형 AI 기반 서비스를 위한 모델 훈련, 최적화 그리고 관련 애플리케이션 배포와 운영에도 명성이 이어지고 있습니다. 기업의 생성형 AI 전략을 가속하는 인프라의 핵심은 바로 GPU와 TPU입니다.
Next ’23에서 GPU, TPU 관련 새소식이 비중 있게 다루어졌습니다. 구글 클라우드는 A3 VM과 TPU v5e와 같은 고성능의 컴퓨팅 옵션을 통해 이러한 모델을 구현할 수 있도록 지원할 예정입니다. 이러한 서비스는 다음과 같은 혜택을 제공합니다.
- 더 빠른 훈련 시간: 파운데이션 모델과 sLLMs 중 무엇은 선택하건 훈련하는 데 걸리는 시간을 크게 단축할 수 있습니다.
- 더 나은 성능: 훈련한 모델을 기반으로 생성형 AI 서비스를 제공할 때 더 현실적이고 창의적인 결과물을 사용자에게 제공할 수 있습니다.
- 더 낮은 비용: GPU 인스턴스는 비용이 꽤 큽니다. 전반적인 비용을 줄이는 방법을 구글 클라우드는 쉽게 선택할 수 있습니다. 바로 GPU, TPU를 균형감 있게 선택해 이용하는 것입니다.
참고로 NVIDIA H100 GPU 기반으로 제공되는 A3 VM은 곧 출시되며, TPU v5e는 미리보기로 공개되었습니다. TPU v5e는 이전 버전과 비교할 때 거대 모델 및 생성형 AI 모델을 기준으로 달러당 최대 2배 더 높은 훈련 성능과 2.5대 더 높은 추론 성능을 제공한다고 합니다. 한 마디로 가성비 경쟁력이 두 배 이상 높아졌다고 할 수 있습니다. TPU가 이렇게 강력해 진 배경에는 Multislice 기술이 자리하고 있습니다. 이 기술의 특징은 다음과 같이 요약할 수 있습니다.
- 단일 슬라이스에서 최대 수만 개의 칩이 포함된 다중 슬라이스까지 선형에 가까운 확장 성능
- 몇 가지 코드 변경만으로 간단한 설정
- 자동 컴파일러 최적화를 활용하여 시간 절약
- TPU v5e는 TPU v4에 비해 LLM 학습에 대한 비용 대비 최대 2배 더 높은 성능을 통해 비용 효율성을 극대화합니다.
- TPU v5e 및 TPU v4를 각각 사용하는 8칩 ICI 도메인 시스템에 비해 최대 2배~24배 더 높은 피크 FLOP
구글 클라우드는 A3 VM과 Cloud TPU v5e와 같은 고성능의 컴퓨팅 옵션을 통해 이러한 모델을 구현할 수 있도록 지원하는데요. 이러한 서비스는 다음과 같은 혜택을 제공합니다.
- 더 빠른 훈련 시간: 파운데이션 모델과 sLLMs 중 무엇은 선택하건 훈련하는 데 걸리는 시간을 크게 단축할 수 있습니다.
- 더 나은 성능: 훈련한 모델을 기반으로 생성형 AI 서비스를 제공할 때 더 현실적이고 창의적인 결과물을 사용자에게 제공할 수 있습니다.
- 더 낮은 비용: GPU 인스턴스는 비용이 꽤 큽니다. 전반적인 비용을 줄이는 방법을 구글 클라우드는 쉽게 선택할 수 있습니다. 바로 GPU, TPU를 균형감 있게 선택해 이용하는 것입니다.
인프라만 강화된 것이 아닙니다. GKE도 생성형 AI 친화적으로 개선된다고 합니다. 생성형 AI 같은 차세대 AI 애플리케이션을 개발하는 조직을 위해 GKE는 AI에 최적화된 Cloud TPU v5e를 지원합니다. 또한, NVIDIA H100 GPU가 포함된 A3 VM과 Cloud Storage FUSE는 이제 GKE에서 일반 안정화 버전으로 제공됩니다. GKE를 이용해 본 적이 없다고 걱정하지 않아도 됩니다. Duet AI를 통해 AI 프로젝트에 참여한 개발자와 데이터 과학자는 GKE 이용을 친절하게 안내받을 수 있다고 합니다.
AI/ML 워크로드 관련해 GPU, TPU와 함께 주목해야 할 것이 있는데, 바로 스토리지입니다. 관련해 Hyberdisk가 이번 행사에서 주목할 만 했습니다. Hyperdisk는 일반 저장소에 비하여 탁월한 성능을 자랑하며, 기존 대비 7배 더 빠른 속도를 보여줍니다. 특히 최상의 성능을 제공하는 Extreme 타입과 성능과 비용 사이의 균형을 고려한 Balanced 타입이 프리뷰로 출시되었습니다.
더불어 Hyperdisk Storage Pools 기능을 통해 사용자는 최대 40%의 비용 절감 효과를 누릴 수 있으며, 이 기능 역시 프리뷰로 제공됩니다. 이외에도 AI 및 HPC 워크로드에 특화된 Parallelstore가 프리뷰 버전으로 출시되었습니다. Filestore는 1.6배의 높은 throughput과 15.7배 더 빠른 읽기 IOPS 성능으로 강화되었고, 구글에서 제공하는 관리형 스토리지인 NetApp이 일반 공개(GA) 상태로 전환되었다고 밝혔습니다.
🤝NVIDIA와의 파트너십
한편, 구글 클라우드와 NVIDIA는 생성형 AI 분야에서 협력을 발표했습니다. 구글 클라우드는 NVIDIA DGX Cloud를 제공하고, NVIDIA는 구글 클라우드의 AI 인프라를 활용하여 생성형 AI 워크로드의 성능과 확장성을 향상할 예정입니다. 이러한 협력은 생성형 AI 분야의 발전에 중요한 역할을 할 것으로 기대됩니다. NVIDIA는 업계 최고의 GPU 기술을 보유하고 있으며, 구글 클라우드는 글로벌 규모의 AI 인프라를 제공하고 있습니다. 두 회사의 협력을 통해 기업은 더 빠르고 더 강력하고 더 저렴한 생성형 AI 솔루션을 사용할 수 있게 될 것입니다.
이상으로 Next ’23 두 번째 주제인 GPU, TPU 관련해 주목할 새소식을 마무리하겠습니다. 시리즈의 세 번째 주제인 Vertex AI 등 생성형 AI 관련 개발 환경을 주제로 다시 찾아 뵙겠습니다.
구글 클라우드와 관련한 더욱 자세한 설명이 궁금하다면, 👉 메가존소프트 문의 바로가기 로 접속하여 질문을 남겨주세요.
글: 메가존소프트 김보근, 김선진, 하대현, 신소희
Google Cloud Next ’23 하이라이트 이어보기
📌 Google Cloud Next ’23 Highlight 1편 : Duet AI 바로가기
📌 Google Cloud Next ’23 Highlight 3편 : Vertex AI 바로가기
4개의 댓글