날이 갈수록 AI에 대한 관심이 높아지고 있습니다.
내년 계획을 준비하는 시즌이 다가오면서 어떻게 하면 우리 조직에 맞는 방식으로 AI 프로젝트를 진행할 것인지 고민하는 분들이 많을텐데요.
관련해 이번 포스팅에서는 AI 프로젝트를 추진할 인프라와 플랫폼 없이도 간편하게 작업할 수 있는 서버리스 환경인
Cloud Run에서 GPU를 활용하는 것이 갖는 편의성을 살펴보겠습니다.
🛠️ GPU 인프라와 MLOps 플랫폼
AI 프로젝트를 추진하기 위해서 첫 번째는 인프라가 있어야 합니다. 프로젝트 규모에 따라 GPU를 장착한 워크스테이션이 필요할 수도 있고, 서버나 대규모 클러스터가 있어야 할 수도 있습니다. 두 번째로는 GPU 자원을 효율적으로 사용하기 위핸 MLOps 플랫폼입니다. 고가의 자원이다 보니 여러 사용자가 효율적으로 자원을 공유하는 것이 중요하여 인프라 못지 않게 MLOps 플랫폼도 중요한 요소라고 할 수 있습니다. 인프라와 플랫폼을 갖추는 것은 생각보다 복잡합니다. GPU 드라이버 설치, 모델 최적화, 컨테이너 이미지 생성 등 다양한 설정 작업이 필요하며, 배포된 서비스를 지속하여 관리하고 발생한 문제를 해결하는 유지보수에도 신경을 많이 써야 합니다. 투입되는 비용과 리소스를 효율적으로 사용할 수 있는 구글 클라우드 플랫폼에서 제공하는 솔루션에 대해 말씀드리겠습니다.
하나는 구글 클라우드 Gemini와 같은 거대 언어 모델을 API로 활용하는 것입니다. 클라이언트 라이브러리를 사용해 API 호출만 하면 되며, 구글 클라우드에 관리를 맡기면 됩니다. API를 통해 LLM에 접근해서 개발하자고 하는 기능이나 서비스에 맞게 조직이 보유한 데이터로 미세 조정이나 RAG 구현 등의 작업을 하면 별도의 인프라나 플랫폼이 없어도 됩니다.
다른 하나는 서버리스 환경인 Cloud Run에서 GPU를 사용해 Gemma나 Ollama 같은 LLM을 직접 최적화하고 배포해 추론 작업을 하는 것입니다. 서버리스 환경에서 GPU를 활용할 수 있다는 것은 개발자들에게 큰 유연성을 제공하며 특히 특정 모델을 직접 실행하고자 하는 경우 더욱 유용합니다.
🤔 API vs. Serverless
살펴본 바와 같이 Gemini API나 Cloud Run는 GPU 서버 기반 인프라와 MLOps 플랫폼 없이도 생성형 AI 프로젝트를 추진할 수 있다는 공통점이 있습니다. 두 가지의 솔루션 중 어떤 것을 사용하는 것이 기업에 적합한 가는 개발 편의성과 어느 수준까지 커스터마이징을 할 것인지를 기준으로 선택하시면 좋습니다. 빠른 구현이 필요한 경우 Gemini API는 많은 기능을 제공하고 있어 빠르게 개발하고 배포해야 하는 경우 더 효율적일 수 있습니다.
Cloud Run 환경에서 GPU를 활용하는 것은 커스터마이징에 더 유리합니다. API를 호출할 때는 제공되는 API의 기능 내에서만 작업해야 하지만, Cloud Run에서는 모델을 직접 수정하고 배포하여 더욱 맞춤형 서비스를 구현할 수 있습니다. 그리고 API 호출 시에는 데이터를 API의 요구 사항에 맞춰 변환해야 하는 번거로움이 있지만, Cloud Run에서는 데이터 처리 과정을 자유롭게 설계할 수 있습니다. 이 외에도 API 호출 시에는 API 서버의 GPU를 공유해야 하므로, GPU 자원을 효율적으로 활용하기 어려울 수 있습니다. 반면, Cloud Run에서는 자체 GPU를 할당하여 더욱 효율적으로 사용할 수 있습니다.
📌 Cloud Run을 선택했다면
우리 조직의 AI 전략에 따라 Cloud Run에서 GPU를 활용하는 것이 효과적이라 판단했다면, 다음은 배포, 확장, 비용 등을 따져봐야 합니다. Cloud Run 환경에서는 컨테이너 이미지를 생성하여 배포하면 되므로 개발된 모델을 빠르게 서비스로 전환할 수 있습니다. 확장은 뭐 따로 설명이 필요 없습니다. Cloud Run은 트래픽 변화에 따라 자동으로 인스턴스를 확장하므로, 갑작스러운 부하 증가에도 안정적으로 서비스를 제공할 수 있습니다. GPU를 자유롭게 쓴다는 점에서 비용이 많이 들지 않을까? 이런 생각을 할 수 있습니다. 다행이 Cloud Run은 사용한 만큼만 비용을 지불하는 서버리스 모델이므로, 부하가 적을 때는 비용을 절약할 수 있습니다.
📌 기술과 시장 변화에 유연하게 대처
Cloud Run 같은 서버리스 환경을 이용하는 것은 초기 투자 부담이 없다는 것 외에도 시대 변화에 적절히 대응하기 좋다는 이점도 있습니다. GPU 아키텍처는 빠르게 변화하고 있습니다. 짧은 주리고 새로운 아키텍처가 발표되면서 혁신의 고삐를 늦추지 않고 있습니다. 여기에 더해 AI, 특히 LLM 분야의 진보도 엄청난 속도로 이루어지고 있습니다. 이런 속도에 뒤처지지 않고 AI로 실질적인 성과를 거두고자 한다면, 빠르게 변하고 있는 인프라와 플랫폼 그리고 모델에 유연하고 효율적으로 대응할 수 있는 서버리스가 좋은 대안이 될 수 있습니다.
서버리스 환경에서 도메인 특화 LLM으로 추론 작업을 하는 것에 관심이 있다면 메가존소프트가 도움을 드리겠습니다. [ 문의하기 ]