머신 러닝 연구자와 엔지니어, 데이터 과학자의 업무 생산성에 큰 영향을 끼치는 요소는? 바로 컴퓨팅 환경입니다. 모델 트레이닝 시간을 좌우하는 핵심 요소인 컴퓨팅 환경을 어떻게 구성해 이용할 것인가? 이 고민에 대한 새로운 선탠지로 다들 구글이 개발한, 첫 설계부터 미신 러닝을 고려해 만든 TPU (Tensor Processing Unit) 칩 기반 인프라를 생각하는 분들이 많습니다. 관련해 구글 Cloud TPU Pods와 NVIDIA Tesla V100 GPU 기반 구글 클라우드 VM 간의 성능 및 비용 비교 벤치마크 결과가 나와 내용 공유합니다.
출처: cloud,google.com
구글 Cloud TPU Pods는 현재 알파 단계에 있어, 신청자만 사용해 볼 수 있습니다. 최근 구글에서 Cloud TPU Pods가 실전에서 어느 정도 성능을 보여 줄 수 있는지를 보여주는 벤치마크 테스트를 했습니다. 나름 공정하게 하기 위해 방법론 선정에 신경을 많이 썼습니다. 방법론 관련 내용은 깃허브에 잘 정리되어 있습니다.
비교 대상은 Cloud TPU Pods과 NVIDIA Tesla V100 GPU 기반 구글 클라우드 VM입니다. 성능 평가를 위해 적용된 것은 TensorFlow 1.12가 적용된 RasNet-50 v1.5(GPU, TPU 버전)입니다. 실제 기업 환경을 고려해 대규모 머신 러닝 트레이닝 시나리오를 적용하기 위해 MLPerf 벤치마크 모델 중 RasNet-50 v1.5를 선택했다고 합니다.
성능 평가 결과는 다음 표와 같습니다. 극적인 표현을 위해 1개의 V100 GPU와 총 256개의 TPU v2 칩 기반의 Full Cloud TPU v2 Pods의 차이가 200배라고 적어 놓았네요. 칩 숫자로 직접 비교가 어렵긴 하겠지만 표 중간에 보면 4개의 GPU와 4개의 TPU v2 간의 트레이닝 속도 차이는 드라마틱 한 것 같지는 않습니다. 다만 ‘가성비’ 측면에서 보면 격차가 좀 납니다.
출처: cloud,google.com
Full Cloud TPU v2 Pods에 대응한다고 볼 수 있는 최고 사양의 서비스인 8개의 V100 GPU 기반의 n1-standard-64 Google Cloud VM을 비교했을 때 Full Cloud TPU v2 Pods이 모델 트레이닝을 27배 더 빨리 완료했다고 합니다. 클라우드의 경우 사용 시간이 결국 비용이죠. 이를 고려해 보면 38% 정도 비용 경쟁력이 있다고 풀이할 수 있습니다.
출처: cloud,google.com
벤치마크 결과를 떠나서 뭐가 더 좋다고 평가하기 아직은 이를 것입니다. 다만 한 가지 분명한 것은 선택지가 많아지고, 기술 혁신 경쟁이 치열할수록 사용자와 기업은 더 행복해진다는 것이겠죠. Cloud TPU Pods에 대한 자세한 내용은 가이드 문서를 참조 바랍니다.