프로세서 성능을 이야기할 때 무어의 법칙이 통하던 시절이 있었습니다. 물론 여전히 유효하기도 하지만 예전처럼 모든 혁신을 설명하는 기준은 더 이상 아닙니다. 2020년 현재 우리는 프로세서 성능을 다양한 측면에서 바라보고 있습니다. 더 크고 복잡한 계산을 처리하는 데 있어 클럭 외의 것들을 보고 있습니다. 어떤 것을 더 중요하게 보느냐는 어떤 도메인에 적용할 것인가? 이를 중심으로 봅니다. 관련해 최근 모든 것에 포함되는 요소가 되어 가고 있는 인공 지능과 데이터 과학의 경우 강력한 병렬 처리를 성능 평가의 주요 지표로 봅니다.
구글 TPU가 주목받는 이유
관련해 최근 시장에서 주목하는 것이 바로 구글의 TPU(Tensor Processing Unit)입니다. 구글 TPU를 사용하는 기업은 빠르게 늘고 있습니다. 그 시작은 구글이었습니다. 구글이 제공하는 번역, 사진, 검색 등 AI 기능이 요구되는 서비스를 처리하는 인프라가 바로 TPU라 보면 됩니다. 현재 많은 기업이 AI 관련 트레이닝과 예측 등의 용도로 TPU를 사용합니다.
역사를 잠시 짚어 보죠. 구글이 TPU를 만든 이유는 딥러닝, 머신 러닝 워크로드를 더 빠르고 경제적으로 처리하기 위한 전용 프로세서가 필요하다는 인식 때문이었습니다. GPU 역시 초기 용도와 달리 빠르게 AI 전용 인프라로 기술 진화를 거듭하고 있지만, 구글은 클라우드가 갖는 경제성의 이점을 살릴 수 있는 TPU의 필요성에 주목하고 개발을 시작했습니다.
구글 TPU는 v1을 시작으로 v2, v3까지 진화를 거듭하고 있습니다. TPU v1은 28nm 공정으로 만든 AISC(Application Specific Integrated Circuit)으로 클럭이 700MHz였습니다. 알파고와 이세돌의 대결에 쓰인 인프라가 바로 TPU v1이었죠. TPU는 v2부터는 더 크고 복잡한 워크로드 처리를 위한 인프라로 면모를 갖추게 됩니다. TPU v2는 단일 블록에 2개의 코어를 내장한 칩이 4개 장착됩니다. 구글은 TPU v2를 공개하면서 64개의 TPU를 하나의 시스템으로 연결한 TPU POD 개념을 소개했습니다. TPU v2 POD 하나의 성능은 11.6 PFLOPS였습니다. 이것이 TPU v3가 되면서 8배 더 높아져 한 개의 POD가 100 PFLOPS의 성능을 내게 되었습니다. 참고로 현재 구글 클라우드는 TPU v2와 v3를 제공하는데 개별 블록, 하프 POD, POD 세 가지 옵션으로 이용이 가능합니다.
성능의 목마름을 해소하고, 비용 부담을 확실히 줄이는 해결책
그렇다면 구글 클라우드 TPU를 이용하면 기업은 어떤 혜택을 볼 수 있을까요? AI 워크로드 관련 필요한 성능을 필요할 때 원하는 만큼 사용할 수 있습니다. 이는 AI 프로젝트의 생산성과 효율성을 높이는 한편 기업이 감당해야 하는 인프라 성능 관련 비용 부담을 덜어준다는 뜻으로 해석할 수 있습니다.
예를 하나 들면 보통 모델 개발 초기에는 트레이닝 반복을 위해 많은 컴퓨팅 자원이 필요합니다. 이때는 구글 TPU를 사용해 여러 개발자와 데이터 과학자가 자신에게 필요한 성능을 충분히 이용해 트레이닝 작업을 할 수 있습니다. 그리고 모델을 프로덕션 환경에 배포한 다음 인퍼런싱을 하는 과정에는 더 작은 자원이 요구되므로 사내에 구비한 GPU 기반 서버나 구글 TPU 환경을 이용하면 됩니다. 즉, 예산을 매우 탄력적으로 이용하는 가운데 성능에 대한 개발자와 데이터 과학자의 요구를 충족하는 것이 가능합니다.
구글 TPU는 써보면 강력한 성능과 함께 남다른 경제성을 확실히 알 수 있습니다.
더 자세한 내용은 관련 사이트, 문서 또는 유튜브 영상 시리즈를 참조 바랍니다.
1개의 댓글