20만 개의 웹 사이트를 호스팅하는 기업인 판테온(Pantheon)이 GCP로 둥지를 옮겼습니다. 2010년 창업한 판테온은 웹 사이트 구축과 운영을 대행하는 호스팅 기업입니다. 관리하는 사이트 수는 20만 개이고, 이들 사이트로 향하는 트래픽은 월 80억 페이지 뷰 정도라 합니다. 원래 이 기업은 랙스페이스 이용자였습니다. 그런데, 왜 구글 클라우드 플랫폼(GCP)으로 사업 기반을 바꾸었을까요? 20만 개의 웹 사이트 호스팅 기반을 옮긴다는 것은 꽤 큰 결심이 필요한 일이죠. 판테온이 GCP로 간 가장 큰 이유는 비용입니다. GCP로 바꾼 후 인프라 비용이 40% 줄었다고 하네요. 가용성에 대한 SLA도 99.95%로 올렸다고 합니다. 이게 다가 아닙니다. 기존에 꿈도 꾸지 못하던 머신 러닝과빅 데이터 분석 기반 서비스 역량도 확보했다고 하니, 이 정도면 꿩도 먹고 알도 먹고가 아닌가 싶습니다.
“단 2주 만에 GCP로 마이그레이션 완료!”
판테온의 성공 비결은 빠르고, 안정적이고, 확장이 쉬운 웹 사이트 호스팅 서비스를 제공한 데 있습니다. 판테온은 베어 메탈 기반의 가상 클라우드 서버에서 고객의 웹 사이트를 운영해왔습니다. 사업이 잘 풀리면서 고객 수도 늘었지만, 규모 면에서 세계 최고급 웹 사이트들도 유치했습니다. 그러다 보니 서비스의 안정성과 신뢰성 강화 방안을 찾게 됩니다.
판테온 직원 수는 120명 정도 되는데, 대부분 IT 전문가죠. 전문성 높다 보니 새로운 서비스 기반도 매의 눈으로 찾습니다. 글로벌 클라우드 사업자들을 줄 세워놓고 검토를 했고, 결국 GCP로 결정했습니다. 이전 작업은 신속하게 이루어졌는데, 딱 2주 걸렸습니다. 500TB 크기의 데이터베이스, 개발한 코드, 고객 파일 등을 옮기는 작업을 하면서 고객이 느낀 변화는 없었습니다. 판테온 공동 설립자인 조쉬 쾨니히(Josh Koenig)는 “20만 개의 웹 사이트를 GCP로 2주 만에 옮겼습니다. 이 중에는 트래픽을 매우 많이 일으키는 5만 개의 웹 사이트와 현재 개발이 진행 중인 웹 사이트도 있었는데 어떤 고객도 이전하는 것을 알아채지 못했습니다.”라고 말했습니다. 놀라운 속도로 이전이 이루어졌고, 다운타임 시간이 아예 없었던 것이죠.
“컨테이너 환경 ~ GCP에서 새 옷을 입는다!”
판테온의 CMS(Content Management System) 런타임 환경 관리를 위해 내부에서 개발해 발전시킨 컨테이너 관리 기술을 사용했습니다. 이를 구글 컴퓨트 엔진에서도 사용하는데요, 여기에 새로운 기술 한 가지를 더했습니다. 바로 구글 쿠버네티스 엔진(Google Kubernetes Engine)입니다. 판테온은 분산 파일 시스템, 라우팅 레이어 등의 서비스를 자동으로 확장하기 위해 쿠버네티스를 활용합니다.
“구글의 네트워크 기술에 감동 받다!”
확장 측면에서 판테온이 GCP에 감동한 것은 바로 네트워크입니다. 구글은 클라우드 기반 L7 로드밸런싱 서비스 업체인 Fastly와 파트너십을 체결했습니다. 이를 통해 Fastly가 운영하는 사설 네트워크와 GCP의 백본이 직접 연결됩니다. 판테온의 경우 양사의 파트너십 체결 효과를 직접 보는 경우 중 하나인데요, 서비스 가용성에 대한 SLA를 기존 99.9%에서 99.95%까지 올릴 수 있었습니다. 이게 뜻하는 바는 가용성이 중요한 대형 웹 사이트 운영 고객을 유치할 수 있는 경쟁력이 한층 강화된 것이죠. 관련해 판테온의 TCO인 데이비드 스튜라우스(David Strauss)의 말을 들어 보시죠.
“구글의 네트워크 토폴로지는 로컬과 글로벌 모두 경쟁사보다 더 나은 성능과 안정성을 제공합니다. 따라서 GCP는 판테온과 우리 고객 모두에게 최고의 선택이라 할 수 있습니다. 또한, 구글은 존(zone)과 리전(region) 간 데이터 복제에 있어 믿을 수 없을 만큼 훌륭한 기술을 가지고 있습니다. 이 덕에 우리는 가장 진보한 재해복구와 페일오버 서비스를 고객에게 제공할 수 있게 되었습니다.”
판테온 CTO – David Strauss
“세계적인 호스팅 회사 ~ 구글 빅쿼리(BigQuery)로 빅 데이터에 눈을 떴다!”
판테온은 GCP로 이사 오면서 빅 데이터에 눈을 떴습니다. 판테온은 구글 빅쿼리를 이용해 고객의 웹 사이트 트래픽 분석을 매우 빠르게 수행합니다. 이전에는 원하는 만큼 빠르게 데이터를 수집할 수 없어, 고객 웹 사이트에 문제가 생기기 전에 특정 이슈를 식별하는 데 한계가 있었다고 합니다. 그러던 것이 이제 빅쿼리 덕에 트래픽 관련 각종 로그 정보를 실시간 데이터 스트림으로 처리할 수 있게 되었고, 그 덕에 20만 개의 고객 웹 사이트에 대한 통찰력이 생겼습니다. 트래픽 폭주, 이상 징후 등이 바로바로 눈에 들어오게 되었으니, 고객 서비스가 나아진 것은 당연하겠죠.
빅쿼리를 쓰면서 판테온 고객은 맞춤형 서비스가 이런 것이구나 느낄 수 있게 됩니다. 고객의 비즈니스 성장에 맞춰 적당한 규모의 인프라 용량을 제안할 수 있게 된 것이죠. 사업 성장으로 트래픽이 늘고 있는데, 제때 인프라 증설을 못 해 접속 속도 지연 문제를 일으키지 않고, 고객의 비즈니스 성장 트렌드를 바탕으로 웹 사이트 투자와 운영 전략을 세울 수 있도록 적극적으로 돕게 된 것이죠. 빅쿼리를 활용해 트래픽을 더 자세히 들여다보고 이해의 폭이 넓어진 효과를 판테온과 고객 모두 톡톡히 본 것이죠. 판테온의 COO인 니얼 헤이스(Niall Hayes)의 말을 들어보시죠. 빅쿼리 팬이 분명하네요 ~
“GCP는 다른 클라우드 서비스보다 데이터 지향적인 서비스 같아요. 판테온뿐 아니라 우리 고객의 요구에 매우 잘 맞습니다. 구글 빅쿼리를 사용한 후 고객과의 관계에 더 큰 가치를 더할 수 있었는데요, 문제가 일어난 후 대화를 하는 식이 아니라 선제적 대응 차원에서 이야기가 오가면서 가능해진 일입니다. 앞으로 고객이 자사 트래픽에 대해 더 잘 알 수 있도록 돕는데에도 빅쿼리를 활용할 계획입니다.”
판테온 COO – Niall Hayes
빅쿼리 뿐 아니라 머신 러닝도 GCP로 오면서 판테온이 적용한 신기술 목록에 이름을 올렸습니다. 빅 데이터, 머신 러닝 이 두 기술은 비용 절감에 꽤 큰 역할을 합니다. 앞서 빅쿼리 기반 트래픽 로그 분석을 통해 선제적 장애 대응과 고객의 성장에 맞는 인프라 용량 계획을 세운다고 말했죠. 호스팅 업체에게 이런 역량은 곧 원가 경쟁력으로 이어집니다. GCP로 옮긴 후 비용 절감 폭이 40%가 된 데에는 컴퓨트, 네트워크, 스토리지 등의 기술적 차별화 외에 빅 데이터와 머신 러닝도 일조를 했습니다.
“G Suite로 업무 생산성도 높이고 보안도 강화하고”
한편 판테온은 GCP로 바꾸는 김에 G Suite로 업무 환경도 전환했습니다. 이메일, 문서 작업 등 업무 환경도 바꾼 것인데요, G Suite를 쓰면서 중요 인프라에 접근하는 관리자들의 접근 제어를 매운 간단한 방법으로 관리할 수 있게 되었습니다. GCP에 접근하는 관리자의 신원 증명 및 접근 제어를 G Suite를 통해 간단히 처리할 수 있게 된 것이죠.