야놀자(yanolja)
데이터 분석을 위해 구글 클라우드를 선택한 야놀자
야놀자는 급성장하는 No1 온라인 여행사(OTA)입니다. 야놀자는 국내 여행 관련 기업 중 유일한 ‘유니콘’ 스타트업으로 현재 글로벌 Top2 객실관리시스템(PMS) 제공 업체 중 하나이기도 합니다.
야놀자는 숙박, 레저, 여행, 레스토랑, 교통 등 여행과 여가 관련해 폭넓은 예약 서비스를 제공합니다. 2015년부터 2020년까지 연평균 70% 이상 성장을 거듭하며 대한민국 대표 예약 서비스로 많은 이들의 사랑을 받고 있습니다.
야놀자는 놀라운 성장세만큼이나 서비스 플랫폼 규모와 기능 확장 속도가 놀랍습니다. 야놀자는 코로케이션 서비스와 AWS 중심으로 인프라와 플랫폼을 확장해 왔습니다. 이 가운데 2019년 야놀자는 멀티 클라우드 전략을 중장기 목표로 삼습니다. 손에 익은 기술과 서비스에 안주할 것이 아니라 더 나은 것이 있다면 언제든 활용할 수 있는 기술 활용의 유연성과 개방성이 향후 라이프 스타일 브랜드로 성장하는 데 있어 유리하다 본 것입니다.
멀티 클라우드에 관심을 두자 개선이 필요한 것이 눈에 들어왔습니다. 평소 불편해 개선했으면 했던 시스템을 대상으로 다른 클라우드 서비스를 써보자는 쪽으로 내부 의견이 모였습니다. 야놀자는 엄청난 양의 로그를 수집해 분석합니다. 고객 여정에 대한 기록부터 시작해 시스템 성능 모니터링, 보안 위협 탐지 등 다양한 로그를 모읍니다. 수집하는 정보의 양과 종류가 다양하다 보니 비용도 꽤 많이 들었습니다.
로그 수집과 분석 효율 개선이 가능하고 비용까지 줄일 수 있다면? 이보다 더 좋은 멀티 클라우드 전환 대상도 없습니다. 야놀자는 프로덕션 환경과 달리 멀티 클라우드 운영에 위험 부담이 적고, 전환 효과가 큰 로깅 시스템을 대상으로 PoC(Proof of Concept) 프로젝트를 추진을 결정했습니다.
야놀자 Google Cloud Platform 구성
야놀자는 평소 Cloud Monitoring(구 Stackdriver)에 관심이 많았습니다. AWS에서도 실행이 가능한 모니터링 도구이다 보니 유심히 본 것입니다. 멀티 클라우드 도입을 위한 첫 개념 검증 대상이 로깅 시스템인 만큼 Cloud Monitoring은 여러모로 좋은 선택이었습니다.
야놀자는 메가존에 기술 컨설팅을 요청했습니다. 메가존 엔지니어는 야놀자의 요구 사항을 전제로 최적의 구글 클라우드 서비스 조합을 제안했습니다. 야놀자가 원한 것은 현재 운영 중인 웹 방화벽 장비가 생성하는 탐지 로그를 수집해 분석하는 것이었습니다. 단순히 여러 장비의 로그를 수집하는 것이 아니라 정기 보고서 자동 생성과 기존 SIEM 솔루션이 제공하는 제한적인 분석을 넘어 다양한 기준(metric)을 적용해 다각적으로 보안 로그를 분석해 행위 기반 탐지 역량까지 강화하는 것을 원했습니다.
이를 충족하기 위한 메가존의 클라우드 서비스 구성은 매우 간결합니다. Cloud Monitoring으로 여러 위치에 있는 웹 방화벽의 탐지 로그를 Fluentd를 이용해 단일 인터페이스로 수집합니다. 이렇게 모은 데이터는 모두 BigQuery에 담아 분석을 합니다. 기본적인 분석 지표는 Cloud Monitoring 대시보드로 확인하고, 정기 분석 보고서는 Data Studio를 이용해 다양한 시각화 구성으로 생성합니다.
PoC를 통해 Cloud Monitoring, BigQuery, Data Studio 조합의 간결함과 강력함을 확인한 야놀자는 애플리케이션 로깅 시스템을 구글 클라우드로 전환하는 개념 검증 작업을 다음 과제로 추진할 계획입니다.
야놀자는 AWS에서 웹 방화벽 로깅 및 분석 시스템을 운영하는 것보다 50% 이상 비용을 구글 클라우드에서 낮추었습니다. 구글 클라우드는 보안 로그 수집, 분석, 보고서 생성에 많은 자원이 필요하지 않고 시스템을 간결하게 구성할 수 있다 보니 비용 절감 폭이 기대 이상으로 컸습니다.
비용 절감 못지않게 깊은 인상을 준 부분은 분석 역량 강화입니다. 보안 로그 수집과 분석은 자칫 자원과 시간 낭비가 심할 수 있습니다. 너무 느슨한 기준으로 로그를 수집하면 너무 많은 저장 공간이 필요합니다. 너무 타이트하게 로그를 수집하면 의심스러운 행위 분석을 할 때 참조할 정보가 마땅하지 않을 수 있습니다. 야놀자는 Fluentd를 이용한 로그 태깅과 필터링을 통해 적정 수준의 로그를 수집하고 이를 파싱해 Cloud Monitoring에 전달합니다. 이렇게 전해진 데이터는 Log Router를 이용해 BigQuery에 담습니다. 이 고정을 거치면서 저장 대상 로그를 줄여 스토리지 비용을 줄이는 한편 더 효율적이고 빠른 분석 기반을 마련합니다.
야놀자는 구글 클라우드를 통해 값비싼 상용 SIEM 부럽지 않은 보안 로그 수집과 분석 체계를 갖추었습니다. 야놀자 보안 담당자는 보안 관제를 위한 실시간 모니터링은 Cloud Monitoring 대시보드로 수행을 합니다. 이와 함께 정기 보고서를 자동으로 생성해 주요 지표를 참조합니다. 중요 이벤트 발생 시 여러 웹 방화벽에서 수집한 정보를 간편하게 쿼리를 통해 조회하여 이상 행위를 더 신속히 탐지하고 대응할 수 있게 되었습니다.
야놀자는 향후 애플리케이션 성능 최적화를 위한 로깅 시스템도 구글 클라우드의 간편하고 강력한 데이터 수집과 분석 기능 덕을 볼 것으로 기대하고 있습니다.
“멀티 클라우드 전환을 위해 보안 로깅 시스템을 구글 클라우드로 구성해 보았습니다. 국산 장비를 코로케이션 환경에서 사용하고 이들 장비가 생성하는 로그를 AWS를 이용해 수집하고 분석했습니다. 이번에 Fluentd를 이용해 로그 파싱을 하는 데 국산 장비이다 보니 로케일 설정을 자동으로 바꾸어 주는 애드온이 필요했는데, 구글 클라우드 구축부터 Fluentd 애드온 개발 부문까지 메가존 엔지니어의 자세한 안내를 받아 PoC를 성공적으로 마무리할 수 있었습니다.”
<김성한 리드 시스템 엔지니어, 야놀자>