트위터가 통큰 결정을 했습니다. 수천 대의 서버에 분산된 300PB 규모의 하둡 인프라를 구글 클라우드로 옮깁니다. 5월 3일 자로 트위터 엔지니어링 블로그에 올라온 따끈따끈한 소식입니다.
트위터는 대규모 하둡 클러스터를 운영하는 대표 사업 중 하나로 유명하죠. 서버 대수로는 수천 대에 이를 정도입니다. 서버와 클라이언트 노드 수로 보면 1만 개 가까이 되는 엄청난 규모입니다. 이들 클러스터 인프라에 연결된 스토리지의 하둡 파일시스템상에는 300PB 규모의 데이터가 저장되어 있습니다. 양 또한 대단하죠.
지금까지 트위터는 자체 데이터센터를 통해 빅 데이터 플랫폼을 운영했습니다. 컴퓨트, 스토리지, 네트워크 모두를 자체 데이터센터에서 운영한 것이죠.
“콜드 스토리지와 하둡 클러스터 컴퓨트 인프라를 구글 클라우드로 이전”
트위터가 이전을 결정한 것은 콜드 스토리지 환경과 하둡 클러스터의 컴퓨트 부분입니다. 마이그레이션을 경정한 이유는 늘어만 가는 빅 데이터 처리와 분석 수요에 대응하기 위해서입니다. 이번 전환을 통해 트위터의 빅 데이터 플랫폼은 아키텍처가 개선됩니다.
트위터가 목표로 하는 것은 하둡 클러스터 환경에서 컴퓨트와 스토리지 부문을 분리하는 것입니다. 이를 통해 하둡 워크로드의 요구 사항과 특성에 맞춰 더 경제적인 방법으로 인프라를 확장하고, 운영 효율성도 확보하는 것을 목표로 삼고 있습니다. 가령 워크로드 특성상 컴퓨트만 확장이 필요한 경우도 있고, 스토리지만 늘리면 되는 때도 있습니다. 자체 데이터센터를 운영할 때는 여러 네임스페이스를 연계하는 HDFS 페더레이션을 통해 파일시스템 수준에서 확장에 대응해 왔고 고가용성 보장 및 SPOF(Single point of failure)를 방지하기 위해 NameNode를 이용했습니다. 이 방식은 확장이 편한 대신에 페더레이션 되어 있는 각각의 네임스페이스는 자체 URI 주소를 갖고 있기 때문에 운영이 복잡합니다.
“빅 데이터 플랫폼 확장과 운영 효율 크게 개선”
구글 클라우드 플랫폼으로 이전하면 하둡 클러스터의 컴퓨트와 스토리지 인프라 확장과 운영이 모두 간소화됩니다. 컴퓨트, 스토리지 자원 프로비젼 속도가 더 빨라지고, 확장과 연계의 유연성은 더 높아지고, 데이터 보안과 함께 재해복구 등 데이터 보호 수준도 높아집니다. 이에 따라 트위터 엔지니어링 팀은 더 효율적으로 빅 데이터 플랫폼을 사용할 수 있게 될 전망입니다. 이 이유로 이전을 결심한 것이죠.
빅 데이터 플랫폼을 오래전부터 써온 기업들은 확장과 운영의 이유로 아키텍처 전환을 꾀하는 경우가 많습니다. 트위터가 좋은 선례가 되지 않을까 싶네요.
메가존은 구글 클라우드 플랫폼과 호튼웍스의 빅 데이터 플랫폼 모두를 다루는 전문가 그룹입니다. 빅 데이터 플랫폼 환경의 운영 효율과 확장 편의성을 높이고 싶다면 메가존으로 연락 주세요.