CPU 가속을 등에 업은 XGBoost로 Spark 파이프라인 성능 극대화

아파치 스파크(Apache Spark)를 이용해 머신 러닝 워크로드를 운영하는 데 있어 클라우드는 매우 편한 환경을 제공합니다. 대표적인 예가 구글 클라우드 Dataproc입니다. 관리형 서비스인 Dataproc을 이용하면 데이터 과학자는 머신 러닝 모델과 데이터 분석같은 본연의 업무에 집중할 수 있습니다. 스파크 클러스터 운영은 신경쓸 필요가 없습니다. 데이터 세트 규모가 커져도 성능과 확장 걱정이 없습니다.      GPU 가속 환경과…