데이터 분석의 진화는 어디까지인가? 2019년 현재 데이터 분석의 키워드는 머신 러닝 기반 예측 분석(Predictive Analytics)로 바뀌었습니다. ‘예측’이란 말은 추상적인 개념이 아닙니다. 방대한 양의 데이터 자산을 활용하는 방법 중 하나로 머신 러닝 모델을 적용해 비즈니스 의사결정에 참조할 수 있는 예측 정보를 제공하는 것을 뜻합니다.
네, 과거를 바탕으로 추이를 파악하는 것을 넘어 이제 미래를 예측하는 쪽으로 분석이 정교해 지는 것이죠. 강력한 컴퓨팅 파워와 머신 러닝의 조화가 이루어낸 분석의 새로운 장이라 할 수 있습니다.
하지만 머신 러닝 기반 예측 분석은 어렵습니다. 알아야 할 언어도 많고, 머신 러닝도 잘 알아야 하는 등 넘어야 할 산이 많죠. 이런 이유로 조직과 예산이 충분한 기업이 아닌 경우 먼 산 보듯이 바라보게 됩니다. 하지만 이제 사정이 좀 달라질 전망입니다. 네, 구글이 나섰습니다. 머신 러닝 기반 예측 분석의 ‘대중화’ 시대를 열기 위해 구글이 BigQuery ML을 내놓은 것이죠.
BigQuery ML은 예측 분석을 누구나 할 수 있는 그런 것으로 만듭니다. 파이썬, 자바, 머신 러닝 모델 등 구체적인 것을 잘 아는 데이터 과학자와 AI 개발자로 전담 조직을 꾸리지 않아도 됩니다. 의지만 있다면 그리고 데이터 세트만 있다면! 모든 기업이 예측 분석의 신세계를 경험할 수 있습니다.
BigQuery ML는 그 자체만으로도 쓰기 편합니다. 하지만 이 조차도 어렵게 여길 수 있죠. 그래서 구글이 또 준비했습니다. 구글은 최근 오픈 소스 기반 SQL 템플릿 리포지토리를 공개했습니다. 대단하다는 말 밖에 안 나오네요. 보편적으로 적용할 수 있느 머신 러닝 유즈 케이스를 SQL 템플릿으로 공개한 것입니다. 라이선스도 끝내 줍니다. 아파치 v2 라이선스를 따르기 때문에 걱정 없이 코드를 가져다 쓸 수 있습니다.
현재 공개된 것은 구글이 SpringML과 협력해 만든 마케팅 관련 템플릿들입니다. 각 템플릿에는 샘플 데이터 세트와 머신 러닝 모델링을 위한 SQL 코드가 들어가 있습니다. 템플릿은 따라하기 식으로 이용할 수 있어 마치 튜토리얼을 듣는 것같은 느낌으로 사용해볼 수 있습니다. 공개된 템플릿은 현재 3종입니다.
* 고객 세분화: k-means 클러스터링 모델을 통해 고객 세분화를 해볼 수 있습니다.
* 고객 평생 가치(LTV) 예측: 마케터가 참 중요하게 보는 측정 지표인 LTV 예측이 이렇게 간단해도 되나 싶을 것입니다.
* 전환 또는 구매 예측: 어떤 고객이 잠재 소비자에서 우리의 진짜 고객으로 전환될 것인가? 누가 우리 상품이나 서비스를 구매할 것인지를 예측하는 것! 감이 아니라 머신 러닝 기반 예측 분석을 통해 확인해 볼 수 있습니다.
본 포스팅에 소개한 BigQuery ML에 대한 자세한 내용이 궁금하면 구글 클라우드 온에어 웨비나가 도움이 되실 것입니다.