구글의 클라우스 서비스를 보면 개선 속도가 무지막지합니다. 기술의 발전 속도가 우리의 상상 이상이 되어 가고 있는 느낌, 구글을 볼 때마다 느낍니다. 오늘 소개할 내용은 구글이 제공하는 Cloud Speech-to-Text와 Text-to-Speech에 대한 것입니다.
이 두 서비스는 머신 러닝 기반 음성 텍스트 변환 기술을 클라우드로 제공하는 것이라 보면 됩니다. 사람의 음성을 텍스트로 바꾸거나, 거꾸로 텍스트 내용을 사람의 음성으로 말하는 기능을 사내 시스템이나 대외 서비스에 추가해야 할 때 아주 편하게 사용할 수 있는 클라우드 서비스라고 보면 됩니다.
이 두 서비스의 가장 큰 장점은 발전 속도가 눈부시게 빠르다는 것, 시쳇말로 작년과 올해를 비교하면 말귀 알아듣고, 받아쓰는 실력이 일취월장했을 정도입니다. 두 번째 장점은 지원하는 언어의 방대합니다. Cloud Speech-to-text는 120개 이상, Text-to-Speech는 30개의 언어 및 방언을 지원합니다.
엔터프라이즈 눈높이를 맞추는 음성 변환 서비스 구글의 Cloud-Speech-to-Text와 Text-to-Speech 서비스는 작년과 올해를 비교하면 완성도가 완전 다릅니다. 구글은 옵트인 방식으로 안드로이드 기반 스마트폰과 유튜브 비디오 관련해 음성 변환 관련 데이터를 수집해 머신 러닝을 거듭했습니다. 그 결과 비디오는 음성 변환 품질이 64%, 휴대폰은 62%나 올라갔습니다.
큰 폭의 성장을 한 만큼 이제는 엔터프라이즈 환경에서 음성 변환 관련 개발이 필요할 때 믿고 쓸 수 있는 정도의 품질을 보여줍니다. 물론 아직 모자란 부분도 있지만 머신 러닝을 통해 정확도가 올라가는 속도를 볼 때 충분히 기업의 눈높이를 맞추기에 충분해 보입니다. 프로젝트를 시작할 때 아쉬운 점이 아마 개발을 마칠 때 즈음 되면 해결되었을 정도로 개선 속도가 빠르거든요.
구글이 정확도를 높이기 위해 노력하는 이유는 음성 변환의 경우 90%의 정확도를 제공해도 부족하기 때문입니다. 사람과 기계가 마주하고 음성 변환을 통해 커뮤니케이션한다고 가정해 보죠. 90%의 정확도를 보여도 의사소통에 답답함이 느껴지겠죠. 그래서 100%가 되기 위해 인공 지능의 힘을 빌리는 것이죠. AI 기반 음성 변환에 있어 구글이 갖는 이점은 뭐 새삼 강조할 필요가 없습니다. 앞서 언급한 데로 휴대폰과 비디오 관련 실제 데이터를 수집할 수 있는 서비스와 사용자 기반을 갖춘 기업은 거의 없죠.
“음성 변환 기능을 어디에 쓸 수 있을까?”
화상 회의나 컨퍼런스 콜을 할 때 누군가 회의록을 대신 작성해 준다면 얼마나 좋을까? 음성 변환 기술이 비서 역할을 할 수 있습니다!
음성 변환 기술을 엔터프라이즈 환경에서 사용하는 예를 하나 들어 보겠습니다. LogMeIn이라는 기업에서 구글의 음성 변환 기술을 사용하는 것이 좋은 사례가 아닐까 싶네요. LogMeIn은 전 세계 중소중견기업을 대상으로 커뮤니케이션과 협업(UC), ID 및 접근 관리, 고객 지원 관련 서비스와 솔루션을 제공하는 기업입니다.
LogMeIn 고객의 사용자 수백만 명이 GoToMeeting을 이용해 매일 온라인 회의를 한다고 합니다. LogMeIn은 고객이 더 편하게 사이버 환경에서 협업할 수 있도록 하기 위해 Cloud Speech-to-Text 기능을 서비스에 접목하는 작업을 했습니다. 회의 중 오간 각종 대화를 따로 정리해 회의록을 공유할 필요 없이 참석자들이 한 말을 텍스트로 깔끔하게 정리해 주는 기능을 개발한 것이죠.
제조, 소매 등 산업별로 음성 변환 기능이 비즈니스 생산성과 효율성 개선이 도움이 되는 경우가 있을 것입니다. 이런 고민이 있다면 메가존을 찾아 주세요.
5개의 댓글