“불쌍한 백성들이 제 뜻을 말하고 싶어도…” 세종대왕이 훈민정음을 만들게 된 이유다.
언어는 생각과 느낌을 표현하는 수단일 뿐만 아니라 생각과 느낌을 형성하고 규정하는 역할을 담당한다. 따라서 우리가 어떤 언어를 사용하느냐에 따라서 사고도 달라질 수 있다. 이는 인공지능(AI) 역시 사람과 마찬가지다. 인공지능 역시 할 수 있는 영역이 무궁무진하지만 그에 앞서 자연어 처리가 기반이 되지 못하면 말 그대로 ‘빛 좋은 개살구’일 뿐이다.
KB국민은행이 구글의 최신 딥러닝 언어 모델인 ‘알버트(ALBERT)’를 기반으로 어려운 금융 언어를 이해하고 분석할 수 있는 ‘KB ALBERT’를 선보였다. KB국민은행은 디지털 트랜스포메이션의 하나로 구글 클라우드, 메가존과 협력해 인공지능(AI)·머신러닝(ML) 기술, 데이터 분석 플랫폼을 활용해 이번 서비스를 개발했다. 그동안 IBM의 인공지능 ‘왓슨’에 SK C&C가 한글언어를 학습하는 등의 사례가 있었지만 금융사가 언어모델 학습의 기반 마련에 나선 것은 처음이어서 주목된다.
인공지능은 스스로 학습하고 발전할 수 있지만 그렇게 하기 위해선 먼저 ‘언어’를 습득해야 한다. 그리고 이러한 언어는 사람이 학습시켜야 한다. 언어, 즉 단어와 관용구의 의미 등을 사람이 분류해줘야 인공지능의 제대로 된 학습이 가능하기 때문이다. 다만 모든 산업군이 각 특성에 맞는 용어를 사용하는 것은 인공지능 학습에 걸림돌로 작용한다. 예를 들어 은행에서 사용되는 ‘방카슈랑스’는 일반적인 인공지능 학습 모델에서 개별 ‘형태소’로 인식하는 경우가 많다. 결국 인식률 등이 떨어질 수 밖에 없다.
KB국민은행 구태훈 AI혁신센터장은 “국민은행은 인공지능 고도화를 위해 자연어처리모델을 만드는 중인데 핵심 엔진은 구글의 ‘알버트’ 모형을 쓰고 있다. 하지만 외부에 있는 언어자료, 금융자료를 모아서 학습하는 데만 1개월 이상 걸린다”며 “은행 내부 혁신은 물론 그룹사, 우리 에코시스템을 둘러싼 스타트업에게도 인공지능이 필요한데 필수적인 자연어 분석을 위해선 언어모형이 필요하다고 보고 사업을 진행했다”고 설명했다.
예를 들어 자연어 처리의 경우 국민은행이 내부적으로 구글의 일반엔진을 사용하면 신뢰수준이 90점 이상 나온다는 설명이다. 하지만 금융산업 관점에서 사용해보면 60점대에 불과한 성적이 나온다. 일반언어와 금융언어에서 나오는 괴리 탓이다. 현실적으로 금융권에서 인공지능 자연어 분석이 쉽지 않은 이유다. 한편으론 금융언어를 기반으로 인공지능 학습이 중요한 이유이기도 하다.
KB국민은행은 지난해 말부터 6개월간 이번 사업을 진행했다. 인공지능 학습 및 모델을 만들기 위해선 많은 언어자원이 필요했다. 수집하는데도 어려움이 있었다. 은행 내부에서만 1억건 이상의 언어자원이 있었다. 구 센터장은 “위키디피아에 못지않은 수준으로 내·외부 금융언어를 모두 집대성했다”고 밝혔다.
국민은행이 단순히 인공지능 도입을 위한 밑바탕만 깔아 놓은 것은 아니다. 이번 알버트 개발을 통해 국민은행은 혁신 서비스 개발과 핵심 경쟁력 강화에 적극 나설 계획이다. 구 센터장은 “챗봇 고도화를 통해 AI상담을 도입하고 향후 자연스러운 ‘콜봇’을 내놓을 계획이다. 또 AI컨택센터를 고도화하고 대직원 용으로는 직원들이 내부적인 제안작업을 할 때 문서 분류와 현재 100여개 카테고리로 나눠져 있는 과거 제안 내용을 머신러닝으로 분류해 제안 편의성을 높이는 등 효율성 확보에 나설 계획”이라고 밝혔다.
[원문 기사] 디지털데일리 – 이상일 기자 “KB국민은행이 ‘구글 인공지능’에 언어를 가르친 이유는?” (2020.06.22)