문서에 담긴 데이터도 소중한 자산!
Document AI 플랫폼을 활용해 문서 내 데이터 가치 높이기
문서는 대표적인 구조화되지 않은 데이터 자산입니다. 문서에서 데이터 중 필요한 정보를 추출해 구조화된 데이터로 변환할 수 있다면? 요즘 AI 기술이 좋아져서 충분히 가능한 일이 되었습니다. 구글은 최근 AI와 머신 러닝 기술을 이용해 문서에서 구조화된 데이터를 추출하는 DocAI 플랫폼을 공개했습니다.
DocAI 플랫폼은 현재 프리뷰 버전이 공개된 상태입니다. 이를 이용해 보면 문서 데이터 자산 활용에 새로운 길이 보일 것입니다. 특히 인보이스같이 특정 템플릿에 맞춰 내용이 작성되는 문서의 경우 비정형 정보 속에서 구조화된 데이터를 간편하게 뽑아 관리할 수 있습니다.
DocAI 플랫폼 프리뷰를 통해 확인할 수 있는 기능은 크게 세 가지입니다.
규정 준수 여부 확인: 문서 내에 기입하는 내용이 정확한 형식과 규정에 맞는지를 자동으로 확인합니다. 문서 내 특정 내용에 대한 규정 준수 확인 절차를 자동화할 수 있습니다.
비즈니스 의사 결정 지원: 비정형 문서에서 정형 데이터를 추출하여 비즈니스 의사결정을 위한 각종 시스템의 입력 정보로 활용할 수 있습니다. 이를 통해 비즈니스 의사결정 지원 시스템이 더 풍부한 데이터를 참조할 수 있습니다.
고객 만족 등 평가: 고객 지원이나 구매 관련 문서 내에서 고객 만족도(CSAT)나 고객 평생 가치 평가 또는 고객 관련 지출을 뽑아 보기 위한 목적으로 데이터를 추출할 수 있습니다.
DocAI 플랫폼을 이용하면 API를 이용해 구글이 제공하는 Lending DocAI, Procurement DocAL 등의 파서와 도구에 간단히 접근할 수 있습니다. 따라서 조직의 문서 처리 워크플로우에 맞게 솔루션을 편리하게 이용할 수 있습니다. 따라서 DocAI 플랫폼을 사용하면 데이터 매핑이나 트레이닝 수행같이 번거로운 사전 작업을 하지 않고도 데이터를 손쉽게 추출할 수 있습니다. 일례로 벨기에의 핀테크 회사인 Unifiedpost는 DocAI 플랫폼으로 데이터 캡처 정확도를 250% 높였고, Procurement DocAL을 이용해 조달과 비용 지급 관리에 드는 TCO를 60% 낮추었습니다.
DocAI 플랫폼 사용법
DocAI 플랫폼은 사용이 쉽습니다. 메인 선택 화면에서 W9 납세 문서와 인보이스 문서를 선택하는 예를 한번 살펴보겠습니다. 먼저 할 일은 문서 프로세스를 만드는 것입니다. Form 파서 같은 일반 프로세서 중 하나를 사용하거나 특정 산업용으로 만든 W9 파서를 선택하면 됩니다.
생성한 프로세서는 통합 대시보드에서 볼 수 있습니다. 콘솔에서 직접 문서를 업로드하여 프로세서를 테스트할 수도 있습니다. 다음 예와 같이 선택한 W9 파서 분석 내용을 보면 문서 내 주소, 계좌 번호, 서명 등의 정보가 정확히 분류되어 있음을 확인할 수 있습니다.
다음 인보이스 파서 분석 내용을 보면 문서에서는 공급 업체 이름, 인보이스 발행 일자, 지급 조건 등의 데이터를 추출할 수 있음을 알 수 있습니다.
구글은 DocAI 플랫폼을 더 다양한 목적으로 활용할 수 있도록 주요 기능을 빠르게 확장하고, 추가 파서 지원도 늘릴 계획입니다. 제공되는 파서는 매우 높은 정확도를 보여 줍니다. 따라서 이제 인보이스나 구매 관련 문서에서 빠르게 통찰력을 끌어낼 수 있습니다. 또한, 구글은 DocAI 플랫폼을 이용하면 OCR, 양식 구문 분석기, 문서 분할기 등의 도구에 접근하기도 쉬워 조직의 필요에 맞게 구조화되지 않은 문서 내 데이터 자산을 추출할 수 있습니다. 한편 W9, 1040, W2, 1099-MISC, 1003, 인보이스, 영수증 등의 특수 파서가 필요하면 접근 요청을 할 수도 있습니다. 이상으로 DocAI 플랫폼을 간단히 알아보았습니다. 더 자세한 내용은 관련 문서를 참조 바랍니다.