코로나19 사태로 인해 비상사태를 선포한 국가가 늘고 있습니다. 이번 바이러스 사태는 몇몇 국가의 문제가 아닙니다. 인류에 대한 도전이자, 전 세계가 힘을 모아야 하는 모두의 일입니다. 관련해 대한민국은 선제 대응과 투명한 정보 공유로 코로나19 극복에 대한 희망의 메시지를 전하고 있습니다. 전 세계의 이목이 한국에 끌린 이유 중 하나로 ‘데이터’를 꼽습니다. 적극적인 진단과 방역 활동을 통해 쌓은 데이터는 그 무엇보다 소중합니다.
“글로벌 스케일의 데이터 분석이 필요 “
전 세계적으로 유행하는 전염병인 만큼 세계 각국이 수집하는 데이터 양이 상당합니다. 관련해 다양한 연구 기관을 위해 공개된 데이터 세트가 있습니다. 구글은 코로나19 치료제 개발을 위해 온 힘을 쏟고 있는 데이터 과학자, 분석자를 위해 공개 데이터 세트에 접근할 수 있는 ‘COVID-19 Public Dataset Program’을 시행합니다. 이 프로그램을 통해 이용할 수 있는 JHU CSSE(Johns Hopkins Center for Systems Science and Engineering), 세계은행의 글로벌 헬스 데이터, 오픈 스트리트 맵 데이터 등 코로나19 관련 정보들입니다. 연구자는 BigQuery ML을 이용해 모델을 트레이닝할 때 이 데이터 세트를 간편하게 이용할 수 있습니다.
“전 세계 연구자들의 참여로 바이러스 및 치료제 연구 가속 기대”
COVID-19 Public Dataset Program은 코로나19 사태를 전 인류 측면의 협력을 통해 더 빨리 풀어내기 위해 시행됩니다. 이 프로그램은 꼭 오픈 소스 커뮤니티가 추구하는 공동의 가치와 이익을 위한 협력과 비슷합니다. 데이터를 공개하고, 누구나 쉽게 접근하고 활용하여, 연구 결과를 더 빨리 얻어, 그 내용을 널리 공유하는 것이 오픈 소스의 발전 방식과 닮았습니다.
Descartes Labs의 엔지니어링 책임자인 Sam Skillman은 “BigQuery에서 코로나19 데이터를 사용할 수 있게 되면 해당 분야 연구 및 분석에 큰 도움이 될 것입니다.”라며 “쿼리를 자유롭게 할 수 있게 되면 전 세계 연구자들의 참여가 이어질 것이고 그 결과 코로나19 관련 데이터 분석 결과를 동료 연구자들은 물론이고 대중에게 신속하게 공유할 수 있게 될 것입니다. 이는 바이러스 확산에 대한 모두의 이해를 더 빠르게 넓혀 갈 것입니다.”라고 말했습니다.
그렇다면 얼마나 데이터 세트를 사용하기 쉬울까요? 연구원들은 대량의 데이터를 검색하고, 정제하고, 적재하는 수고를 덜 수 있습니다. 연구원들은 구글 클라우드 콘솔로 데이터 세트에 바로 접근할 수 있습니다. 또한, 데이터에 대한 설명과 샘플 쿼리를 참조해 더 복잡한 연구를 수행하는 데 필요한 도움도 받을 수 있습니다. 구글 클라우드를 통해 접근할 수 있는 공공 데이터는 무료로 제공됩니다. 구글은 데이터 공개를 2020년 9월 15일까지 지속할 예정입니다.
노스이스턴대(Northeastern University) 연구원인 Matteo Chinazzi는 “우리 팀은 현재 모델 개발에 집중하고 있습니다.”라며 “BigQuery에서 접근할 수 있는 코로나19 데이터가 공개되어 연구원과 공중 보건 당국 관계자는 이 질병이 끼치는 영향을 분석하고 연구할 수 있게 되었습니다.”라고 말했습니다.
참고로 코로나19 관련 공개 데이터 세트는 교육 및 연구 목적으로 대중에게 제공되는 것입니다. COVID-19 Public Dataset Program을 통해 공개한 데이터 세트는 개인 식별 정보, 개인 헬스 정보 관련 데이터를 포함하지 않습니다. 이는 구글이 환자 개인 정보 보호와 데이터 보안 정책에 따라 데이터를 처리하기 위한 지침을 실행하기 위한 조처입니다. 더 자세한 내용은 COVID-19 Public Dataset Program 페이지를 참조 바랍니다.