향후 14일간 지역별 코로나 확진자·사망자·환자실 활용·인공호흡기 가용성 예측
의료 사업자, 예상 환자수·개인보호장비·인력 배치·일정관리 등 자원 계획에 통합
주·카운티 보건부서, 감염자 예보치로 테스트 전략 공지·발병 위험지역 사전 식별
공공DB로 훈련···AI가 왜 특정 예측을 하는지 연구자들에 허용하는 아키텍처 사용
구글과 하버드대가 공동으로 코로나19 예측 AI 모델을 내놨다.
벤처비트는 3일(현지시각) 구글이 하버드 글로벌 보건연구소(Harvard Global Health Institute)와 협력, 미국 카운티 및 주의 향후 14일간 코로나 환자, 사망, 중환자실(ICU) 활용, 인공호흡기 가용성 및 기타 수치를 예측해 주는 일련의 ‘공공 코로나19 예측(COVID-19 Public Forecasts)’ AI 모델을 발표했다고 보도했다.
이 코로나19 예측 AI 모델들은 존스 홉킨스 대학, 데카르트 연구소, 미국 인구조사국 등의 공공 데이터에 기반한 교육을 받고 있으며, 구글은 이 모델들이 하버드 대의 협력자들로부터 안내를 받아 계속 업데이트될 것이라고 말했다.
구글은 공공 코로나19 예측이 의료, 공공 부문, 그리고 앞으로 닥칠 일에 대비하는 다른 영향을 받는 기관의 초기 대응자들에게 자원 역할을 하도록 만들어졌다고 설명했다. 그들은 카운티 별로 표적 검사 및 공중 보건 개입을 허용하는데, 이론적으로 이 모델들을 사용해 빠르게 진화하는 코로나19 팬데믹(세계적 대유행) 대응 의료진 등의 능력을 향상시키게 된다.
예를 들어 의료 사업자는 이 모델에 따른 예상 환자 수를 개인보호장비(PPE), 인력 배치 및 일정관리 같은 자원마련 계획 데이터에 통합시킬 수 있다. 한편 주 및 카운티 보건 담당 부서는 감염자 예보수치를 이용해 테스트 전략을 알리고 발병 위험이 있는 지역을 식별하는 데 도움을 받을 수 있다.
구글은 공공 코로나19 예측 모델을 만들기 위해 자사 연구원들이 AI와 영리한 역학 기반을 결합한 새로운 시계열 머신러닝(기계학습) 접근법을 개발했다고 밝혔다. 설계상 이 모델은 공공 데이터로 훈련되며, 한편으로는 연구자들로 하여금 AI모델 식별 내용의 관련성을 파고들어 왜 특정한 예측을 하는지 해석할 수 있도록 허용하는 아키텍처를 사용한다.
이 모델들은 또한 높은 코로나19 확진 사례와 사망률을 보인 최대 피해자인 유색인종 관련 예측이 심하게 왜곡되거나 오해의 소지가 없도록 하기 위한 평가를 거쳤다. 구글 연구진은 이 코로나19 예측 모델 공정성 분석에서 “우리의 모델은 아프리카계 미국인, 히스패닉계, 백인계 카운티 비교 모델에 비해 의미있게 낮은 절대오차와 정규화된 (상대)오차를 만들어 낸다는 것을 보여주었다”면서 “우리의 모델들은 미국 전역의 카운티들에서 높은 정확도의 코로나19 발생 예측치를 내도록 최적화돼 있어 최고의 예측치를 제공한다”고 말했다.
이 공공 코로나19 예측 모델은 월 1테라바이트(TB)까지 무료로 사용할 수 있는 빅쿼리(BigQuery)서비스에서 검색하거나 CSV(comma-separated value)파일로 다운로드할 수 있다. 또한 구글의 데이터 스튜디오 대시보드와 국가응답 포털을 통해서도 이들 데이터를 이용할 수 있다.
구글은 데이터세트 조회 비용은 무료지만 남용을 방지하기 위해 데이터 사용료는 정상적으로 청구될 것이라고 말했다. 9월 15일 이후, 코로나19 예측 세트 조회시 구글 클라우드 사용 요금이 정상적으로 부과된다. 이번에 공개된 공공코로나19예측 모델은 구글 공공 코로나19 DB 출시에 이은 것이다.
이는 위기와 관련된 공공 데이터세트 저장소를 호스팅해 이들에 접근하고 분석하기 쉽게 해 준다.공공 코로나19 데이터세트 프로그램 자료 안에는 존스홉킨스 시스템 과학 및 엔지니어링 센터(JHU CSE) 데이터 세트, 월드 뱅크의 글로벌 건강 데이터, 오픈스트리트맵 데이터 등이 포함돼 있으며, 이 데이터들은 모두 구글 클라우드에 무료로 저장돼 있다.
[원문 기사] AI타임스 – 이재구 객원 기자 “기대반 우려반··· “구글, 하버드대와 공공 코로나19 예측 AI모델 발표” (2020.08.04)