Google Cloud Vertex AI GenAI Evaluation: 생성형 AI 모델 평가의 새로운 기준
생성형 AI 모델을 평가하고 이를 바탕으로 모델을 개선하는 작업은 AI 개발자와 AI 서비스 운영자라면 누구나 맞닥뜨리는 과제일 것입니다. 관련해 이번 포스팅 에서는 생성형 AI 모델을 평가하는 것이 왜 중요한지, 어떤 점들이 특히 어렵고, 그 문제들을 해결하기 위해 Google Cloud가 제공하는 Vertex AI GenAI Evaluation 서비스가 어떤 역할을 하는지 살펴보고자 합니다.
평가가 중요한 이유
생성형 AI 모델 평가가 필요한 이유는 무엇일까요? 전통적으로 AI 모델을 평가할 때는 정량적 지표인 정확도(Accuracy), 정밀도(Precision), 재현율(Recall) 등을 기준으로 삼았습니다. 이미지 분류 모델을 예로 들면 단순히 ‘정답을 맞혔는지’를 확인하면 충분합니다. 하지만 생성형 AI 모델의 경우는 각 입력에 대해 딱 하나의 정답만 존재하지 않으며, 매우 다양한 출력을 만들어낼 수 있습니다. 그래서 평가 기준을 포괄적으로 고려해야 합니다. 텍스트 생성 모델을 예로 들면 문장의 유창성이나 사실성, 안전성 같은 여러 가지 측면을 모두 고려해야 합니다.
기존 자연어 처리 지표인 BLEU나 ROUGE처럼 텍스트 유사도를 수치화하는 방법도 있지만, 사람이 느끼는 품질을 그대로 반영하기엔 한계가 있습니다. 글의 창의성이나 맥락 적합성과 같이 주관적으로 판단해야 할 부분도 무시할 수 없기 때문입니다. 게다가 생성형 AI를 어디에 활용하느냐에 따라 중요한 평가 기준이 달라집니다. 뉴스 요약 AI는 핵심 정보 전달이 중요하고, 고객 상담용 챗봇은 사용자가 만족할 만한 정확하고 친절한 답변이 우선일 것입니다. 즉, 기존의 일률적인 평가 방식으로는 이러한 복잡한 요소를 모두 반영하기 어려운 것입니다. 따라서 생성형 AI를 위한 맞춤형 평가 기준이 필요합니다.
평가가 어려운 이유
그렇다면 생성형 AI 평가는 왜 이렇게 어려울까요? 가장 먼저 생각해볼 수 있는 이유는 출력 자체가 워낙 다양하기 때문입니다. 예를 들어 “오늘 날씨를 한 문단으로 설명해줘”라는 요청을 받았을 때, 다양한 문체와 정보량으로 답변할 수 있기 때문에 어떤 내용을 좋은 응답으로 간주해야 할지 명확한 답이 없습니다. 또 하나의 문제는 GPT-4 같은 거대 언어 모델들의 평가에 종종 사용되는 MMLU 같은 벤치마크가 척도가 되지 않는다는 점입니다. 벤치마크에서는 대체로 모델 전반의 능력을 확인할 수 있지만, 특정 도메인에 특화된 문제는 제대로 점검하지 못하는 경우가 많습니다. 특히 의료나 법률처럼 전문지식이 필요한 영역에서는 표준 벤치마크 점수가 높아도 실제 애플리케이션의 안전성이나 정확성을 보장하기 어렵습니다.
또한, 최근에는 단순 질의응답을 넘어 모델이 외부 정보를 검색하거나 특정 함수를 호출해 답변하는 AI 에이전트 기반 애플리케이션까지 등장하고 있습니다. 이런 시스템의 경우에는 모델 자체의 출력 품질만 보는 게 아니라 모델이 필요한 도구를 제대로 선택하고 적절히 활용했는지도 평가해야 합니다. 각 단계를 전부 점검해야 하다 보니 평가 대상이 훨씬 복잡해지는 것입니다. 이외에도 개인정보나 민감정보를 다루는 문제도 있고, 실사용 중 생기는 다양한 예외 상황을 제때 반영하기도 쉽지 않아서, 체계적인 평가 프로세스를 갖추기까지 장애물이 많은 것이 현실입니다.
Vertex AI GenAI Evaluation이 제공하는 해결책
살펴본 바와 같이 생성형 AI 모델 평가에 여러 걸림돌이 있습니다. 그렇다면 이들 장애물을 어떻게 넘어야 할까요? Google Cloud의 Vertex AI GenAI Evaluation 서비스는 이러한 문제를 상당 부분 해결해줍니다. Vertex AI GenAI Evaluation 서비스는 생성형 AI 모델이나 애플리케이션을 자동으로 평가하고 비교할 수 있도록 설계된 전용 플랫폼입니다.
이 플랫폼의 특징은 크게 네 가지로 나누어 볼 수 있습니다. 먼저, 자동화되고 확장 가능한 평가를 지원한다는 점이 눈에 띕니다. 데이터 세트만 준비해두면 Vertex AI가 백엔드에서 모델 출력을 일일이 점검해 점수와 통계를 내주기 때문에 반복되는 수작업을 크게 줄일 수 있습니다. 또한, 여러 버전의 모델을 비교하거나, A/B 테스트 식으로 실험을 진행하기도 수월해집니다. BLEU, ROUGE 같은 미리 정의된 표준 지표를 바로 활용할 수 있고, 필요하다면 LLM 자체를 이용해 유창성이나 적절성을 평가하는 모델 기반 평가도 지원합니다. 게다가 도메인 특화 기준이 필요하다면 사용자 정의 지표를 만들어 적용할 수도 있어, 원하는 시나리오에 유연하게 대처할 수 있습니다.
두 번째 장점은 모든 모델과 다양한 평가 방법을 폭넓게 지원한다는 점입니다. 구글의 PaLM이나 Gemini 같은 모델뿐 아니라, 오픈 소스 LLM이나 자체적으로 학습한 모델의 결과물까지 모두 평가할 수 있으며, BLEU나 ROUGE 같은 지표부터 모델 기반 평가에 이르기까지 폭넓은 방법을 제공하고 있습니다. 이를 통해 특정 모델이나 특정 방식에 얽매이지 않고, 각 팀이 원하는 방식으로 자유롭게 평가 프로세스를 구축할 수 있습니다.
세 번째로, Vertex AI Experiments와의 자연스러운 연동도 주목할 특징입니다. 한 번의 평가 작업에서 얻은 결과와 지표가 Vertex AI Experiments에 축적되어 시간이 지나도 어떤 모델이 어떤 데이터 세트로 테스트됐고 결과가 어땠는지를 재현 가능한 방식으로 관리할 수 있습니다. 여러 실험을 한눈에 비교하거나 특정 버전에 대한 평가 내역을 돌이켜보기도 쉽고, 그래프나 차트로 시각화해 성능 변화를 분석하기도 간편합니다.
Vertex AI GenAI Evaluation을 활용한 평가 프로세스
이제 Vertex AI GenAI Evaluation 서비스를 어떻게 활용하면 좋을지, 평가 과정을 한 번 살펴보겠습니다. 먼저 ‘평가 데이터 세트’를 준비하고, 이 데이터에 대해 사용할 지표를 정의해야 합니다. 모델에 주어질 입력과 그에 대한 모델의 응답, 그리고 실제로는 어떤 결과가 올바른 답변인지 명시해두면, 객관적인 비교가 용이해집니다. 다음 단계에서는 평가 작업을 생성하고 실행하는데, Python용 Vertex AI SDK나 콘솔, 혹은 REST API를 통해 쉽게 세팅할 수 있습니다. 하나의 데이터 세트와 지표만 준비해두면, Vertex AI가 내부적으로 평가 프로세스를 자동 진행하므로, 여러 버전의 모델이나 여러 조합의 하이퍼파라미터를 동시에 시험하기도 편리합니다.
평가가 완료되면 Vertex AI Experiments나 콘솔의 Experiments 탭에서 결과를 확인할 수 있습니다. 각 데이터 포인트마다 계산된 지표 점수부터 전체 평균이나 분포까지 꼼꼼히 살펴볼 수 있습니다. 필요에 따라 데이터를 다운로드해 Pandas 같은 라이브러리로 직접 분석하거나, 내부 시각화 기능으로 차트나 그래프를 그려볼 수도 있습니다. 이를 통해 개발자는 ‘모델을 만들고 끝내는’ 단발적인 접근이 아니라, 새로운 모델 버전을 테스트할 때마다 지속적으로 품질을 검증하고 개선하는 반복 사이클을 갖출 수 있습니다.
지속해야 해야 하는 작업
생성형 AI 모델 평가는 한번하고 마는 작업이 아닙니다. 생성형 AI 모델이 실제 사용자가 기대하는 정보를 정확하고 안전하게 제공할 수 있는지를 끊임없이 확인하고 보완하는 일입니다. 이 작업은 사람 손으로만 진행하기에는 너무 많은 시간이 들어가고, 평가 기준도 모호해서 애매한 부분이 많습니다. 다행히 Vertex AI GenAI Evaluation과 같은 자동화된 평가 서비스의 도움을 받으면 좀 더 수월하게 평가 체계를 구축할 수 있습니다. 실제로도 많은 팀들이 이러한 서비스를 활용해, 배포 전 자동화된 품질 검증 단계에서 잠재적인 문제를 미리 잡아내고, 모델 성능을 더욱 높이는 작업을 반복하고 있습니다. 이 서비스에 대한 더 자세한 정보가 필요하다면? 메가존소프트로 문의 바랍니다.