텍스트 요약이나 생성 모델을 평가할 때 가장 자주 등장하는 지표가 ROUGE(Recall-Oriented Understudy for Gisting Evaluation)입니다. 이름 그대로 “정답(레퍼런스)과 비교했을 때 얼마나 잘 겹치는가”를 n-그램(연속된 단어/토큰 묶음) 기반으로 측정합니다. 직관적이고 구현이 쉬워 널리 쓰이지만, 해석을 잘못하면 성능을 과대/과소평가하기도 합니다. ROUGE는 무엇을 측정하나?ROUGE는 기본적으로 모델 출력(candidate) 과 사람이 만든 정답 요약(reference) 사이의 겹침(overlap) 을 측정합니다.겹침이 많다 → 정답과 비슷한 표현을 많이 썼다겹침이 적다 → 정답과 표현이 다르거나, 핵심을 놓쳤을 수 있다즉 ROUGE는 “의미가 맞는가”보다는 “..