거대 언어 모델 평가지표

평가의 3가지 요소

1) 목표 : 시스템을 무엇을 달성하고자 하는지 2) 평가 방법 : 어떤 방법으로 평가할 것인지 3) 평가 지표 : 어떻게 성공 여부를 판단할 것인지

  • 특정 태스크에서 학습된 기존 AI 모델들과 달리, 거대 언어 모델은 다양한 태스크에 대해 동시에 학습됨
    • 따라서 거대 언어 모델의 성능을 올바르게 평가하기 위해서는 많은 태스크에서의 성능을 종합적으로 판단함
    • 또한, 디코딩 알고리즘, 입력 프롬프트에 따라 같은 질문에 대해서도 예측이 바뀌므로 공평한 비교를 위해서는 해당 부분도 고려해야 한다!

거대 언어 모델 평가 방법의 종류

  • 정답이 정해진 경우
    • 예측과 정답을 비교하여 일치도 측정 -> Accuracy
  • 정답이 정해져 있지 않은 경우
    1. 사람이 임의의 정답을 작성 및 이와 예측을 비교 (유사도 비교)
    2. 정답과 무관하게 생성 텍스트 자체의 품질만을 측정
    3. 생성된 텍스트의 상대적 선호를 평가
      • ex) LMArena : 실제 유저 피드백을 활용했으며 거대 언어 모델 성능 측정 방법 중 가장 신뢰성 있는 방법 중 하나로 여겨짐
      • 그러나 LMArena는 높은 평가 비용 & 시간을 필요로 함
      • 이는 거대 언어 모델로 대체해서 상대적 선호를 평가할 수도 있다
    4. LLM-as-judge (or G-Eval) : 거대 언어 모델을 통해 생성 텍스트를 평가
      • 위치 편향으로 특정 위치의 응답을 상대적으로 선호하거나 => 순서를 바꿔서 두번 평가하고 평균을 취하는 것으로 해결
      • 길이 편향으로 품질과 무관하게 길이가 긴 응답을 상대적으로 선호하거나 => 길이가 미치는 영향을 통계적으로 제거해서 어느정도 해결 가능
      • 자기 선호 편향으로 생성 모델이 평가 모델과 같은 경우 이를 선호하는 한계가 있다