AI Evals란? — 요즘 ‘모델이 좋아졌다’는 말 앞에 검증이 같이 붙는 이유

AI Evals란? — 요즘 ‘모델이 좋아졌다’는 말 앞에 검증이 같이 붙는 이유

AI Evals는 왜 요즘 에이전트와 LLM 이야기에서 자주 보일까요? 벤치마크 점수만으로는 부족해진 이유, evals가 실제로 무엇을 보는지, 그리고 왜 지금 더 중요해졌는지 짧고 쉽게 정리합니다.