단순한 챗봇은 "답변이 자연스러운가?"라는 정성적인 평가로 충분할 수 있지만, 에이전틱 시스템은 다릅니다. 에이전트는 '작업을 수행'하기 때문에, 그 성능을 정량적인 지표(Metrics)로 측정해야 합니다.
에이전트 성능 평가를 위한 4대 핵심 지표
Success Rate (성공률)
85%
전체 시도 중 목표를 완수한 비율
Avg. Steps (평균 단계)
4.2 Steps
목표 달성까지 걸린 평균 루프 횟수
Cost per Task (평균 비용)
$0.12
작업 하나를 끝내는 데 드는 토큰 비용
Tool Call Accuracy (도구 정확도)
92%
도구를 올바르게 호출한 비율
고급 평가 기법: LLM-as-a-Judge
최근에는 사람이 일일이 검수하는 대신, 더 강력한 모델(예: GPT-4o)을 '판사'로 활용하여 하위 에이전트의 결과물을 평가하는 방식이 널리 쓰입니다. 이를 통해 수천 개의 테스트 케이스를 자동으로 벤치마크 할 수 있습니다.
결론
지표가 없는 시스템은 개선할 수 없습니다. 에이전틱 워크플로우를 설계할 때는 반드시 로그 수집 단계부터 평가 지표를 고려해야 합니다. 특히 비용 대비 성공률(ROI)은 비즈니스 도입 여부를 결정하는 가장 중요한 숫자가 될 것입니다.