AI 에이전트의 기억(Memory) 관리 전략: Context vs RAG

에이전트가 지능적으로 행동하기 위해서는 과거를 기억해야 합니다. 하지만 LLM의 컨텍스트 윈도우는 제한적이며 비용이 비쌉니다. 효율적인 에이전트를 위한 3단계 메모리 계층 구조를 제안합니다.

1. 단기 기억 (Short-term Memory)

현재 대화의 흐름을 유지하는 기억입니다. 모델의 컨텍스트 윈도우(Context Window)에 직접 들어갑니다.

Short-term Window Buffer

최근 N개의 대화만 유지합니다. 가장 단순하지만 오래된 대화는 금방 잊어버립니다.

Short-term Summary Buffer

대화가 길어지면 LLM이 이전 내용을 요약하여 핵심 맥락만 보존합니다. 토큰 효율성이 높습니다.

수일, 수개월 전의 내역이나 방대한 외부 지식을 저장합니다. 주로 벡터 데이터베이스(Vector DB)를 사용한 RAG(Retrieval-Augmented Generation) 기술로 구현됩니다.

사용자의 이름, 선호하는 프로그래밍 언어, 비즈니스 규칙 등 '사실'에 기반한 정보를 추출하여 구조화된 데이터(JSON/SQL)로 저장합니다. 이는 단순 검색보다 훨씬 정확한 개인화를 가능하게 합니다.

최고의 에이전트는 최근 대화(단기) + 요약된 맥락(중기) + 관련 지식 검색(장기)을 모두 결합한 하이브리드 메모리 시스템을 가집니다. 프로젝트의 예산과 요구되는 기억의 정밀도에 따라 이들을 적절히 조합해야 합니다.