Executable Code Actions Elicit Better LLM Agents

🧐 나의 생각 / 비판 (My Thoughts / Critiques)

결론적으로 에이전트가 하는 행동을 아예 실행 가능한 파이썬 코드로 바꾼 것
막연히 당연하게 생각하던 “에이전트에게 실제 사용할 수 있는 도구를 줬더니 잘 하더라” 라는 논문이다.

핵심정리

‘CodeAct’ 프레임워크 제안
- 목적: 기존 LLM 에이전트가 사용하는 텍스트/JSON 행동 방식의 한계를 극복하는 것.
- 핵심: LLM 에이전트의 행동(Action)을 실행 가능한 파이썬 코드로 통합함.
CodeAct의 주요 기능 및 장점
- 방대한 파이썬 라이브러리 생태계를 직접 활용하여 행동 공간을 확장함.
- 반복문, 조건문 등 코드의 제어 흐름을 이용해 복잡한 작업을 효율적으로 수행함.
- 코드 실행 시 발생하는 에러 메시지를 피드백으로 삼아 스스로 문제를 해결(Self-Debugging)함.
실험 결과 및 의의
- 기존 방식 대비 작업 성공률(최대 20%p) 및 효율성(최대 30% 더 적은 상호작용)을 크게 향상시켰음.
- 결론적으로, 더 유능하고 자율적인 AI 에이전트 구축에 매우 효과적인 방법임을 입증함.

1. 관찰 (Observation)

시작점: 사용자의 최초 질문("이 문제 풀어줘")이나, 에이전트가 이전에 실행했던 코드의 결과 또는 에러 메시지가 입력으로 들어옵니다.

2. 생각 (Think)

계획 수립: 에이전트는 ‘관찰’된 정보를 보고 다음 행동을 계획합니다. ("이 문제를 풀려면 이 코드를 써야겠다.")

3. 행동 (Action)

코드 생성: 계획에 따라 실행 가능한 파이썬 코드를 생성합니다. 이것이 에이전트의 유일한 행동입니다.

4. 결과 (Outcome) ➡️ 새로운 관찰

코드 실행: 생성된 코드가 실행되고, 그 결과(Outcome)가 다시 1번의 새로운 ‘관찰’이 되어 에이전트에게 돌아갑니다.

1. 목표 (Goal)

이 연구의 주된 목표는 대규모 언어 모델(LLM) 기반 에이전트가 작업을 수행하는 기존 방식(텍스트, JSON)의 근본적인 한계를 극복하는 새로운 프레임워크 ‘CodeAct’ 를 제안하고 그 우수성을 입증하는 것입니다.

연구팀은 LLM 에이전트의 행동(Action)을 실행 가능한 파이썬 코드로 통합함으로써, 제한된 도구 사용과 경직된 상호작용 방식에서 벗어나, 훨씬 더 유연하고 강력하며 통일된 행동 공간을 제공하고자 했습니다. 이를 통해 LLM이 복잡한 실제 문제를 더 효율적으로 해결할 수 있는 능력을 끌어내는 것이 핵심입니다.

2. 방법론 및 핵심 아이디어 (CodeAct)

이 논문의 핵심 아이디어는 LLM 에이전트의 행동을 파이썬 코드로 정의하는CodeAct 프레임워크입니다. 이 접근법은 다음과 같은 뚜렷한 장점을 가집니다.

통합되고 확장된 행동 공간: 사전 정의된 몇 개의 도구에 얽매이지 않고, Pandas, Scikit-Learn 등 방대한 파이썬 라이브러리 생태계 전체를 즉시 도구로 활용할 수 있습니다. 이는 에이전트의 문제 해결 능력을 비약적으로 확장시킵니다.
효율적인 복합 연산: 코드는 변수(데이터 흐름)와 반복문/조건문(제어 흐름)을 기본적으로 지원합니다. 덕분에 여러 국가의 환율을 계산하는 것과 같은 복잡한 작업을 단 하나의 코드 블록(Action)으로 처리할 수 있어, 기존 방식보다 상호작용 횟수를 크게 줄여 효율성을 높입니다.
자율적 자가-디버깅 (Self-Debugging): 코드 실행 중 오류가 발생하면, 파이썬 인터프리터가 제공하는 상세한 에러 메시지를 피드백으로 받습니다. 에이전트는 이 피드백을 분석하여 스스로 코드를 수정하고 문제를 해결해 나갈 수 있어, 문제 해결의 견고함이 크게 향상됩니다.
사전 훈련 지식의 극대화: LLM은 이미 방대한 코드 데이터로 훈련되어 프로그래밍 언어에 매우 익숙합니다. 따라서 코드를 행동으로 사용하는 것은 LLM이 가진 잠재력을 가장 자연스럽고 비용 효율적으로 끌어내는 방법입니다.

3. 실험 및 검증

연구팀은 CodeAct의 효과를 입증하기 위해 17개의 다양한 LLM을 대상으로 텍스트, JSON 방식과 직접 비교하는 광범위한 실험을 진행했습니다.

벤치마크:
- API-Bank: 간단한 단일 도구 호출 성능을 측정하여 각 형식에 대한 LLM의 기본적인 친숙도를 평가했습니다.
- M³ToolEval (자체 제작): 여러 도구를 조합하고 여러 턴의 상호작용이 필요한 복잡한 작업을 평가하기 위해 새롭게 구축한 벤치마크입니다.
CodeActAgent 개발: 오픈소스 모델의 CodeAct 능력을 강화하기 위해, 7천여 개의 고품질 코드 기반 상호작용 데이터셋인 CodeActInstruct를 구축했습니다. 이를 활용해 Llama-2와 Mistral 모델을 미세조정(fine-tuning)하여 CodeActAgent라는 특화 에이전트를 개발했습니다.

4. 주요 성과 및 결과

복잡한 작업에서의 압도적 성능: 복합 문제 해결 능력을 평가하는 M³ToolEval에서 CodeAct는 다른 방식 대비 최대 20% 더 높은 성공률을 달성했으며, 문제를 해결하는 데 필요한 상호작용 횟수는 최대 30% 더 적었습니다. 이는 CodeAct가 훨씬 더 효율적이고 강력하다는 것을 명확히 보여줍니다.
고성능 오픈소스 에이전트 공개: 미세조정된 CodeActAgent (Mistral 기반)는 비슷한 크기의 다른 오픈소스 모델들을 능가했으며, 심지어 훨씬 큰 70B 모델과 대등한 성능을 보였습니다. 이는 특화된 데이터셋을 통한 훈련이 매우 효과적임을 증명합니다.
자율적 문제 해결 능력 입증: CodeActAgent가 별도의 예시 없이도 스스로 데이터를 다운로드하여 머신러닝 모델을 훈련하고, 결과를 시각화하며, 그 과정에서 발생하는 오류를 자율적으로 디버깅하는 복합적인 작업을 성공적으로 수행함을 보여주었습니다. 이는 더 자율적이고 유능한 AI 에이전트의 실현 가능성을 제시합니다.

DY's DS

Explorer