기관 특화 LLM 구축을 위한 아키텍처 전략

🧐 나의 생각 / 비판 (My Thoughts / Critiques)

핵심제안: 기관 특화 LLM 구축 시, 파인튜닝은 ‘지식’ 주입이 아닌 ‘행동(스타일, 형식)’ 제어에 사용하고, ‘지식’ 연동은 **RAG(검색 증강 생성)**를 표준으로 사용해야 함.
주요성과: RAG의 내재적 한계(검색 실패, 생성 실패)를 극복하기 위해, 검색기(임베딩 모델)와 생성기(LLM)를 각각 파인튜닝하는 **‘하이브리드 아키텍처’**를 2024-2025년 최신 최적 전략으로 제시함.
의의: ‘더 똑똑한 단일 모델’ 확보라는 구시대적 관점에서 벗어나, 검색기, 생성기, DB가 유기적으로 결합된 **‘복합 AI 시스템(Compound AI System)‘**을 설계(architecting)하는 것으로 AI 전략의 패러다임을 전환할 것을 촉구함.

기관 특화 LLM 구축을 위한 3가지 핵심 아키텍처 비교 및 제안:
1. 파인튜닝 (PEFT/LORA): ‘지식’이 아닌 모델의 ‘행동(Behavior)’ (예: 톤앤매너, 출력 형식)을 제어하는 데 효과적.
2. RAG (검색 증강 생성): 기관의 ‘지식’을 연동하는 사실상의 표준(de facto standard). 모델 재훈련 없이 외부 지식베이스(Vector DB)를 실시간 검색(Retrieve) 및 참조(Augment)하여 답변 생성.
3. 하이브리드 아키텍처 (Hybrid Architecture): 본 보고서의 핵심 권고안. RAG를 기본 골격으로 채택하되, RAG의 한계(검색 실패, 생성 실패)를 극복하기 위해 파인튜닝을 전략적으로 융합.
하이브리드 아키텍처의 3가지 핵심 전략:
- 전략 1 (검색기 튜닝): 임베딩 모델(Retriever)을 기관 고유 용어(예: “Amazon Bedrock Agents”)에 맞게 파인튜닝하여 검색 정확도 극대화.
- 전략 2 (생성기 튜닝): LLM(Generator)이 검색된 컨텍스트를 충실히 따르고(Faithfulness), 정확히 인용(Citation)하도록 ‘행동’을 파인튜닝.
- 전략 3 (RAFT): 검색기가 관련 없는 ‘쓰레기’ 문서를 가져왔을 때, 생성기(LLM)가 이를 스스로 **‘무시(Ignoring)‘**하도록 훈련하여 시스템 강건성(Robustness) 확보.

‘지식 주입’ 목적으로 파인튜닝을 사용할 경우, 오히려 환각(Hallucination)이 선형적으로 증가하고 **치명적 망각(Catastrophic Forgetting)**이 발생할 수 있음을 최신 연구를 통해 입증.
‘정적 지식’만 다루는 파인튜닝과 달리, RAG가 ‘동적 지식(Dynamic Knowledge)’ 업데이트, 비용 효율성, 신뢰성(Verifiability) 확보(근거 제시) 측면에서 절대적으로 우월함을 비교 분석.
RAG 시스템의 성숙도 모델(Level 1~4)을 제시하고, RAG의 한계를 극복하기 위한 3가지 하이브리드 파인튜닝 전략(검색기 튜닝, 생성기 튜닝, RAFT)을 구체적인 실행 방안으로 제시.
텍스트를 넘어 이미지, 다이어그램, 테이블까지 이해하는 **‘멀티모달 AI (복합 AI)‘**를 RAG 아키텍처의 차세대 진화 방향으로 제시.

제언 1 (패러다임 전환): “RAG로 지식을 연동하고, 파인튜닝으로 행동을 제어하라.”
제언 2 (자산 관리 관점): 기관의 지식(KB)은 모델 가중치에 ‘소모’시키는 데이터가 아니라, DB에서 ‘관리’하고 ‘검색’해야 할 핵심 자산임.
제언 3 (시스템으로서의 AI): 성공적인 기관 특화 AI는 ‘뛰어난 단일 모델’을 확보하는 것이 아니라, 데이터 파이프라인, (파인튜닝된) 검색기, (파인튜닝된) 생성기, 거버넌스가 결합된 **‘하나의 복합 AI 시스템(Compound AI System)‘**을 구축하는 전략적 아키텍처링(architecting) 과제임.