Background and Overview
최근 인공지능 기술의 흐름은 단일 거대언어모델(LLM)의 한계를 넘어 여러 모델이 상호작용하며 복잡한 문제를 해결하는 멀티 에이전트 시스템(MAS, Multi-Agent Systems)으로 급격히 진화하고 있습니다. 기존의 MAS에서는 에이전트 간 소통 매개체로 인간의 자연어(텍스트)를 사용해 왔습니다. 예를 들어 한 기획자 에이전트가 텍스트로 계획을 작성하면, 비평가 에이전트가 그 텍스트를 읽고 분석하는 식입니다. 그러나 이러한 텍스트 기반 협업 방식에는 근본적인 한계가 있습니다. 모델 내부의 풍부한 고차원 정보가 이산적인 텍스트 토큰으로 변환되는 과정에서 미세한 뉘앙스와 맥락이 압축되거나 사라져 정보 손실이 발생하기 때문입니다 . 또한 에이전트마다 매 단계 텍스트를 디코딩했다가 다시 인코딩해야 하므로 연산 비용과 지연 시간 측면에서도 비효율적입니다.
이러한 한계를 극복하기 위해, 프린스턴 대학·UIUC·스탠퍼드 대학의 공동 연구팀은 에이전트 협업을 텍스트가 아닌 **연속 잠재 공간(Continuous Latent Space)**에서 수행하는 새로운 프레임워크 LatentMAS를 제안했습니다 . LatentMAS에서는 에이전트들이 말을 주고받는 대신 뇌파를 공유하듯 각자의 **잠재 사고(latent thoughts)**와 **작업 기억(working memory)**을 직접 전달합니다 . 구체적으로, 이 시스템은 별도의 추가 학습 없이 기존 LLM의 내부 구조를 활용하여 구현되었습니다 . 각 에이전트는 텍스트 토큰을 생성하는 대신 **모델의 마지막 레이어 히든 상태(hidden embedding)**를 다음 단계의 입력으로 사용하여 자신의 생각을 잠재 공간에서 이어가고 , 이렇게 얻은 KV 캐시(key-value cache) 형태의 내부 상태를 다음 에이전트에게 통째로 이식합니다 . 즉, 한 에이전트가 추론을 마치면 그 내부 상태 전체를 다음 에이전트가 이어받아 마치 앞선 에이전트의 “두뇌”를 이어서 사용하는 셈입니다. 이를 통해 에이전트들은 인간 언어라는 병목을 우회하여 손실 없는 정보 교환을 실현하고, 최종 답변 단계까지 **순수 잠재 협업(pure latent collaboration)**을 가능케 합니다 . 이러한 LatentMAS 프레임워크는 완전히 **훈련 불필요(training-free)**한 방식으로 동작하면서도, 에이전트들이 모델 내부 잠재표상만으로 생각하고 상호작용할 수 있게 해주므로 MAS의 새로운 가능성을 열었습니다.
Model-Specific Test Results
연구팀은 LatentMAS의 성능을 다양한 규모의 LLM 백본에서 검증하였습니다. 실험에는 Qwen-3 계열의 4억, 8억, 14억 파라미터 모델들이 사용되었으며, LatentMAS를 적용한 경우와 기존 방식(단일 모델 및 텍스트 기반 MAS)과의 성능을 비교했습니다. 결과적으로 LatentMAS는 추론 정확도, 응답 속도, 토큰 효율성 모든 측면에서 기존 방법들을 크게 앞질렀습니다.
먼저 추론 속도 측면에서, LatentMAS는 동일한 작업을 수행할 때 텍스트 기반 멀티 에이전트 시스템보다 평균 4배 이상(최대 4.3×) 빠르게 결과를 산출했습니다  . 이는 매 스텝마다 텍스트를 생성하여 처리하는 기존 방식과 달리, LatentMAS에서는 값비싼 디코딩 과정을 생략하고 연속적인 잠재 벡터 상에서 계산을 수행하기 때문입니다. 특히 최신 LLM 가속 엔진인 vLLM 등을 적용한 환경에서도 이러한 속도 향상 폭은 여전히 유의미하게 유지되었습니다.
토큰 사용량 측면에서도 혁신적인 효율성 향상이 나타났습니다. LatentMAS로 구성된 시스템은 최종 답변을 출력할 때를 제외하면 중간 단계에서 거의 텍스트를 생성하지 않으므로, 전체 출력 토큰 수가 기존 대비 70.8%에서 83.7%까지 감소했습니다 . 요약하면, 대부분의 에이전트 간 통신이 토큰이 아닌 잠재 상태로 이루어지기 때문에 불필요한 토큰 낭비가 대폭 줄어든 것입니다.
무엇보다도 **문제 해결 정확도(accuracy)**가 향상된 점이 주목됩니다. LatentMAS는 동일한 모델을 개별적으로 사용할 때보다 최대 14.6%p 더 높은 정답률을 보였으며 , 텍스트 기반 MAS와 비교해도 약 4~5%p의 추가 성능 향상을 달성했습니다 . 이는 에이전트들이 잠재 공간에서 의미적 정보를 잃지 않고 주고받음으로써, 서로의 의도를 더욱 정확히 이해하고 협력할 수 있었기 때문으로 분석됩니다. 특히 수학 및 과학 추론과 같이 복잡한 단계적 문제에서, LatentMAS 에이전트들은 중간 추론 과정을 온전히 공유하여 **오류 전파(error propagation)**를 줄이고 최종 정답률을 높일 수 있었습니다.
Test Datasets
LatentMAS의 범용성과 견고성을 입증하기 위해 연구진은 총 9개의 다양하고 어려운 벤치마크 데이터셋을 활용했습니다 . 각 벤치마크는 수리·과학 추론부터 상식적 추론, 코드 생성에 이르기까지 여러 영역에 걸쳐 있으며, 모델의 고차원 추론 능력을 폭넓게 평가합니다:
수학 및 과학 추론 (Math & Science Reasoning):
• GSM8K – 단계적 계산과 알고리즘적 사고력을 평가하는 산술 추론 데이터셋입니다.
• AIME 24 & AIME 25 – 미국 수학 경시대회 AIME(American Invitational Mathematics Examination) 24, 25년 기출 문제로, 고등 수준의 수학적 사고와 조합론적 문제 해결 능력을 측정합니다.
• GPQA-Diamond – 물리학·생물학·화학 분야 박사급 전문가들이 제작한 고난도 과학 질의응답 문제셋으로, 전문 과학 지식과 논리 추론을 평가합니다.
• MedQA – 미국 의사 면허 시험(USMLE)의 기출 문항들로 구성된 의료 QA 데이터셋으로, 생의학 지식과 임상 추론 능력을 테스트합니다.
상식 추론 (Commonsense Reasoning):
• ARC-Easy & ARC-Challenge – 일반 상식부터 복잡한 과학 상식까지 아우르는 AI2 Reasoning Challenge 세트로, 초등학생 수준의 문제(ARC-Easy)부터 난이도가 높은 도전 문제(ARC-Challenge)까지 모델의 상식적 추론 능력을 측정합니다.
코드 생성 (Code Generation):
• MBPP-Plus & HumanEval-Plus – 기존의 MBPP와 HumanEval 코딩 문제에 더 어려운 테스트 케이스를 추가 확장한 데이터셋으로, 생성된 코드의 정확성과 실행 가능성을 엄격히 평가합니다.
이처럼 서로 다른 도메인의 다양한 과제를 통해 LatentMAS는 단순한 언어 처리 능력을 넘어 논리적 사고, 전문 지식 활용, 프로그래밍 능력 등 전반적인 AI 문제해결 성능에서 잠재 협업 방식의 우수성을 검증받았습니다.
Research Methodology and Conclusion
LatentMAS의 핵심 기술적 구성은 세 가지 원리에 기반하고 있으며, 이들은 이론적 분석과 실험적 검증을 통해 그 유효성이 입증되었습니다 :
• 자동 회귀적 잠재 사고 생성 (Auto-regressive Latent Thoughts Generation): 각 에이전트 내부에서는 토큰 대신 잠재 벡터 단위로 사고가 전개됩니다. 일반적인 LLM이 다음 토큰을 예측하는 것과 달리, LatentMAS의 에이전트는 이전 단계까지의 마지막 레이어 히든 상태를 곧바로 다음 입력으로 재투입하여 연쇄적인 잠재 사고 과정을 이어갑니다 . 이처럼 자기회귀적으로(latent autoregressive) 숨겨진 상태를 반복 생성함으로써, 에이전트는 생각의 흐름을 숫자 벡터 공간 상에서 유지합니다. 연속적인 벡터 공간은 이산적인 텍스트보다 훨씬 많은 정보를 품을 수 있으므로, 한 번의 **잠재 단계(latent step)**에 수백 개의 토큰에 해당하는 풍부한 의미를 담아 전달할 수 있습니다 . 그 결과, 에이전트는 텍스트로 표현하기 어려운 복잡한 중간 추론까지 내재적으로 지속할 수 있게 됩니다.
• 잠재 작업 기억 전이 (Latent Working Memory Transfer): 에이전트 간 협업에서는 공유 작업기억을 사용합니다. 한 에이전트 A의 추론이 끝나면 해당 에이전트의 KV 캐시 전체(입력 컨텍스트와 생성된 잠재 사고를 모두 포함)를 그대로 다음 에이전트 B에게 전달합니다 . 에이전트 B는 A의 내부 상태를 이어받아 추가 연산이나 재해석 없이 곧바로 자신의 추론을 진행합니다. 이는 에이전트 B가 A의 뇌 상태를 통째로 이식받아 이어 생각하는 것과 마찬가지입니다. 연구팀은 이러한 잠재 기억 전이가 정보의 손실 없이(lossless) 이루어짐을 이론적으로 증명하였으며 , 이를 통해 중복 계산을 획기적으로 줄여 시스템 수준 효율성을 높였음을 보여주었습니다 .
• 입출력 정렬 (Input-Output Alignment): 한편, 에이전트의 히든 상태 출력을 다시 같은 모델의 입력으로 사용할 때 분포 불일치(distribution shift) 문제가 발생할 수 있습니다. 즉, 모델 내부 신호를 그대로 재투입하면 누적 오차로 인해 모델이 안정적으로 추론하지 못할 가능성이 있습니다. 이를 해결하기 위해 **선형 정렬 연산자 $W_a$**를 도입하였습니다 . $W_a$는 추가 훈련 없이도 출력된 잠재 벡터를 **모델이 이해 가능한 입력 임베딩 공간으로 사영(projection)**하는 작은 어댑터 행렬입니다 . 이를 통해 잠재 사고 단계가 여러 번 누적되더라도 모델 입력이 유효한 분포 범위를 벗어나지 않게 맞춰주어, 의미적 일관성과 안정성을 유지합니다 . 실험적으로도 이 정렬 기법을 적용했을 때 여러 추론 벤치마크에서 정확도가 2~5%p 가량 향상되어, $W_a$ 적용이 성능 개선에 기여함이 확인되었습니다 .
결론적으로, LatentMAS는 멀티 에이전트 시스템에서 텍스트라는 비효율적 매개를 제거하고 모델 간 직접적인 신경망 수준의 소통을 가능케 했습니다. 흥미롭게도 이 프레임워크는 어떠한 추가 학습 없이도 시스템 추론 성능의 향상과 효율성 극대화라는 두 마리 토끼를 모두 잡을 수 있음을 보여주었습니다 . 다시 말해, 에이전트들이 오로지 잠재 표현만으로 협력해도 더 깊은 추론 능력과 빠른 응답을 동시에 달성할 수 있다는 점을 입증한 것입니다. 이는 향후 에이전트 시스템이 인간 언어라는 한계를 넘어 **시스템-레벨의 초지능(system-level intelligence)**으로 발전하는 데 중요한 기술적 도약이라고 할 수 있습니다.
Implications
이 연구가 시사하는 바는 AI 응용 및 인프라 측면에서 매우 큽니다:
1. AI 에이전트 비용 구조의 혁신: 현재 기업이 LLM 기반 AI를 활용할 때 직면하는 큰 과제는 토큰 비용과 응답 지연입니다. LatentMAS는 내부 사고 과정에서 불필요한 토큰 생성을 생략함으로써, API 호출 비용과 인프라 부하를 대폭 낮출 수 있는 가능성을 제시합니다. 실제로 토큰 사용량이 70~80% 이상 절감되고 응답 속도가 4배가량 빨라졌다는 점은, 더 적은 비용으로 더 빠른 AI 서비스 구현을 가능하게 함을 의미합니다 . 이는 실시간 응답이 요구되는 서비스나 복잡한 추론이 필요한 엔터프라이즈 애플리케이션의 상용화를 가속할 수 있을 것으로 기대됩니다.
2. 설명가능성 vs. 성능 트레이드오프: 기존 체인-오브-생각(CoT) 방식에서는 에이전트의 추론 과정을 텍스트로 드러내주기 때문에 사람이 이를 쉽게 추적하고 디버깅할 수 있었습니다. 그러나 그 대가로 성능과 속도가 저하되는 문제가 있었죠. LatentMAS는 잠재 공간에서 보이지 않게 사고함으로써 성능을 극대화하지만, 그 과정이 인간에게는 일종의 블랙박스로 남게 되는 새로운 딜레마가 발생합니다 . 향후에는 이러한 잠재 사고 과정을 해석하거나 시각화하는 전문 도구(예: Latent Interpretation Tools)의 개발이 중요해질 것입니다. 다시 말해, 높은 성능의 대가로 낮아진 투명성을 보완하기 위한 연구가 필요합니다 .
3. 이종 모델 간 협업의 확장: 이번 연구는 동일한 모델 아키텍처를 지닌 LLM 에이전트들 간의 협업에 초점을 맞추었습니다. 하지만 장기적으로는 서로 다른 구조나 능력을 가진 이종(heterogeneous) AI 모델들 간에도 잠재 공간을 공유하며 협력하는 방향으로 나아갈 수 있습니다 . 예를 들어, 수학에 특화된 모델과 코딩에 특화된 모델이 공용 잠재어를 통해 서로의 강점을 실시간으로 결합할 수 있을 것입니다. 이를 위해서는 각기 다른 모델 사이의 잠재 표현을 이어주는 어댑터(Adapter) 기술이나 잠재 공간 정렬 기법의 발전이 필요하며 , 궁극적으로는 여러 전문 AI들이 팀을 이뤄 텍스트 변환 없이 문제 해결에 협업하는 AI 전문가 집단을 구현할 수 있을 것입니다.
4. 에이전트 자가강화 학습의 가능성: LatentMAS는 추가 훈련 없이도 탁월한 성능을 보이는 프레임워크이지만, 향후에는 에이전트들이 자체적으로 상호작용을 최적화하도록 학습 신호를 적용하는 자가강화(self-improvement) 방향의 연구도 기대됩니다. 예를 들어, 에이전트들의 잠재 통신 과정을 감지해 강화학습 신호를 부여하거나, 교차 에이전트 잠재 표현에 직접 그라디언트 신호를 주어 상호작용 방식을 미세 조정함으로써 시스템 성능을 더욱 향상시킬 여지가 있습니다 . 이러한 잠재 공간 최적화 학습이 도입된다면, 멀티 에이전트 시스템이 인간의 개입 없이도 자체 개선을 거듭하는 한층 진보된 형태로 발전할 가능성이 있습니다.
LatentMAS는 단순한 성능 개선을 넘어 AI 에이전트들 간 소통 방식 자체를 재정의하였습니다. 텍스트라는 병목을 제거함으로써, 우리는 이제 AI가 가진 잠재력을 온전히 활용하는 새로운 에이전트 생태계의 시작점에 서게 되었습니다. 향후 이러한 잠재 협업 패러다임은 대규모 분산 AI 시스템의 설계와 최적화에 근간을 이루는 방향으로 나아갈 것으로 전망됩니다 .
References
[1] Zou, J., Yang, X., Qiu, R., Li, G., Tieu, K., Lu, P., … & Yang, L. (2025). Latent Collaboration in Multi-Agent Systems. arXiv:2511.20639 .
[2] Gen-Verse/LatentMAS – Official GitHub repository (code & data) .
'IT & Tech 정보' 카테고리의 다른 글
| 국내 LLM vs 해외 LLM: 수학 문제 풀이 성능 비교 분석 (0) | 2025.12.15 |
|---|---|
| Surge AI: 비즈니스 전략, 조직 문화, 철학적 접근 심층 분석 (0) | 2025.12.11 |
| LatentMAS: Enabling Latent-Space Multi-Agent Collaboration (0) | 2025.12.07 |
| MWC 바르셀로나 2026: 'IQ 시대(The IQ Era)'를 위한 전략적 청사진 (0) | 2025.11.28 |
| 2025년 3분기 D램 시장 점유율 하이닉스 삼성 마이크론 (0) | 2025.11.26 |