본문 바로가기
IT & Tech 정보

Kosmos: AI 연구 도구 상세 조사 리포트

by 지식과 지혜의 나무 2025. 11. 17.
반응형


Kosmos의 정식 명칭 및 개발사


Kosmos는 FutureHouse라는 비영리 연구기관이 개발한 차세대 AI 기반 연구 파트너 시스템의 이름입니다. 2025년 11월, FutureHouse는 자사의 AI 과학자(agent) 프로젝트를 상용화하기 위해 Edison Scientific이라는 신규 스타트업을 스핀오프 형태로 설립하였고, 현재 Edison Scientific이 이 Kosmos 플랫폼을 운영하고 있습니다  . Kosmos는 FutureHouse에서 이전에 선보였던 AI 과학자 시스템인 Robin의 메이저 업그레이드 버전으로 소개되었으며, 기술 세부사항은 Kosmos: An AI Scientist for Autonomous Discovery라는 제목의 기술 보고서(프리프린트)로 공개되었습니다  .

Kosmos의 핵심 기술 구조


Kosmos는 단순한 단일 챗봇이 아니라, 문헌 조사 에이전트와 데이터 분석 에이전트의 두 구성 요소가 협력하는 멀티 에이전트 시스템입니다 . 예를 들어 하나의 목표(예: “뇌세포가 저온에서 스스로를 보호하는 기작 찾기”)와 관련 데이터셋을 주면, Kosmos의 한 부분은 방대한 연구 논문을 읽어가며 문헌 조사를 수행하고 다른 한 부분은 코드를 작성·실행하여 데이터 분석 실험을 진행합니다 . 이 두 부분은 세계 모델”(world model)이라 불리는 공유 메모리 공간을 통해 서로 소통하면서 각 단계에서 얻은 지식을 지속적으로 교환·업데이트합니다 . 이 구조화된 세계 모델 (structured world model)이 Kosmos의 핵심 기술 혁신으로서, 에이전트가 수백 차례에 걸친 분석 결과들을 구조화하여 축적함으로써 거대한 장기 메모리를 형성합니다 . 그 결과 일반적인 언어 모델의 컨텍스트 한계를 뛰어넘어 수천만 토큰 규모의 정보를 다루면서도 일관된 연구 목표를 추구할 수 있게 되었습니다  .

이러한 설계 덕분에 Kosmos는 한 번 실행할 때 최대 12시간 동안 약 200회의 사이클에 걸쳐 작업을 지속할 수 있으며, 평균적으로 약 42,000줄에 이르는 코드를 실행하고 1,500편 가량의 논문을 읽어 분석할 만큼 방대한 분량의 연구를 수행합니다 . 실제 Kosmos 베타 테스트에 참여한 연구자들은 “Kosmos의 1일 작업이 약 6개월간의 박사과정 연구에 해당한다”고 평가하였으며 , Kosmos가 작성한 보고서 속 주장의 79.4%가 독립적인 과학자 검증에서 정확한 것으로 확인되었습니다 . 이는 기존의 AI 연구 도구들이 몇 단계 진행하지 못하고 문맥을 잃어버리는 한계를 Kosmos가 크게 개선했음을 보여줍니다 .

Kosmos가 수행할 수 있는 작업의 구체적인 예시


Kosmos는 질문에 답변만 하는 챗봇과 달리, 실제 과학 연구 과정을 자동화하도록 설계되었습니다. 사용자가 연구 목표와 데이터를 입력하면, Kosmos는 먼저 데이터에 적합한 분석 방법(예: 상관관계 분석, 경로 분석 등 통계 기법)을 결정하고  관련 분야의 과학 논문들을 폭넓게 찾아 읽으면서 기존 연구에서 시사점을 얻습니다. 그러다가 유의미한 단서를 발견하면 그에 기반해 추가로 가설을 세우고 새로운 코드를 작성하여 실험을 수행하며, 다시 그 결과를 바탕으로 추가 문헌을 탐색하는 식으로 문헌 조사 → 코드 실험 → 가설 갱신의 사이클을 반복합니다 . 이렇게 여러 차례 논문 읽기와 코드 실행을 교차 수행하면서 최종적으로 충분한 증거가 모이면, Kosmos는 모든 주장마다 출처를 명시한 상세 연구 보고서를 자동으로 작성합니다 . 보고서에는 필요한 경우 도표나 그래프 등 시각화 결과도 포함되며, 모든 결론은 인용 논문이나 실행한 코드 결과로 뒷받침되기 때문에 추론의 근거가 투명하게 드러나도록 설계되어 있습니다  . 이러한 감사 가능한 추론 기능 덕분에, 사용자는 Kosmos의 연구 과정을 한 걸음 한 걸음 검증하거나 재현할 수 있습니다.

Kosmos가 실제로 수행한 구체적 작업 및 발견 사례는 다음과 같습니다:

• 뇌 저온 적응 기작: 쥐의 저체온 상태 뇌 대사체학 데이터를 분석하면서, 뉴런이 냉각 스트레스 하에서 스스로를 보호하는 주요 대사 경로를 규명 했습니다. 흥미롭게도 Kosmos가 찾아낸 이 경로는 당시 인간 연구자들이 별도로 발견하여 미발표 상태였던 결과와 일치했으며, 이후 해당 인간 연구가 preprint로 공개되어 Kosmos 결과를 뒷받침했습니다 .
• 태양전지 효율 저하 원인: 페로브스카이트 태양전지의 제조 공정 데이터를 탐색한 결과, 열처리 과정 중 습도의 높음이 태양전지 효율을 크게 악화시키는 요인임을 발견했습니다 . Kosmos는 특히 절대습도 약 60 g/m³를 임계치로 그 이상에서 소자의 효율이 급격히 떨어진다는 일종의 “치명적 한계” 조건을 찾아냈고, 이 결과 역시 인간 과학자들이 사후에 확인하여 타당함이 입증되었습니다 .
• 신경망 연결 분포 규칙: 여러 종의 뇌 신경망 연결성 데이터를 분석한 결과, 그 연결 강도 분포가 기존에 추정되었던 멱함수(power-law) 분포가 아니라 로그 정규 분포를 따른다는 새로운 수학적 규칙을 밝혀냈습니다 . 이는 이후 인간 연구(예: Piazza 등)가 보고한 결과와 부합하는 발견으로, 다양한 생물 종의 뇌 구조에 공통적인 패턴을 Kosmos가 재확인한 사례입니다.
• 심장 질환 보호 인자 도출: 유전체 연관분석(GWAS) 및 단백질 양적 특성 연관(pQTL) 공개 데이터를 이용한 통합 분석을 통해, 항산화 효소 SOD2의 혈중 수준이 높으면 심근 섬유화(myocardial fibrosis)가 줄어들어 심장을 보호한다는 통계적 증거를 제시했습니다 . 쥐 실험에서 SOD2의 이러한 역할이 알려져 있었지만, Kosmos는 인간 데이터에서 SOD2가 심근 섬유화를 감소시키는 인과적 역할이 있을 수 있음을 새롭게 시사하였습니다.
• 알츠하이머병 메커니즘 탐색: 알츠하이머병 환자의 단일 세포 전사체 및 단백체 데이터를 대규모로 분석하여, 노화 과정에서 뇌 엔토리날 피질 뉴런의 특정 막단백질 플리파아제(flippase) 발현이 감소한다는 사실을 발견했습니다. Kosmos는 이 현상이 뉴런 세포막에 “eat-me” 신호인 인지질(인산지질)의 노출 증가를 야기하여 미세아교세포(microglia)가 해당 뉴런을 제거하게 만들 수 있다고 추론했습니다 . 나아가 Kosmos가 제시한 이 가설은 인간 환자 데이터셋에서도 동일한 플리파아제 발현 저하 현상이 확인됨으로써 실험적으로 뒷받침되었습니다  . (참고: 이 발견은 알츠하이머병 진행에 따른 뉴런 퇴행 메커니즘에 대해 Kosmos가 완전히 새로운 분석 방법을 고안해 제시한 사례로, 인간 연구자들이 제안하지 않았던 접근법을 AI가 창안해냈다는 점에서 의미가 큽니다 .)

이외에도 Kosmos는 제2형 당뇨병 관련 유전자 변이(SSR1 주변)가 보호적 역할을 할 가능성을 지적하는 등  다양한 분야에서 새로운 과학적 통찰을 보여주었습니다. 중요한 것은, 이러한 Kosmos의 모든 주장마다 그 근거가 된 논문이나 코드가 인용되므로 결과를 신뢰성 있게 점검할 수 있다는 점입니다 .

Kosmos의 활용 사례 및 실증 결과


Kosmos는 현재 Edison Scientific의 웹 플랫폼을 통해 베타 서비스 형태로 공개되어 있으며, 연구자들은 자신의 데이터셋과 연구 목표를 입력함으로써 Kosmos의 AI 연구 능력을 직접 활용할 수 있습니다  . FutureHouse/Edison Scientific 팀은 여러 분야의 학계 연구자들과 협력하여 Kosmos를 테스트하였고, 그 결과 앞서 열거된 7가지 주요 과학 발견 사례를 발표하였습니다 . 이들 중 3건의 발견은 Kosmos 실행 당시에는 미발표(혹은 사전출판 상태)였던 인간 연구 결과를 Kosmos가 독립적으로 재현한 것이었으며, 나머지 4건은 완전히 새로운 과학적 기여로서 Kosmos가 처음 제시한 후 추가 실험을 통해 타당성이 확인되거나 검증 진행 중인 것들이었습니다 . 예를 들어 Kosmos가 찾아낸 알츠하이머병에서의 flippase 효소 감소 가설은 별도의 인간 데이터셋 분석과 생물학적 실험(wet-lab)을 통해 실제 현상으로 확인되었고  , 심장질환 관련 SOD2 단백질의 효과에 대한 Kosmos의 추론도 동물 모델 등의 후속 연구로 입증되어 가고 있습니다. 이러한 협업을 통해 Kosmos의 결론 중 약 80%가량은 실제 정확한 것으로 검증되었으며 , 검증된 Kosmos의 새로운 발견 일부는 정식 학술 논문의 형태로 발표를 준비 중입니다.

Kosmos의 효용성에 대한 사용자 평가도 고무적입니다. 초기 베타 테스트에 참여한 여러 박사급 연구자들은 Kosmos가 제시한 연구 결과물을 자신의 분야에서 수동으로 도출하려면 평균 6개월 정도의 시간이 걸렸을 것이라고 응답하였습니다  . 또한 Kosmos의 발견 수가 실행 사이클 수에 비례하여 증가하는 경향을 보여, 더 깊은 탐구를 할수록 더 많은 통찰을 얻을 가능성을 시사했습니다  . 다만 Kosmos 팀은 Kosmos의 결과가 완전히 인간 연구자를 대체할 수 있는 것은 아니며 여전히 초기 문제 설정과 최종 검증에는 사람의 판단이 필요하다고 강조하고 있습니다 . Kosmos는 연구자에게 잠들지 않는 박사후 연구원이나 피로를 모르는 연구 파트너를 하나 더 둔 것과 같다는 비유가 나오지만  , 궁극적으로는 인간 과학자의 창의적 해석과 결정이 함께 해야 진정한 가치를 발휘하는 도구로 자리매김하고 있습니다.

Kosmos의 비용 구조 및 접근 방식


이러한 최첨단 AI 연구 도구인 Kosmos는 상용 클라우드 서비스로 제공되며, 현재 1회 실행(run)당 200달러(미화) 정도의 비용이 책정되어 있습니다  . (플랫폼에서 1 run을 수행하려면 200 크레딧이 필요하며, 1크레딧 = $1로 환산됩니다.) 이 가격은 출시 초기 프로모션 성격의 할인가로서, 추후 Kosmos 이용 수요와 성능 향상에 따라 인상될 가능성이 있습니다. 다만 초기 가입자(Founding Subscription)에게는 현재 크레딧 당 단가($1)를 향후에도 보장하는 혜택을 제공하고 있으며 , 대학 등 학술 연구자들을 위해 일정 부분 무료로 활용할 수 있는 프리 티어(free tier)도 마련되어 있습니다  .

개발사 측은 이 같은 비용 책정이 Kosmos의 높은 연산 자원 소모와 전문 활용도를 반영한 것이라고 설명합니다. Kosmos는 수 시간에 걸쳐 거대 언어모델 추론과 방대한 코드 실행을 병렬로 수행하므로 운영 비용이 상당히 큰 편에 속합니다 . 따라서 일반적인 챗봇처럼 사소한 질문에 반복적으로 쓰기보다는, 필요할 때 투입하는 고가의 연구 시약(reagent) 키트에 비유하며 고부가가치의 중요한 연구 과제에 선택적으로 사용하는 것을 권장하고 있습니다 . 요약하면 Kosmos는 고도학습된 AI 연구 인력을 시간 단위로 빌리는 셈이므로 그 비용 대비 얻을 수 있는 가치가 충분히 큰 경우에 활용하는 것이 바람직하며, 실제로 초기 사용자들은 하룻밤 사이에 수개월치 연구를 대신 수행해주는 도구로서 비용을 상쇄하는 가치를 느꼈다고 평가하고 있습니다  .

Kosmos와 유사하거나 경쟁 관계에 있는 AI 도구들과의 비교


현재까지 Kosmos와 같은 자율 연구 역량을 지향하거나 부분적으로 유사한 기능을 갖춘 AI 도구는 몇 가지가 있습니다. 아래 표는 Kosmos와 이러한 도구들의 주요 특징을 비교한 것입니다:

도구 개발사 특징 및 기능 한계 및 Kosmos 대비
Kosmos Edison Scientific(FutureHouse) - 다중 에이전트 통합 AI 과학자- 실행당 ~1500편 논문, 42,000줄 코드 분석- 구조화된 세계 모델로 장기 추론- 근거가 명시된 연구 보고서 생성 - 최신 AI Scientist (2025년 기준)- ~79% 정확도 (검증 필요)- 1회 실행 비용 $200- 현존 최강 연구 AI로 평가 
Robin FutureHouse - 이전 세대 AI Scientist- Crow, Falcon, Finch 등 에이전트들이 문헌 검색·심층 분석·데이터 실험 분담 - AMD(노인성 황반변성) 신약 후보 제안 등 성과 사례 - 언어모델 컨텍스트 한계로 깊이 제한 존재 - Kosmos의 세계 모델 도입으로 한계 극복 
ChatGPT(GPT-4) OpenAI - 거대 언어모델 기반 대화형 AI- 일반 질의응답 및 코딩 보조에 능함- 맥락 유지 길이: 수천~수만 토큰 수준- 대규모 사용자 기반, 실시간 상호작용 - 자율 연구 수행 불가 (사용자 지시 필요)- 복잡한 다단계 작업에서 문맥 이탈 위험- 답변에 근거 부족, 사실 오류 가능 (환각 현상) 
Galactica Meta AI - 학술 문헌 4,800만 건 등으로 학습된 과학 전문 LLM - 논문 요약, 수식 풀이, 위키문서 생성 등 목표  - 신뢰성 문제로 공개 3일 만에 서비스 중단 - 그럴듯하나 잘못된 내용 생성하여 “위험” 평가 - Kosmos와 달리 결과 근거 제시 미흡 (출처 제공 없음)
AutoGPT 등 오픈소스커뮤니티 - GPT 등의 LLM에 목표만 주고여러 단계 작업을 자동 수행토록 한 에이전트 프레임워크- 웹 검색, 코드 실행 등 플러그인 연동 가능 - 전문성/안정성 낮은 실험적 도구- 장기 계획 수행 시 비효율 및 오류 다수- 과학 연구 특화 아님 (범용 에이전트)

주요 비교점을 보면, Kosmos는 과학 연구 전주기를 통합적으로 자동화한다는 점에서 기존의 언어모델 기반 도구들과 차별화됩니다. 예를 들어 Meta의 Galactica는 방대한 과학 지식을 학습한 언어모델이지만 출력 내용의 진위 검증이 어려워 결국 짧은 시범 후 폐지된 반면 , Kosmos는 모든 주장에 검증 가능한 증거를 첨부하는 접근으로 신뢰도를 높였습니다 . 또한 OpenAI의 ChatGPT/GPT-4 등은 강력한 언어 이해/생성 능력을 지녔지만 사용자가 일일이 지휘해야 하는 도구인 데 비해, Kosmos는 한 번 명령으로 장시간 자율적으로 탐구를 이어가는 에이전트라는 점에서 다릅니다. 과거 FutureHouse의 Robin이나 기타 자동화 연구 시스템들도 존재했지만, Kosmos는 세계 모델을 통한 압도적인 문맥 유지 능력으로 이들보다 훨씬 깊고 복잡한 연구를 수행할 수 있는 것으로 평가됩니다 . 요약하면 현 시점에서 Kosmos는 동일 분야 도구들 중 가장 앞선 사례로 손꼽히며, AI를 활용한 자율 과학 발견(auto discovery)의 새로운 가능성을 보여주고 있습니다  .

Sources: 관련 기술 블로그 및 보도 자료 【2】【14】, Kosmos 기술 보고서 (arXiv) 【6】, 외신 보도 【17】【20】【21】 등을 종합하여 작성했습니다.

반응형