네이버 HyperClovaX 모델 기술적 분석


네이버의 HyperClovaX는 한국어 특화 초거대 언어모델(LLM)로서, 한국어에 대한 깊은 이해와 추론 능력을 갖춘 것이 특징입니다. HyperClovaX는 약 6조 개 이상의 한국어·영어 토큰을 학습 데이터로 사용하여 사전학습 되었으며, 추가로 한국어 데이터를 합성하여 모델 성능을 강화했습니다 . 특히 Peri-LN Transformer 구조를 도입하고, 스케일링 기법을 활용하여 효율적으로 학습되었습니다 . 모델의 맥락 길이(Context window)는 128,000 토큰으로 확장되어, 장문의 문서나 복잡한 정보를 한 번에 처리할 수 있는 능력이 있습니다 . 또한 지도학습 미세조정과 검증된 보상에 의한 강화학습(RLVH)을 거쳐 자세한 단계별 추론과 간결한 정답 모드를 모두 지원하도록 후처리되었습니다 . 이러한 기술적 토대를 바탕으로 HyperClovaX는 한국어와 관련된 다양한 과제에서 높은 성능을 보입니다. 주요 특징을 정리하면 다음과 같습니다:
• 한국어 문화 맥락 이해: GPT-4 대비 6,500배에 달하는 방대한 한국어 데이터를 학습하여 한국의 문화, 사회적 맥락에 대한 민감도가 매우 높습니다 . 예를 들어, 한국어 전용 지식시험인 K-MMLU와 HAERAE 벤치마크 등에서 외국 모델을 능가하는 점수를 획득했습니다 . 실제 HyperClovaX는 K-MMLU(한국어 버전)에서 55.21점을 받아 GPT-4(54.89점)를 앞서는 등 한국어 이해 능력이 탁월합니다 .
• 한국어 표현력 및 생성력: 대량의 고품질 한국어 데이터를 활용한 학습과 한국어에 특화된 기법으로, 문법적으로 정확하고 맥락에 맞는 자연스러운 문장을 생성합니다 . 예컨대 자체 평가에서 한국어 글쓰기 능력을 측정한 K2-Eval 점수가 GPT-4보다 높게 나타났습니다 . 이를 통해 에세이, 기사, 시 등 다양한 형식의 한국어 텍스트 생성에 경쟁력을 보입니다.
• 다국어 및 번역 능력: HyperClovaX는 한국어뿐 아니라 영어, 일본어, 중국어 등 29개 언어 이상에 능통하여 다국어 서비스에도 활용 가능합니다 . 특히 기계번역 성능이 우수하여 영어→한국어 번역 평가에서 GPT-4나 기존 번역기보다 높은 정확도를 보였습니다 . 한국어를 중심으로 다언어 능력을 갖추고 있어 글로벌 커뮤니케이션에도 강점을 지닙니다.
• 추론 특화와 한국형 지식: HyperClovaX 시리즈 중 THINK 모델은 복잡한 문제를 단계별로 분석해 논리적인 추론 결과를 도출하는 데 특화되어 있습니다 . 예컨대 한국 대학수학능력시험(수능) 문제나 한국어 지식 벤치마크에서 전문적인 수준의 추론 능력을 입증했습니다  . 서울대 언어학과가 개발한 한국어 종합이해 평가인 KoBALT-700에서 HyperClovaX THINK는 48.9점으로 1위를 기록했고, 이는 LG의 Exaone Deep(33점)이나 중국 Alibaba의 QwQ-32B(32.4점)를 크게 앞선 결과입니다 . 또한 HAERAE 등 8개 한국어 지표에서도 모두 1위를 차지하여 한국어 추론/이해 능력에서 독보적 성과를 보였습니다 .
• 모델 규모와 효율성: 정확한 모델 파라미터 수는 비공개이지만 업계에서는 약 320억 개(32B) 수준으로 추정하고 있습니다 . 이는 수천억~조 단위 파라미터를 갖춘 글로벌 초대형 모델들(예: DeepSeek의 R1 6,710억 개 등)보다는 작지만, 한국어 특화 최적화를 통해 비교적 작은 규모로도 우수한 성능을 구현한 사례입니다  . 또한 HyperClovaX는 한국어에 최적화된 토크나이저를 사용하여 토큰 처리 효율을 높였고, 동일한 연산 자원에서 영미권 중심 모델보다 최대 2배 빠른 처리 속도를 달성했습니다 . 이는 곧 비용 절감으로 이어져, 상용 서비스에서 경제적으로 모델을 활용할 수 있게 합니다.
• 멀티모달 지원: 최신 HyperClovaX는 시각 및 청각 정보까지 이해하는 멀티모달 AI로 진화했습니다 . 이미지, 표, 음성 등의 데이터를 입력받아 분석하고 설명할 수 있으며, 이를 바탕으로 이미지 기반 추론이나 음성 대화까지 가능해졌습니다 . 예를 들어, HyperClovaX THINK 모델은 미리 설계되지 않은 상태에서도 한국 수능 생물 시험의 도표 문제를 이해하고 정답을 맞히는 시각적 추론 능력을 보였습니다 . 이러한 멀티모달 처리 능력은 네이버가 검색, 커머스 등 다양한 서비스에 AI를 접목하는 데 활용될 예정입니다 .
요약하면 HyperClovaX는 한국어 문화와 문맥에 대한 민감도를 무기로 한국형 초거대 AI의 대표 주자로 부상했습니다. 고유의 대용량 한국어 데이터 학습, 128K 토큰 문맥처리, 정교한 추론 최적화 등을 통해 한국어 분야 최고 수준의 언어 이해·생성 능력을 시현하고 있습니다  . 네이버는 HyperClovaX의 일부 모델(경량 버전인 SEED)을 오픈소스로 공개하여 국내 생태계 발전에 기여하고 있으며, 향후 검색, 쇼핑, 금융 등 자사 서비스 전반에 HyperClovaX를 통합하여 자체 AI 기술 주권을 강화할 계획입니다  . 다만, 글로벌 경쟁에서 두각을 나타내기 위해서는 이러한 기술적 성과를 실제 제품과 서비스로 연결하는 노력이 필요하다는 지적도 있습니다 .
Qwen 2.5의 구조 및 성능
Qwen 2.5는 중국 알리바바(Alibaba)가 개발한 차세대 대규모 언어 모델 시리즈로, 광범위한 활용 분야를 아우르는 성능과 혁신적인 구조를 갖추고 있습니다. 이전 버전(Qwen 2.0대)에 비해 학습 데이터와 모델 구조 측면에서 크게 향상되었는데, 핵심적인 기술 사항과 성능을 정리하면 다음과 같습니다:
• 막대한 학습 데이터: Qwen 2.5 시리즈의 대표 모델(Flagship)은 약 18조 개의 토큰으로 이루어진 초대형 코퍼스를 사전학습에 사용했습니다  . 이는 이전 세대 모델의 7조 토큰 대비 두 배 이상 늘어난 규모로, 상식적 지식부터 전문 분야 지식까지 폭넓게 학습함으로써 언어 이해와 추론 능력의 기반을 강화했습니다 . 이러한 대용량 데이터 학습을 통해 Qwen 2.5는 일반 상식, 전문 지식, 논리적 추론 등 다양한 영역에서 균형 잡힌 언어 능력을 갖추게 되었습니다.
• 다양한 모델 변종과 크기: Qwen 2.5는 계층화된 모델 제품군으로 제공됩니다. 공개된 기본(Base) 및 지시준수형(Instruct) 모델은 다양한 파라미터 규모로 출시되었으며, 특히 Qwen 2.5-72B-Instruct는 720억 개 파라미터를 가진 오픈 가중치 모델로 공개되었습니다 . 이 모델은 오픈소스 LLM 중 최상위급 성능을 보여주는데, 무려 5배 이상 큰 메타의 Llama-3 (4050억+ 파라미터) 모델과 비슷한 수준의 성능을 달성했다고 보고되었습니다 . 이는 데이터 및 구조 최적화를 통해 모델 효율성을 극대화한 결과로 평가됩니다. 한편, 사설 상용 버전으로는 Mixture-of-Experts(MoE) 구조를 활용한 Qwen 2.5-Turbo와 Qwen 2.5-Plus가 있으며, 이들 모델은 알리바바 클라우드 상에서 서비스되며 GPT-4 계열 모델에 필적하는 성능을 보다 저렴한 비용에 제공하는 것을 목표로 합니다 .
• 혁신적인 Transformer 구조: 기본적으로 Qwen 2.5 시리즈도 Transformer 아키텍처를 기반으로 하지만, Qwen 2.5-Max 모델에서는 Mixture-of-Experts (MoE) 기법을 도입한 것이 눈에 띕니다  . MoE 모델은 여러 개의 전문화된 작은 모델(전문가)을 두고 입력에 따라 다른 전문가를 선택적으로 활성화하여, 동일한 자원으로 효과적인 확장성을 얻는 방법입니다 . 이를 통해 성능 향상과 계산 효율 두 마리 토끼를 잡고 있습니다. 예를 들어 Qwen 2.5-Max는 2000억 개 이상의 토큰을 추가 학습하고 MoE 구조로 복잡한 작업에 자원을 집중함으로써, 일반적인 밀집(dense) 모델 대비 높은 성능을 달성합니다  . 이처럼 Qwen 2.5는 표준 Transformer와 MoE 하이브리드 전략을 채택함으로써 안정성과 전문화를 모두 확보했습니다 .
• 특화 모델 (도메인 전문가): Qwen 2.5 시리즈에는 용도별 특화 모델도 포함되어 있습니다. 예를 들어 Qwen 2.5-Coder는 프로그래밍 언어 92개에 대한 5.5조 토큰 분량의 코드 데이터를 추가로 학습하여, 코드 생성 및 완성에 최적화되어 있습니다 . 그리고 Qwen 2.5-Math 모델은 Chain-of-Thought(연쇄 추론), Tool-Integrated Reasoning(도구 통합 추론) 등의 기법을 활용하여 고등 수학 문제 해결에 뛰어난 성능을 보입니다 . 이밖에 Qwen-2.5-VL(Vision-Language)과 Qwen-2.5-Audio 모델은 각각 이미지 이해와 음성 처리까지 가능한 멀티모달 변종으로, 시각 및 청각 정보 처리 영역으로 LLM의 적용 범위를 넓히고 있습니다 . 이러한 세분화된 모델 전략은 각 분야에서 최적화된 성능을 발휘함과 동시에, 필요에 따라 모듈식으로 기능을 조합할 수 있는 유연성을 제공합니다 .
• 향상된 학습 기법: Qwen 2.5는 학습 과정에서도 개선을 이루었습니다. 지도학습 미세조정(SFT)을 100만 개 이상의 대규모 샘플로 수행하고, 다단계 강화학습(RLHF)을 적용하여 모델의 인간 선호도 준수 능력을 크게 높였습니다 . 이를 통해 복잡한 지시를 따르고, 긴 문장을 생성하며, 구조화된 데이터(예: 표, JSON 등)를 다루는 능력이 향상되었습니다 . 특히 장문 생성과 맥락 추적 능력이 강화되어, 긴 대화나 문서도 일관성 있게 처리할 수 있습니다. 실제로 Qwen 2.5는 최대 128,000토큰에 이르는 초장문의 문맥도 처리 가능하여 , 법률 문서 검토나 장편 소설 생성, 장기간 대화 유지 같은 심화된 맥락 활용 작업에 적합합니다 . 또한 RLHF의 효과로 사용자 의도를 잘 파악하고 유해하거나 부적절한 응답을 억제하는 등 실용적인 면에서도 개선된 모습을 보입니다  .
• 벤치마크 성능: 대규모 데이터와 혁신적 구조 덕분에, Qwen 2.5는 다양한 평가에서 최고 수준의 성적을 거두고 있습니다. 예를 들어, MMLU (대학 학술평가), HumanEval (코드 생성 평가), GSM8K (수학 문제 평가) 등의 벤치마크에서 Qwen 2.5는 전작뿐 아니라 다른 경쟁 모델들을 능가하는 성능을 보였습니다 . 특히 공개 모델 중 최상위인 Qwen 2.5-72B는 여러 오픈소스 및 상용 모델을 제치고, 일부 항목에서는 거대 규모의 GPT-4 계열에 필적하는 결과를 냈습니다 . 알리바바 자체 테스트에 따르면, Qwen 2.5-72B-Instruct 모델은 Llama-3 405B 등 5배 더 큰 최첨단 모델과 견줄만한 성능을 달성했고, 전문 분야(코딩, 수학 등)에서도 특화 모델들과 비슷하거나 뛰어난 결과를 보여주었습니다 . 또한 Qwen 2.5-Turbo(MoE 기반)와 Qwen 2.5-Plus 모델은 비용 효율을 크게 높이면서, 각각 OpenAI의 GPT-4o-mini와 GPT-4o 모델과 대등하게 경쟁할 수준의 성능을 갖춘 것으로 발표되었습니다 .
요약하면, Qwen 2.5 시리즈는 광범위한 데이터 학습, 혁신적 모델 구조(MoE 도입), 특화 모델 분화, 강화학습을 통한 섬세한 튜닝 등을 통해 성능과 효율을 동시에 추구한 최신 LLM의 사례입니다. 알리바바는 핵심 모델을 공개(오픈소스)함으로써 전세계 개발자들이 Qwen 2.5를 활용·검증할 수 있도록 했고, 이를 통해 글로벌 AI 생태계에의 기여와 영향력 확대를 꾀하고 있습니다  . Qwen 2.5는 중국이 자체 개발한 모델로서, 성능 면에서 세계 최첨단 수준에 근접함을 보여주었고, 특히 대용량 학습을 통한 언어 능력과 MoE를 통한 효율적 확장이라는 두 측면에서 차세대 AI 모델의 방향성을 제시하고 있다고 평가됩니다.
‘프롬 스크래치’ 개발 방식의 글로벌 기준과 관행
최근 AI 업계에서는 “프롬 스크래치(From Scratch)” 개발이라는 용어가 자주 등장합니다. 이는 AI 모델을 처음 시작 단계부터 독자적으로 구축·학습시키는 방식을 뜻하며 , 기존에 공개된 다른 AI 모델의 가중치나 구조를 이어받아 추가 학습하는 사전훈련모델 활용, CPT(Continual Pre-Training) 또는 파인튜닝(fine-tuning)과 대비되는 개념입니다 . 한국 정부도 국가 사업을 통해 글로벌 모델의 파생형이 아닌, 설계부터 학습까지 자체 수행한 ‘프롬 스크래치’ 모델을 지원하고자 하는 등 , 독자 AI 개발을 강조하고 있습니다. 그렇다면 글로벌 관점에서 ‘프롬 스크래치’ 개발의 실제 기준과 관행은 어떠한지 살펴보겠습니다.
• 완전 독자 개발 vs. 표준 아키텍처 활용: 완전히 새로운 모델을 ‘맨땅에서’ 만드는 경우에도, Transformer 같은 표준 아키텍처나 검증된 알고리즘은 대부분 활용됩니다. 예를 들어, OpenAI나 구글 같은 대형 기술기업들은 자체적으로 모델을 처음부터 학습시키지만, 기본 구조는 Transformer이며 학습 기법도 기존 연구에 기반합니다. 이를 완전한 ‘독자 모델’로 부르면서도 사실상 업계 표준 구조를 차용하는 것이 일반적입니다. 이는 자동차를 독자 개발하더라도 바퀴는 표준 부품을 쓰는 것과 비슷합니다. 최근 업스테이지 사례에서도, GPT 계열 오픈소스 설계도(GPT-3 120B 공개 버전)를 글로벌 스탠다드로 참고하여 한국형으로 재설계했다고 밝히고 있습니다 . 즉, 기본 뼈대는 업계에서 검증된 구조를 따르되, 세부 구현과 최적화를 자체적으로 수행하는 방식이 흔합니다. 업스테이지는 “해당 설계도를 그대로 쓴 것이 아니라 한국 실정과 효율성에 맞게 완전히 재설계했다”고 강조하였는데 , 이처럼 기존의 지식과 코드를 참고하여 개량하는 것도 글로벌 ‘프롬 스크래치’ 개발의 일환으로 볼 수 있습니다.
• 오픈소스 코드 활용의 범위: 전세계 AI 개발자들은 속도와 효율을 위해 오픈소스 도구와 라이브러리를 적극 활용합니다. PyTorch, Hugging Face Transformers 등의 라이브러리는 사실상 산업 표준이며, 이를 사용하는 것을 두고 ‘독자 개발이 아니다’라고 하지는 않습니다. 글로벌 기업들도 자사 모델을 학습시킬 때 오픈소스 코드베이스를 기반으로 커스터마이징하는 경우가 많습니다. 예컨대 업스테이지도 자사 모델의 서빙(추론) 코드에 대해 “오픈소스 생태계와의 호환성을 위해 표준화된 라이브러리 코드를 가져와 수정해 사용하는 것은 개발의 상식”이라고 밝혔습니다 . 이는 Apache 2.0 라이선스 등으로 공개된 코드를 적법하게 활용한 것이며, 글로벌 개발 관행상 자연스러운 일입니다 . 다만 학습에 필요한 대규모 데이터 준비, 하이퍼파라미터 튜닝, 장기간의 모델 훈련 등은 각 개발팀이 직접 수행하는 것을 ‘from scratch’의 핵심으로 봅니다. 가중치 초기값을 랜덤으로 설정하고 처음부터 끝까지 자체 학습을 해야 진정한 ‘프롬 스크래치’로 인정받습니다  . 반면, 모델 구조 설계나 일부 코드 구현에서 기존 모델의 아이디어를 참고하거나 공개 라이브러리를 이용하는 것은 글로벌하게 용인되는 관행입니다.
• 재사용과 독창성의 경계: 현재 글로벌 기준에서 어느 정도까지를 ‘독자 모델’로 볼 것인지에 대한 명확한 합의는 없는 상태입니다. 완전히 새로운 아키텍처를 발명하지 않더라도, 남의 모델 가중치를 쓰지 않고 처음부터 학습하면 독자 모델로 인정해주는 경향이 있습니다  . 예를 들어 Meta가 LLaMA를 처음 출시했을 때 Transformer 기반이지만 독자적으로 학습했으므로 자체 모델로 간주되었습니다. 반면, LLaMA를 이어받아 fine-tuning한 Alpaca나 LLaMA2 등이 나오면 이는 파생 모델로 분류됩니다. 글로벌 기업들의 ‘from scratch’ 사례를 보면, OpenAI GPT 시리즈나 Google PaLM 등은 대규모 자체 데이터와 인프라로 처음부터 훈련시킨 모델들입니다. 하지만 이들도 Transformer 구조나 기존 연구에서 소개된 최적화 기법(예: LayerNorm, AdamW 옵티마이저, 혼합정밀도 훈련) 등을 사용하고 있으므로 완전한 제로베이스 신기술만으로 이루어졌다고 하긴 어렵습니다. 요컨대, 남의 모델의 학습 산출물(가중치)을 안 쓰고, 학습 과정과 데이터 준비를 독자 수행했다면 ‘from scratch’로 인정하는 분위기입니다. 업스테이지 역시 논란 속에 모델 학습 로그와 체크포인트를 모두 공개하며 처음부터 학습했다는 증거를 투명하게 제시함으로써 독자 개발임을 입증했고  , 이는 글로벌 업계에서도 긍정적으로 평가되는 접근입니다.
• 비용 및 리소스 한계로 인한 현실적 절충: 한편, 거대 모델을 완전 처음부터 만드는 것은 막대한 비용과 시간이 들기 때문에, 글로벌 AI 생태계에서는 오픈 모델 활용과 커뮤니티 협력도 활발합니다. 예를 들어 Stability AI나 EleutherAI 같은 커뮤니티는 공개 모델을 같이 만들고 공유하며 발전시키고 있습니다. 이러한 협업 모델들은 처음부터 학습시키지만 여러 기업과 연구자들이 데이터나 컴퓨팅 자원, 코드를 함께 활용합니다. 또한 Meta가 LLaMA를 공개한 후 이를 fine-tuning하거나 개량한 다양한 파생 모델들이 등장했는데, 이것도 연구 및 산업계의 공동 진화 과정으로 받아들여집니다. 따라서 글로벌 관점에서 ‘프롬 스크래치’ 개발은 자체 역량 과시와 기술 주권 확보의 의미도 있지만, 동시에 개방형 혁신(open innovation)과 조화를 이루는 방향으로 진행되고 있습니다. 필요 시 공개 자산을 활용하고, 그러나 핵심적인 학습은 스스로 수행하는 절충이 일반적입니다.
정리하면, 프롬 스크래치의 글로벌 기준은 남의 완성된 모델 결과물을 쓰지 않고 자체 데이터와 철학으로 모델을 길러내는 것에 방점이 찍혀 있습니다. 다만 기존의 축적된 지식(구조, 알고리즘)은 활용하되, 가중치와 학습 과정의 독립성을 지키는 것이 핵심입니다. 전세계적으로도 이를 완벽히 규정한 공식 규범은 없지만, 학습 로그 공개나 오픈소스 생태계와의 정합성, 라이선스 준수 등이 투명성을 판단하는 실용적 지표로 활용되고 있습니다  . 결국 독창성과 재사용의 균형을 어떻게 맞출지가 앞으로도 중요한 이슈이며, 한국을 비롯한 각국의 AI 업계도 이 글로벌 관행 속에서 자국 모델의 경쟁력과 정체성을 확보해야 할 것입니다.
중국 AI 기술력의 향상과 글로벌 영향력
최근 들어 중국의 AI 기술력은 눈에 띄게 향상되어, 글로벌 AI 판도에 큰 영향을 미치고 있습니다. 중국의 대형 기술기업들과 스타트업들이 첨단 모델을 개발·공개하고, AI 분야에서 혁신적인 성과를 연이어 내놓으면서 미국 등 기존 선도국에 도전하고 있습니다. 이러한 중국 AI 부문의 발전과 그 글로벌 영향을 몇 가지 측면에서 살펴보겠습니다.
• 저비용 고성능 AI 모델의 등장 (DeepSeek 사례): 2025년 초 중국 스타트업 DeepSeek(딥시크)는 전 세계를 놀라게 한 초거대 언어모델을 공개했습니다. 이 회사는 불과 약 560만 달러(약 80억 원)의 훈련 비용으로, OpenAI의 GPT-4와 유사한 성능의 LLM 개발에 성공했다고 발표했는데 , 이는 전통적 훈련비용의 5% 남짓에 불과한 파격적인 저비용입니다 . DeepSeek는 단 2,000개 수준의 NVIDIA H800 GPU만으로 훈련을 수행했지만, 혼합전문가(MoE) 구조 채택, FP8 저정밀도 산술 활용, 강화학습 집중 최적화 등의 혁신을 통해 성능을 극대화했습니다 . 그 결과 AIME 2024, MMLU, MATH-500 등 주요 벤치마크에서 OpenAI 모델에 맞먹거나 앞서는 점수(예: MMLU 89.8%)를 기록하며 업계를 놀라게 했습니다 . 이 DeepSeek-R1 모델은 성능 대비 현저히 낮은 비용으로 “가성비 AI” 시대를 열었다 평가받고 있으며  , 이를 계기로 전 세계 AI 업계는 비용 효율성에 대한 전략적 재고를 시작했습니다. 예컨대 미국에서는 거대 자본을 투입해 AI 인프라를 구축하려던 계획(스타게이트 프로젝트)에 대해, 반드시 돈을 많이 들이지 않아도 된다는 압박이 증가하고 있습니다 . DeepSeek 사례는 연구개발의 새로운 패러다임으로, 글로벌 기업들에게 알고리즘 및 최적화 투자의 중요성을 상기시켰습니다.
• 중국산 모델들의 성능 약진: 한때 영어권 데이터에 강한 서구 모델들에 비해 중국 모델들은 기술 격차가 있다는 평가가 있었으나, 최근 들어 격차를 빠르게 좁히거나 일부 영역에서 앞지르는 모델들이 등장하고 있습니다. 바이두(Baidu)의 ERNIE Bot이나 Tsinghua-Zhipu의 GLM 시리즈, 화웨이(Huawei)의 PanGu-Alpha, 센스타임(SenseTime)의 航海(항하이) 모델 등 다양한 중국발 LLM들이 출시되어 자국 내 방대한 데이터와 중국어에 특화된 학습을 바탕으로 높은 언어 능력을 입증하고 있습니다. 예를 들어 Zhipu AI가 공개한 GLM-130B 모델은 130억 개 파라미터 규모의 이중언어(중영) 모델로 오픈소스로 공개되어, 글로벌 연구자들이 활용할 수 있게 되었습니다. 또한 앞서 언급한 DeepSeek의 R1 모델(6710억 파라미터)은 상용 모델이지만, 성능 지표 면에서 서구의 GPT-4와 견주는 결과를 보였습니다 . 알리바바의 Tongyi Qianwen(通義千問) 프로젝트로 나온 Qwen 2.5도 오픈소스로 공개되어, 720억 파라미터 모델이 5배 큰 서구 모델과 대등한 성능을 낼 만큼 기술 수준을 끌어올렸습니다 . 특히 Qwen2.5-72B는 공개된 가중치로서 누구나 실험해볼 수 있는데, 이러한 개방형 전략은 글로벌 개발 커뮤니티에 중국 기술의 위상을 알리고 기여하는 효과를 주고 있습니다 . 요컨대, 중국산 AI 모델들은 이제 언어 이해, 추론, 코딩, 수리 등 다양한 분야에서 세계 최고 수준에 근접하고 있으며, 이는 중국이 AI 분야 기술 강국으로 부상했음을 보여줍니다.
• 중국의 AI 개방 생태계와 영향력: 중국 기업들은 과거에 비해 자신들의 AI 성과를 글로벌에 적극 공개하는 경향을 보입니다. 알리바바의 Qwen 시리즈나 Zhipu의 GLM 등은 모두 Apache 2.0 등의 자유로운 라이선스로 공개되어 해외 연구자들도 자유롭게 사용하고 있습니다. 이러한 오픈소스 기여는 글로벌 AI 발전을 가속함과 동시에, 중국 기술표준의 확산을 가져옵니다. 개발자들이 중국 모델을 사용하고 피드백을 주면서 중국의 프레임워크나 플랫폼 (예: Alibaba Cloud ModelStudio)을 접하게 되고, 이는 중국이 AI 생태계의 주도권을 일부 잡는 효과를 냅니다. 실제로 중국어 처리에 있어서 서구 모델들보다 중국 모델들이 앞서는 경우가 많아, 중국 및 아시아 지역의 서비스들은 중국 모델을 채택하기도 합니다. 또한 멀티모달 AI, 저비용 훈련 기법 등 특정 기술 영역에서 중국 연구진의 논문과 기술이 세계적으로 큰 주목을 받아, 다른 기업들이 이를 따라하는 사례도 늘고 있습니다. 예컨대 DeepSeek가 채택한 FP8 연산이나 혼합전문가 구조 등은 원래도 연구되던 기법이지만, 이를 통해 효과를 증명해 보임으로써 타 기업들도 유사한 효율화 전략을 고려하게 되었습니다 . 이처럼 중국발 AI 기술 트렌드가 글로벌 의사결정에 영향을 주는 양상이 뚜렷해지고 있습니다.
• 글로벌 AI 패권 경쟁과 중국의 위상: 중국의 AI 굴기는 국제정치적으로도 중요한 의미를 갖습니다. 중국 정부는 2030년까지 AI 세계 1위를 목표로 막대한 투자를 하고 있고 , 이에 대응해 미국은 첨단 AI 칩 수출 규제 등 견제에 나서는 상황입니다 . DeepSeek 사건 이후 미국 상무부 산하 기관이 DeepSeek의 데이터 수집 윤리를 문제 삼아 조사를 시작하고, 미국 해군과 일부 주 정부가 DeepSeek 사용 금지령을 내리는 등 기술 패권 다툼의 양상도 보였습니다 . 중국은 이에 맞서 거대 AI 투자 펀드를 추가 조성하고 반도체 자립을 꾀하는 등 대응하고 있습니다 . 이런 상황에서 중국의 AI 기술력이 높아질수록 글로벌 표준이나 AI 윤리 규범에 대한 주도권 싸움에서도 중국의 발언권이 커지고 있습니다. 실제로 AI 안전 및 거버넌스에 있어서 중국은 2025년 상반기에만 수년간 발표한 것만큼 많은 규정을 쏟아내며 AI 윤리와 규제에도 선도적인 행보를 보이고 있다는 분석이 있습니다  . 한편, 중국의 AI 발전은 개발도상국들에게도 저렴한 AI 기술 접근 기회를 제공해, 글로벌 시장에서 미국 일변도의 기술 종속을 완화하는 효과도 있습니다 . 예를 들어, DeepSeek의 저비용 AI로 인해 대규모 컴퓨팅 파워가 부족한 국가나 기업들도 첨단 AI 활용의 문턱이 낮아졌다는 평가가 나옵니다 . 이는 기술 민주화 측면에서도 의미 있는 변화입니다.
요약하면, 중국의 AI 기술력 향상은 기술적 혁신(저비용 고효율 모델, 멀티모달 발전 등)과 전략적 개방(모델 공개를 통한 영향력 확대), 그리고 국가적 지원에 힘입어 이루어지고 있습니다. 이는 글로벌 AI 경쟁의 구도를 바꾸고 있으며, 미국·유럽을 중심으로 한 기존 질서에 큰 충격과 자극을 주고 있습니다. 앞으로도 중국은 방대한 인구로부터 얻는 데이터, 정부의 강력한 추진력, 기업들의 기술 축적을 바탕으로 AI 분야에서 지속적인 약진을 이룰 가능성이 높으며, 이에 따른 글로벌 기술 주도권 다툼과 협력/경쟁의 양상도 한층 복잡해질 전망입니다.
대한민국 정부의 독자 AI 정책과 기준 모호성
대한민국 정부는 최근 들어 자국 주도의 초거대 AI 개발, 이른바 ‘독자 AI’ 정책을 강력히 추진하고 있습니다. 이는 국가대표 AI 파운데이션 모델 육성 사업 등으로 구체화되고 있는데, 핵심 취지는 해외 기술에 의존하지 않는 한국 자체의 AI 모델을 확보하겠다는 것입니다. 특히 정부는 이러한 사업의 평가 기준으로 “글로벌 AI 모델의 파생형이 아닌, 설계부터 학습까지 모두 자체 수행한 모델”, 즉 앞서 언급한 ‘프롬 스크래치’ 방식을 강력히 요구해왔습니다 . 그러나 이 과정에서 무엇을 독자 모델로 볼 것인지, 어디까지를 파생으로 간주할 것인지에 대한 기준이 명확하지 않다는 지적이 제기되고 있습니다 . 최근 업스테이지의 모델 논란을 계기로 이러한 기준의 모호성 문제가 수면 위로 떠올랐습니다. 주요 쟁점을 살펴보면 다음과 같습니다:
• 독자 모델의 정의 문제: 정부 사업에서 말하는 프롬 스크래치 모델의 정의가 구체적으로 공표되지 않아 혼선이 있습니다. 예를 들어 가중치를 처음부터 학습하면 독자 모델로 볼 것인지, 아니면 모델 구조나 코드까지 모두 새로 작성해야 하는 것인지 기준이 애매합니다 . 업계 다수는 남의 모델 파라미터를 이어받지 않고, 가중치를 0에서 시작해 학습시켰다면 독자 모델로 이해하고 있지만, 일부에서는 오픈소스 모델의 코드나 토크나이저 등을 참고한 것도 독자성이 훼손되는 것인가라는 의문을 제기합니다 . 이번 업스테이지 사례에서, 학계 전문가들까지 나서 “단지 일부 유사성 지표만으로 프롬 스크래치가 아니라고 단정짓는 것은 무리”라고 밝혔듯이  , 독자 개발의 기준을 둘러싼 논의가 필요하다는 목소리가 나옵니다.
• 해외 오픈소스 활용의 허용 범위: 한국 정부가 추진하는 독자 AI 프로젝트에서도 해외 오픈소스 활용이 어디까지 허용될지 불분명하다는 지적입니다 . 예컨대, 모델 학습에 필요한 라이브러리나 프레임워크(PyTorch 등)는 당연히 쓸 수밖에 없는데, 문제는 해외에서 공개된 모델의 일부 아이디어나 코드 조각을 참고하는 것도 제한해야 하는가 하는 점입니다. 업스테이지 사건에서도, 모델 저장 포맷 상에 중국 Zhipu AI의 GLM이라는 문구가 남아있었던 것을 두고 논란이 되었지만, 이는 Apache 2.0 라이선스에 따른 표시 의무 준수였던 것으로 밝혀졌습니다 . 업스테이지 김성훈 대표는 이에 대해 “자체 AI 모델을 개발하더라도 향후 허깅페이스 등 오픈소스 생태계와 호환성을 맞추기 위해 표준화된 라이브러리 코드를 가져와 수정해 사용하는 것은 개발의 상식“이라고 강조했는데 , 과연 이런 부분까지 정부 기준에서 용인하는지 애매하다는 것입니다. 해외 오픈모델의 토크나이저를 참고하거나, 모델 아키텍처에서 검증된 기법을 차용하는 행위 등이 허용 범위에 들어가는지 명확한 가이드라인이 필요합니다.
• 검증 방법과 투명성 수준: 독자 개발 여부를 어떻게 검증할지에 대한 기준도 모호합니다. 단순히 모델 결과물의 유사도 분석만으로는 오판의 소지가 있고, 그렇다고 기업에 학습 전과정을 모두 제출하라고 하기에는 현실적 어려움이 있습니다. 이번 업스테이지의 경우 자발적으로 학습 로그와 중간 체크포인트를 공개하며 독자 학습을 증명했는데  , 이는 이례적인 일이었습니다. 향후 국책 AI 사업에서 참여 기업들이 어느 수준까지 학습 과정을 공개해야 하는지, 정부가 요구할 수 있는 자료의 범위 등이 정립되지 않은 상태입니다 . 예를 들어, 학습에 사용한 데이터셋 목록, 하이퍼파라미터 튜닝 과정, 손실 감소 곡선, 모델 구조 설계 근거 등을 어디까지 투명하게 공개할지에 대한 정책적 합의가 필요합니다. 업계에서는 이번에 업스테이지가 데이터로 직접 증명한 사례가 나온 것을 두고 “기술 논쟁을 말이 아닌 데이터로 검증한 첫 사례”라며 향후 설명 책임과 검증 기준에 선례를 남겼다는 평가를 하고 있습니다  . 이 선례를 바탕으로 정부도 명확한 가이드를 마련해야 할 것입니다.
• 정책 목표 vs. 현실 여건: 정부가 독자 AI를 내세우는 정책적 목표와 산업계의 현실 여건 사이에 괴리가 있다는 지적도 있습니다. 정부는 AI 3강 도약을 위해 우리 기술로 95% 이상 구현된 파운데이션 모델을 요구하지만 , 국내 기업들은 대규모 데이터와 인프라 측면에서 해외 빅테크 대비 제약이 있는 것이 사실입니다. 따라서 완전 독자 개발을 고집하면 오히려 글로벌 경쟁력에서 뒤처질 수 있다는 우려가 나옵니다. 산업계 일각에서는 완벽한 독자 개발만 고집하기보다, 오픈소스를 똑똑하게 활용해 단기간에 성과를 내는 것도 전략이라는 견해를 제시합니다. 실제로 이번 논란에서 사이오닉AI 측도 처음에는 도용 의혹을 주장하다가, 나중에는 “국책 AI 사업에서 해외 코드 활용의 적절성 문제”로 논점을 바꾸는 모습을 보였습니다  . 이는 독자성의 이념적 순수성만을 따질 것이 아니라 실용적 성과와의 균형을 고민하게 합니다. 결국 정부도 궁극적인 목표(글로벌 경쟁력 확보)와 평가 기준(독자성의 정의) 사이에서 현실에 부합하는 유연한 정책 운영이 필요하다는 지적입니다.
정리하면, 한국 정부의 독자 AI 추진은 장기적 기술 자립을 위해 중요하지만, 어디까지를 독자라고 볼 것인가에 대한 기준이 불명확하여 혼선을 빚고 있습니다 . 이번 업스테이지 사례는 이러한 모호한 기준이 불러온 논란이었으며, 다행히 기술 검증을 통해 일단락되었지만  , 앞으로 정부는 명문화된 가이드라인과 투명한 검증체계를 구축해야 할 것입니다. 예컨대, 가중치의 독립성, 코드/데이터 공개 범위, 외부 자산 활용 한계 등에 대한 명시적 합의가 이루어져야 기업들도 혼란 없이 혁신에 집중할 수 있습니다. 독자 AI 정책의 성공을 위해서는 명확한 기준 설정과 산업계와의 소통이 필수적입니다.
Upstage SOLAR 모델과 GLM 모델 유사성 논란 및 해명
국내 AI 기업 업스테이지(Upstage)는 2023년 말 과학기술정보통신부의 ‘독자 AI 파운데이션 모델’ 육성 사업 1차 평가에서 상위 5개 정예팀 중 하나로 선정되어, 자체 개발한 솔라 오픈 100B라는 모델을 공개했습니다 . 그러나 2024년 1월 초, 동종 스타트업인 사이오닉AI의 고석현 대표가 “업스테이지의 솔라 모델이 중국 Zhipu AI의 GLM 계열 모델(일명 GLM-4.5-Air)을 복사해 미세조정한 것 같다”는 의혹을 SNS를 통해 제기하면서 큰 논란이 촉발되었습니다 . 이는 앞서 언급한 정부 독자 AI 사업의 기준과도 관련된 민감한 사안이어서 업계의 이목이 집중되었고, 업스테이지는 곧바로 공개 검증을 통해 의혹을 해명하고 반박하는 자리를 마련하였습니다  . 이 섹션에서는 SOLAR 100B 모델과 GLM 모델 사이의 유사성 논란이 무엇이었고, 업스테이지가 이를 어떻게 해명했는지 정리합니다.
1) 제기된 의혹의 내용: 사이오닉AI 측이 지적한 핵심 근거는 솔라 모델과 GLM 모델 간 일부 매개변수의 높은 유사도였습니다. 구체적으로 LayerNorm(레이어 정규화) 층의 파라미터를 비교한 결과, 코사인 유사도 기준으로 96.8%의 일치도를 보인다는 분석을 내세웠습니다 . LayerNorm은 딥러닝 모델에서 입력 값의 분포를 정규화하여 학습을 안정시키는 기술로, 대부분의 LLM에서 사용되는 핵심 표준 기법입니다 . 일반적으로 서로 다른 모델이더라도 LayerNorm의 초기 값이 1로 세팅되고 학습 과정에서도 값이 크게 변하지 않는 경우가 많아, 별개 모델이라면 동일한 LayerNorm 값이 우연히 일치할 확률은 극히 낮다는 주장이 나왔습니다 . 즉, 사이오닉AI 측은 “정말 처음부터 학습한 모델이라면 LayerNorm 파라미터까지 이렇게 비슷할 리 없다”며, 이는 업스테이지가 GLM 모델의 가중치를 일부 재사용한 것 아니냐는 의혹을 제기한 것입니다  . 더불어 토크나이저(어휘 사전)의 겹치는 부분이나 모델 구조의 유사성 등도 의혹의 근거로 거론되었습니다 .
2) 업스테이지의 즉각 대응: 업스테이지 김성훈 대표는 의혹 제기 후 2시간 만에 “솔라 오픈 100B는 외국 모델 가중치를 전혀 사용하지 않고 처음부터 학습한 모델“이라며 공개 검증회를 열겠다고 선언했습니다 . 그리고 다음 날 실제로 업계 전문가들과 정부 관계자 등 70여 명을 초청하고, 2000여 명이 온라인으로 지켜보는 가운데 학습 로그와 체크포인트를 전면 공개하는 이례적인 검증 행사를 진행했습니다  . 김성훈 대표는 먼저 문제의 LayerNorm 유사도에 대해, 해당 비교가 통계적 착시에 불과하다고 반박했습니다. 그는 “레이어놈 유사성을 근거로 타 모델의 가중치를 재사용했다는 주장은 모델 전체의 0.0004%에 불과한 미세 영역만을 가지고 내린 억측”이라고 지적했습니다  . 실제로 LayerNorm 파라미터는 수백억 개에 달하는 모델 가중치 중 극히 일부에 지나지 않고, 나머지 99.9996%는 완전히 상이하기 때문에 오히려 솔라가 독자 모델임을 보여주는 역설적인 지표라는 설명입니다 . 또한 해당 유사도 수치가 높은 것 자체도 코사인 유사도 지표의 맹점 때문이라고 밝혔습니다. 코사인 유사도는 벡터의 방향만을 비교하는 단순 지표라서, LayerNorm처럼 초기값과 역할이 비슷한 파라미터들은 다른 모델 간에도 높은 값이 나올 수 있다는 것입니다 . 실제로 고려대 통계학과 임성빈 교수 등 전문가들도 “LayerNorm은 구조적으로 서로 다른 모델이어도 유사도가 높게 나올 가능성이 충분하다”며 이 수치만으로 도용을 단정하는 건 무리라는 견해를 내놓았습니다  . 업스테이지 측은 추가로 Pearson 상관계수 등 더욱 엄밀한 통계 지표로 솔라와 GLM의 파라미터를 비교한 결과 상관관계가 거의 없음을 확인(-0.163)했다고 밝혔습니다 . 이는 양 모델이 무관함을 보여주는 하나의 증거입니다.
3) 토크나이저 및 구조에 대한 해명: 두 번째 쟁점으로 제기된 토크나이저(텍스트를 숫자 토큰으로 변환하는 사전)의 유사성 문제에 대해서도, 업스테이지는 데이터 수치로 반박했습니다. 솔라 모델의 어휘 사전 크기는 약 19만 6천 개로, 비교 대상인 GLM 모델의 약 15만 개보다 훨씬 큽니다 . 그리고 겹치는 어휘는 약 8만 개로 41% 수준에 불과한데, 이는 통상 완전히 독립적으로 구축해도 60~70%는 겹치는 게 일반적인 점을 감안하면 오히려 중복률이 낮은 독창적 결과라는 설명입니다  . 김성훈 대표는 “표준 백과사전들 간에도 공통 단어가 많은데 그걸 서로 베꼈다고 하지 않듯, 솔라의 토크나이저는 완전히 새로 구축된 것“이라고 강조했습니다 . 또한 모델 구조 측면에서, 솔라와 GLM이 일부 비슷한 구조나 코드를 갖는다는 지적에 대해서도 상세히 설명했습니다. 업스테이지는 개발 초기에 해외 공개모델인 GPT-3 오픈소스 120B를 글로벌 표준 설계도로 참고한 것은 사실이나, 그대로 쓴 것이 아니라 한국어 최적화 및 효율성 개선을 위해 재설계했다고 밝혔습니다 . 예를 들어 GLM 모델에 들어있던 Dense Layer (GLM 고유의 밀집 계층)는 비효율적이라고 판단해 과감히 제거했고, GPT-3 오픈소스에 없던 Shared Layer를 도입해 학습 안정성을 높이는 등 많은 구조적 차별화가 이루어졌다고 밝혔습니다 . 김성훈 대표는 이를 “건물을 짓는 데 똑같이 네모난 형태일 수는 있어도, 층수나 방 구조, 복도 너비가 완전히 다르다”고 비유하여 설명했습니다 . 즉 겉으로 비슷해 보여도 내부 설계는 완전히 다르다는 것입니다.
4) 소스코드 및 라이선스 논란 해소: 마지막으로, 일각에서 제기된 소스코드 무단 사용이나 라이선스 위반 의혹도 근거 없음을 분명히 했습니다. 김성훈 대표는 “외부 접근이 불가능한 학습 코드를 재사용했다는 주장은 기술적으로 성립할 수 없다”며, 처음부터 업스테이지 자체 코드로 학습했고 애초에 남의 학습 코드를 입수할 방법도 없다고 일축했습니다 . 솔라 모델 오픈소스 저장소에 뒤늦게 GLM 관련 저작권 표시가 추가된 것에 대해서는, “Apache 2.0 라이선스 준수상 원본 코드 저자를 명시해야 해서 기재한 것일 뿐”이라고 설명했습니다 . 즉, 솔라 모델의 추론(inference) 부분 코드 중 오픈소스 라이브러리를 사용한 부분이 있어서 해당 저작권 공지를 추가한 것이고, 이를 마치 GLM 코드를 배꼈다가 들켜서 쓴 것으로 오해하면 안 된다는 입장입니다 . 업스테이지는 “인퍼런스 코드는 서빙 호환성을 위해 Apache 2.0 라이선스에 따라 정당하게 활용한 것“이라며 법적으로도 문제가 없음을 강조했습니다 .
5) 논란의 종결과 여파: 업스테이지의 신속하고 투명한 대응으로 논란은 사실상 일단락되었습니다. 검증회 이후 사이오닉AI의 고석현 대표는 “엄밀히 검증하지 않은 채 공개해 혼란을 야기한 점 사과한다”며 해당 의혹 제기 글을 삭제했습니다  . 그는 직접적 도용 주장 대신, 이후에는 “소버린 AI 방향성과 국책 사업에서 해외 코드 활용의 적절성 문제”로 논점을 바꾸며 한발 물러섰습니다 . 업계 전문가들과 관계자 대부분은 업스테이지 솔라가 처음부터 자체 개발된 모델이라고 보는 데 입을 모았고, 오히려 이번 일을 계기로 국내 AI 기업이 기술 진위를 투명하게 검증한 모범 사례를 만들었다는 평가가 나왔습니다 . 실제로 AI 업계 관계자는 “학습 로그까지 공개한 것은 국내 최초로, 향후 국책 AI 사업에서 책임 있는 검증 기준을 가늠하는 선례가 될 수 있다”고 언급했습니다 . 한편으로 이 논란은 정부의 ‘프롬 스크래치’ 기준이 모호한 점을 부각시켜 , 앞서 5장에서 언급한 바와 같이 정책적 개선 필요성도 드러났습니다. 향후 한국 AI 생태계에서는 이러한 투명성 제고 노력과 함께, 명확한 평가 기준 수립이 병행되어야 할 것입니다.
요약하면, 업스테이지 SOLAR 100B와 중국 GLM 모델 유사성 논란은 LayerNorm 파라미터의 우연한 유사성으로 빚어진 오해였으며, 업스테이지의 적극적인 데이터 공개와 과학적인 해명으로 의혹이 해소되었습니다. 솔라는 프롬 스크래치로 개발된 독자 모델임이 입증되었고, 이번 사건을 통해 국내 AI 개발 역량과 투명성을 대외적으로도 과시하는 계기가 되었습니다. 또한 이 사례는 AI 모델 검증 문화를 한 단계 발전시키고, 독자 AI의 기준과 방향성을 재정립하는 중요한 전환점으로 평가됩니다. 앞으로도 이러한 논란이 재발하지 않도록, 업계와 정부 모두 명확한 원칙 확립과 소통에 힘써야 할 것입니다.
'IT & Tech 정보' 카테고리의 다른 글
| 네이버 하이퍼클로바X ‘프롬 스크래치’ 논란 – 중국 오픈소스 활용과 100% 자체 개발 해명 (0) | 2026.01.06 |
|---|---|
| Korean ‘Sovereign AI’ Project and the “From Scratch” Controversy (0) | 2026.01.05 |
| Controversy Over Upstage’s Solar Open 100B and Chinese GLM-4.5 AI Model (0) | 2026.01.05 |
| 중국제조 2025 주요 산업 한중 경쟁력 비교 및 한국의 대응 전략 (0) | 2026.01.02 |
| China’s Rapid Rise in Advanced Industries – A Comprehensive Analysis (0) | 2026.01.02 |