1. MAGI-1 모델 구현 세부 사항 (아키텍처 및 모듈 구조)

Transformer-VAE 구조: MAGI-1은 **Transformer 기반 변분 오토인코더(VAE)**를 채택하여 비디오 데이터를 효율적으로 압축하고 복원합니다. 이 VAE 인코더-디코더는 컨볼루션 대신 Transformer 블록을 사용하여 공간-시간 패턴을 추출하며, 원본 비디오 대비 8배의 공간 축소와 4배의 시간 축소를 달성합니다. 예를 들어, $H \times W$ 해상도의 $T$프레임 비디오를 입력하면 인코더는 약 $(T/4) \times (H/8) \times (W/8)$ 크기의 잠재 벡터 시퀀스로 변환합니다. 이는 이미지의 경우 Stable Diffusion에서 사용하는 VAE와 유사하게 거친 해상도로 압축하는 개념입니다. 이러한 강한 압축 덕분에 디코딩 속도가 빨라지고(실시간 생성에 유리) 재구성 품질도 경쟁력 있게 유지됩니다. 인코더는 입력 비디오에서 잠재표현 $z$의 분포 $q(z|x)$를 추정하고, 디코더는 $z$로부터 원본 비디오를 복원하도록 학습됩니다. VAE 학습 시 Evidence Lower Bound (ELBO) 최적화가 사용되며, 재구성 오류와 $q(z|x)$와 사전분포 $p(z)$ (일반적으로 다변량 가우시안) 간의 KL 발산 항을 최소화합니다. 즉, 손실 함수는 다음과 같습니다:
$$\mathcal{L}{\mathrm{VAE}} = \mathbb{E}{q_\phi(z|x)}[-\log p_\theta(x|z)] + D_{\mathrm{KL}}[,q_\phi(z|x) \Vert p(z),]$$
여기서 $p_\theta(x|z)$는 디코더의 복원 분포이고, $q_\phi(z|x)$는 인코더의 잠재 분포입니다. Transformer 기반 인코더는 멀티헤드 어텐션으로 프레임들 간 장기 의존성을 포착하며, 공간적 패치들을 시퀀스로 취급해 전역적인 컨텍스트 정보를 잠재에 담습니다. 이에 따라 MAGI-1의 VAE는 단순 합성곱 기반 VAE보다 글로벌한 장면 정보를 더 잘 보존합니다.
Chunk 단위 생성 및 AR 디퓨전 알고리즘: MAGI-1은 자기회귀(Auto-Regressive) 디퓨전 알고리즘으로 동영상을 생성하는 것이 핵심 특징입니다 . 전체 영상을 한 번에 생성하는 대신, **일정 길이의 프레임 묶음(chunk)**을 순차적으로 예측합니다. 기본 설정에서 한 chunk는 24프레임으로 정의되며, 모델은 매 chunk를 하나의 단위로 취급하여 홀리스틱(holistic) 디퓨전 복원을 수행합니다. 각 chunk는 초기에는 무작위 잡음으로 시작하지만, 시간이 진행됨에 따라 점진적으로 노이즈를 제거(denoising)하며 영상을 복원합니다. 중요한 것은 MAGI-1이 시간적으로 인과적인(causal) 방식으로 훈련되었다는 점입니다. 모델은 chunk 내 프레임들에 대해 시간 순서에 따라 노이즈의 세기를 다르게 주입받는데, 초반 프레임일수록 적은 노이즈 (이전까지 생성된 내용과 연속성 유지), 후반 프레임일수록 많은 노이즈(새로운 장면 전개)로 시작하도록 **“단조 증가 노이즈 스케쥴”**로 학습합니다 . 이렇게 함으로써 각 chunk의 첫 부분은 이전 chunk의 연장선으로 부드럽게 이어지고, 후반 부분은 새로운 내용 창조에 집중하도록 모델을 유도합니다.
MAGI-1의 추론(inference) 파이프라인에서는 한 chunk의 복원이 일정 수준 진행되면(next chunk를 조건부로 생성하기에 충분할 만큼 노이즈 제거가 이뤄지면) 다음 chunk 생성을 병렬로 시작할 수 있습니다. 이처럼 최대 4개의 chunk를 동시에 처리하는 파이프라인 병렬화로 인해, 긴 영상도 효율적으로 생성 가능합니다. 아래 그림은 이러한 chunk별 자기회귀 디퓨전 과정을 개념적으로 보여줍니다. 첫 chunk에서 점차 노이즈를 제거하며 프레임들이 나타나고, 완료된 chunk의 마지막 프레임 정보가 다음 chunk로 전달되어 연속성을 보장합니다. 이러한 방식으로 MAGI-1은 스트리밍 비디오 생성(실시간으로 영상을 한 조각씩 이어붙여 생성)과 긴 시간대의 일관성 유지를 동시에 달성합니다.
MAGI-1의 chunk 기반 자기회귀 생성 과정 모식도. 첫 chunk의 프레임들을 디퓨전 과정을 통해 노이즈에서 복원하면(왼쪽부터 오른쪽으로 프레임들의 노이즈가 점차 제거됨), 그 결과를 바탕으로 다음 chunk를 이어 생성한다. 각 화살표는 이전 chunk의 정보가 다음 chunk 생성에 활용되어 시계열적 일관성을 유지함을 의미한다.
디퓨전 Transformer 아키텍처: MAGI-1의 생성 모델 부분은 Diffusion Transformer라는 고급 구조로 구축되어 있습니다. 이는 Stable Diffusion에서 사용하는 U-Net과 유사한 확률적 생성 모델이지만, U-Net 합성곱망 대신 Transformer 블록들을 활용한 것입니다. MAGI-1의 diffusion model은 노이즈 예측기(또는 속도 예측기)로서, 주어진 노이즈 섞인 잠재값과 조건을 입력받아 제거해야 할 노이즈(또는 변화율)를 출력합니다. 이 과정에서 텍스트 조건(프롬프트)은 사전 학습된 T5 인코더를 통해 임베딩으로 제공되어, Transformer의 교차 어텐션을 통해 영상 생성에 반영됩니다.
Architecture 상, MAGI-1 Diffusion Transformer는 다수의 반복되는 병렬 어텐션 블록과 **피드포워드 네트워크(FFN)**로 구성됩니다. 각 블록 내부에서는 두 갈래의 처리가 이루어지는데, 하나는 Block-Causal Self-Attention 경로이고 다른 하나는 Cross-Attention 경로입니다. Block-Causal Attention은 비디오 잠재 토큰들에 대한 self-attention으로, 시간적으로 인과적인 마스킹이 적용됩니다. 이를 통해 특정 프레임의 잠재는 해당 프레임 이전 시점의 정보만 참고하고 이후 프레임은 보지 않도록 합니다. 이러한 설정은 chunk 내에서도 일종의 “순차성”을 부여하여, 프레임들이 미래 정보에 의존하지 않고 생성되게 합니다. 병렬 경로의 다른 한쪽은 텍스트 조건부 Cross-Attention으로, 프레임 잠재들이 텍스트 임베딩 (예: T5 출력)과 어텐션을 수행하여 프롬프트의 의미를 반영합니다. 두 경로의 출력은 합쳐져(bypass 합류) 하나의 FFN에 입력되고, FFN에는 Sandwich Normalization과 SoftCap 게이팅 등의 기법이 적용되어 안정성을 높입니다. 이러한 한 블록이 여러 층 $N$만큼 쌓여 최종적으로 노이즈 예측 결과를 내고, 디퓨전 알고리즘에 따라 iterative하게 노이즈를 제거합니다.
MAGI-1 Diffusion Transformer 블록 구조. 좌측은 반복되는 기본 블록으로, Patch 임베딩으로부터 시작된 잠재 토큰 시퀀스가 Parallel Attention Block과 FFN을 거쳐 출력됩니다. 우측 상단은 FFN에 Sandwich LayerNorm 및 SoftCap Gate가 적용된 모습이고, 우측 하단은 Parallel Attention Block 내부를 보여줍니다. Block-Causal Self-Attention은 각 토큰이 이후 시점 토큰을 보지 않도록 마스킹되어 있고, Cross-Attention은 텍스트 조건과의 어텐션을 수행합니다. 이런 구성으로 MAGI-1은 시간 인과성과 텍스트 조건 반영을 동시에 달성합니다【22†】.
핵심 기술 요소: MAGI-1의 안정적인 학습과 성능을 위해 아키텍처에 몇 가지 혁신적 트릭이 도입되었습니다. 대표적으로, Block-Causal Attention (위 설명) 외에 Parallel Attention (self-attn과 cross-attn을 병렬로 수행하는 구조), QK-Norm 및 Gated Query Attention (GQA), FFN 내 Sandwich Normalization, 활성화 함수로 SwiGLU, 그리고 Softcap Modulation 등이 보고되었습니다. 이들은 대규모 모델 학습 시 수렴 안정성을 높이고 훈련 효율을 개선하는 기법들입니다. 예를 들어, QK-Norm은 어텐션 연산에서 Query-Key 내적값의 분포를 정규화하여 gradient 폭주를 막고 학습을 안정화하며, Sandwich Normalization은 FFN 전후로 LayerNorm을 배치하여 표현값 분포를 조정합니다. 이러한 세부 기술들 덕분에 MAGI-1 (특히 거대 모델인 24억 파라미터 버전)이 스케일 업에도 안정적으로 훈련될 수 있었습니다.
모델 크기와 변형: MAGI-1은 24억(24B) 파라미터의 거대 모델을 기본으로 하며, 이외에도 경량화된 4.5B 파라미터 버전이 제공됩니다. 또한 추론 가속을 위해 Distillation (속도 증류) 기법을 사용한 distill 모델과, 추가로 8비트 부동소수 점 양자화까지 적용한 distill+quant 모델도 공개되어 있습니다. 증류 모델은 **“지속 시간 단축”**을 위해 설계되었는데, 훈련 시 큰 확산 모델의 한 단계(step)를 작은 모델의 두 단계로 흉내 내게 하여(자체 일관성 강제, self-consistency) 여러 스텝 크기에 견딜 수 있는 단일 모델을 만든 것입니다. 이를 통해 다양한 샘플링 스텝에 대해 품질을 유지하면서도 추론 속도를 크게 향상시켰습니다. 예컨대 distill 모델은 fewer denoising steps로도 원본 품질에 근접한 결과를 내므로, 실시간 애플리케이션에 더욱 적합합니다.
요약하면, MAGI-1의 구현은 Transformer VAE로 잠재 공간을 효율화하고, 자기회귀 디퓨전으로 chunk별 동영상을 생성하며, 여기에 다양한 Transformer 최적화 기법을 도입하여 고해상도, 고일관성, 실시간성을 모두 만족시키는 방향으로 설계되었습니다.
2. VideoGPT, Make-A-Video, Phenaki, CogVideo 등 기존 비디오 생성 모델과의 비교 (구조 및 성능)
생성 비디오 모델 분야에서는 다양한 접근 방식이 존재하며, MAGI-1과 대비되는 여러 대표 모델들이 있습니다. 아래에서는 구조적 특징, 성능 지표, 장단점 측면에서 MAGI-1을 주요 모델들과 비교해보겠습니다.
• VideoGPT (2021, OpenAI): VQ-VAE + 트랜스포머 GPT 구조를 사용한 초기 비디오 생성 모델입니다. 3차원 합성곱과 axial self-attention으로 비디오를 불연속 토큰 시퀀스로 인코딩한 뒤, GPT-유형 Transformer로 그 토큰들을 자기회귀적으로 생성합니다 . VideoGPT는 16프레임 내외의 짧은 영상(64×64 해상도 등) 생성에 초점을 맞춰 개발되었으며, BAIR 로봇 팔 동작 예제 등에서 당시 GAN 수준에 견줄만한 샘플 품질을 보였다고 보고되었습니다 . 다만 텍스트 조건 없이 무조건적(unconditional) 또는 프레임 일부 조건으로 작동하며, 생성 길이도 제한적입니다. VideoGPT의 토큰 예측 방식은 시간이 지남에 따라 오차가 누적될 수 있어 긴 영상에는 한계가 있습니다. 반면 MAGI-1은 연속 실수 잠재 공간과 디퓨전으로 움직임을 모델링함으로써, 더 긴 시퀀스에서도 안정적인 품질을 유지합니다. 예를 들어 VideoGPT는 UCF-101 데이터셋 16프레임 생성 실험에서 Fréchet Video Distance (FVD) 약 24.7을 기록했는데, MAGI-1은 더 큰 용량과 개선된 구조로 이러한 FVD를 더욱 낮춰 분포 유사도를 개선했을 것으로 추정됩니다 (아래 벤치마크 참조).
• Make-A-Video (2022, Meta AI): 텍스트-투-비디오 확산 모델로, 대규모 텍스트-이미지 학습을 비디오 생성에 활용한 혁신적인 접근입니다. 이 모델은 텍스트-비디오 페어 데이터 없이도 학습이 가능하도록 설계되었는데, 텍스트-이미지 페어로부터 정적 시각 표현을 학습하고 비디오(무자막) 데이터로부터 움직임 패턴을 별도로 학습하는 두 단계 학습 전략을 취합니다 . 구조적으로는 기본 텍스트-이미지 확산 U-Net을 공간-시간 분해 모듈로 확장하여, 시간 축 차원을 처리하는 Temporal U-Net과 attention 분해를 도입했습니다 . 또한 계층적 생성 파이프라인을 도입하여, 저해상도/저프레임률 비디오를 먼저 생성하고 이를 인터폴레이션 모델 및 슈퍼레졸루션(2단계 업스케일) 모델을 통해 최종 고해상도 동영상으로 변환합니다 . 이러한 Spatial-Temporal pipeline 덕분에 Make-A-Video는 2022년 발표 당시 텍스트-투-비디오 분야 새로운 SOTA 품질을 달성했으며, 자막에 충실하면서도 다양한 스타일의 영상을 생성해냈습니다 . 예를 들어 768×768 해상도의 수 초 길이 영상을 생성할 수 있었으며, 인간 평가에서 사실성 높은 결과를 보였습니다. 하지만 이 모델은 한 번에 영상을 통째로 생성하기 때문에 MAGI-1처럼 스트리밍 생성이나 장면 연속 제어는 어렵습니다. 또 다단계 생성(업스케일 등)을 거치므로 추론 파이프라인이 다소 복잡합니다. MAGI-1은 Make-A-Video와 마찬가지로 확산 기반이라 고화질 영상을 만들 수 있지만, chunk 단위 생성으로 실시간 길이 확장과 장면 전환 제어가 가능하다는 차이가 있습니다.
• Phenaki (2022, Google Research): 초장편 비디오 생성을 위한 Masked Transformer 모델입니다. Phenaki의 가장 큰 특징은 몇 분 길이의 비디오까지 임의 길이로 생성 가능하며, 중간에 프롬프트가 변하는 스토리도 표현할 수 있다는 점입니다 . 이를 위해 두 가지 핵심 요소를 사용했는데, 첫째로 CV-VAE 기반 비디오 토크나이저를 개발하여 영상을 불연속 토큰 시퀀스로 강력하게 압축했습니다 . 이 토크나이저는 동적 길이의 비디오도 처리할 수 있게 시간 축에 인과적 어텐션을 사용하여, 하나의 사전으로 다양한 길이의 토큰 시퀀스를 생성합니다 . 둘째로, 양방향 마스킹 Transformer를 활용했습니다. 텍스트 임베딩을 조건으로 하는 마스크드 비디오 변환기가 주어진 프롬프트 시퀀스로부터 비디오 토큰을 생성하며, 이는 이미지 분야의 MaskGIT과 유사하게 순차적이 아닌 병렬적 토큰 생성으로 동작합니다 . 이러한 구조 덕분에 Phenaki는 시간 가변적인 프롬프트를 받아들여 스토리 전체를 한 번에 생성할 수 있고, 필요에 따라 프레임 수를 유연하게 늘릴 수 있습니다 . 실제로 논문에서는 2분 28초 길이의 연속 영상까지 생성한 데모를 보여주었습니다  . 다만 Phenaki는 출력 해상도가 비교적 낮고 (주로 256×256 수준) 세부 화질이 한계가 있었으며, 연구 프로토타입으로 공개 모델이 제공되지 않았다는 제약이 있습니다. MAGI-1과 비교하면, Phenaki는 완전한 Transformer 토큰 생성 방식으로 초장편 영상에 강점이 있지만, MAGI-1은 확산 모델의 고화질 장점과 chunk AR에 의한 유연성을 택한 것입니다. 또한 MAGI-1은 공개되어 누구나 실험해볼 수 있다는 실용적 이점이 있습니다.
• CogVideo (2022, Tsinghua Univ.): 대용량 GPT-유형 텍스트-투-비디오 생성 트랜스포머로, 파라미터가 **90억 개(9B)**에 달하는 거대 모델입니다 . CogVideo의 특징은 선행 텍스트-이미지 모델인 CogView2의 학습된 지식을 **계승(inherit)**하여 학습 비용을 절감했다는 점입니다 . 구체적으로, 사전에 학습된 CogView2의 VQ-VAE와 일부 가중치를 초기화에 활용하고, 여기에 멀티-프레임 레이트 학습 전략을 도입하여 서로 다른 프레임 간격으로도 텍스트-영상 정합을 맞추도록 훈련했습니다 . 이러한 전략으로 텍스트와 영상 클립의 정합도를 높였고, 그 결과 기계평가(FID, FVD 등)에서 SOTA에 가깝고 사람 평가에서 기존 공개 모델들 대비 월등한 성능을 보였다고 보고되었습니다  . CogVideo는 2022년 중 공개되어 오픈소스로 이용 가능했으며, 다양한 입력 프롬프트에 대한 영상을 생성해냈습니다. 장점은 단일 거대 변환기로 비교적 텍스트-영상 일치도가 높고, 높은 해상도의 프레임을 생성 가능했던 점입니다. 그러나 동영상 전부를 한 시퀀스로 생성하므로 긴 영상에서는 문맥 유실 및 해상도 저하 문제가 있고, 거대 모델 특성상 추론 속도가 느리고 메모리 요구량이 큽니다. MAGI-1과 비교하면, CogVideo는 VAE 압축을 사용했지만 chunk 개념은 없어서 실시간 스트리밍에는 부적합하고, MAGI-1이 도입한 블록 인과 어텐션 등의 최신 안정화 기법이 부재합니다. 결과적으로 MAGI-1은 CogVideo 대비 동일 공개 데이터셋 기준으로 인간 평가 우위를 점하고 있고, 프레임 시퀀스의 물리적 움직임도 더 자연스러운 것으로 나타났습니다.
以上의 비교를 표로 요약하면 다음과 같습니다.
모델 (연도) 아키텍처 및 접근법 특장점 및 한계
VideoGPT (2021) VQ-VAE로 비디오를 디스크리트 토큰화 + GPT Transformer 자기회귀 생성  간결한 구조로 짧은 무조건 영상 생성에 성공. GAN 수준 품질 . 그러나 장기 종속 학습 한계, 텍스트 조건 지원 없음.
Make-A-Video (2022) 텍스트-이미지 확산모델 활용 + 시간 U-Net 모듈 추가, 다단계 업샘플링 파이프라인  텍스트-투-비디오 SOTA (2022) 달성, 텍스트-영상 페어 불필요 . 고해상도 출력 가능. 하지만 글로벌 생성만 지원해 스트리밍 어려움, 추론 복잡.
Phenaki (2022) 양방향 Masked Transformer + 불연속 비디오 토큰 (CV-VAE로 추출)  임의 길이 비디오 및 스토리 프롬프트 생성 가능 . 효율적 토큰화로 긴 영상 처리. 다만 해상도 낮고 미공개(연구용).
CogVideo (2022) 거대 Transformer (9B), CogView2 텍스트-이미지 모델 지식 재사용, 멀티 프레임율 학습  대용량 사전학습 덕에 텍스트-영상 정합 우수, 공개 모델 중 상위 품질. 그러나 자원 요구 큼, 오픈소스 1세대로 최신 기법 부재. 긴 영상에 한계.
MAGI-1 (2025) Transformer VAE 잠재 압축 + Latent Diffusion (chunk 단위 AR) 실시간 스트리밍 및 장면 제어 지원 (chunk 생성) , 오픈소스 SOTA 품질 (휴먼/물리 평가 1위). 추론 빠르고 확장성 높음.
표: MAGI-1과 대표적인 비디오 생성 모델들의 비교. MAGI-1은 Diffusion 기반의 최신 기법으로, 이전 세대(비디오용 GPT, 순차 Transformer 등)의 한계를 극복하여 고품질 장면묘사와 긴 시간 일관성을 동시에 달성하고 있습니다. 특히 스트리밍 생성과 제어 가능성 측면에서는 MAGI-1이 현존 모델 중 돋보이는 위치에 있습니다.
3. MAGI-1의 활용 사례 및 벤치마크 성능 (생성 품질 지표 등)
활용 및 응용 사례: MAGI-1은 공개 이후 다양한 이미지-투-비디오 (I2V) 및 텍스트-투-비디오 (T2V) 실험에 활용되고 있습니다. 예를 들어, Sand AI의 공개 데모 사이트(sand.ai)를 통해 사용자는 간단한 문장 프롬프트만으로도 MAGI-1을 이용한 동영상 생성 기능을 체험할 수 있습니다. 또한 제공된 파이프라인은 조건부 생성 모드들을 지원하는데, --mode i2v로 이미지를 주면 해당 정지화상을 시작으로 이어지는 영상을 만들거나, --mode v2v로 기존 영상 클립을 입력하면 그 뒤를 이어서 계속되는 영상을 생성할 수 있습니다. 이러한 비디오 연속 생성 (video continuation) 능력은 MAGI-1의 chunk 자기회귀 특성 덕분에 가능한 것으로, 예를 들어 물리 시뮬레이션 장면에서 공이 구르는 첫 장면을 입력하면 이후 물리법칙을 예측하며 연속된 굴림 영상을 만들어냅니다. 실제로 MAGI-1 논문에서는 이러한 비디오 연장 능력을 활용하여 영상 속 물체의 미래 거동을 예측하는 실험을 했고, “물리적 일관성(Physical IQ)” 측면에서 뛰어난 정확도를 보였다고 합니다. MAGI-1은 또한 씬(scene)별 프롬프트 제어가 가능하여, 사용자 지시에 따라 일정 프레임 단위로 프롬프트를 바꾸어가며 영상 내용이 부드럽게 전환되도록 할 수 있습니다 . 이는 긴 동영상을 생성하면서 중간 중간 줄거리를 바꾸거나 새로운 캐릭터를 등장시키는 등 스토리telling 응용에 유용합니다. 요약하면, MAGI-1은 크리에이티브 비디오 생성부터 과학적 시뮬레이션까지 폭넓게 응용될 수 있으며, 특히 실시간 스트리밍 콘텐츠 생성이나 인터랙티브 영상 분야에 새로운 가능성을 제시합니다.
벤치마크 성능 지표: MAGI-1의 성능은 다양한 평가에서 입증되었습니다. 우선 정량적 품질 평가로는 Fréchet Video Distance (FVD) 등이 사용될 수 있습니다. FVD는 생성된 영상 분포와 실제 데이터 분포 간 거리를 측정하는 지표로, 값이 낮을수록 실제와 가깝다는 것을 의미합니다 . MAGI-1이 학술 벤치마크에서 기록한 정확한 FVD 수치는 현재 공개된 기술 보고서에 명시되어 있지는 않지만, 관련 선행 연구들을 고려하면 최고 수준일 것으로 예상됩니다. 예를 들어, 이전 모델인 VideoGPT가 UCF-101 (16프레임 짧은 영상) 기준 FVD 약 25를 기록했고 TATS나 StyleGAN-V 등의 모델도 20대 중후반 정도를 보이는 반면, MAGI-1은 훨씬 대규모 데이터로 학습되고 확산 기반의 고품질 프레임을 생성하므로 FVD를 큰 폭으로 개선했을 가능성이 큽니다. 실제 MAGI-1 연구진은 별도의 인간 평가를 수행하여, Wan-2.1, Hailuo, HunyuanVideo 등 공개된 최신 모델들과 비교했을 때 지시된 프롬프트 구현 정확도와 움직임 품질 면에서 MAGI-1이 가장 우수하다는 결과를 보고했습니다. 이는 곧 MAGI-1이 텍스트 조건을 충실히 반영하면서도 시공간적 자연스러움이 뛰어난 영상을 만든다는 뜻입니다. 또한 폐쇄형 상용 모델과 견주어도 손색이 없으며, 특히 중국 Kuaishou의 Kling-1.6 등에 필적하는 수준이라고 언급됩니다.
보다 흥미로운 평가는 **“물리적 평가”**라는 벤치마크로, 이는 영상의 물리 법칙 일관성을 측정한 것입니다. MAGI-1은 주어진 영상의 뒷부분을 이어서 생성하는 작업에서 물체의 운동을 정확히 예측해내는지를 시험받았고, 그 성능을 Phys. IQ Score, Spatial IoU, Spatio-Temporal IoU 등의 지표로 나타냈습니다. 아래 표는 MAGI-1과 다른 모델들의 물리 예측 성능을 비교한 것으로, 값이 높을수록 (또는 MSE는 낮을수록) 더 정확한 예측임을 의미합니다. MAGI-1 (특히 video-to-video 연속 생성 모드)은 모든 지표에서 다른 공개 모델들을 크게 앞질렀으며, 특히 운동 정확도와 시공간 IoU 측면에서 2배 가까운 점수 차이를 보입니다. 이는 MAGI-1의 자기회귀적 시간모델링이 단발성 생성보다 일관된 물리 추론을 가능케 함을 시사합니다.
물리 예측 벤치마크 (Video Continuation):
모델 (V2V) Phys. IQ ↑ Spatial IoU ↑ Spatio-Temporal IoU ↑ MSE ↓
MAGI-1 (V2V) 56.02 0.367 0.270 0.005
VideoPoet (V2V) 29.50 0.204 0.164 0.010
모델 (I2V) Phys. IQ ↑ Spatial IoU ↑ Spatio-Temporal IoU ↑ MSE ↓
MAGI-1 (I2V) 30.23 0.203 0.151 0.012
Kling-1.6 (I2V) 23.64 0.197 0.086 0.025
VideoPoet (I2V) 20.30 0.141 0.126 0.012
Gen-3 (I2V) 22.80 0.201 0.115 0.015
Wan-2.1 (I2V) 20.89 0.153 0.100 0.023
Sora (OpenAI I2V) 10.00 0.138 0.047 0.030
Ground Truth 100.0 0.678 0.535 0.002
표: MAGI-1의 물리적 영상 연속성 평가 (상: Video-to-Video, 하: Image-to-Video). MAGI-1은 V2V 시나리오에서 Phys. IQ 56.0으로 2위 모델(29.5) 대비 크게 높고, I2V 시나리오에서도 가장 높은 점수를 기록했다. IoU 지표들도 MAGI-1이 타 모델 대비 월등하며, MSE(픽셀 단위 오류)는 가장 낮다. 이를 통해 MAGI-1이 움직임 예측 및 지속성 면에서 현존 최고 수준임을 알 수 있다.
전반적으로, MAGI-1은 **정성적 평가(사용자 선호도)**와 정량적 지표(FVD, IoU 등) 모두에서 최첨단 성능을 시현하고 있습니다. 특히 생성 영상의 다양성, 선명도, 프롬프트 충실도, 시간적 일관성 측면에서 고른 우수성을 보여, 텍스트-투-비디오 연구 커뮤니티와 산업 응용 모두에 큰 주목을 받고 있습니다.
4. Transformer-VAE 구조의 수학적 기반 (잠재 공간 확률모델링 및 어텐션 메커니즘)
잠재 공간 확률 모델링: MAGI-1의 핵심인 Transformer 기반 VAE는 확률적 생성 모델로서, 입력 영상 $x$를 저차원 잠재 변수 $z$로 변환하고 다시 복원함으로써 데이터 분포를 모델링합니다. 수학적으로 VAE는 변분추론을 통해 후행 분포 $q_\phi(z|x)$ (인코더)와 생성 분포 $p_\theta(x|z)$ (디코더)를 학습합니다. 앞서 소개한 ELBO 수식에서 볼 수 있듯이, 인코더는 입력에 대한 잠재표현의 평균과 분산을 예측하여 잠재 확률분포를 정의하고, 학습 시에는 reparameterization trick을 통해 무작위 샘플 $z \sim q_\phi(z|x)$을 뽑아 디코더 복원 오차를 계산합니다. 이때 KL 발산 항 $\mathrm{KL}[q_\phi(z|x)\Vert p(z)]$는 인코더가 산출하는 posterior $q_\phi(z|x)$가 사전 분포 $p(z)$와 가까워지도록 유도합니다. 보통 $p(z)$는 다변수 표준 정규분포 $\mathcal{N}(0,I)$로 두므로, 훈련이 잘 되면 $z$는 근사적으로 정규분포를 따르게 됩니다. MAGI-1에서는 이렇게 학습된 VAE를 통해 영상 공간을 연속 잠재 공간으로 변환하며, 이 잠재 공간에서 확률적 샘플링 및 디퓨전 모델링이 이루어집니다. 특히 MAGI-1은 잠재 공간에서 chunk 단위로 동영상을 생성하므로, VAE가 프레임들 간 시간적 상관관계까지 포착하는 것이 중요합니다. 이를 위해 시간축까지 고려한 인코더가 사용되며, 각 잠재 $z$ 벡터에는 해당 chunk 내 여러 프레임의 정보가 응축됩니다. VAE 인코더가 영상을 8×4 축소한다고 할 때, 4개의 연속 프레임이 1개의 잠재 프레임으로 합쳐지는 셈이어서, 인코더는 내부적으로 3D 콘볼루션이나 시간축 어텐션을 통해 인근 프레임 특징을 융합할 것입니다. 이렇게 얻어진 잠재 시퀀스에 대해 MAGI-1은 **확산 확률 모델 p(z)**를 학습시키는데, 이는 사실상 명시적 수식으로 주어지는 것이 아니라 신경망(Transformer)에 의해 암묵적으로 모델링됩니다. 확산 모델 훈련은 전방 과정 $q(z_t|z_{t-1})$로 점진적 노이즈 추가, 역방향 모델 $p_\theta(z_{t-1}|z_t)$로 노이즈 제거를 학습시키는 형태로 진행되며, 손실 함수는 분산된 시간 step마다 (예: $L_2$ norm으로) 노이즈 예측 오차를 최소화하는 방식입니다. 이러한 훈련을 통해 Transformer는 **임의의 표준정규 잠재 $z_T$**에서 시작해 **원본 영상 분포에 가까운 $z_0$**를 복원하는 확률 경로를 학습합니다. 궁극적으로 MAGI-1의 확산 Transformer는 $p_\theta(z)$ (사후분포 추정)을 모델링하는 역할을 하고, VAE 디코더가 $p_\theta(x|z)$를 구현하므로, 합성적으로 $p_\theta(x) = \int p_\theta(x|z)p_\theta(z)dz$ 형태의 복잡한 영상 생성 분포를 표현할 수 있게 됩니다.
멀티헤드 어텐션 메커니즘: Transformer의 기본 구성요소인 멀티헤드 어텐션은 MAGI-1 모델의 공간-시간 패턴 학습의 핵심 수단입니다. 수식으로 어텐션은 Query ($Q$), Key ($K$), Value ($V$) 세 행렬간의 가중합으로 표현되며, 한 헤드의 출력은:
$$\mathrm{Attention}(Q, K, V) = \mathrm{softmax}!\Big(\frac{QK^T}{\sqrt{d_k}}\Big),V$$
로 정의됩니다. 여기서 $d_k$는 key 벡터의 차원입니다. $\mathrm{softmax}$ 부분은 $Q$와 $K$의 내적 유사도를 정규화하여 어텐션 가중치를 얻고, 이를 $V$에 가중합하여 출력 특성을 계산합니다. 멀티헤드 어텐션은 이러한 과정을 병렬적으로 $h$개 헤드에 대해 수행하여 서로 다른 표현 서브공간에서 패턴을 추출한 후, 최종적으로 이를 합치는 방식입니다. MAGI-1의 Transformer 블록들은 이 멀티헤드 어텐션을 활용하여 시공간 토큰들 간의 복잡한 상호의존성을 포착합니다. 예를 들어, 한 프레임 내의 공간적 패치들 간 관계뿐 아니라, 연속 프레임 간 운동의 연속성도 어텐션을 통해 학습됩니다. 특히 Block-Causal 어텐션의 경우, 어텐션 weight 계산 시 시간 차원에 마스크를 적용해, 각 Query 토큰이 자신보다 미래 시점의 Key/Value 토큰을 참조하지 못하도록 합니다. 이러한 시간 마스킹은 $QK^T$ 계산 시 미래 토큰 간 유사도를 –∞로 두어 softmax 가중치가 0이 되게 처리하는 방식으로 구현됩니다. 이를 통해 Transformer는 자연스러운 시간 순서를 배우며, chunk 내에서도 마치 한 프레임씩 순차적으로 그려나가듯이 정보를 처리합니다. 반면 공간 차원에서는 마스킹이 없으므로 같은 프레임 내에서는 전역 패치 정보를 모두 주고받아 장면의 일관성을 유지합니다.
MAGI-1에서 어텐션은 텍스트 조건을 처리할 때도 쓰입니다. Cross-Attention에서는 영상 잠재 토큰이 Query가 되고, 텍스트 임베딩 시퀀스가 Key/Value 역할을 합니다. 이 경우 softmax 가중치는 각 비디오 위치가 어떤 텍스트 토큰에 주목해야 하는지를 나타내며, Transformer는 이를 통해 설명과 영상 구성 간 대응관계를 형성합니다. 예를 들어 프롬프트에 “파란 셔츠 입은 남자가 달린다”라고 주어지면, “파란 셔츠”라는 임베딩에 해당하는 Key와 유사도가 높은 영상 잠재들이 이미지 내 사람의 상의 부분으로 어텐션이 몰리고, “달린다”라는 Key에는 다리와 주변 배경의 움직임 관련 잠재들이 어텐션을 두게 될 것입니다. 이러한 교차 어텐션 메커니즘 덕분에 MAGI-1은 섬세한 텍스트 지시사항도 영상에 반영할 수 있습니다.
Transformer-VAE 결합의 의의: Transformer와 VAE의 결합은 수학적으로 잠재 공간 상의 자기회귀 확률 모델로 해석할 수 있습니다. 전통적인 VAE는 $p(z)$를 단순 정규분포로 가정하지만, MAGI-1에서는 Transformer가 이 $p(z)$의 복잡한 구조(시공간 종속성)를 모델링하므로 명시적 사전 분포는 존재하지 않게 됩니다. 대신 Transformer 자체가 학습된 사전 역할을 하며, 결과적으로 MAGI-1은 하나의 거대한 합성 모델로 볼 때 모든 프레임 픽셀의 조인트 분포 $p(x_{1:T})$를 인코더-디코더-확산 과정을 통해 표현하게 됩니다. 이는 수식으로 직접 쓰기는 어렵지만, 구성 요소별로 쪼개어 보면 (1) 인코더 $q(z|x)$가 존재하고 (2) Transformer 확산모델 $p_\theta(z)$와 디코더 $p_\theta(x|z)$가 결합된 형태로, 변분 원리상 $p_\theta(x)$를 최대화(ELBO 최대화)하도록 학습된 것입니다. 따라서 MAGI-1의 Transformer-VAE는 확률론적 관점에서 잠재 공간의 시계열적 확률분포 $p(z_{1:N})$ (여기서 $N$은 chunk 내 잠재토큰 길이)을 학습한 것이며, 이 분포는 각 chunk의 앞뒤 문맥이 자연스럽게 연결되도록 설계되어 있습니다. 이러한 접근은 교차 엔트로피 최소화 또는 확률적 그래픽 모델 측면에서 볼 때, 기존 프레임 단위 AR 모델보다 더 큰 시퀀스를 한 번에 최적화하므로 **노출편향(exposure bias)**이 줄고, VAE가 압축으로 도와주기 때문에 샘플링 다양성은 확보하면서도 고해상도 세부묘사를 유지할 수 있다는 이점이 있습니다.
요컨대, MAGI-1의 Transformer-VAE는 확률 모델링(Variational inference)과 어텐션 기반 딥러닝의 장점을 결합한 구조입니다. 수학적으로 엄밀한 해석이 어려울 정도로 복잡한 구성이나, 부분부분 뜯어보면 VAE의 잠재 확률변수 모델링 원리와 Transformer의 어텐션 기반 시퀀스 함수가 정교하게 맞물려 동작하고 있습니다. 이는 최신 생성 모델이 지닌 다층적 수학 구조를 잘 보여주는 예라고 하겠습니다.
5. MAGI-1의 발전사: 이전 세대 모델과의 차별점 (MAGI-0 등과 비교)
MAGI-1이 등장하기까지, 자기회귀 비디오 생성 분야에는 여러 아이디어와 시도가 있었습니다. MAGI-1이라는 이름에서도 알 수 있듯이, 이 모델은 이전 세대의 기법들을 토대로 발전한 차세대 버전입니다. 사용자 질문에 언급된 MAGI-0은 공식적으로 공개된 모델은 아니지만, 유사한 구조 또는 이전 버전의 접근법을 지칭하는 것으로 볼 수 있습니다. 여기서는 MAGI-1과 선행 접근법들의 차별점을 정리합니다.
1. Frame-level AR vs Chunk-level AR: 과거의 자기회귀 영상 생성은 주로 한 번에 한 프레임씩 생성하는 방식이 많았습니다. 예를 들어 2022년 경 발표된 MaskViT이나 2023년 초 마이크로소프트의 Masked Autoregressive Video Generation (MAGI) 논문에서는 마스킹 기법을 통해 이전 프레임들을 기준으로 다음 프레임을 채워넣는 식의 생성을 했습니다. 이러한 프레임 단위 AR은 구현이 비교적 간단하고 각 스텝마다 짧은 피드포워드로 진행되지만, 긴 시퀀스의 경우 오류 누적 문제가 컸습니다. 한 프레임의 예측 오차가 다음 프레임 생성에 영향을 미치고, 다시 그 오차가 누적되는 exposure bias 때문에, 100프레임 이상의 영상을 만들면 후반부는 품질 저하나 내용 왜곡이 발생하곤 했습니다. 반면 MAGI-1은 chunk 단위(24프레임)로 한번에 생성하므로, 한 chunk 내에서는 오류가 누적되지 않고 동시 최적화됩니다. 또한 chunk끼리는 오버랩 없이 이어붙이지만 앞 chunk의 마지막 상태를 고려하므로, 오류 전파를 효과적으로 차단합니다. 결과적으로 MAGI-1은 이전 프레임별 AR 방식보다 장시간 영상에서 안정적인 모션 지속성을 보여줍니다. 이는 실험적으로도 100프레임 이상 코히런스 유지를 달성한 것으로 나타났습니다.
2. Diffusion 기반 생성 vs 직접 예측: 이전의 MAGI-0 격인 모델이나 CogVideo 같은 Transformer AR 모델은 다음 프레임(또는 다음 토큰)을 직접 예측했습니다. 이는 확률 모델 관점에서 $p(x_{t+1}|x_{\le t})$를 한 단계씩 모델링한 것이며, 손실 함수로는 통상 cross-entropy(토큰일 경우)나 픽셀 L2 등이 사용됐습니다. 이와 달리 MAGI-1은 Diffusion(확산) 기반으로 전환했습니다. 확산 모델은 denoiseing score matching 원리에 기반하여, 매 스텝 작은 노이즈를 제거하도록 학습되므로 안정적인 생성 경로를 제공합니다. 특히 복잡한 분포 전환에도 강인하며 모드 붕괴가 적습니다. MAGI-1은 이러한 Diffusion을 채택함으로써, 기존 AR 모델들이 어려움을 겪던 다양한 움직임 모드도 포괄할 수 있게 되었습니다. 예컨대 사람의 걸음걸이 영상 생성 시, 이전 AR은 평균적인 걸음모양으로 수렴하거나 엉뚱한 포즈로 튀는 경우가 있었으나, 확산 기반 MAGI-1은 여러 가능 경로를 시도하며 자연스러운 걸음 시퀀스를 얻을 확률이 높습니다. 또한 Diffusion은 iterative refinement 특성상 세부 묘사 품질이 우수한데, 이는 MAGI-1의 출력 프레임들이 고해상도에서도 선명한 한 요소입니다. 요약하면, 직접 예측 → 확산 개선의 변화는 MAGI-1의 큰 향상 포인트입니다.
3. 잠재 공간 활용: 선행 비디오 생성 모델 중에는 잠재 공간을 사용하지 않고 픽셀 공간에서 직접 작업하는 것들도 있었습니다. 예를 들어 첫 세대 텍스트-투-비디오 확산인 Imagen Video나 기본 VDM 등은 고해상도 프레임을 직접 3D U-Net으로 생성했기에 연산량과 메모리 소모가 막대했습니다 . 이후 MagicVideo 등에서 latent 공간 개념이 도입되기 시작했는데 , MAGI-1은 이를 더욱 발전시켜 Transformer 기반 VAE라는 독자적 모듈을 사용했습니다. MAGI-1 이전의 VAE들은 주로 Conv 또는 3D Conv 기반이었지만, MAGI-1은 Transformer VAE로 보다 높은 압축률과 전역 정보 유지력을 얻었습니다. 특히 8x/4x 압축은 이전 공개 모델들 대비 상당한 수준으로, 예를 들어 Microsoft의 NUWA-XL 등이 수백 프레임 생성을 위해 “diffusion over diffusion”으로 프레임을 여러 단계로 나눴던 것과 달리 , MAGI-1은 한 번의 잠재 샘플링으로 24프레임을 커버할 수 있게 한 것입니다. 이 차별점은 효율성과 긴 영상 생성 가능성을 크게 높였습니다.
4. 스케일 및 최적화 기법: MAGI-1은 24억 파라미터로, 이전 공개 모델들보다 현저히 큽니다. 예를 들어 CogVideo 9B, Make-A-Video 추정 약 5B, Phenaki도 수억~수십억 수준으로 알려졌는데, MAGI-1은 24B라는 초대형 모델을 공개했다는 점에서 파격적입니다. 이렇게 규모를 키우면서도 안정적 동작을 위해, 앞서 소개한 Block-Causal Attention, Sandwich Norm, QK-Norm 등 여러 최적화 기법을 적용한 것도 차별점입니다. 이러한 기법들은 대부분 2023년에 발표된 최신 Transformer 기술로, 이전 세대 모델들은 탑재하지 못했던 것들입니다. 결과적으로 MAGI-1은 학습 안정성 면에서 이전 모델들 대비 우수하여, 더 많은 데이터를 학습시키고도 모범적으로 수렴했습니다. 또한 증류(distillation) 기법으로 파생 모델까지 제공한 것도 발전된 부분입니다 – 이전에는 원본 모델 자체만 공개되거나 아예 공개되지 않은 경우도 많았으나, MAGI-1 팀은 실제 활용까지 고려하여 경량화 모델까지 갖춘 것입니다.
5. 오픈소스와 접근성: 발전사의 마지막 포인트로, MAGI-1은 완전한 오픈소스로 공개되었다는 점을 들 수 있습니다. 이는 연구 커뮤니티와 메이커층에 큰 영향을 주고 있습니다. 과거 Phenaki나 Make-A-Video 같은 경우 코드와 모델 가중치가 공개되지 않아 재현이 어려웠지만, MAGI-1은 HuggingFace 등을 통해 누구나 다운로드 받고 실행해볼 수 있게 한 첫 대규모 모델입니다. 이러한 개방성은 앞으로 MAGI-1을 기반으로 한 파인튜닝이나 응용 개발을 가속할 것으로 보입니다. 요컨대 MAGI-1은 단순한 모델 성능 향상뿐만 아니라 개방형 생태계 기여 측면에서도 이전 세대와 구별됩니다.
정리하면, MAGI-1은 이전 세대 AR 비디오 생성 모델들이 가진 프레임별 생성, 직접 예측, 낮은 압축, 작은 규모 등의 한계를 인지하고, 이를 chunk 병렬 생성, 확산 모델 접목, 고압축 Transformer-VAE, 대규모 파라미터 및 최신 최적화 기법으로 혁신한 결과라고 볼 수 있습니다. 이러한 발전 덕분에 MAGI-1은 높은 화질과 긴 영상 생성이라는 두 마리 토끼를 잡았고, 향후 실시간 영상 생성 AI의 한 기준을 세운 모델로 평가받고 있습니다.
출처: SandAI MAGI-1 기술 보고서, HuggingFace 공개 코드, OpenAI VideoGPT 논문 , Meta Make-A-Video 논문  , Google Phenaki 보고  , Tsinghua CogVideo 논문 , MAGI (Masked AR Video Generation) 논문 리뷰 등.
'IT & Tech 정보' 카테고리의 다른 글
행동이 먼저이고 뇌는 그다음 변한다: 신경과학적 탐구 (0) | 2025.04.24 |
---|---|
xAI Grok-1.5V 카메라 기반 비주얼 분석 심층 조사 (0) | 2025.04.23 |
중국 AI 칩 기술 보고서 (0) | 2025.04.23 |
AI를 통한 신약 개발 가속화: 현황과 심층 분석 (0) | 2025.04.23 |
일 방문자 1,000명 블로그의 평균 vs 상위권 애드센스 수익 분석 (0) | 2025.04.22 |