하드웨어/IT 뉴스

이제 6GB VRAM의 게이밍 GPU로 AI 영상 생성 가능

컴덕지니 2025. 4. 21. 22:38
728x90
반응형

[ChatGPT를 이용해 번역한 글입니다. 원문은 글 하단에 기재된 링크를 참고하시기 바랍니다]

 

비디오 확산을 대중에게 제공

 

Lvmin Zhang은 Stanford University의 Maneesh Agrawala와 협력하여 이번 주에 FramePack을 소개했습니다. FramePack은 고정된 길이의 시간적 맥락을 사용하여 더 효율적인 처리를 가능하게 하여 더 길고 고품질의 비디오를 생성할 수 있게 해주는 비디오 확산의 실용적인 구현을 제공합니다. FramePack 아키텍처로 구축된 130억 매개변수 모델은 6GB의 비디오 메모리만으로 60초 길이의 비디오 클립을 생성할 수 있습니다.

 

FramePack은 다단계 최적화 기술을 사용하는 신경망 아키텍처로, 로컬 AI 비디오 생성이 가능하게 합니다. 현재 FramePack GUI는 Hunyuan 기반의 모델을 사용하지만, 연구 논문에 따르면 기존의 사전 학습된 모델을 FramePack을 사용하여 미세 조정할 수 있다고 언급되고 있습니다.

반응형

일반적인 확산 모델은 이전에 생성된 노이즈가 있는 프레임에서 다음으로 조금 덜 노이즈가 있는 프레임을 예측합니다. 각 예측에 대해 고려되는 입력 프레임의 수를 시간적 맥락 길이(temporal context length)라고 하며, 이는 비디오 크기와 함께 증가합니다. 표준 비디오 확산 모델은 12GB의 VRAM을 요구하는 경우가 많습니다. 적은 메모리로도 처리할 수 있지만, 그만큼 더 짧은 클립, 낮은 품질 및 긴 처리 시간이 필요합니다.

 

FramePack은 입력 프레임을 중요도에 따라 고정 크기의 맥락 길이로 압축하여 GPU 메모리 오버헤드를 대폭 줄여줍니다. 모든 프레임은 맥락 길이의 상한선에 도달할 수 있도록 압축되어야 하며, 저자들은 계산 비용이 이미지 확산과 유사하다고 설명합니다.

 

FramePack은 "드리프트" 현상을 완화하는 기술을 결합하여, 비디오 길이가 길어지더라도 품질 저하 없이 긴 비디오 생성을 제공합니다. 현재 FramePack은 FP16과 BF16 데이터 형식을 지원하는 RTX 30/40/50 시리즈 GPU에서 작동합니다. Turing 및 이전 아키텍처에 대한 지원은 확인되지 않았으며, AMD/Intel 하드웨어에 대한 언급도 없습니다. 또한 Linux가 지원되는 운영 체제 중 하나입니다.

 

RTX 3050 4GB를 제외한 대부분의 현대 RTX GPU는 6GB 기준을 충족하거나 초과합니다. 속도 측면에서는 RTX 4090이 최적화된 teacache를 사용하여 초당 0.6프레임을 생성할 수 있으므로, 그래픽 카드에 따라 성능 차이가 있을 수 있습니다. 비디오가 생성된 후 바로 각 프레임이 표시되므로 즉각적인 시각적 피드백을 제공합니다.

728x90

사용된 모델은 30FPS 한도가 있을 것으로 보이며, 이는 많은 사용자에게 제한적일 수 있습니다. 그럼에도 불구하고 FramePack은 고가의 제3자 서비스를 의존하지 않고 일반 소비자들이 AI 비디오 생성을 더 쉽게 이용할 수 있는 길을 열어주고 있습니다. 콘텐츠 창작자가 아니더라도 GIF, 밈 등을 만드는 재미있는 도구가 될 수 있습니다.

 

 

원문 출처 : https://www.tomshardware.com/tech-industry/artificial-intelligence/framepack-can-generate-ai-videos-locally-with-just-6gb-of-vram

728x90
반응형