상세 컨텐츠

본문 제목

메타(Meta) 생성형 비디오 및 이미지 편집 에뮤(Emu)모델 발표

전략_경영/AI트랜스포메이션

by Marketcast 2023. 11. 17. 10:41

본문

제너레이티브 AI, 즉 생성 인공지능은 이미지와 비디오 생성 분야에서 빠르게 발전하고 있다. 2022년에 이미지 생성에서 동영상 생성으로의 전환은 이 분야의 진보를 명확하게 보여주는 예이다. 특히, 메타 커넥트에서 발표된 에뮤(Emu) 모델은 이 분야의 중요한 진전을 나타내고 있다.

에뮤 모델은 인스타그램용 AI 이미지 편집 도구와 메타 AI의 이매진 기능에 사용되어, 시각적 스타일이나 배경을 변경하고, 사실적인 이미지를 생성할 수 있다. 이 기술은 이미지 생성에 초점을 맞추고 있었지만, 최근 연구를 통해 비디오 생성 및 이미지 편집 분야로 확장되었다.

메타는 두 가지 새로운 모델, 에뮤 비디오(Emu Video)와 에뮤 에디트(Emu Edit)를 발표했다.

에뮤 비디오(Emu Video) 는 고품질의 비디오 생성을 가능하게 하는 모델로, 텍스트, 이미지, 혹은 텍스트와 이미지가 결합된 입력에 반응하여 비디오를 생성할 수 있다. 이 모델은 비디오 생성을 더 효율적으로 할 수 있도록 설계되었으며, 고품질 동영상을 생성하는 요인화 접근 방식을 사용한다. 사용자의 96%가 이 모델의 출력 품질을 선호하는 것으로 나타났다.


에뮤 비디오는 확산 모델을 기반으로 텍스트-비디오를 생성하는 간단한 방법을 제시한다. 이는 텍스트만, 이미지만, 텍스트와 이미지 모두 등 다양한 입력에 대응할 수 있는 비디오 생성 작업을 위한 통합 아키텍처이다. 먼저 텍스트 프롬프트에 따라 이미지를 생성한 다음, 텍스트와 생성된 이미지 모두에 따라 비디오를 생성하는 두 단계로 프로세스를 분할했다. 비디오 생성에 대한 이러한 '인수분해' 또는 분할 접근 방식을 통해 비디오 생성 모델을 효율적으로 훈련할 수 있다. 인수분해 비디오 생성이 단일 확산 모델을 통해 구현될 수 있음을 보여준다. 비디오 확산을 위한 노이즈 스케줄 조정과 고해상도 비디오를 직접 생성할 수 있는 다단계 훈련과 같은 중요한 설계 결정을 제시하고 있다.

에뮤 에디트(Emu Edit)는 이미지 편집을 위한 모델로, 사용자의 지시에 따라 이미지를 자유롭게 편집할 수 있다. 이 모델은 로컬 및 전역 편집, 배경 변경, 색상 및 지오메트리 변환, 객체 감지 및 분할 등 다양한 편집 작업을 수행할 수 있다. 중요한 점은 Emu Edit가 지시에 정확하게 따르며, 관련 없는 이미지 부분은 변경하지 않는다는 것이다. 예를 들어, 모자에 텍스트를 추가할 때 모자 자체는 그대로 유지된다.

 


Emu Edit는 로컬 및 전역 편집, 배경 제거 및 추가, 색상 및 지오메트리 변환, 감지 및 분할 등의 작업을 포괄하는 지침을 통해 자유 형식 편집이 가능하다. 현재의 방식은 다양한 편집 작업에서 과도하게 수정하거나 성능이 떨어지는 경우가 많다.  '믿을 수 있는' 이미지를 만드는 것이 주된 목표가 되어서는 안 된다. 대신 모델은 편집 요청과 관련된 픽셀만 정확하게 변경하는 데 집중해야 한다. 오늘날의 많은 제너레이티브 AI 모델과 달리 Emu Edit는 지침을 정확하게 따르기 때문에 지침과 관련이 없는 입력 이미지의 픽셀은 그대로 유지한다.

이 두 모델은 고급 이미지 및 비디오 생성 및 편집 기능을 제공하여, 사용자가 창의적인 방식으로 소통하고 자신을 표현할 수 있는 새로운 방법을 제시하고 있다. 이 연구는 아직 초기 단계에 있지만, 향후 Facebook과 같은 앱에서 이 기술이 어떻게 활용될지 기대되는 부분이다. 이러한 진보는 제너레이티브 AI 분야가 인간의 창의성과 자기표현을 강화하는 데 어떻게 기여할 수 있는지를 보여준다.

관련글 더보기

댓글 영역