Stable Video Diffusion是Stability AI發布的(de)視頻(pin)生成大模型,于2023年(nian)11月正(zheng)式(shi)發布。
基于Stability AI原有的Stable Diffusion文(wen)生(sheng)圖模型,Stable Video Diffusion可(ke)實現文(wen)生(sheng)視頻。
Stable Video Diffusion能夠適(shi)應(ying)各(ge)(ge)種(zhong)下游任務,包括多視圖合成(cheng),Stability AI計劃擴展這個基礎(chu),建立各(ge)(ge)種(zhong)模型。該模型以兩種(zhong)形式發布,可(ke)以生成(cheng)14和(he)25幀的視頻,幀率(lv)可(ke)定制(zhi)。
一、多階段訓練策略
Stable Video Diffusion采用了多(duo)階(jie)段的訓(xun)練(lian)策(ce)略,包括(kuo)文(wen)本到(dao)圖像(xiang)的預(yu)(yu)訓(xun)練(lian)、視頻預(yu)(yu)訓(xun)練(lian)以及高質(zhi)量視頻微調。這種分(fen)階(jie)段的訓(xun)練(lian)方法使得模型能夠逐步學習到(dao)從文(wen)本到(dao)圖像(xiang),再(zai)到(dao)視頻的復(fu)雜映射關(guan)系,提高了生成(cheng)視頻的質(zhi)量和準確(que)性。
二、強大的基礎模型
該技術(shu)在訓練過程中,借助精心準(zhun)備的大(da)規(gui)模數據集(ji)和系統化的策劃流程,構建了(le)一個強大(da)的基(ji)(ji)礎模型。這(zhe)個基(ji)(ji)礎模型不僅為下游任(ren)務提供了(le)強大(da)的運動表征,還具(ju)備多(duo)視(shi)圖3D先驗能力,為生(sheng)成多(duo)個視(shi)圖的對象提供基(ji)(ji)礎。
三、高效的數(shu)據處理和過濾策略
Stable Video Diffusion在(zai)數據(ju)處理方面采用了(le)(le)多種策略,包括使用密集(ji)光(guang)流來注釋數據(ju)集(ji)、應用光(guang)學字(zi)符識別來清除包含(han)大量文(wen)本(ben)的剪(jian)輯等。這些策略有效地提高了(le)(le)數據(ju)集(ji)的質量,去除了(le)(le)可(ke)能對模型性能產生負面影響的示例。同時(shi),通過(guo)CLIP嵌入來注釋每(mei)個剪(jian)輯的關鍵幀(zhen),進(jin)一步豐(feng)富了(le)(le)數據(ju)集(ji)的信(xin)息量。
四、靈活的應用場景
由于Stable Video Diffusion提供了強(qiang)大的(de)(de)多(duo)視(shi)圖(tu)(tu)3D先(xian)驗和運(yun)動表征能力,它可以廣(guang)泛應(ying)用(yong)于各種場景,包括(kuo)文本到視(shi)頻(pin)的(de)(de)生(sheng)成、圖(tu)(tu)像到視(shi)頻(pin)的(de)(de)生(sheng)成以及對攝像機(ji)運(yun)動特定(ding)的(de)(de)適(shi)應(ying)性等。此外(wai),該模型還可以以前饋方(fang)(fang)式(shi)生(sheng)成對象的(de)(de)多(duo)個(ge)視(shi)圖(tu)(tu),具有較小的(de)(de)算(suan)力需求(qiu)和優(you)于基(ji)于圖(tu)(tu)像方(fang)(fang)法的(de)(de)性能。
五、高(gao)質量(liang)的生成效(xiao)果(guo)
通過多階(jie)段的訓練策略和精心準備(bei)的數據(ju)集,Stable Video Diffusion能(neng)夠生成高質量、動(dong)作連貫且時間一(yi)致的視頻(pin)內容(rong)。