Sora,美國人工(gong)智能研究公司(si)OpenAI發布的人工(gong)智能文生視(shi)頻(pin)大(da)模型(但OpenAI并未單純將其視(shi)為(wei)視(shi)頻(pin)模型,而是作(zuo)為(wei)“世界(jie)模擬器”),于2024年2月15日(美國當地時間)正式對外發布。
Sora這一名稱源于日文(wen)“空”(そら sora),即天空之意,以示其(qi)無限的(de)創造潛力。其(qi)背后的(de)技術是在OpenAI的(de)文(wen)本到(dao)圖像(xiang)生成模型DALL-E基礎(chu)上開發而(er)成的(de)。
Sora可(ke)以根(gen)據(ju)用(yong)戶的文本提示(shi)創建最長60秒的逼(bi)真視頻(pin),該模型了(le)解這些物(wu)體在物(wu)理(li)世(shi)界(jie)中的存在方式,可(ke)以深度(du)模擬(ni)真實物(wu)理(li)世(shi)界(jie),能(neng)生成具有多個角(jiao)色、包含(han)特(te)定運動的復雜(za)場景(jing)。繼承了(le)DALL-E 3的畫質和遵循指令能(neng)力,能(neng)理(li)解用(yong)戶在提示(shi)中提出的要求。
Sora對于需要(yao)制(zhi)作視(shi)頻的(de)藝術家(jia)、電影制(zhi)片(pian)人或學生帶來無(wu)限可(ke)能,其是(shi)OpenAI“教AI理(li)解(jie)和模(mo)擬運動中的(de)物理(li)世(shi)(shi)界”計劃的(de)其中一步,也標志著人工智能在理(li)解(jie)真實(shi)世(shi)(shi)界場(chang)景并與(yu)之互動的(de)能力方面實(shi)現(xian)飛(fei)躍。
2024年12月(yue)10日(ri),OpenAI正(zheng)式向用戶(hu)開(kai)放人工(gong)智能視(shi)頻(pin)生成(cheng)模(mo)型Sora。12月(yue)18日(ri),文生視(shi)頻(pin)大模(mo)型Sora入選“2024全球(qiu)十大工(gong)程成(cheng)就”。
OpenAI在大模型領域的成功
2022年底,OpenAI正式推(tui)出(chu)(chu)ChatGPT,這款(kuan)由(you)人工智能(neng)(neng)技術驅動的(de)(de)自然(ran)語(yu)言處理工具能(neng)(neng)夠通(tong)過(guo)(guo)學習和理解(jie)人類(lei)的(de)(de)語(yu)言來進行(xing)對話。ChatGPT是OpenAI邁出(chu)(chu)的(de)(de)第一步,這款(kuan)讓所有人都能(neng)(neng)體會到人工智能(neng)(neng)潛力(li)(li)的(de)(de)現象級產品,展現出(chu)(chu)了文字(zi)對于過(guo)(guo)去人工智能(neng)(neng)的(de)(de)理解(jie)力(li)(li)和邏輯能(neng)(neng)力(li)(li)的(de)(de)超越。隨后,OpenAI的(de)(de)開(kai)發重(zhong)點逐步過(guo)(guo)渡到圖(tu)像的(de)(de)生成(cheng),Dall-E模型在生成(cheng)圖(tu)像方面也獲得了重(zhong)大突破。
視覺算法的進步
視(shi)覺算法(fa)近年來的(de)(de)突破在泛化性(xing)(xing)、可(ke)提示性(xing)(xing)、生(sheng)成(cheng)(cheng)質量和穩定性(xing)(xing)等方(fang)面均(jun)取得了進展(zhan),這預(yu)示著技術拐點(dian)的(de)(de)臨(lin)近以及爆款(kuan)應用的(de)(de)涌現(xian)。特別是在3D資產生(sheng)成(cheng)(cheng)和視(shi)頻生(sheng)成(cheng)(cheng)領(ling)域,由(you)于擴散算法(fa)的(de)(de)成(cheng)(cheng)熟,這些領(ling)域受益匪淺。然而,與(yu)圖像生(sheng)成(cheng)(cheng)相比(bi),3D資產和視(shi)頻生(sheng)成(cheng)(cheng)在數據和算法(fa)方(fang)面面臨(lin)的(de)(de)難點(dian)更多。
盡(jin)管如此,考慮到(dao)大型(xing)語(yu)言模型(xing)(LLM)對(dui)人(ren)(ren)工(gong)智能(neng)各領域的(de)加速作用以及已經出現的(de)優(you)秀開源模型(xing),2024年(nian)該(gai)行業有(you)望實現更大的(de)發展。在2023年(nian)末至2024年(nian)初,Pika、HeyGen等(deng)人(ren)(ren)工(gong)智能(neng)生成(cheng)的(de)視頻(pin)應用逐漸受到(dao)關注(zhu),這驗證了多模態技術的(de)持續進(jin)步與成(cheng)熟。但與此同(tong)時,民主倡導(dao)者和(he)人(ren)(ren)工(gong)智能(neng)研究人(ren)(ren)員(yuan)警(jing)告(gao)說,這些工(gong)具已經被用來(lai)欺騙和(he)欺騙民眾(zhong)。
Sora在日語中(zhong)是“天空”(そら)的意思,引申含義還有(you)“自由”,象征著其無限的創造潛力。
Sora對于需要制(zhi)作視頻的(de)藝術家(jia)、電影制(zhi)片(pian)人或學生(sheng)來說(shuo),都帶來了無限可(ke)能。該模型(xing)可(ke)以深度模擬真實(shi)(shi)物理世(shi)界,標志著人工智能在(zai)理解真實(shi)(shi)世(shi)界場景并與之互動(dong)的(de)能力方面實(shi)(shi)現飛躍,也被認為(wei)是(shi)實(shi)(shi)現通(tong)(tong)用人工智能(AGI)的(de)重要里程(cheng)碑,通(tong)(tong)過不(bu)斷深入研究和(he)發(fa)展Sora等先進模型(xing),有望在(zai)未來實(shi)(shi)現更加智能、高效(xiao)和(he)多樣(yang)化的(de)視頻生(sheng)成與處理技術。Sora的(de)推出讓AIGC(生(sheng)成式人工智能)再度成為(wei)行業(ye)焦點,能否徹底(di)“顛覆”行業(ye)也成為(wei)輿(yu)論議論的(de)中心。
估值上漲
Sora發布(bu)(bu)(bu)后,OpenAI的(de)(de)估(gu)值迅速上漲(有望超過(guo)800億(yi)美元(yuan)(yuan),2023年ChatGPT發布(bu)(bu)(bu)不久時(shi)其估(gu)值約為290億(yi)美元(yuan)(yuan)),且文生(sheng)視頻(pin)大(da)模型將(jiang)會大(da)幅推動(dong)人(ren)工智能基礎設施(shi)的(de)(de)需求,英偉達(da)、OpenAI、軟銀等巨頭公司都被曝正在進行AI芯(xin)片的(de)(de)制造布(bu)(bu)(bu)局,英偉達(da)也因(yin)大(da)模型訓練需要GPU算力(li)支持而股價(jia)大(da)漲。與此同(tong)時(shi),受Sora發布(bu)(bu)(bu)的(de)(de)影響,美國圖片供(gong)應商Shutterstock的(de)(de)股價(jia)大(da)跌。
在(zai)(zai)中國(guo)(guo),龍年開市第一天(tian),Sora相關概念全線“爆(bao)發(fa)”,會暢通訊、當虹(hong)科(ke)技、萬(wan)興科(ke)技、易點天(tian)下、因賽集團、東方國(guo)(guo)信、數碼(ma)視訊、華揚聯(lian)眾、國(guo)(guo)脈文化等股票均大幅(fu)上漲,多家(jia)公司回應稱(cheng),將根據自身業務特點,在(zai)(zai)文生視頻技術(shu)落地、Sora應用等方面尋找突破入口。
生產變革
浙(zhe)商(shang)證券預測,Sora及同類(lei)產(chan)(chan)品(pin)將(jiang)參與到(dao)改變信(xin)息生產(chan)(chan)和分發兩大環(huan)節的(de)進程中,PGC(專(zhuan)業(ye)生產(chan)(chan)內容(rong))將(jiang)廣泛采用(yong)AI工(gong)具輔助生產(chan)(chan),UGC(用(yong)戶生成(cheng)內容(rong))將(jiang)借助AI工(gong)具逐步替(ti)代PGC。此間,AI生成(cheng)視(shi)頻(pin)工(gong)具的(de)商(shang)業(ye)化(hua)將(jiang)提速。
Sora可(ke)生成(cheng)一段(duan)長(chang)(chang)達60秒的視(shi)(shi)頻,遠超市面同類AI產(chan)品視(shi)(shi)頻生成(cheng)時長(chang)(chang),60秒的視(shi)(shi)頻時長(chang)(chang),已(yi)經超過抖(dou)音等短(duan)(duan)視(shi)(shi)頻平臺的平均視(shi)(shi)頻時長(chang)(chang),Sora的誕生也(ye)為以后(hou)短(duan)(duan)視(shi)(shi)頻平臺的內(nei)容生產(chan)提供了更大的可(ke)能性(xing)。
職業取代
截至(zhi)2024年2月,已有(you)(you)一(yi)(yi)些視(shi)(shi)覺藝術家、設(she)計師和電影制作(zuo)人(ren)以及OpenAI員工(gong)獲得了(le)Sora訪(fang)問權限,他們(men)也已開始在社(she)交平(ping)臺(tai)不斷曬出使用Sora生成的新作(zuo)品,為人(ren)們(men)展示AI生成視(shi)(shi)頻的創意(yi)可能(neng)。許多網友稱“不少人(ren)要丟工(gong)作(zuo)了(le)”,甚至(zhi)有(you)(you)人(ren)開始“悼念”一(yi)(yi)整個(ge)素材行業。
功能綜述
Sora可以(yi)快速(su)制作最長(chang)一分鐘、準確反映用戶提示(shi)、可一鏡到底的(de)(de)視(shi)頻(pin)(其他(ta)AI視(shi)頻(pin)工具還在突(tu)破幾秒(miao)內的(de)(de)連(lian)貫性),視(shi)頻(pin)可以(yi)呈現“具有多個角(jiao)色、特定類型(xing)的(de)(de)動(dong)作、以(yi)及主(zhu)題(ti)和背(bei)景(jing)的(de)(de)準確細節(jie)的(de)(de)復(fu)雜場景(jing)”。
靜態圖生成視頻
Sora還具備(bei)根據靜態圖(tu)像生(sheng)(sheng)(sheng)成(cheng)視頻的(de)能(neng)力(li),能(neng)夠讓圖(tu)像內(nei)容動起來,并(bing)關注細(xi)節部分,使得(de)生(sheng)(sheng)(sheng)成(cheng)的(de)視頻更(geng)加生(sheng)(sheng)(sheng)動逼(bi)真,這一功能(neng)在動畫制作、廣告設計等領(ling)域具有應用前景。
視頻擴展與缺失幀填充
Sora能(neng)夠獲(huo)取現有視頻并對其進(jin)行擴展或填充缺失的(de)幀,這一功能(neng)在視頻編輯、電影特效等領域具(ju)有應用(yong)前景,可(ke)以(yi)幫助用(yong)戶快(kuai)速完成視頻內容的(de)補充和完善。
連接視頻
可以使(shi)用Sora連接(jie)兩個輸入視頻(pin),在具有完全(quan)不同(tong)主(zhu)題和場景組成的視頻(pin)之間實現(xian)無縫過(guo)渡。
多幀預測生成
Sora是一(yi)(yi)種(zhong)擴散模型(xing),具備從噪聲中(zhong)生成(cheng)完整視頻的(de)能力(li),它生成(cheng)的(de)視頻一(yi)(yi)開始(shi)看起來像(xiang)靜態噪音,通(tong)過多個步驟逐漸去除(chu)噪聲后,視頻也從最初的(de)隨(sui)機像(xiang)素轉化為清晰(xi)的(de)圖像(xiang)場景,其能夠一(yi)(yi)次(ci)生成(cheng)多幀預測,確保畫面主體(ti)在暫時(shi)離開視野(ye)時(shi)仍(reng)保持一(yi)(yi)致。
特殊架構
Sora采用(yong)與GPT模(mo)(mo)型(xing)相似的(de)Transformer架(jia)(jia)構(gou)(gou),OpenAI用(yong)Transformer結構(gou)(gou)替代(dai)Diffusion模(mo)(mo)型(xing)中常用(yong)的(de)U-Net結構(gou)(gou),提升了原來Diffusion模(mo)(mo)型(xing)在深度(du)和(he)寬度(du)上的(de)可擴展性,為視頻模(mo)(mo)型(xing)增加輸出時長(chang)奠(dian)定(ding)基(ji)礎。Transformer架(jia)(jia)構(gou)(gou)能夠處(chu)理長(chang)序列(lie)數(shu)據(ju),并通過(guo)自(zi)注(zhu)意力(li)機制捕捉數(shu)據(ju)中的(de)依賴(lai)關(guan)系(xi),從(cong)而(er)提高(gao)模(mo)(mo)型(xing)的(de)生(sheng)成能力(li)。但為了解決Transformer架(jia)(jia)構(gou)(gou)在長(chang)文(wen)本和(he)高(gao)分(fen)辨(bian)率圖(tu)像處(chu)理上的(de)問題(ti),擴散模(mo)(mo)型(xing)采用(yong)更可擴展的(de)狀態空間(jian)模(mo)(mo)型(xing)(SSM)主干替代(dai)了傳統(tong)的(de)注(zhu)意力(li)機制,從(cong)而(er)減少了算力(li)需求,并能夠生(sheng)成高(gao)分(fen)辨(bian)率圖(tu)像。
重述提示詞
Sora借鑒DALL-E 3的(de)“重述提示詞技術”,為視覺訓(xun)練數(shu)據生(sheng)成(cheng)高度描述性的(de)標(biao)注,這使(shi)得模(mo)型能夠更(geng)忠實地遵(zun)循用戶的(de)文(wen)本指(zhi)令,生(sheng)成(cheng)符合用戶需求的(de)視頻(pin)內容,同時也提高了模(mo)型的(de)靈活(huo)性和(he)可控性。
數據表示
OpenAI將視頻(pin)(pin)和(he)圖像表(biao)示為Patch,類似于(yu)GPT中的(de)token,這種統一的(de)數(shu)(shu)據表(biao)示方式(shi)使(shi)得(de)Sora能夠在(zai)更廣泛的(de)視覺數(shu)(shu)據上進行訓練,涵蓋不同的(de)持續時間、分辨率和(he)縱橫比(bi),有助于(yu)模型學習(xi)到(dao)更豐富的(de)視覺特征,提高生成視頻(pin)(pin)的(de)質量和(he)多樣(yang)性(xing)。
原生規模訓練
Sora采用(yong)“原生規模訓練”,過往的(de)(de)(de)圖像和(he)(he)視(shi)(shi)頻(pin)生成通常會(hui)(hui)將視(shi)(shi)頻(pin)調整(zheng)為(wei)標準大小(xiao),但這樣(yang)(yang)會(hui)(hui)失去視(shi)(shi)頻(pin)的(de)(de)(de)原始長寬(kuan)比和(he)(he)細節,而(er)原生規模的(de)(de)(de)訓練方(fang)法可(ke)以帶來更(geng)好的(de)(de)(de)效(xiao)果。Sora可(ke)以對各種尺(chi)寸和(he)(he)縱橫比的(de)(de)(de)視(shi)(shi)頻(pin)進行采樣(yang)(yang),允許直接為(wei)不同尺(chi)寸的(de)(de)(de)設備創(chuang)建內容,并(bing)快速原型(xing)化較低分辨率的(de)(de)(de)內容。與將視(shi)(shi)頻(pin)裁剪(jian)為(wei)正方(fang)形的(de)(de)(de)模型(xing)相比,Sora可(ke)以生成更(geng)完(wan)整(zheng)、更(geng)美觀(guan)的(de)(de)(de)視(shi)(shi)頻(pin)。
故事板模版
Sora還(huan)包含(han)一個名(ming)為故(gu)事板(Storyboard)的(de)(de)選項,允(yun)許用戶通過它詳(xiang)細描述希望視頻在不同時(shi)間點(dian)發生(sheng)的(de)(de)內容,從而更好地(di)指導一系列片段(duan)的(de)(de)生(sheng)成(cheng),用戶可(ke)以瀏覽其他人創(chuang)作的(de)(de)視頻集錦。