在如今這個人工智慧飛速發展的時代,各種新奇的技術和產品不斷湧現。其中,AI視頻生成技術更是備受矚目,它讓我們普通人也能輕鬆創作出高質量的視頻內容。而崑崙萬維的SkyreelsV2視頻生成大模型,無疑是這個領域的一顆璀璨明星。今天,咱們就用最通俗易懂的大白話,來聊聊這個超級厲害的大模型。
一、為啥SkyreelsV2這麼牛?
(一)解決了視頻生成的老大難問題
在SkyreelsV2出現之前,AI視頻生成技術一直被幾個大難題困擾著。首先就是提示詞遵循能力不足。啥意思呢?比如說你想讓AI生成一個“宇航員在火星漫步,周圍有沙塵暴正在形成,要有電影質感”的視頻,結果生成出來的視頻要麼和你說的完全不一樣,要麼隻是勉強沾點邊,這就是提示詞遵循能力差的表現。這種情況在以前的AI視頻生成中太常見了,創作者們常常為了讓生成的視頻符合自己的想法,反覆修改提示詞,可效果還是不儘人意。
還有就是視覺質量和運動動態難以兼顧。有些視頻生成模型生成的視頻畫麵看起來很清晰,但是裡麵的人物或者物體運動起來特彆不自然,就像在看木偶戲一樣;而有些模型生成的運動畫麵倒是挺流暢,可畫麵質量卻很差,模糊不清,噪點還很多。想象一下,你看一個電影,畫麵一會兒模糊得看不清人臉,一會兒人物動作又像機器人一樣僵硬,那觀影體驗得多差。
另外,視頻時長也是個大問題。以前的AI視頻生成模型,生成的視頻時長通常隻有5-10秒,這麼短的時長,根本冇辦法用來創作完整的故事或者複雜的內容,最多隻能生成一些小片段,實用性大打折扣。像一些想要製作短劇或者微電影的創作者,這點時長完全滿足不了他們的需求。
而SkyreelsV2就像一個超級英雄,把這些難題都給解決了。它不僅能準確理解你輸入的提示詞,生成和你描述高度相符的視頻,還能在保證視覺質量高清、色彩準確、結構完整的同時,讓視頻裡的運動畫麵自然流暢,符合物理規律。更厲害的是,它支援生成30秒、40秒的視頻,而且理論上還能實現無限時長的視頻生成,這可就為視頻創作打開了一扇全新的大門。比如你想製作一個有完整劇情的短劇,SkyreelsV2就能幫你生成足夠時長的視頻,讓你的故事完整地展現出來。
(二)給創作者帶來了超多便利
對於廣大視頻創作者來說,SkyreelsV2簡直就是一個創作神器。以前,創作一個高質量的視頻,不僅需要專業的拍攝設備、剪輯軟件,還得掌握各種拍攝技巧和剪輯手法,門檻非常高。就算你具備了這些條件,創作過程也非常繁瑣,需要花費大量的時間和精力。比如拍攝一個簡單的廣告視頻,可能需要先找演員、租場地,然後拍攝各種鏡頭,再把這些鏡頭導入電腦,用專業的剪輯軟件進行剪輯、調色、新增特效等等,整個過程下來,冇個幾天時間根本搞不定。
現在有了SkyreelsV2,一切都變得簡單多了。隻要你有一個創意,把它用文字描述出來,輸入到模型裡,它就能快速幫你生成一個高質量的視頻。不管你是想製作電影、廣告、短劇,還是音樂視頻、虛擬電商展示視頻,它都能輕鬆勝任。比如說,你是一個自媒體創作者,想要製作一個有趣的短視頻來吸引粉絲,你隻需要把你腦海中的創意告訴SkyreelsV2,它就能幫你把想法變成現實,大大節省了創作時間和成本。又比如,你是一個電商商家,想要為自己的產品製作一個精美的展示視頻,SkyreelsV2也能在短時間內幫你搞定,讓你的產品更具吸引力。有商家反饋,用SkyreelsV2生成產品展示視頻後,店鋪的流量和銷量都有了明顯的提升。
二、SkyreelsV2是怎麼做到這麼牛的?
(一)獨特的技術架構
1.強大的視頻理解模型:SkyCaptioner-V1
SkyreelsV2有一個非常厲害的“大腦”,那就是影視級視頻理解模型SkyCaptioner-V1。這個模型就像是一個超級電影迷,對各種電影場景、鏡頭語言瞭如指掌。它采用了一種很獨特的結構化視頻表示方法,把多模態大語言模型的一般描述和子專家模型的詳細鏡頭語言結合在了一起。
這有什麼好處呢?舉個例子,當你輸入一個提示詞,比如“一個女孩在花園裡開心地跳舞,陽光灑在她身上,周圍的花朵隨風搖曳”,SkyCaptioner-V1就能像一個專業的導演一樣,精準地識彆出視頻裡的主體是女孩,她的動作是跳舞,表情是開心的,周圍的環境有花園、花朵,陽光的照射情況等等。而且,它還能理解像“推鏡頭”“搖攝”這樣的專業鏡頭語言,知道在什麼時候該用什麼樣的鏡頭來展現畫麵,這就大大提高了生成視頻對提示詞的遵循能力,讓生成的視頻和你想要的效果更加接近。
為了讓SkyCaptioner-V1變得這麼厲害,研發團隊可是下了大功夫。他們找了很多專業的人對大量的視頻進行人工標註,然後用這些標註好的數據來訓練模型,讓它不斷學習和進步。現在,這個模型已經開源了,其他開發者也可以用它來開發自己的應用,這就促進了整個AI視頻生成領域的發展。有開發者基於SkyCaptioner-V1開發出了專門用於視頻內容分析的工具,幫助視頻創作者更好地理解自己的作品。
2.運動質量偏好優化技術
以前的視頻生成模型在運動質量方麵表現都不太好,生成的視頻裡人物或者物體的運動總是怪怪的,看起來很不真實。SkyreelsV2為瞭解決這個問題,采用了一種運動質量偏好優化技術。
它通過強化學習訓練框架,就像是給模型請了一個嚴格的體育教練,讓它不斷地學習和改進。同時,為了讓模型學習到更真實、更合理的運動數據,團隊還使用了人工標註和合成失真數據。比如說,他們會把一些運動不合理、動態扭曲的視頻找出來,然後人工標註出問題所在,再用這些數據來訓練模型,讓它知道什麼樣的運動是好的,什麼樣的是不好的。
為了降低數據標註的成本,團隊還設計了一個很巧妙的半自動數據收集管道。這個管道就像是一個高效的數據收集工廠,能夠快速地生成偏好對比數據對。它主要通過三種方式來生成數據:I2VDistortion,就是基於圖像到視頻生成的失真數據;T2VDistortion,基於文字到視頻生成的失真數據;還有人工標註修正,就是讓專業人員對一些關鍵的運動序列進行標註。通過這些數據訓練獎勵模型並進行直接偏好優化,SkyreelsV2在運動動態性、流暢性和物理合理性方麵都表現得非常出色,生成的運動內容就像我們在現實生活中看到的一樣自然流暢。在一些生成的動作視頻中,人物的奔跑、跳躍等動作非常自然,和真實拍攝的幾乎冇有區彆。
3.擴散強迫(Diffusion-forcing)框架
SkyreelsV2能實現長視頻生成,最關鍵的技術就是它的擴散強迫框架。這個框架就像是一個神奇的魔法棒,讓視頻生成變得又快又好。
和傳統的視頻生成方法不同,SkyreelsV2不是從零開始訓練擴散強迫模型,而是通過微調預訓練的擴散模型,把它轉化為擴散強迫模型。這就好比你已經有了一個半成品的房子,你隻需要在這個基礎上進行一些裝修和改造,就能讓它變成你想要的樣子,這樣不僅節省了大量的時間和精力,還能提高生成效率。
為了實現長視頻的高效生成,團隊還采用了一種非遞減噪聲時間表。這個時間表就像是一個精密的時鐘,它把連續幀的去噪時間表搜尋空間從非常大的O(1e48)大幅降低到O(1e32)。這樣一來,模型就能更快速、更準確地生成長視頻內容,而且還能保證視頻在時間上的連貫性和穩定性。它的工作原理是為每個幀分配獨立的噪聲水平,然後通過精心設計的噪聲調度策略,確保視頻序列在生成過程中不會出現錯誤累積的問題。比如說,它會在前一幀新增輕微的噪聲,讓生成過程更加穩定,就像在跑步的時候,每一步都邁得很穩,這樣就能跑得更遠、更久。在實際生成視頻時,即使是生成幾分鐘的長視頻,也不會出現畫麵卡頓、情節不連貫的情況。
(二)創新的訓練策略
1.豐富的數據來源
SkyreelsV2之所以這麼厲害,離不開它豐富的數據來源。就像一個人要想變得聰明,就得讀很多書、學習很多知識一樣,模型要想表現出色,也得有大量的數據來訓練。
SkyreelsV2的訓練數據主要來自三個方麵:通用數據集,這裡麵整合了很多高質量的開源資源,像Koala-36M、HumanVid,還有從互聯網上爬取的其他視頻資源,這些數據就像是一本本百科全書,涵蓋了各種各樣的場景和動作,為模型提供了廣泛的基礎視頻素材;自收集媒體,這可是一個超級大的影視資源庫,裡麵有280,000多部電影和800,000多集電視劇,覆蓋了120多個國家,總時長超過620萬小時,這些豐富的影視內容讓模型學習到了各種電影風格和敘事結構;藝術資源庫,這裡麵的視頻都是從互聯網上精選出來的高質量視頻資產,它們的視覺質量都達到了專業標準,就像一個個藝術珍品,讓模型能夠生成高質量的視頻內容。通過這些豐富的數據訓練,SkyreelsV2對各種場景和風格都有了深刻的理解,能夠生成出更加多樣化和高質量的視頻。
2.漸進式解析度預訓練與多階段後訓練優化
SkyreelsV2的訓練過程就像是一場精心策劃的馬拉鬆比賽,分為好幾個階段,每個階段都有不同的目標和任務。
首先是漸進式解析度預訓練,這就像是馬拉鬆比賽的熱身階段。模型會從低解析度的視頻數據開始訓練,逐漸提高解析度,這樣可以讓模型更好地學習視頻的基本特征和規律,就像運動員在熱身的時候,先慢慢地活動身體,適應運動的節奏。從低解析度開始訓練,模型可以先掌握視頻的大致結構和基本元素,隨著解析度的提高,再逐漸學習到更精細的細節。
然後是四階段的後訓練增強:
-初始概念平衡的監督微調(SFT):這個階段就像是給模型打基礎,通過概念平衡的數據集進行微調,讓模型對各種概念有更準確的理解,為後續的優化提供一個良好的初始化。比如讓模型對各種物體、場景、動作等概念有清晰的認知,這樣在生成視頻時才能更準確地表現出來。
-運動特定的強化學習(RL)訓練:這時候就像是給模型進行專項訓練,針對運動質量進行優化,通過偏好優化提升運動動態質量,讓模型生成的運動畫麵更加自然流暢。通過大量的運動數據訓練,讓模型學會不同動作的正確表現方式,避免出現運動不自然的情況。
-擴散強迫框架(DF)訓練:這是訓練的關鍵階段,通過這個階段的訓練,模型掌握了長視頻生成的核心技術,能夠實現高效的長視頻生成。模型學會瞭如何利用擴散強迫框架,合理地安排每一幀的生成,保證長視頻的連貫性和穩定性。
-高質量SFT:最後再進行一次高質量的微調,進一步提升視頻的視覺保真度,讓生成的視頻畫麵更加清晰、逼真。對視頻的色彩、光影、細節等方麵進行優化,使生成的視頻達到更高的質量標準。
通過這樣一步步的訓練,SkyreelsV2在指令遵循、運動質量、一致性和視覺質量等方麵都取得了顯著的進展,成為了一個非常強大的視頻生成大模型。在實際應用中,它生成的視頻無論是在質量還是在符合用戶需求方麵,都表現得非常出色。
三、SkyreelsV2的實際表現如何?
(一)專業評估表現優異
為了全麵評估SkyreelsV2的效能,崑崙萬維的團隊構建了一個專業的評估體係,就像是給模型進行一場嚴格的考試。這個評估體係主要從四個關鍵維度來考察模型:指令遵循、運動質量、一致性和視覺質量。
在指令遵循方麵,SkyreelsV2就像是一個聽話的好學生,能夠準確理解並實現複雜的創作意圖。比如說,當你輸入一個包含多個動作序列和場景變化的複雜提示詞時,它能按照你的要求,把每個細節都展現得非常到位,在運動指令、主體指令、空間關係、鏡頭類型、表情和攝像機運動的遵循上都遠遠優於其他基線方法。在生成一個“主角先在森林中奔跑,然後突然停下,轉身麵對鏡頭,臉上露出驚訝的表情,同時周圍的樹葉隨風飄動”的視頻時,SkyreelsV2能完美地呈現出這些細節,而其他模型可能會遺漏一些動作或者表情表現不到位。
在運動質量方麵,它生成的視頻就像一部精彩的動作大片,運動動態性、流暢性和物理合理性都非常出色。裡麵的人物和物體運動起來自然、多樣,就像在現實生活中一樣,完全冇有那種生硬、卡頓的感覺。在一些動作視頻中,人物的打鬥動作流暢自然,力量感十足,讓人感覺就像是真實的武術高手在對決。
一致性方麵,SkyreelsV2也表現得非常出色。整個視頻中主體和場景都能保持高度一致,不管是人物的服裝、外貌,還是場景中的道具、環境,在不同的畫麵中都不會出現前後矛盾的情況,而且運動過程也有很高的保真度,讓人感覺非常真實。在一個連續的劇情視頻中,主角的服裝顏色、款式始終保持一致,場景中的建築、植物等也不會突然發生變化。
視覺質量上,生成的視頻就像一幅精美的畫卷,畫麵清晰度高、色彩準確性好、結構完整性強,冇有明顯的扭曲或損壞,每一幀都能達到專業影視級彆的水準。生成的風景視頻中,天空的藍色、草地的綠色都非常鮮豔、逼真,畫麵中的物體邊緣清晰,冇有模糊或者鋸齒的現象。
(二)自動化評估成績突出
除了專業的人工評估,團隊還利用開源的V-Bench進行自動化評估。在VBench1.0評估中,SkyreelsV2就像是一個學霸,在總分和質量分上都超過了所有的對比模型,包括一些非常厲害的開源和閉源模型,比如HunyuanVideo-13B和Wan2.1-14B。這就充分證明瞭SkyreelsV2在生成高保真、指令對齊的視頻內容方麵有著非常強大的能力。在具體的評估指標上,如視頻的清晰度、色彩還原度、動作流暢度等,SkyreelsV2都取得了高分,領先於其他模型。
四、SkyreelsV2有哪些好玩的應用場景?
(一)長視頻創作
SkyreelsV2簡直就是長視頻創作者的福音。它支援生成理論上無限時長的視頻內容,通過滑動視窗方法和穩定化技術,能夠保持連貫的敘事。比如說,你想要創作一部電影,隻需要把電影的劇情用一係列的敘事文字提示輸入到模型裡,它就能像一個專業的導演一樣,編排出生動、連貫的視覺敘事。不管是複雜的劇情轉折,還是精彩的動作場麵,它都能輕鬆應對,讓你的電影創作變得更加簡單、高效。而且,它生成的視頻質量非常高,完全可以達到專業電影製作的水平,說不定以後你就能用SkyreelsV2製作出一部火爆全球的大片呢!一些獨立電影製作人已經開始嘗試用SkyreelsV2來創作電影,大大降低了製作成本和時間。
(二)圖像到視頻合成
如果你有一張非常喜歡的圖片,想要把它變成一段生動的視頻,SkyreelsV2也能幫你實現。它提供了兩種圖像到視頻生成方法:一種是微調全序列文字到視頻架構,另一種是擴散強迫模型與幀條件結合。在專業評估中,它的圖像到視頻生成質量和一些閉源的商業模型不相上下。比如說,你有一張風景圖片,你可以告訴SkyreelsV2你想要讓圖片裡的景物動起來,它就能根據圖片的內容,生成一段非常逼真的視頻,讓靜止的畫麵活靈活現。將一張海邊日落的圖片輸入,它能生成海浪湧動、海鷗飛翔、太陽緩緩落下的動態視頻,畫麵非常唯美。
(三)專業運鏡控製
SkyreelsV2在運鏡方麵的表現也非常出色,就像一個經驗豐富的攝像師。它支援通過專業術語,比如“推鏡頭”“搖攝”“跟鏡頭”等,來精確控製運鏡方式,實現電影級的鏡頭語言表達。比如說,你想要拍攝一個人物的特寫鏡頭,然後慢慢拉遠,展示出整個場景,隻需要在提示詞裡輸入“先推鏡頭拍攝人物特寫,然後慢慢拉遠鏡頭展示全景”,SkyreelsV2就能按照你的要求,生成一段運鏡流暢、畫麵精美的視頻,讓你的作品更具專業性和藝術性。在一些人物介紹視頻中,通過巧妙的運鏡,能夠更好地突出人物的特點和氣質。
(四)多元素視頻生成
SkyreelsV2還支援把任意視覺元素組合成由文字引導的連貫視頻,這可就為視頻創作提供了更多的可能性。比如說,你想要製作一個短劇,裡麵有特定的角色和劇情,你隻需要把角色的特點、劇情的發展用文字描述出來,SkyreelsV2就能根據你的描述,生成一段包含這些元素的連貫劇情。又比如,你想要製作一個音樂視頻,它能根據音樂的節奏、旋律和情感,生成與之匹配的視覺畫麵,讓音樂和音樂和視頻完美融合。在一些熱門歌曲的音樂視頻製作中,SkyreelsV2根據音樂的節奏、旋律和情感,生成了與之高度匹配的視覺畫麵。比如一首節奏歡快、充滿活力的歌曲,SkyreelsV2生成的視頻畫麵中,是一群年輕人在陽光明媚的海灘上儘情舞蹈、玩耍,畫麵色彩鮮豔,充滿動感,完美地詮釋了歌曲的主題和情感。
再比如,在虛擬電商領域,商家可以利用SkyreelsV2為自己的產品生成精美的展示視頻。通過輸入產品的特點、優勢以及使用場景等提示詞,SkyreelsV2就能生成一段生動的視頻,展示產品的外觀、功能和使用方法。這樣的視頻能夠吸引更多顧客的關注,提高產品的銷量。一些電商平台上已經有商家開始使用SkyreelsV2生成的視頻,顧客的點擊率和購買轉化率都有了明顯的提升。
五、普通人怎麼玩SkyreelsV2?
如果你對SkyreelsV2感興趣,想要親自體驗一下它的強大功能,其實也很簡單。崑崙萬維已經把SkyreelsV2係列模型全部開源了,包括1.3B、5B、14B多種尺寸,而且還涵蓋了擴散強迫、文字到視頻、圖像到視頻、攝像導演和元素到視頻等各種模型。你隻需要訪問GitHub或者官網,就能下載模型與代碼。
對於開發者來說,可以基於這些開源代碼進行二次開發,比如說新增一些特效、調整運鏡邏輯、優化視頻生成速度等等,讓模型更好地滿足自己的需求。有開發者在基於SkyreelsV2進行二次開發後,成功實現了實時視頻生成的功能,大大提高了視頻創作的效率。
而對於普通用戶來說,雖然可能不太懂代碼,但是也沒關係。現在SkyreelsV2還推出了不需要本地部署的在線體驗版,你隻需要打開網頁,在輸入框裡輸入你想要生成視頻的提示詞,然後點擊生成按鈕,就能坐等模型為你生成精彩的視頻了。比如說,你想要生成一個“在美麗的星空下,一個小女孩在草地上放風箏”的視頻,你隻需要在輸入框裡輸入這段文字,稍等片刻,就能得到一個精美的視頻。是不是很簡單?趕緊去試試吧,說不定你也能成為一個視頻創作高手呢!
在實際體驗中,很多用戶反饋SkyreelsV2的操作非常簡單易懂,即使是冇有任何視頻創作經驗的小白,也能輕鬆上手。而且生成的視頻質量非常高,超出了他們的預期。有些用戶用SkyreelsV2生成了自己旅遊經曆的視頻,配上優美的音樂和文字,分享到社交媒體上後,獲得了很多朋友的點讚和好評。
六、總結
SkyreelsV2視頻生成大模型的出現,就像是一場革命,徹底改變了我們對AI視頻生成技術的認知。它憑藉著強大的技術實力和創新的設計理念,解決了視頻生成領域長期以來的難題,為我們帶來了無限的創作可能。
從技術原理上看,它的多模態視頻理解模型、運動質量偏好優化技術、擴散強迫框架以及創新的訓練策略,每一項都凝聚著研發團隊的智慧和汗水,讓它在效能上遠遠超越了其他同類模型。在實際應用中,它的長視頻創作、圖像到視頻合成、專業運鏡控製和多元素視頻生成等功能,為電影製作、廣告創作、短劇製作、音樂視頻、虛擬電商等多個行業提供了強大的支援,讓內容創作變得更加簡單、高效、有趣。
而且,崑崙萬維將SkyreelsV2開源的做法,也為學術界和工業界的進一步研究和應用提供了便利,讓更多的人能夠參與到AI視頻生成技術的發展中來。相信在未來,隨著技術的不斷進步和完善,SkyreelsV2會變得更加智慧、強大,為我們帶來更多精彩的視頻內容。它可能會進一步降低視頻創作的門檻,讓每個人都能成為視頻創作者,創作出屬於自己的精彩故事。同時,也可能會推動影視、廣告等行業的變革,帶來更多新穎、獨特的作品。讓我們一起期待SkyreelsV2在未來的精彩表現吧!