10月27日上午消息,美團LongCat團隊發(fā)布并開源LongCat-Video視頻生成模型,以統(tǒng)一模型在文生、圖生視頻基礎(chǔ)任務(wù)上達到開源SOTA(最先進水平),并依托原生視頻續(xù)寫任務(wù)預(yù)訓(xùn)練,實現(xiàn)分鐘級長視頻連貫生成,保障跨幀時序一致性與物理運動合理性,在長視頻生成領(lǐng)域具備顯著優(yōu)勢。
近年來,“世界模型”(World Model)因讓人工智能真正理解、預(yù)測甚至重構(gòu)真實世界,被業(yè)界視作通往下一代智能的核心引擎。作為能夠建模物理規(guī)律、時空演化與場景邏輯的智能系統(tǒng),“世界模型”賦予人工智能“看見”世界運行本質(zhì)的能力。而視頻生成模型有望成為構(gòu)建世界模型的關(guān)鍵路徑——通過視頻生成任務(wù)壓縮幾何、語義、物理等多種形式的知識,人工智能得以在數(shù)字空間中模擬、推演乃至預(yù)演真實世界的運行。
正因如此,美團LongCat團隊認為,此次發(fā)布的視頻生成模型,是為探索“世界模型”邁出的第一步。未來,憑借精準重構(gòu)真實世界運行狀態(tài)的能力,LongCat模型也會融入公司近年來持續(xù)投入的自動駕駛、具身智能等深度交互業(yè)務(wù)場景中,成為公司更好連接“比特世界”和“原子世界”的技術(shù)基礎(chǔ)。