你最近的社交媒體,大概率也被 Sora 生成的那些既熟逼真又抽象的影像刷屏了。
Sora 的病毒式傳播,證明了 AI 生成內(nèi)容的一條黃金法則:人類最著迷的,永遠(yuǎn)是人類自己。這些影像之所以能迅速成為一種賽博奇觀,超越以往所有 AI 視頻的傳播力,正是因?yàn)樗谝淮胃哔|(zhì)量地將創(chuàng)作主體從風(fēng)景、動(dòng)物,聚焦到了人類自身。
但熱潮過后,一個(gè)更現(xiàn)實(shí)的問題浮出水面:Sora 生成的數(shù)字人無(wú)論多么逼真,本質(zhì)上仍是活在預(yù)設(shè)腳本里的「演員」。它們是內(nèi)容生成的終點(diǎn),卻無(wú)法成為實(shí)時(shí)交流的起點(diǎn)。在這種「文生視頻」的范式下,AI 被困在一次性的創(chuàng)作流程中,這與一個(gè)能隨時(shí)響應(yīng)、無(wú)處不在的智能伙伴相去甚遠(yuǎn)。
那為什么一個(gè)能隨時(shí)響應(yīng)的AI數(shù)字人,至今仍未普及?
主要原因就是成本。
而這一矛盾,正是下一輪技術(shù)演進(jìn)的發(fā)力點(diǎn)。
10 月 29 日,魔琺科技,正式發(fā)布了 3D 數(shù)字人開放平臺(tái)「星云」。其核心,就是將過去屬于大企業(yè)預(yù)算的「項(xiàng)目制」奢侈品,轉(zhuǎn)變?yōu)樗虚_發(fā)者都能通過 SDK 快速集成的基礎(chǔ)能力。
魔琺科技之前就是 3D 數(shù)字人的領(lǐng)先提供商之一,深知許多企業(yè)在聽到高昂的部署價(jià)格后只能望而卻步。而他們近期的技術(shù)突破,正是對(duì)這一核心痛點(diǎn)的精準(zhǔn)打擊:通過自研的AI算法,替代了傳統(tǒng)渲染流程對(duì)高端GPU的重度依賴。這使得生成的數(shù)字人不僅保證了高質(zhì)量,還能在百元級(jí)芯片上流暢運(yùn)行。
當(dāng)一個(gè)高質(zhì)量、可交互的 3D 數(shù)字人大幅降低了運(yùn)行成本,其意義遠(yuǎn)超技術(shù)本身。這意味著,AI 終于獲得了入住每一塊屏幕的入場(chǎng)券。未來(lái),無(wú)論是手機(jī) App、汽車座艙,還是商場(chǎng)里的一塊普通廣告牌,都可能成為一個(gè)能與你自然對(duì)話的智能體。人機(jī)交互的下一個(gè)范式,或許正由此開啟。
01
「星云」是什么?:
讓 AI 的「具身表現(xiàn)力」變成基礎(chǔ)設(shè)施
在理解魔琺科技發(fā)布的「星云」平臺(tái)之前,有必要先厘清一個(gè)事實(shí):我們今天在屏幕上看到的「數(shù)字人」,并非出自同一種技術(shù)。它們看似相似,背后卻是不同時(shí)代、不同成本、不同妥-協(xié)下的產(chǎn)物。
最常見的一類,是預(yù)先制作的「2.5D」視頻。這類數(shù)字人更像是高級(jí)的「PPT 動(dòng)畫」,通過 AI 技術(shù)將文本合成為一段帶有口型和簡(jiǎn)單動(dòng)作的視頻。它們解決了信息播報(bào)的需求,但本質(zhì)上是「只讀」的,無(wú)法進(jìn)行任何實(shí)時(shí)的、個(gè)性化的交互。
更進(jìn)一步的,則是依賴「中之人」(即背后有真人在實(shí)時(shí)驅(qū)動(dòng))的虛擬主播。這類方案保證了高質(zhì)量的互動(dòng)性,但成本與真人無(wú)異,無(wú)法規(guī)模化,也并非真正的「人工智能」。
而真正代表著未來(lái)的,是完全由 AI 驅(qū)動(dòng)的、可實(shí)時(shí)交互的 3D 數(shù)字人。
這背后有一個(gè)清晰的邏輯:大語(yǔ)言模型在理解、推理和生成內(nèi)容上的「智商」已經(jīng)受到了廣泛認(rèn)可。當(dāng)這顆強(qiáng)大的「大腦」被賦予一個(gè)能夠表達(dá)的「身體」時(shí),人機(jī)交互將發(fā)生質(zhì)變。通過疊加具有人類情感溫度的語(yǔ)音(有人味兒)、能夠傳遞微妙情緒的微表情、以及建立信任感的肢體語(yǔ)言,AI 的回應(yīng)將不再僅僅是信息的傳遞,而是一次完整的、個(gè)性化的交流。
它有望提供一種超越「皮下之人」(中之人)的服務(wù)體驗(yàn)——AI 沒有情緒疲勞,可以 7x24 小時(shí)保持最佳狀態(tài);它可以瞬間調(diào)動(dòng)全部知識(shí)庫(kù),為每一個(gè)用戶提供深度定制的反饋。最關(guān)鍵的是,這種高質(zhì)量的、極度個(gè)性化的服務(wù)能力,第一次可以被無(wú)限地、低成本地規(guī)模化復(fù)制。這,是人類服務(wù)者永遠(yuǎn)無(wú)法企及的優(yōu)勢(shì)。
魔琺科技正是這個(gè)領(lǐng)域的先行者之一,但在此之前,純 AI 驅(qū)動(dòng)始終面臨著一道難以逾越的「成本高墻」,導(dǎo)致其商業(yè)模式長(zhǎng)期停留在項(xiàng)目制。
一個(gè)實(shí)時(shí)的 3D 數(shù)字人,無(wú)異于一部需要 7x24 小時(shí)不間斷渲染的 3D 動(dòng)畫。它的每一個(gè)微表情、每一次手勢(shì)、甚至每一根發(fā)絲的飄動(dòng)和衣物的褶皺,都需要進(jìn)行復(fù)雜的圖形計(jì)算(渲染)和物理演算(解算),才能保證逼真和流暢。在傳統(tǒng)架構(gòu)下,這些計(jì)算的重?fù)?dān),幾乎全部壓在了云端的高端 GPU 上。
這就形成了一個(gè)無(wú)法調(diào)和的矛盾:要保證高質(zhì)量,就必須投入昂貴的 GPU 資源,導(dǎo)致單路交互的部署成本輕松突破數(shù)萬(wàn)元;要降低成本,就只能犧牲質(zhì)量和實(shí)時(shí)性。這堵由 GPU 筑起的高墻,將真正的交互式 AI 數(shù)字人,排除在更廣眾的應(yīng)用之外。
不過,此次發(fā)布的「星云」的全新管線則徹底重構(gòu)了這一流程。通過通過自研的AI算法,替代了傳統(tǒng)渲染流程對(duì)高端GPU的重度依賴,一次性解決了成本、延遲、并發(fā)的三座大山。
新的技術(shù)棧將任務(wù)進(jìn)行了巧妙的分工:
-
云端(大腦):當(dāng)接收到文本指令后,AI 模型不再直接渲染龐大的視頻流。它只負(fù)責(zé)「決策」,即生成一套描述數(shù)字人下一秒該做什么的、極其輕量化的「行為參數(shù)」,包含語(yǔ)音、口型、表情、姿態(tài)等指令。
-
終端(身體):這些輕量化的參數(shù)被迅速傳輸?shù)接脩粼O(shè)備上。真正執(zhí)行渲染和解算工作的,是部署在終端上的、經(jīng)過高度優(yōu)化的 AI 模型。這個(gè)本地的 AI 渲染器,接收的是輕量化參數(shù)流,輸出最終的視頻畫面。它就像一個(gè)技藝精湛的本地畫師,根據(jù)云端發(fā)來(lái)的「劇本」,實(shí)時(shí)地在用戶屏幕上繪制出最終的畫面。
這一模式巧妙地繞開了最大的成本中心。它既不需要用戶擁有一部搭載高端芯片的手機(jī),也無(wú)需為云端昂貴的 GPU 付費(fèi)。由于終端的 AI 渲染模型是用最高質(zhì)量的離線渲染數(shù)據(jù)訓(xùn)練而成,它學(xué)會(huì)了用極低的算力「復(fù)刻」出媲美高端 GPU 的畫面效果。這直接解鎖了高質(zhì)量低成本的數(shù)字人的應(yīng)用空間。