1月14日?qǐng)?bào)道,今天,首個(gè)在國(guó)產(chǎn)芯片上完成全程訓(xùn)練的SOTA(最佳水平)多模態(tài)模型開(kāi)源。
這是智譜聯(lián)合華為開(kāi)源的圖像生成模型GLM-Image。從數(shù)據(jù)到訓(xùn)練的全流程,該模型完全基于昇騰Atlas 800T A2設(shè)備和昇思MindSpore AI框架完成構(gòu)建。
截至今日午間休市,智譜股價(jià)上漲16.83%。
在聚焦文字渲染的CVTG-2K、LongText-Bench榜單上,GLM-Image的得分超越了以谷歌Nano Banana Pro為代表的認(rèn)知型生成模型。

▲GLM-Image在文字渲染的CVTG-2K、LongText-Bench榜單中達(dá)到開(kāi)源SOTA水平
GLM-Image實(shí)現(xiàn)了圖像生成與語(yǔ)言模型的聯(lián)合,核心亮點(diǎn)如下:
1、架構(gòu)革新,面向「認(rèn)知型生成」的技術(shù)探索:采用創(chuàng)新的「自回歸 + 擴(kuò)散編碼器」混合架構(gòu),兼顧全局指令理解與局部細(xì)節(jié)刻畫(huà),克服了海報(bào)、PPT、科普?qǐng)D等知識(shí)密集型場(chǎng)景生成難題。
2、首個(gè)在國(guó)產(chǎn)芯片完成全程訓(xùn)練的SOTA模型:模型自回歸結(jié)構(gòu)基座基于昇騰Atlas 800T A2設(shè)備與昇思MindSpore AI框架,驗(yàn)證了在國(guó)產(chǎn)全棧算力底座上訓(xùn)練前沿模型的可行性。
3、文字渲染開(kāi)源SOTA:在CVTG-2K(復(fù)雜視覺(jué)文本生成)和LongText-Bench(長(zhǎng)文本渲染)榜單獲得開(kāi)源第一,尤其擅長(zhǎng)漢字生成任務(wù)。
4、高性價(jià)比與速度優(yōu)化:API調(diào)用模式下,生成一張圖片僅需0.1元,速度優(yōu)化版本即將更新。
智東西第一時(shí)間對(duì)GLM-Image進(jìn)行了體驗(yàn),發(fā)現(xiàn)模型在漢字生成上準(zhǔn)確度很高,優(yōu)于谷歌Nano Banana Pro以及多款頭部國(guó)內(nèi)模型;能夠較準(zhǔn)確理解深層語(yǔ)義和知識(shí)概念,并將其轉(zhuǎn)化為正確的視覺(jué)元素;能夠在保證全局構(gòu)圖的同時(shí)較精準(zhǔn)刻畫(huà)局部細(xì)節(jié)。
同時(shí),GLM-Image也存在字體風(fēng)格呈現(xiàn)不準(zhǔn)、生成需要等待時(shí)間、一些科學(xué)概念理解不足等問(wèn)題;且相比于一些免費(fèi)選擇,其仍需要收取少量費(fèi)用。