①VideoWorld在業(yè)界首次實(shí)現(xiàn)無需依賴語言模型,僅通過“視覺信息”即可認(rèn)知世界; ②僅300M參數(shù)量下,VideoWorld已取得可觀的模型表現(xiàn); ③目前,該項(xiàng)目代碼與模型已開源。
《科創(chuàng)板日報(bào)》2月10日訊(編輯 宋子喬) 2月10日,A股視覺認(rèn)知概念股午后大幅走強(qiáng),創(chuàng)業(yè)板星宸科技直線拉升漲停,全志科技、富瀚微、虹軟科技等紛紛大幅沖高。

消息面上,豆包發(fā)布視頻生成實(shí)驗(yàn)?zāi)P汀癡ideoWorld”。據(jù)介紹,不同于Sora、DALL-E、Midjourney等主流多模態(tài)模型,VideoWorld在業(yè)界首次實(shí)現(xiàn)無需依賴語言模型,僅通過“視覺信息”即可認(rèn)知世界,也就是說,VideoWorld可通過瀏覽視頻數(shù)據(jù),讓機(jī)器掌握推理、規(guī)劃和決策等復(fù)雜能力。團(tuán)隊(duì)實(shí)驗(yàn)發(fā)現(xiàn),僅300M參數(shù)量下,VideoWorld已取得可觀的模型表現(xiàn)。
目前,該項(xiàng)目代碼與模型已開源。

現(xiàn)有模型大多依賴語言或標(biāo)簽數(shù)據(jù)學(xué)習(xí)知識,很少涉及純視覺信號的學(xué)習(xí)。VideoWorld選擇去掉語言模型,實(shí)現(xiàn)了統(tǒng)一執(zhí)行理解和推理任務(wù)。
怎么做到的?
豆包大模型團(tuán)隊(duì)稱,VideoWorld基于一種潛在動(dòng)態(tài)模型(Latent Dynamics Model,LDM),可高效壓縮視頻幀間的變化信息,在保留豐富視覺信息的同時(shí),壓縮了關(guān)鍵決策和動(dòng)作相關(guān)的視覺變化,顯著提升知識學(xué)習(xí)效率和效果。
在不依賴任何強(qiáng)化學(xué)習(xí)搜索或獎(jiǎng)勵(lì)函數(shù)機(jī)制前提下,VideoWorld達(dá)到了專業(yè)5段9x9圍棋水平,并能夠在多種環(huán)境中,執(zhí)行機(jī)器人任務(wù)。
但該模型并不完美,其在真實(shí)世界環(huán)境中的應(yīng)用,仍面臨著高質(zhì)量視頻生成和多環(huán)境泛化等挑戰(zhàn)。這一點(diǎn)最直觀體現(xiàn)在,視頻中存在大量冗余信息,會(huì)大大影響模型的學(xué)習(xí)效率,使得視頻序列的知識挖掘效率顯著落后于文本形式,不利于模型對復(fù)雜知識的快速學(xué)習(xí)。
大模型的視覺理解能力一直是AI前沿研究方向之一。對人類而言,與語言相比,“用眼睛看”是門檻更低的認(rèn)知方式。正如李飛飛教授9年前TED演講中提到“幼兒可以不依靠語言理解真實(shí)世界”。
AI視覺學(xué)習(xí),簡單來說,需要大模型理解物品/空間/場景的整體含義,并根據(jù)識別內(nèi)容進(jìn)行復(fù)雜的邏輯計(jì)算,根據(jù)圖像信息更細(xì)膩地表述并創(chuàng)作。
AI視覺學(xué)習(xí)能力提升,有望催發(fā)更多的AI應(yīng)用。長城證券此前發(fā)布研報(bào)稱,國內(nèi)AI大模型多模態(tài)能力正持續(xù)提升,如快手可靈AI大模型、字節(jié)豆包AI大模型等視頻生成的效果正在持續(xù)提升,包括精準(zhǔn)語義理解、一致性多鏡頭生成、動(dòng)態(tài)運(yùn)鏡等。受益于底層技術(shù)能力的升級,國內(nèi)AI應(yīng)用持續(xù)迭代,token調(diào)用量持續(xù)增長,AI應(yīng)用有望從中受益。

