特级还黄色片一级黄色免费看,日韩毛片基地日韩电影A级片,激情网视频在线播放

業(yè)界首個(gè)！豆包新模型攪動(dòng)AI視覺

原創(chuàng)

2025-02-10 15:08 星期一

科創(chuàng)板日報(bào) 宋子喬

①VideoWorld在業(yè)界首次實(shí)現(xiàn)無需依賴語言模型，僅通過“視覺信息”即可認(rèn)知世界；
②僅300M參數(shù)量下，VideoWorld已取得可觀的模型表現(xiàn)；
③目前，該項(xiàng)目代碼與模型已開源。

《科創(chuàng)板日報(bào)》2月10日訊（編輯宋子喬） 2月10日，A股視覺認(rèn)知概念股午后大幅走強(qiáng)，創(chuàng)業(yè)板星宸科技直線拉升漲停，全志科技、富瀚微、虹軟科技等紛紛大幅沖高。

消息面上，豆包發(fā)布視頻生成實(shí)驗(yàn)?zāi)Ｐ汀癡ideoWorld”。據(jù)介紹，不同于Sora、DALL-E、Midjourney等主流多模態(tài)模型，VideoWorld在業(yè)界首次實(shí)現(xiàn)無需依賴語言模型，僅通過“視覺信息”即可認(rèn)知世界，也就是說，VideoWorld可通過瀏覽視頻數(shù)據(jù)，讓機(jī)器掌握推理、規(guī)劃和決策等復(fù)雜能力。團(tuán)隊(duì)實(shí)驗(yàn)發(fā)現(xiàn)，僅300M參數(shù)量下，VideoWorld已取得可觀的模型表現(xiàn)。

目前，該項(xiàng)目代碼與模型已開源。

現(xiàn)有模型大多依賴語言或標(biāo)簽數(shù)據(jù)學(xué)習(xí)知識，很少涉及純視覺信號的學(xué)習(xí)。VideoWorld選擇去掉語言模型，實(shí)現(xiàn)了統(tǒng)一執(zhí)行理解和推理任務(wù)。

怎么做到的？

豆包大模型團(tuán)隊(duì)稱，VideoWorld基于一種潛在動(dòng)態(tài)模型（Latent Dynamics Model，LDM），可高效壓縮視頻幀間的變化信息，在保留豐富視覺信息的同時(shí)，壓縮了關(guān)鍵決策和動(dòng)作相關(guān)的視覺變化，顯著提升知識學(xué)習(xí)效率和效果。

在不依賴任何強(qiáng)化學(xué)習(xí)搜索或獎(jiǎng)勵(lì)函數(shù)機(jī)制前提下，VideoWorld達(dá)到了專業(yè)5段9x9圍棋水平，并能夠在多種環(huán)境中，執(zhí)行機(jī)器人任務(wù)。

但該模型并不完美，其在真實(shí)世界環(huán)境中的應(yīng)用，仍面臨著高質(zhì)量視頻生成和多環(huán)境泛化等挑戰(zhàn)。這一點(diǎn)最直觀體現(xiàn)在，視頻中存在大量冗余信息，會(huì)大大影響模型的學(xué)習(xí)效率，使得視頻序列的知識挖掘效率顯著落后于文本形式，不利于模型對復(fù)雜知識的快速學(xué)習(xí)。

大模型的視覺理解能力一直是AI前沿研究方向之一。對人類而言，與語言相比，“用眼睛看”是門檻更低的認(rèn)知方式。正如李飛飛教授9年前TED演講中提到“幼兒可以不依靠語言理解真實(shí)世界”。

AI視覺學(xué)習(xí)，簡單來說，需要大模型理解物品/空間/場景的整體含義，并根據(jù)識別內(nèi)容進(jìn)行復(fù)雜的邏輯計(jì)算，根據(jù)圖像信息更細(xì)膩地表述并創(chuàng)作。

AI視覺學(xué)習(xí)能力提升，有望催發(fā)更多的AI應(yīng)用。長城證券此前發(fā)布研報(bào)稱，國內(nèi)AI大模型多模態(tài)能力正持續(xù)提升，如快手可靈AI大模型、字節(jié)豆包AI大模型等視頻生成的效果正在持續(xù)提升，包括精準(zhǔn)語義理解、一致性多鏡頭生成、動(dòng)態(tài)運(yùn)鏡等。受益于底層技術(shù)能力的升級，國內(nèi)AI應(yīng)用持續(xù)迭代，token調(diào)用量持續(xù)增長，AI應(yīng)用有望從中受益。

閱100.99W

我要評論

反饋意見