今日頭條
震撼!無需依賴語言模型,豆包打破AI視覺次元壁
繼DeepSeek大模型之后,國產大模型再度實現突破。
2月10日,字節跳動豆包大模型團隊公眾號發文宣布,與北京交通大學、中國科學技術大學聯合提出的視頻生成實驗模型“VideoWorld”,在業界首次實現無需依賴語言模型,即可認知世界。該項目代碼與模型已開源。
據介紹,VideoWorld僅通過“視覺信息”,即瀏覽視頻數據,就能讓機器掌握推理、規劃和決策等復雜能力。并且,在僅300M參數量下,VideoWorld已取得可觀的模型表現。
近年來,字節跳動持續加碼多模態技術研發,憑借其在視頻、圖像和文本等多領域的深度融合,為AI應用場景的拓展注入新動能。
多位機構分析師認為,隨著技術門檻的降低和生態合作的深化,AI應用有望加速繁榮,賦能千行百業,開啟智能化新時代。
用“眼”學習的大模型
VideoWorld的獨特之處在于,它僅憑借“視覺信息”,也就是通過瀏覽大量的視頻數據,就能讓機器掌握推理、規劃和決策等復雜能力。
在人工智能領域,以往的許多模型往往依賴語言模型或者標簽數據來學習知識,例如Sora、DALL-E、Midjourney等,而VideoWorld打破了這一傳統模式。
在模型構建方面,研發團隊構建了視頻圍棋對戰和視頻機器人模擬操控兩個實驗環境。在訓練過程中,VideoWorld模型通過“觀看”包含大量視頻演示數據的離線數據集來進行學習。其架構采用的是樸素自回歸模型,主要包含VQ-VAE編碼器—解碼器和自回歸Transformer架構。這種架構設計使得模型能夠有效地處理視頻數據中的時空信息,為后續的推理和決策提供基礎。
然而,在研究初期,團隊遇到了一個難題,即視頻序列知識挖掘效率低于文本形式。為了解決這一問題,團隊引入了潛在動態模型,該模型由以德國慕尼黑大學的研究團隊為首的多個研究團隊共同構建。LDM能夠將幀間視覺變化壓縮為緊湊的潛在編碼,這不僅提升了知識挖掘效率,還能保留豐富的視覺信息,讓VideoWorld可以捕捉視覺序列中的長期依賴關系,從而在長期推理和規劃方面表現得更加出色。
據豆包大模型團隊介紹,在不依賴任何強化學習搜索或獎勵函數機制的前提下,VideoWorld達到了專業5段9x9圍棋水平。
此外,VideoWorld還能夠在多種環境中執行機器人任務。在機器人模擬操控實驗環境中,它可以根據“觀看”到的視頻數據,學習如何控制機器人完成各種任務,如移動、抓取物品等。
“VideoWorld通過僅依賴‘視覺信息’的方式,讓機器能夠掌握推理、規劃和決策等復雜能力,這無疑是人工智能技術在視覺學習領域的一次重要革新。”盤古智庫高級研究員江瀚對記者表示。
不過,盡管VideoWorld在圍棋和模擬機器人操控場景中表現卓越,但豆包大模型團隊同時指出,在真實世界的應用中,它還面臨高質量視頻生成和多環境泛化等挑戰。
AI應用生態加速繁榮
近年來,字節跳動在多模態技術研發上持續加大投入,從2023年2月探索大模型,到8月開啟“豆包”公測,再到2024年5月豆包正式對外服務并掀起大模型價格戰,豆包大模型在全球范圍內吸引了大量用戶,在2024年11月的全球月活躍排行榜上位列第二。
豆包大模型團隊還表示,VideoWorld項目代碼與模型已開源。
開源不僅是代碼和模型的共享,更意味著構建一個創新生態。以往,開發大模型需要巨額資金投入、強大的算力支撐以及深厚的技術積累,這使得許多中小開發者和研究團隊難以涉足。
而開源大模型的出現,打破了這一壁壘,降低了技術門檻,讓更多的創新力量得以參與到大模型的開發與應用中。
此前,在OpenAI毅然選擇閉源策略后,眾多大模型廠商紛紛跟風,閉源仿佛成了新的行業共識。而近期橫空出世的DeepSeek卻反其道而行之,將高性價比的R1模型開源。
緊隨其后,VideoWorld也選擇開源,折射出中國AI產業從單一技術突破向應用生態構建的戰略轉向。
可見,產業格局的變革已悄然啟動。
江瀚告訴記者,此次VideoWorld的推出將推動相關產業的快速發展。“例如,在自動駕駛、智能制造、智能安防等領域,VideoWorld的應用將極大地提升系統的智能化水平,推動相關產業的快速發展。”他表示。
上一條:追求消費升級的年輕人,涌入奧特萊斯?
下一條:返回列表
聲明:以上內容為本網站轉自其它媒體,相關信息僅為傳遞更多企業信息之目的,不代表本網觀點,亦不代表本網站贊同其觀點或證實其內容的真實性。投資有風險,需謹慎。