智元機器人發(fā)布首個通用具身基座大模型

發(fā)布時間：2025-03-10 13:50:40 | 來源：東方網(wǎng) | 閱讀量：12000 |

3月10日，澎湃新聞記者從上海市經(jīng)信委獲悉，當(dāng)天上午，智元機器人正式發(fā)布首個通用具身基座大模型——智元啟元大模型GO-1。

智元提出了Vision-Language-Latent-Action架構(gòu)，該架構(gòu)由VLM(多模態(tài)大模型) + MoE(混合專家)組成。智元啟元大模型GO-1借助人類和多種機器人數(shù)據(jù)，讓機器人獲得了學(xué)習(xí)能力，可泛化應(yīng)用到各類環(huán)境和物品中，快速適應(yīng)新任務(wù)、學(xué)習(xí)新技能。同時，它還支持部署到不同的機器人本體，并在實際的使用中持續(xù)進(jìn)化。

智元機器人服務(wù)場景。

舉例來說，用戶給出指令告訴機器人要做的事情，比如“掛衣服”，模型就可以根據(jù)看到的畫面，理解這句話對應(yīng)的任務(wù)要求。然后，模型根據(jù)之前訓(xùn)練時看過的掛衣服流程，設(shè)想這個過程應(yīng)該包括哪些操作步驟，最后執(zhí)行這一連串的步驟，完成整個任務(wù)的操作。

在更深層的技術(shù)層面，GO-1大模型具備了通用的場景感知和理解能力。在構(gòu)建和訓(xùn)練階段，該大模型學(xué)習(xí)了互聯(lián)網(wǎng)的大規(guī)模純文本和圖文數(shù)據(jù)，因此能夠理解“掛衣服”在此情此景下的含義和要求；學(xué)習(xí)過人類操作視頻和其他機器人的各種操作視頻，所以能知道掛衣服這件事通常包括哪些環(huán)節(jié)；學(xué)習(xí)過仿真的不同衣服、不同衣柜、不同房間，模擬過掛衣服的操作，所以能理解環(huán)節(jié)中對應(yīng)的物體和環(huán)境，并打通整個任務(wù)過程；最后，因為學(xué)習(xí)過真機的示教數(shù)據(jù)，所以機器人能完成整個任務(wù)的操作。

具體來說，該款大模型的特點可以歸納為4個方面。

一是人類視頻學(xué)習(xí):GO-1大模型可以結(jié)合互聯(lián)網(wǎng)視頻和真實人類示范進(jìn)行學(xué)習(xí)，增強模型對人類行為的理解。

二是小樣本快速泛化:該大模型具有泛化能力，能夠在極少數(shù)據(jù)甚至零樣本下泛化到新場景、新任務(wù)，降低了具身模型的使用門檻，使得后訓(xùn)練成本非常低。

三是一腦多形:該大模型是通用機器人策略模型，能夠在不同機器人形態(tài)之間遷移，快速適配到不同本體。

四是持續(xù)進(jìn)化:該大模型搭配一整套數(shù)據(jù)回流系統(tǒng)，可以從實際執(zhí)行中遇到的問題數(shù)據(jù)中持續(xù)進(jìn)化學(xué)習(xí)。

智元機器人在五種不同復(fù)雜度任務(wù)上針對GO-1的測試顯示，相比已有的最優(yōu)模型，GO-1的任務(wù)成功率領(lǐng)先，平均成功率提高了32%，其中在“Pour Water”(倒水)、“Table Bussing”(清理桌面)和“Restock Beverage”(補充飲料)的任務(wù)中表現(xiàn)尤為突出。

上一條：人工耳蝸集采產(chǎn)品納入北京醫(yī)保報銷
下一條：返回列表

聲明：以上內(nèi)容為本網(wǎng)站轉(zhuǎn)自其它媒體，相關(guān)信息僅為傳遞更多企業(yè)信息之目的，不代表本網(wǎng)觀點，亦不代表本網(wǎng)站贊同其觀點或證實其內(nèi)容的真實性。投資有風(fēng)險，需謹(jǐn)慎。

67194手机在线看 localhost,欧美一区二区自偷自拍视频,91在线精品播放

今日頭條

熱點關(guān)注

文章排行

智元機器人發(fā)布首個通用具身基座大模型

猜你喜歡