精品精品国产手机自在线观|九九热思思精品视频|中文字幕aⅴ专区|黄国产成年人精品

    當(dāng)前位置:區(qū)塊鏈 >區(qū)塊鏈 > 用大模型訓(xùn)練實(shí)體機(jī)器人,谷歌推出機(jī)器人代理模型

    用大模型訓(xùn)練實(shí)體機(jī)器人,谷歌推出機(jī)器人代理模型

    更新時(shí)間:2024-01-25 10:01:58 | 作者:佚名
    原文來源:AIGC開放社區(qū) 圖片來源:由無界AI生成 谷歌DeepMind的研究人員推出了一款,通過視覺語言模型進(jìn)行場景理解,并使用大語言模型來發(fā)出指令控制實(shí)體機(jī)器人的模型——AutoRT。 AutoRT可有效地推理自主權(quán)和安全性,并擴(kuò)大實(shí)體機(jī)器人學(xué)習(xí)的數(shù)據(jù)收集規(guī)模。在實(shí)驗(yàn)中,AutoRT指導(dǎo)超過20個(gè)實(shí)體機(jī)器人執(zhí)行指令,并通過遠(yuǎn)程操作和自主機(jī)器人策略收集...

    原文來源:AIGC開放社區(qū)

    圖片來源:由無界 AI生成

    谷歌DeepMind的研究人員推出了一款,通過視覺語言模型進(jìn)行場景理解,并使用大語言模型來發(fā)出指令控制實(shí)體機(jī)器人的模型——AutoRT。

    AutoRT可有效地推理自主權(quán)和安全性,并擴(kuò)大實(shí)體機(jī)器人學(xué)習(xí)的數(shù)據(jù)收集規(guī)模。在實(shí)驗(yàn)中,AutoRT指導(dǎo)超過20個(gè)實(shí)體機(jī)器人執(zhí)行指令,并通過遠(yuǎn)程操作和自主機(jī)器人策略收集了77,000個(gè)真實(shí)機(jī)器人操作的片段。

    這充分說明,AutoRT收集的機(jī)器人操作數(shù)據(jù)更加多樣化,并且在大語言模型的幫助下AutoRT可以輕松實(shí)現(xiàn)與人類偏好相一致的機(jī)器人行為指令,該模型對于訓(xùn)練實(shí)體機(jī)器人幫助巨大。

    論文地址:https://auto-rt.github.io/static/pdf/AutoRT.pdf?

    大語言模型是AutoRT的核心組建之一,充當(dāng)機(jī)器人的指揮“大腦”,根據(jù)用戶的提示和環(huán)境條件為一個(gè)或多個(gè)機(jī)器人提供任務(wù)指令,主要包括環(huán)境探索、任務(wù)生成、自主行為和行為過濾四大模塊。


    環(huán)境探索


    負(fù)責(zé)讓機(jī)器人在環(huán)境中尋找適合操作的場景。該模塊使用了視覺語言模型構(gòu)建環(huán)境地圖,識別并定位各個(gè)對象。

    然后根據(jù)對象特征采樣導(dǎo)航目標(biāo),引導(dǎo)機(jī)器人駛向潛在的操作場景。這使得AutoRT可以無需事先了解環(huán)境布局就進(jìn)行部署。

    簡單來說,就是讓機(jī)器人自己在房間、辦公室等環(huán)境進(jìn)行自行操作和觀察,到處看看有啥可以操作的東西。它會先把當(dāng)前環(huán)境里的桌子、杯子這些物體定位好,明確具體的坐標(biāo),方便以后的動作指令操作。


    任務(wù)指令生成


    首先使用視覺語言模型描述當(dāng)前場景和環(huán)境中的對象,然后將這些文字描述輸入大語言模型,生成機(jī)器人可以執(zhí)行的一系列操作任務(wù)指令。

    任務(wù)生成考慮不同的數(shù)據(jù)收集策略,為它們各自生成適配的任務(wù)列表。此外,任務(wù)生成過程中還內(nèi)嵌了“機(jī)器人約束”,定義了機(jī)器人需要遵守的基本規(guī)則、安全規(guī)則和具體約束,確保任務(wù)的安全性和合理性。


    自主執(zhí)行


    在任務(wù)執(zhí)行階段,機(jī)器人根據(jù)生成的任務(wù)執(zhí)行計(jì)劃來執(zhí)行具體的操作。機(jī)器人可以根據(jù)需要執(zhí)行自主策略,如通過路徑規(guī)劃和運(yùn)動控制來移動和操作物體。

    此外,機(jī)器人還可以通過與人類操作員進(jìn)行通信來執(zhí)行任務(wù)。在需要人類干預(yù)或指導(dǎo)的情況下,機(jī)器人可以向操作員發(fā)送請求或詢問,并根據(jù)操作員的指示進(jìn)行相應(yīng)的操作。

    自主執(zhí)行的目標(biāo)是使機(jī)器人能夠在不同環(huán)境和任務(wù)下獨(dú)立運(yùn)行,并從中獲取豐富的數(shù)據(jù)。


    行為指令過濾


    主要對任務(wù)生成的輸出進(jìn)行再次篩選,移除不安全或不合理的任務(wù)。該模塊同樣基于大語言模型,將生成的任務(wù)及可選的數(shù)據(jù)收集策略作為輸入,同時(shí)輸出每個(gè)任務(wù)指令所匹配的策略或拒絕理由。

    可以把這個(gè)模塊看成是一個(gè)自我反思的過程,大語言模型對自己生成的內(nèi)容進(jìn)行糾錯和修正,提升整體的安全性能。

    通過以上4大模塊的協(xié)同工作,AutoRT能夠在真實(shí)世界的不同環(huán)境中快速收集大規(guī)模、多樣化的機(jī)器人數(shù)據(jù)。

    相比于傳統(tǒng)的數(shù)據(jù)收集方法,AutoRT利用先進(jìn)的視覺感知和語言模型技術(shù),使機(jī)器人能夠在未知的情境下自主決策并執(zhí)行任務(wù),從而最大限度地提高數(shù)據(jù)收集的效率和安全性。

    此外,AutoRT還支持與人類操作員的交互,使機(jī)器人能夠在需要時(shí)獲取人類的幫助和指導(dǎo)。

    本站提醒:投資有風(fēng)險(xiǎn),入市須謹(jǐn)慎,本內(nèi)容不作為投資理財(cái)建議。