日日夜夜一区二区_欧美体内she精视频_91亚洲大成网污www_日韩欧美中文字幕精品_亚洲午夜久久久久久久久电影院_蜜桃av一区二区_久久狠狠亚洲综合_国产成人精品亚洲777人妖_九九精品视频在线看_国产婷婷色一区二区三区四区 _ww久久中文字幕_日本亚洲免费观看_91久久精品午夜一区二区_久久精品视频免费观看_亚洲精品伦理在线_日本在线不卡一区

英偉達把 GPT-4 塞進我的世界,打游戲快 15 倍:AI 大佬沉默了

時間:2023-05-27 12:05:42 來源: 機器之心


機器之心報道

機器之心編輯部

游戲行業可能要變天?


(相關資料圖)

通用 AI 大模型 GPT-4 進游戲了,進的是開放世界,而且玩出了高水平。

昨天,英偉達發布的 VOYAGER 給 AI 圈內帶來了一點小小的震撼。

VOYAGER 是第一個大模型驅動,可以終身學習的游戲智能體,著名 AI 學者,剛回 OpenAI 的 Andrej Karpathy 看論文了之后表示:還記得在大約 2016 年的時候,在像《我的世界》這樣的環境里開發 AI 代理是多么絕望的一件事嗎?

現在畫風變了 —— 正確的做法是忘記所有這些,首先用全網數據去訓練一個大語言模型(LLM)學習世界知識,推理和工具使用(編碼),然后以英偉達這種方式讓它去解決問題。

Karpathy 最后總結道:如果在 2016 年讀到這種「無梯度」的代理方法,我肯定會大驚失色。

專家說完了,其他人的想法很直接:看起來離通用人工智能(AGI)更近了一步。

也有人在設想未來游戲的場景,由大模型帶動 NPC,勃勃生機萬物競發的境界躍然眼前:

我們知道,引領科技潮流的 ChatGPT 是一種文本交互的聊天機器人,又因為 GPT-4 升級了多模態能力,人們經常預言通用 AI 的下一步在于把這種大模型放在機器人里,讓它與現實世界產生交互。

而在機器人與現實 / 虛擬世界交互的方式上,類似 GPT-4 這樣的先進大模型解鎖了一種新范式:「訓練」是代碼執行而非梯度下降。「訓練好的模型」是 VOYAGER 迭代組合的技能代碼庫,而不是浮點數矩陣。現在,我們正在將無梯度架構推向極限。

在《我的世界》里,VOYAGER 迅速成為了經驗豐富的探險家,它獲得的獨特物品增加了 3.3 倍,行進距離增加了 2.3 倍,解鎖關鍵科技樹里程碑的速度比之前的方法快了 15.3 倍。

英偉達把 VOYAGER 的研究進行了徹底的開源:

論文鏈接:https://arxiv.org/pdf/2305.16291.pdf

項目主頁:https://voyager.minedojo.org/

GitHub:https://github.com/MineDojo/Voyager

研究背景

構建具有通用能力的具身智能體,在開放的世界中不斷探索、計劃和發展新的技能,是人工智能領域的一個巨大挑戰。傳統的方法采用強化學習和模仿學習的方法,這些方法基于原始行為運作,對于系統性的探索、可解釋性和概括性來說,可能是個挑戰。

近期,基于大型語言模型(LLM)的智能體在這些方面獲得了突破,利用預訓練 LLM 中封裝的世界知識,生成一致的行動計劃或可執行的策略。它們被應用于像游戲和機器人這樣的體現性任務,以及沒有體現性的 NLP 任務。然而,這些智能體不是終身學習者,不能在較長的時間跨度內逐步獲得、更新、積累和遷移知識。

與人工智能中研究的大多數其他游戲不同,《我的世界》沒有強加一個預定的最終目標或固定的故事情節,而是提供了一個具有無限可能性的獨特游樂場。一個高效的終身學習智能體應該具有與人類玩家類似的能力:

(1)根據其當前的技能水平和世界狀態提出合適的任務,例如,如果它發現自己處于沙漠而不是森林,就會在打鐵前學會獲取沙子和仙人掌;

(2)根據環境反饋完善技能,并將掌握的技能存入記憶,以便將來在類似情況下重復使用(例如,打僵尸與打蜘蛛類似);

(3)不斷探索世界,以自驅動的方式尋找新任務。

VOYAGER 是第一個由 LLM 驅動的體現終身學習的智能體,可以在《我的世界》中驅動探索,掌握廣泛的技能,并在沒有人類干預的情況下不斷地做出新的發現。

研究者使用了代碼作為行動空間,而不是低級的運動指令,因為程序可以自然地表示時間上的擴展和組合行動,這對于《我的世界》中的許多長線任務是至關重要的。

VOYAGER 通過 prompt 和上下文學習與黑盒子 LLM(GPT-4)互動。值得注意的是,該方法避開了對模型參數訪問和明確的基于梯度的訓練或微調的需要。

具體地說,VOYAGER 試圖解決由自動課程提出的逐漸困難的任務。該課程是由 GPT-4 根據 「盡可能多發現不同的東西」的總體目標生成的。這種方法可以被看作是一種上下文式的新穎性搜索。通過存儲有助于成功解決某個任務的行動程序,VOYAGER 逐步建立起一個技能庫。每個程序都由其描述的嵌入來索引,未來可以在類似情況下進行檢索。復雜的技能則可以通過組成更簡單的程序來合成,這使 VOYAGER 的能力隨著時間的推移迅速變得「復合」,緩解了其他持續學習方法中的「災難性遺忘」。

方法

VOYAGER 由三個新型組件組成: ( 1 ) 自動課程,用于提出開放式探索的目標; ( 2 ) 技能庫,用于開發越來越復雜的行為; ( 3 ) 迭代 prompt 機制,用于為具身控制生成可執行代碼。

自動課程

具身智能體在開放模式下會遇到各種不同復雜程度的目標環境。自動課程這個組件為開放式探索提供了許多好處,實現了具有挑戰性但可管理的學習過程,培養了好奇心驅動的內在動機,供智能體學習和探索,并鼓勵開發通用和靈活的問題解決策略。

自動課程組件利用互聯網規模的知識,通過促使 GPT-4 提供源源不斷的新任務或挑戰,提供非常強大的適應性和響應能力。自動課程會根據探索進度和智能體的狀態使探索最大化。該課程由 GPT-4 基于「發現盡可能多的不同事物」的總體目標生成。

技能庫

隨著自動課程不斷提出越來越復雜的任務,VOYAGER 需要有一個技能庫,作為學習和進化的基礎。受程序的通用性、可解釋性和普遍性的啟發,研究團隊用可執行代碼表示每項技能,這些代碼支持臨時擴展,以完成自動課程提出的特定任務。

具體來說,技能庫的頂部用于添加新技能。每個技能都通過其描述的嵌入進行索引,將來可以在類似情況下檢索到。

技能庫的底部是技能檢索。當自動課程提出新任務時,技能庫會執行查詢以確定最相關的 5 項技能。復雜的技能可以通過編寫更簡單的程序來合成。這種做法讓 VOYAGER 的能力隨著時間的推移迅速增強,并緩解了「災難性遺忘」問題。

迭代 prompt 機制

研究團隊通過三種類型的反饋引入自我提升的迭代 prompt 機制,包括環境反饋、執行錯誤、檢查任務成功與否的自我驗證。

下圖(左)是一個環境反饋的例子:GPT-4 意識到在制作木棍之前還需要 2 個木板。執行錯誤的例子如下圖(右)所示, GPT-4 意識到它應該制作木斧而不是灌木斧,因為《我的世界》中沒有灌木斧。

下圖是一個自我驗證的例子。通過向 GPT-4 提供智能體的當前狀態和任務,GPT-4 會充當「評論者」并通知程序是否完成了任務。此外,如果任務失敗,它會「批評」智能體并提供如何完成任務的建議。

實驗

在實驗中,研究者系統對比了 VOYAGER 和基線的探索性能、技術樹的掌握情況、地圖覆蓋率以及對新世界中新任務的零樣本泛化能力。

他們利用 OpenAI 的 gpt-4-0314 和 gpt-3.5-turbo-0301 的 API 來完成文本,同時利用 text-embedding-ada-002 API 進行文本嵌入。所有的溫度設置為 0,除了 automatic curriculum 需要使用溫度 = 0.1 來鼓勵任務多樣性。模擬環境建立在 MineDojo 的基礎上,并利用 Mineflayer 的 JavaScript APIs 進行電機控制。

評估結果如下:

明顯更強的探索能力

VOYAGER 的優勢體現在它能夠不斷取得新的進展(如圖 1),比如能在 160 次 prompt 迭代中發現了 63 個獨特的項目,數量是同類的 3.3 倍。另一方面,AutoGPT 在發現新項目方面明顯滯后,而 ReAct 和 Reflexion 則難以取得重大進展。

科技樹的掌握

《我的世界》中技術樹測試的是智能體制作和使用工具層次的能力。通過這棵樹(木制工具→石制工具→鐵制工具→鉆石工具)的進展需要智能體掌握系統性和構成性的技能。

在表 1 中,分數表示三次總運行中的成功試驗次數。數字是三次試驗中平均的 prompt 迭代次數,迭代次數越少,方法就越有效。與基線相比,VOYAGER 解鎖木質等級的速度快了 15.3 倍(就 prompt 迭代而言),解鎖石質等級快了 8.5 倍,解鎖鐵質等級快了 6.4 倍,VOYAGER 是唯一能解鎖科技樹中鉆石等級的模型。

廣泛的地圖遍歷

與基線相比,VOYAGER 的行動范圍能夠覆蓋 2.3 倍的距離,可穿越各種地形,而基線智能體往往發現自己被限制在本地,這大大阻礙了他們發現新知識的能力(圖 7)。

對未見任務的零樣本泛化能力

為了評估零樣本泛化能力,研究者清除了智能體的庫,將其重置到一個的實例化的世界,并用未見過的任務來測試。對于 VOYAGER 和 AutoGPT,他們利用 GPT-4 將任務分解為一系列的子目標。

如表 2 和圖 8 所示,VOYAGER 可以持續地解決所有的任務,而基線不能在 50 次 prompt 迭代內解決任何任務。值得注意的是,從終身學習中構建的技能庫不僅增強了 VOYAGER 的性能,而且也給 AutoGPT 帶來了提升。這表明,技能庫是一個多功能的工具,可以隨時被其他方法所采用,有效地作為一種即插即用的資產來提高性能。

消融研究

研究者在 VOYAGER 中消融了 6 個設計選擇(自動課程、技能庫、環境反饋、執行錯誤、自我驗證和用于代碼生成的 GPT-4),并研究它們對探索性能的影響,結果如圖 9 所示。

VOYAGER 的性能優于所有替代方案,表明了每個組件的關鍵作用。此外,GPT-4 在代碼生成方面明顯優于 GPT-3.5。

最后,英偉達的研究者也指出了一些局限性和未來的工作方向。

首先是成本問題。GPT-4 API 導致了巨大的成本。它比 GPT-3.5 的成本高 15 倍。然而,VOYAGER 需要 GPT-4 實現代碼生成質量的飛躍,這是 GPT-3.5 和開源的 LLM 都無法提供的。

其次,盡管有迭代 prompt 機制,但仍有智能體卡住而無法生成正確技能的情況。自動課程有靈活性,可以在以后的時間里重新嘗試這項任務。自我驗證模塊偶爾也可能失敗,例如不能識別出蜘蛛串正是打倒蜘蛛的成功信號。

然后是大模型的「幻覺」問題。自動課程偶爾會提出無法完成的任務,例如可能要求智能體制作游戲中并不存在的「銅劍」或「銅胸甲」。幻覺也會發生在代碼生成過程中,例如 GPT-4 傾向于使用鵝卵石作為燃料輸入,這在游戲中是一個無效的燃料來源。此外,它可能會調用所提供的控制原始 API 中沒有的函數,導致代碼執行錯誤。研究者認為,GPT API 模型的改進以及微調開源 LLM 的新技術將在未來克服這些限制。

更多研究細節,可參考原論文。

THE END

轉載請聯系本公眾號獲得授權

投稿或尋求報道:content@jiqizhixin.com

關鍵詞:

網站簡介 網站團隊 本網動態 友情鏈接 版權聲明 我要投稿

Copyright? 2014-2020 中原網視臺(www.b4dc4.cn) All rights reserved.

日日夜夜一区二区_欧美体内she精视频_91亚洲大成网污www_日韩欧美中文字幕精品_亚洲午夜久久久久久久久电影院_蜜桃av一区二区_久久狠狠亚洲综合_国产成人精品亚洲777人妖_九九精品视频在线看_国产婷婷色一区二区三区四区 _ww久久中文字幕_日本亚洲免费观看_91久久精品午夜一区二区_久久精品视频免费观看_亚洲精品伦理在线_日本在线不卡一区

                制服.丝袜.亚洲.另类.中文| 亚洲天天做日日做天天谢日日欢 | 久久精品夜夜夜夜久久| 在线成人小视频| 欧美日韩一区三区| 欧美乱熟臀69xxxxxx| 欧美一区二区三区公司| 日韩欧美一区中文| 久久亚洲二区三区| 国产精品欧美久久久久无广告| 国产精品久久看| 亚洲色图欧洲色图| 亚洲国产成人91porn| 蜜臀精品久久久久久蜜臀| 国产综合色精品一区二区三区| 国产精品18久久久| 97精品久久久午夜一区二区三区 | 一本久道久久综合| 一本色道久久综合精品竹菊| 欧美日韩一级视频| 欧美精品一区二区精品网| 国产精品天美传媒| 亚洲国产中文字幕| 韩国精品主播一区二区在线观看| 高清shemale亚洲人妖| 成人国产1314www色视频| 蜜桃传媒一区二区| 色婷婷久久99综合精品jk白丝| 欧美精品丝袜中出| 日本一区二区高清| 亚洲成人精品一区| 国产一区二区伦理片| 国产精品国产三级国产专区53| 台湾成人av| 日韩欧美一级二级三级久久久| 成人欧美一区二区三区视频网页| 日韩av中文字幕一区二区 | 国产精品亚洲第一| 国产福利久久精品| 亚洲国产日韩欧美| 欧美一级片在线看| 一区二区三区高清| 国产一区二区视频在线播放| 国产福利一区二区三区在线观看| 色综合夜色一区| 久久久久久影视| 日韩影视精彩在线| 91麻豆免费在线观看| 亚洲综合第一| 欧美激情一区二区| 黄色日韩网站视频| 久久99精品久久久久久久青青日本 | 免费在线观看一区二区| 91福利国产成人精品照片| 久久久天堂av| 日本在线播放一区二区三区| 成人3d动漫一区二区三区91| 欧美性色欧美a在线播放| 国产精品毛片a∨一区二区三区| 激情深爱一区二区| 日韩电影免费观看高清完整| 精品国产露脸精彩对白| 免费成人在线观看| 久99久在线| 久久精品欧美日韩精品 | 国产视频一区二区三区在线观看| 婷婷成人综合网| 精品国产一区二区三区麻豆免费观看完整版 | 色偷偷88欧美精品久久久| 中文字幕欧美区| 国产精品77777| 在线观看国产一区二区| 一区二区三区中文字幕电影 | 久久精品视频一区二区三区| 国产呦精品一区二区三区网站| 日本午夜精品一区二区三区| 国产亚洲精品超碰| 从欧美一区二区三区| 欧美日韩一区视频| 日本亚洲三级在线| 欧美日韩一区在线视频| 欧美电影免费观看高清完整版| 玖玖九九国产精品| 在线视频亚洲自拍| 亚洲国产精品一区二区久久恐怖片| 国产精品夜夜夜一区二区三区尤| 日韩欧美国产成人一区二区| 国产精品一级黄| 91精品国产入口| 国产伦精一区二区三区| 欧美日韩国产免费| 精品一区二区三区在线播放| 91福利精品第一导航| 男人操女人的视频在线观看欧美| 一区二区成人国产精品| 亚洲欧美视频一区| 久久精品99久久| 亚洲日本青草视频在线怡红院| av一区二区三区在线观看| 2023国产精品| 91在线视频网址| 欧美videos大乳护士334| 国产精品一线二线三线精华| 欧美精品一二三四| 国产美女精品人人做人人爽| 欧美日韩成人综合在线一区二区| 久热成人在线视频| 欧美日韩二区三区| 国产一区二区三区综合| 国产成人av一区二区| 亚洲不卡一区二区三区| 毛片基地黄久久久久久天堂| 精品1区2区在线观看| 国产在线精品一区在线观看麻豆| 欧美主播一区二区三区美女| 久久99久久99| 欧美一区二区三区成人| 不卡在线视频中文字幕| 久久亚洲捆绑美女| 国产成人免费观看| 亚洲免费视频成人| 亚洲高清视频一区| 美脚の诱脚舐め脚责91| 欧美精品在线一区二区三区| 成人免费视频网站在线观看| 国产欧美日韩视频在线观看| 蜜桃传媒视频麻豆一区| 日韩精品1区2区3区| 欧美欧美午夜aⅴ在线观看| 成人av电影在线| 国产精品美女久久久久久久久| 欧洲精品久久| 另类欧美日韩国产在线| 欧美成人精品1314www| 国产偷国产偷亚洲高清97cao| 一区二区欧美视频| 在线观看区一区二| 99久久国产综合精品女不卡 | 国产精品色眯眯| 亚洲精品一区二| 国产毛片精品视频| 国产欧美中文在线| 亚洲国产精品毛片| 国产一区二三区好的| 中文字幕精品一区二区精品绿巨人| 日本一区二区在线| 国产一区二区免费视频| 国产精品美女久久久久久久网站| 亚洲精品一区二区毛豆| 成人午夜伦理影院| 亚洲精品视频在线观看网站| 欧美视频一区二区| 国产精成人品localhost| 日韩福利视频网| 久久嫩草精品久久久精品| 日韩中文字幕一区二区| 国产黄色成人av| 亚洲免费观看高清完整版在线观看| 日本高清不卡一区| av成人观看| 久久99蜜桃精品| 1024国产精品| 在线电影欧美成精品| 奇米视频888战线精品播放| 国v精品久久久网| 亚洲最新视频在线观看| 日韩欧美一区二区不卡| 日韩精品一区二区三区色偷偷| 成人永久aaa| 日韩成人午夜电影| 亚洲欧洲在线观看av| 欧美一区二区免费观在线| 欧美日韩综合久久| 成人h动漫精品一区二| 石原莉奈一区二区三区在线观看| 久久精品一区蜜桃臀影院| 一区国产精品| 久久爱av电影| bt欧美亚洲午夜电影天堂| 日本中文字幕一区二区视频| 国产精品美女久久久久久久久久久| 欧美性色黄大片| 日本一区高清在线视频| 国产成人精品福利一区二区三区| 精品一二三四在线| 一区二区激情视频| 欧美国产在线观看| 欧美变态口味重另类| 欧美羞羞免费网站| 日本一区二区不卡高清更新| 国产精品yjizz| 成人高清免费在线播放| 久久精品国内一区二区三区| 亚洲一区二三区| 中文字幕在线免费不卡| 国产亚洲欧美日韩日本| 欧美videos中文字幕| 91精品国产综合久久香蕉的特点| 中文字幕av日韩精品| 日本欧美精品久久久|