亚洲欧美精品一区二区,思思久热在线精品66

您現(xiàn)在的位置 :

國泰君安證券：具身智能，人工智能的下一個浪潮

時間 :2023-06-30 08:58:52 來源 : 金融界

國泰君安認(rèn)為，“具身智能”具備人類孩童般的感知和學(xué)習(xí)行動能力；“具身智能”的基本假設(shè)是，智能行為可以被具有對應(yīng)形態(tài)的智能體通過適應(yīng)環(huán)境的方式學(xué)習(xí)到；Tesla Bot功能進(jìn)展迅速，商業(yè)化前景可期，“算力霸主”英偉達(dá)高調(diào)布局具身智能；具身智能帶來的AI價值遠(yuǎn)比人形機(jī)器人更大。

以下為原文內(nèi)容：

(資料圖片)

從符號主義到聯(lián)結(jié)主義，智能體與真實世界的交互得到日益重視。上世紀(jì)五十年代的達(dá)特茅斯會議之后的一段時期內(nèi)，對人工智能的研究主要限于符號處理范式（符號主義）。符號主義的局限性很快在實際應(yīng)用中暴露出來，并催動了聯(lián)接主義的發(fā)展，形成了包括多層感知機(jī)、前向神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)，直至今日風(fēng)靡學(xué)術(shù)界與產(chǎn)業(yè)界的深度神經(jīng)網(wǎng)絡(luò)等多種方法。這種用人工神經(jīng)網(wǎng)絡(luò)模擬認(rèn)知過程的方法在適應(yīng)、泛化與學(xué)習(xí)方面的確取得了很大的進(jìn)展，但并未真正解決智能體與真實物理世界交互的難題。該難題“莫拉維克悖論”可以通俗地表述為：要讓電腦如成人般地下棋是相對容易的，但是要讓電腦有如一歲小孩般的感知和行動能力卻是相當(dāng)困難甚至是不可能的。

針對以上問題，“具身智能”（Embodied AI）概念應(yīng)運(yùn)而生。針對智能體的交互問題，明斯基從行為學(xué)習(xí)的角度提出了“強(qiáng)化學(xué)習(xí)”的概念。1986年，布魯克斯從控制論角度出發(fā)，強(qiáng)調(diào)智能是具身化（Embodied）和情境化（Contextlized）的，傳統(tǒng)以表征為核心的經(jīng)典AI進(jìn)化路徑是錯誤的，而清除表征的方式就是制造基于行為的機(jī)器人。Rolf Pfeifer在其著作《How the Body Shapes the Way We Think》中通過分析“身體是如何影響智能的”對“智能的具身化”做了清晰的描述，闡明了“具身性”對理解智能本質(zhì)與研究人工智能系統(tǒng)的深遠(yuǎn)影響。以上這些工作為人工智能的第三個流派——以具身智能為代表的行為主義方法奠定了堅實基礎(chǔ)。

“具身智能”的基本假設(shè)是，智能行為可以被具有對應(yīng)形態(tài)的智能體通過適應(yīng)環(huán)境的方式學(xué)習(xí)到。可以簡單理解為各種不同形態(tài)的機(jī)器人，讓它們在真實的物理環(huán)境下執(zhí)行各種各樣的任務(wù)，來完成人工智能的進(jìn)化過程。拆分來理解，“具身”的基本含義是認(rèn)知對身體的依賴性，即身體對于認(rèn)知具有影響，換句話說，身體參與了認(rèn)知，影響了思維、判斷等心智過程。“具身”意味著認(rèn)知不能脫離身體單獨(dú)存在。此外，“具身”相對的概念是“離身”（Disembodiment），指的是認(rèn)知與身體解耦（ChatGPT為代表的大模型就僅僅實現(xiàn)了離身智能）；“智能”代表智能體（生物或機(jī)械）通過與環(huán)境產(chǎn)生交互后，通過自身學(xué)習(xí)，產(chǎn)生對于客觀世界的理解和改造能力。此外，一些通過強(qiáng)化學(xué)習(xí)訓(xùn)練的機(jī)器人，也可以被認(rèn)為是具身智能的一種形式，如OpenAI的單手還原魔方機(jī)器人等。因此，具身智能旨在基于機(jī)器與物理世界的交互，創(chuàng)建軟硬件結(jié)合、可自主學(xué)習(xí)進(jìn)化的智能體。

具身的概念是可檢驗、可測量的。人所理解的世界概念，其中既包括人類獨(dú)有的責(zé)任心、榮譽(yù)、感情、欲望等非具身的概念，也包括了杯子、車等實體以及相應(yīng)行為的具身概念。而具身概念是具備可達(dá)性、可檢驗性以及可解釋性的，即具身的概念對應(yīng)的實體和行為是可以被測量，可以通過任務(wù)的完成來驗證以及通過具身學(xué)習(xí)來實現(xiàn)概念的推斷。相比之下，非具身概念基本要素不能實現(xiàn)可測量及可檢驗。

“知行合一”是具身智能的科學(xué)立場。根據(jù)具身智能的技術(shù)實現(xiàn)邏輯，“知”是建立在“行”之上的，也就是說只有通過“具身”才能理解某個場景。比如有個臥室，其具有睡覺、休息、放衣服等行為特征，這類行為是基于人的身體設(shè)計的，因此真正理解臥室的場景，就是要能夠直接通過坐上椅子、躺在床上等行為任務(wù)去驗證。同理，機(jī)器人通過理解場景，能夠?qū)崿F(xiàn)以上行為才能代表它真正理解了該場景。因為從本質(zhì)上，物體和場景的類別大多是由功能和任務(wù)來定義的，“我能用來干什么，那它是什么”，比如錘子不能叫木棍，錘子有它獨(dú)特的行為屬性。

具身知識在中國古老漢字中都占據(jù)較高比例。甲骨文等古老漢字，絕大多數(shù)就是通過行為的表征來刻畫一個概念，比如“爭”的古老寫法中，代表兩個人的手拔一根繩子，因此，理解行為才是理解概念及場景的關(guān)鍵。

所以，計算機(jī)視覺和NLP更多是具身智能的工具，而通用人工智能才是具身智能的終極目標(biāo)。具身智能要能夠?qū)崿F(xiàn)使用身體（各個部位）完成物理任務(wù)的一些現(xiàn)象，比如外國人不會用筷子，但仍能叉起來吃東西，因此具身智能也要通過物理環(huán)境完成任務(wù)的過程中，表現(xiàn)出完成之前沒有覆蓋的場景。所以，根據(jù)具身智能的特點(diǎn)可以研判，如同經(jīng)典力學(xué)領(lǐng)域的速度、動量、彈性等概念奠基了物理學(xué)領(lǐng)域，驅(qū)動了后續(xù)科學(xué)的發(fā)展，同理，具身智能因其實現(xiàn)了知識、概念、可解釋以及行為因果關(guān)系，其有望成為通用人工智能的驅(qū)動力。

具身智能首先要具備可供性。可供性意味著要讓機(jī)器知道物體和場景能夠提供的是什么，比如整個身體、部件怎么和場景進(jìn)行有效擬合。根據(jù)《Gendexgrasp: Generalizable dexterous grasping》論文中的案例，用兩、三、五根手指去握一個柱子，倘若不同的手都能夠產(chǎn)生無誤的握桿效果，就代表有了可供性，而物理學(xué)正是機(jī)器理解可供性的關(guān)鍵。

具身智能還要具有功能性。具身智能在把物體作為工具使用的過程中，要能夠以任務(wù)執(zhí)行為導(dǎo)向去理解功能。從智能體來理解世界，核心就在于任務(wù)——改變實體狀態(tài)，是任務(wù)實現(xiàn)來驅(qū)動智能體的。例如，在解決 “鏟土”任務(wù)過程中，需要實現(xiàn)用不同的工具去鏟土，比如杯子、鏟子、平底鍋等，都要能夠讓智能體實現(xiàn)“鏟土”這個任務(wù)。因此，具身智能的功能性就是賦予了物體一個功能，用來解決某個特定任務(wù)。

具身智能需要實現(xiàn)因果鏈。就以上提到的“鏟土”例子，智能體能否順利鏟起土來是有因果關(guān)系的，例如控制揮動錘子的方式、動量、沖量等指標(biāo)的改變程度和改變過程，需要用數(shù)學(xué)和物理的因果鏈來控制。人工智能研究院朱松純教授團(tuán)隊介紹了一種學(xué)習(xí)和規(guī)劃框架，并證明了所提出的學(xué)習(xí)和規(guī)劃框架能夠識別對任務(wù)成功有重要意義的基本物理量，使智能體能夠自主規(guī)劃有效的工具使用策略，模仿人類使用工具的基本特性。

智能體學(xué)習(xí)如何使用工具涉及到多個認(rèn)知和智能過程，這個過程即使對人類來說也并不容易。讓機(jī)器人掌握工具使用所涵蓋的所有技能是一項有挑戰(zhàn)性的難題，這項工作包括三個層面：其一是底層的運(yùn)動控制。很多研究基于阻抗控制（Impedance control）來跟蹤工具使用的運(yùn)動軌跡，或在不同階段改變力和運(yùn)動約束，或使用基于學(xué)習(xí)的方法來控制機(jī)器人運(yùn)動軌跡。在底層控制中，魯棒地執(zhí)行運(yùn)動軌跡是關(guān)注的核心。其二是中間層表征。各種利于下游任務(wù)的中間表征被提出，以便更好地理解工具的使用。盡管引入這些表征有利于學(xué)習(xí)更多不同的工具使用技能，但它們目前仍然局限于工具的形狀和任務(wù)之間的幾何關(guān)聯(lián)。其三是理解在工具使用中的涉及的高層概念，比如物體的功能性（Functionality）和可供性（Affordance），以及工具使用中涉及的因果關(guān)系與常識，從而實現(xiàn)更好的泛化能力。

現(xiàn)有的具身智能工作大多集中在以上三種基本特性中的某一層面。要么主要關(guān)注于機(jī)器人的動作軌跡而不去理解任務(wù)本身，要么旨在高層次概念理解而過度簡化運(yùn)動規(guī)劃，都不能夠較全面的涵蓋所有層面。因此，機(jī)器人還遠(yuǎn)遠(yuǎn)沒有辦法基于特定的情境去制定工具使用的策略，并且由于運(yùn)動學(xué)結(jié)構(gòu)的顯著差異，機(jī)器人觀察到的人類使用工具的策略對其來說可能并不是最理想的方式。例如給定一組物體（典型的工具或其他物體），機(jī)器人如何判斷哪一個會是完成任務(wù)的最佳選擇？一旦選擇了一個物體作為工具，根據(jù)機(jī)器人和工具特定的運(yùn)動學(xué)結(jié)構(gòu)和動力學(xué)限制，機(jī)器人該如何有效地使用它？這些問題也正是行業(yè)的前沿研究領(lǐng)域。

要機(jī)器理解實體與行為，就得回答三個核心的科學(xué)問題。首先，從機(jī)器認(rèn)知角度，如何讓機(jī)器看懂行為？其次，從神經(jīng)認(rèn)知角度，機(jī)器認(rèn)知語義與神經(jīng)認(rèn)知的內(nèi)在關(guān)聯(lián)如何？再者，從具身認(rèn)知的角度，如何將行為理解知識遷移到機(jī)器人系統(tǒng)？

要實現(xiàn)具身智能，就必須先回答機(jī)器能否克隆人類的行為這個問題。行為認(rèn)知是智能科學(xué)中的重要和核心問題，要讓機(jī)器理解世界代表著：理解實體+理解行為，因為不確定性的世界空間就可以歸類為實體與行為兩者。

深度學(xué)習(xí)框架在行為認(rèn)知中遇到了瓶頸。因為深度學(xué)習(xí)得到長足發(fā)展，計算機(jī)視覺領(lǐng)域有兩個要素，一個是以物體為中心的感知，一個是以人為中心的感知。配合不斷進(jìn)化的深度學(xué)習(xí)算法，復(fù)雜物體識別可以十分成功，但是要機(jī)器明白從人類視角的這個行為的真實語義，卻十分困難。市場表現(xiàn)來看也是如此，很多商用產(chǎn)品都是基于物體檢測，行為理解的產(chǎn)品都是很少的。之所以人為中心的感知十分困難，是因為深度學(xué)習(xí)本身達(dá)到了瓶頸。根據(jù)盧策吾教授的研究結(jié)果，行為識別的SOTA要遠(yuǎn)低于物體識別。

行為理解的關(guān)鍵是要在極大語義噪聲中提取行為理解要素。行為是一個抽象概念，因而需要在圖像中捕抓行為相關(guān)要素。要衡量圖像的語義判斷區(qū)間，可以用語噪比（語噪比=支撐語義判斷區(qū)間/全圖像區(qū)間）來刻畫，即抹去圖像上的某個區(qū)域使得其他人無法識別出行為類型的最小區(qū)域。盧策吾教授團(tuán)隊通過計算發(fā)現(xiàn)，物體識別的語噪比要遠(yuǎn)大于行為識別，這意味著遮住較大區(qū)域仍可以識別物體，但哪怕遮住一小塊區(qū)域就無法識別行為。因此，可以得出結(jié)論，行為理解的關(guān)鍵是要在極大語義噪聲中提取行為理解要素，也就是需要在很大干擾情況下，真正挖掘圖像的真實語義。而這個工作是無法通過增加深度學(xué)習(xí)的工作量來達(dá)到的。

將行為認(rèn)知問題分解為感知到知識、知識到推理融合的兩個較為簡單的階段，是一個較優(yōu)的科學(xué)路徑。離散語義符號是被不同行為所共享的，比如吃飯、讀書和打掃都有著“手-握-某物”的標(biāo)簽，通過對這些共享標(biāo)簽的遷移、復(fù)用和組合，可以形成行為原語，從而構(gòu)造“中間層知識”，這種組合可以有著一定的泛化能力，即通過原語組合，機(jī)器可以做出沒見過的行為。

因此，構(gòu)建海量原語知識以及邏輯規(guī)則庫是首當(dāng)其沖的工作。人類理解行為的基本原因，約等于人類各個部件在干什么事情，因此首先得構(gòu)建大量的基于人類局部狀態(tài)的原語知識，并能識別它們。其次，有了好的原語檢測，之后就需要對它們進(jìn)行編程，實現(xiàn)邏輯規(guī)則引導(dǎo)下的數(shù)據(jù)驅(qū)動學(xué)習(xí)，但這里容易出的問題是，規(guī)則是人類自己認(rèn)為的，如果規(guī)則庫錯了就會有很大的影響，因此規(guī)則學(xué)習(xí)是解決該問題的辦法。具體流程是，在行為原語知識庫中隨機(jī)采樣，形成對該行為的判斷，然后基于人類給的先驗起始點(diǎn)去搜索，規(guī)則空間采樣，若準(zhǔn)確率提高就加上規(guī)則，不然就刪掉該規(guī)則，通過調(diào)整后的規(guī)則分布形成新規(guī)則。盧策吾教授發(fā)現(xiàn)，以“人騎車”圖像為例，經(jīng)過以上技術(shù)流程，機(jī)器可以在未見過的“騎車規(guī)則”中自動識別出“騎車”這個行為，所以該技術(shù)路線可以有效逼近行為識別的人類性能。

機(jī)器能夠理解人類行為需要有科學(xué)依據(jù)的支撐。因此，科學(xué)家需要進(jìn)一步確定機(jī)器視覺行為分類特征跟神經(jīng)特征之間是否存在穩(wěn)定映射關(guān)系。如果有穩(wěn)定關(guān)系，視覺定義行為就是有客觀依據(jù)的。

實驗發(fā)現(xiàn)行為從模式到腦信號存在映射，且模型穩(wěn)定。盧策吾教授聯(lián)合生物醫(yī)學(xué)團(tuán)隊，搭建了首套大規(guī)模視覺理解-神經(jīng)信號閉環(huán)系統(tǒng)，對小鼠的行為模式和神經(jīng)信號進(jìn)行了相關(guān)性分析。通過實驗發(fā)現(xiàn)機(jī)器學(xué)習(xí)得出行為從模式到腦信號存在映射，并可以建立一個穩(wěn)定模型。另外，通過構(gòu)建一套基于機(jī)器學(xué)習(xí)的行為相關(guān)的神經(jīng)回路發(fā)現(xiàn)系統(tǒng)，成功發(fā)現(xiàn)解析了“小鼠社會等級”行為的神經(jīng)回路。綜上可以得出結(jié)論，通過視覺定義行為是有科學(xué)依據(jù)的。

不僅僅理解行為，更需要能執(zhí)行行為，機(jī)器能夠執(zhí)行行為才是真正理解行為。通過計算機(jī)視覺以及行為認(rèn)知識別，讓機(jī)器能夠確認(rèn)和分辨一個行為僅僅只是第一步，這也只是傳統(tǒng)旁觀式AI學(xué)習(xí)所達(dá)到的功能水平，例如，傳統(tǒng)AI學(xué)習(xí)可以讓機(jī)器學(xué)習(xí)“盒子”概念并在新的場景中說出“盒子”這個標(biāo)簽，但在具身智能學(xué)習(xí)模式中，機(jī)器通過感知環(huán)境實體，通過親身體驗完成具身學(xué)習(xí)，最終理解場景并形成“打開”這個概念。因此，當(dāng)機(jī)器可以執(zhí)行該行為才是具身智能的落腳點(diǎn)。

執(zhí)行行為需要涉及到形態(tài)、行為和學(xué)習(xí)的體系化交互。在基于形態(tài)的具身智能中，形態(tài)、行為與學(xué)習(xí)之間的關(guān)系密切。首先，需要利用形態(tài)產(chǎn)生行為，該過程重點(diǎn)強(qiáng)調(diào)利用具身智能體的形態(tài)特性巧妙地實現(xiàn)特定的行為，從而達(dá)到部分取代“計算”的目的。其次，需要利用行為實現(xiàn)學(xué)習(xí)，重點(diǎn)強(qiáng)調(diào)利用具身智能體的探索、操作等行為能力主動獲取學(xué)習(xí)樣本、標(biāo)注信息，從而達(dá)到自主學(xué)習(xí)的目的，此領(lǐng)域當(dāng)前屬于研究前沿。再者，需要強(qiáng)調(diào)利用學(xué)習(xí)提升行為以及利用行為控制形態(tài)，后者有多種實現(xiàn)方法，但當(dāng)前利用學(xué)習(xí)手段來提升行為，并進(jìn)而控制形態(tài)的工作是現(xiàn)代人工智能技術(shù)發(fā)展起來后涌現(xiàn)出來的新型智能控制方法，特別是基于強(qiáng)化學(xué)習(xí)的技術(shù)已成為當(dāng)前的熱點(diǎn)手段。最后，具身智能需要利用學(xué)習(xí)來優(yōu)化形態(tài)，強(qiáng)調(diào)利用先進(jìn)的學(xué)習(xí)優(yōu)化技術(shù)實現(xiàn)對具身智能體的形態(tài)優(yōu)化設(shè)計。

“具身感知”是以執(zhí)行動作為導(dǎo)向的全概念的交互感知。具身智能首先第一步就得解決具身概念學(xué)習(xí)的問題，即如何定義、獲取、表達(dá)可以被機(jī)器人使用的物理概念。具身感知和傳統(tǒng)計算機(jī)視覺不同，計算機(jī)視覺沒有解析全部的知識，而具身感知包含了“全概念感知”和“交互感知”，從而保證機(jī)器看到的不是標(biāo)簽，而是怎么利用它。例如，可以從人類認(rèn)知的角度，構(gòu)建大規(guī)模關(guān)節(jié)體知識庫，該知識庫涵蓋外形、結(jié)構(gòu)、語義、物理屬性，同時標(biāo)注關(guān)節(jié)體每個部件的質(zhì)量、體積、慣性等，記錄真實世界物體操作力反饋與仿真操作力反饋，在物理屬性知識加持下，物體力反饋曲線可以完全擬合出來，這時候仿真物體操作的時候，不再是去檢測標(biāo)簽，而是所有知識全部檢測出來，檢測出來后，可以通過機(jī)器執(zhí)行的準(zhǔn)確率，判斷感知的準(zhǔn)確率。

通過行為的反饋和模式學(xué)習(xí)的空間壓縮，可以實現(xiàn)“具身執(zhí)行”的一定泛化性。在交互感知下，機(jī)器如果只是看物體，信息量沒有增加，但如果交互它，就能迅速減少誤差。機(jī)器面對物體，初步檢測它的知識，但肯定存在知識結(jié)構(gòu)不準(zhǔn)的情況，但可以在猜測它是怎么做出這個行為的基礎(chǔ)上，指導(dǎo)機(jī)械去做，倘若做完之后跟真實不一樣，就證明猜測有問題，再反過來優(yōu)化問題。并且，可以把抓取到的所有特征模式，壓縮到可以被學(xué)習(xí)的空間范圍內(nèi)，通過這種機(jī)制，機(jī)器在面對沒見過的物體時，也能進(jìn)行相關(guān)的行為，因而具備了一定的通用性。

Tesla Bot功能進(jìn)展迅速，商業(yè)化前景可期。2021年，在“特斯拉AI日”上，馬斯克發(fā)布了特斯拉的通用機(jī)器人計劃，并用圖片展示了人形機(jī)器人Tesla Bot的大致形態(tài)。但當(dāng)時的Tesla Bot只是個概念。一年后在2022特斯拉AI日上，人形機(jī)器人擎天柱（Optimus）實體亮相。2023年5月中旬的特斯拉股東大會上，馬斯克又展示了Tesla Bot的最新進(jìn)展，現(xiàn)在Tesla Bot已經(jīng)可以流暢行走，并還能靈活抓取放下物體。馬斯克在會上表示“人形機(jī)器人將會是今后特斯拉主要的長期價值來源。如果人形機(jī)器人和人的比例是2比1，則人們對機(jī)器人的需求量可能是100億乃至200億個，遠(yuǎn)超電動車數(shù)量”。

最近的Tesla Bot功能突破來源于特斯拉改進(jìn)的電機(jī)扭矩控制以及環(huán)境建模等技術(shù)。特斯拉利用一些技術(shù)方法改進(jìn)了人形機(jī)器人的動作和控制，包括電機(jī)扭矩控制、環(huán)境發(fā)現(xiàn)與記憶、基于人類演示訓(xùn)練機(jī)器人。首先，研究團(tuán)隊使用電機(jī)扭矩控制（motor torque control）操縱人形機(jī)器人腿部的運(yùn)動，讓機(jī)器人落腳力度保持輕緩。對于一個機(jī)器人來說，觀察或感知周圍環(huán)境是非常重要的，因此特斯拉為人形機(jī)器人添加了環(huán)境發(fā)現(xiàn)與記憶的能力?，F(xiàn)在該人形機(jī)器人已經(jīng)可以對周圍環(huán)境進(jìn)行大致建模。特斯拉的人形機(jī)器人具備與人類相似的身體結(jié)構(gòu)，特斯拉的研究團(tuán)隊使用大量人類演示訓(xùn)練了機(jī)器人，特別是在手部動作方面，旨在讓其具備與人類似的物體抓取能力。

具身智能帶來的AI價值遠(yuǎn)比人形機(jī)器人更大。具身智能最大的特質(zhì)就是能夠以主人公的視角去自主感知物理世界，用擬人化的思維路徑去學(xué)習(xí)，從而做出人類期待的行為反饋，而不是被動的等待數(shù)據(jù)投喂。人形機(jī)器人提供了各種基于人類行為的學(xué)習(xí)和反饋系統(tǒng)，為實現(xiàn)更復(fù)雜行為語義提供了迭代的基礎(chǔ)和試驗場，因此，人形機(jī)器人的逐步完善也為具身智能的落地提供了方向。而面向工業(yè)等場景的具身智能應(yīng)用并非一定要是人形機(jī)器人，因此具身智能背后的技術(shù)和方法論才是核心，也意味著具身智能所帶來的價值要遠(yuǎn)遠(yuǎn)高于人形機(jī)器人本身。換句話說，人形機(jī)器人是具身智能的重要應(yīng)用場景，也將為具身智能的迭代優(yōu)化提供方向和空間。

強(qiáng)化學(xué)習(xí)興起之后，具身智能受到了更廣泛的關(guān)注。之前隨著Alpha Go的成功，學(xué)術(shù)界對于強(qiáng)化學(xué)習(xí)的興趣大增，隨之很多人開始用RL來打通智能體的感知-決策-執(zhí)行，希望實現(xiàn)具身智能。訓(xùn)練RL是一個不斷試錯的過程，所以從2017、18年開始，出現(xiàn)了很多仿真訓(xùn)練平臺，能把一個智能體以具身的形式放進(jìn)去，然后通過與環(huán)境的交互中獲得reward，進(jìn)而學(xué)習(xí)一個policy。但是因為仿真環(huán)境和現(xiàn)實環(huán)境總是有差距的（叫sim2real gap），習(xí)得的policy不一定能遷移到現(xiàn)實里。當(dāng)前能實現(xiàn)技能policy從仿真遷移到現(xiàn)實環(huán)境中的，主要還是像移動導(dǎo)航、單步驟的抓取或者操作這類較為單一的技能，而且很難泛化。

最近大語言模型的風(fēng)頭又壓過了強(qiáng)化學(xué)習(xí)。最近業(yè)界希望通過大規(guī)模sequence to sequence，用一個模型整合視覺、語言、機(jī)器人，也取得了一定效果。但是機(jī)器人的執(zhí)行需要的是4D數(shù)據(jù)（三維環(huán)境和機(jī)器人運(yùn)動的時序軌跡），它的數(shù)據(jù)量和豐富度都遠(yuǎn)不如圖片和文本，采集成本也高的多，因此迭代演化的難度相比于大模型高得多。

而多模態(tài)大模型為具身智能的技術(shù)瓶頸突破提供了重要驅(qū)動力。具身智能是人工智能、機(jī)器人等各技術(shù)分支融合發(fā)展的必然結(jié)果，因為計算機(jī)視覺為圖像的采集和處理打開了窗口，圖形學(xué)也為物理仿真提供了工具支撐，NLP也為人類-機(jī)器交互提供了便捷性，也為機(jī)器從文本中學(xué)習(xí)知識提供了有效途徑，認(rèn)知科學(xué)也為具身智能的行為認(rèn)知原理提供了科學(xué)研究途徑。各類機(jī)器人構(gòu)件也為智能體與物理環(huán)境交互提供了橋梁。因此，人工智能的技術(shù)分支以及機(jī)器人功能性的提升，為具身智能的進(jìn)一步發(fā)展帶來了可能，而當(dāng)前AIGC時代的大模型可以將之前的技術(shù)分支更優(yōu)地集成和創(chuàng)新，已有不少研究者嘗試將多模態(tài)的大語言模型作為人類與機(jī)器人溝通的橋梁，即通過將圖像、文字、具身數(shù)據(jù)聯(lián)合訓(xùn)練，并引入多模態(tài)輸入，增強(qiáng)模型對現(xiàn)實中對象的理解，從而更高效地幫助機(jī)器人處理具身推理任務(wù)，一定程度提升了具身智能的泛化水平。所以，GPT等AI大模型為具身智能的自我感知和任務(wù)處理的優(yōu)化升級提供了新的研究手段。

“算力霸主”英偉達(dá)高調(diào)布局具身智能。在ITF World 2023半導(dǎo)體大會上，黃仁勛表示人工智能的下一個浪潮將是具身智能，即能理解、推理、并與物理世界互動的智能系統(tǒng)。同時，他也介紹了英偉達(dá)的多模態(tài)具身智能系統(tǒng)Nvidia VIMA，其能在視覺文本提示的指導(dǎo)下，執(zhí)行復(fù)雜任務(wù)、獲取概念、理解邊界、甚至模擬物理學(xué)，這也標(biāo)志著AI能力的一大顯著進(jìn)步。

融合傳感器模態(tài)與語言模型，谷歌推出的視覺語言模型相較于ChatGPT新增了視覺功能。2023年3月，谷歌和柏林工業(yè)大學(xué)AI研究團(tuán)隊推出了當(dāng)時最大視覺語言模型——PaLM-E多模態(tài)視覺語言模型（VLM），該模型具有5620億個參數(shù)，集成了可控制機(jī)器人的視覺和語言能力，將真實世界的連續(xù)傳感器模態(tài)直接納入語言模型，從而建立單詞和感知之間的聯(lián)系，且該模型能夠執(zhí)行各種任務(wù)且無需重新訓(xùn)練，其相較于ChatGPT新增了視覺功能。PaLM-E的主要架構(gòu)思想是將連續(xù)的、具體化的觀察（如圖像、狀態(tài)估計或其他傳感器模態(tài)）注入預(yù)先訓(xùn)練的語言模型的語言嵌入空間，因此實現(xiàn)了以類似于語言標(biāo)記的方式將連續(xù)信息注入到語言模型中。

谷歌實現(xiàn)視覺語言與機(jī)器人高水平實時互聯(lián)，且觀察到了類似多模態(tài)思維鏈推理與多圖像推理等涌現(xiàn)能力的出現(xiàn)。基于語言模型，PaLM-E 會進(jìn)行連續(xù)觀察，例如接收圖像或傳感器數(shù)據(jù)，并將其編碼為一系列與語言令牌大小相同的向量。因此，模型就能繼續(xù)以處理語言的方式“理解”感官信息。而且，同一套PaLM-E模型能夠達(dá)到實時控制機(jī)器人的水準(zhǔn)。PaLM-E 還展現(xiàn)出隨機(jī)應(yīng)變的能力，例如盡管只接受過單圖像提示訓(xùn)練，仍可實現(xiàn)多模態(tài)思維鏈推理（允許模型對包含語言和視覺信息在內(nèi)的一系列輸入進(jìn)行分析）和多圖像推理（同時使用多張輸入圖像進(jìn)行推理或預(yù)測）。但谷歌展示的Demo中的空間范圍、物品種類、任務(wù)規(guī)劃復(fù)雜度等條件還比較有限，隨著深度學(xué)習(xí)模型愈發(fā)復(fù)雜，PaLM-E也將打開更多可行性應(yīng)用空間。

微軟正計劃將ChatGPT 的能力擴(kuò)展到機(jī)器人領(lǐng)域，使得能用語言文字控制機(jī)器人。目前實驗已經(jīng)能夠通過給ChatGPT的對話框輸入指令，讓其控制機(jī)器人在房間中找到“健康飲料”、“有糖和紅色標(biāo)志的東西”等。微軟研究人員表示，“研究的目標(biāo)是看ChatGPT是否能超越生成文本的范疇，對現(xiàn)實世界狀況進(jìn)行推理，從而幫助機(jī)器人完成任務(wù)”。微軟希望幫助人們更輕松地與機(jī)器人互動，而無需學(xué)習(xí)復(fù)雜的編程語言或有關(guān)機(jī)器人系統(tǒng)的詳細(xì)信息。

阿里采用和微軟相似的路徑，正在實驗將千問大模型接入工業(yè)機(jī)器人。在近日舉行的第六屆數(shù)字中國建設(shè)峰會上，阿里云發(fā)布一個演示視頻中展示了千問大模型的實際應(yīng)用場景。其中，千問大模型接入了工業(yè)機(jī)器人，工程師通過釘釘對話框向機(jī)器人發(fā)出指令后，千問大模型在后臺自動編寫了一組代碼發(fā)給機(jī)器人，機(jī)器人開始識別周邊環(huán)境，從附近的桌上找到一瓶水，并自動完成移動、抓取、配送等一系列動作，遞送給工程師。在釘釘對話框輸入一句人類語言即可指揮機(jī)器人工作，這將為工業(yè)機(jī)器人的開發(fā)和應(yīng)用帶來革命性的變化，其背后意味著大模型為工業(yè)機(jī)器人的開發(fā)打開了新的大門。因為千問等大模型為機(jī)器人提供了推理決策的能力，從而有望讓機(jī)器人的靈活性和智能性大幅提升。

標(biāo)簽：

下一页亚洲11p_国产精品亚洲第一页在线观看_麻豆影院在线观看免费视频_亚洲色播在线观看_激情亚洲欧美另类小说图片

您現(xiàn)在的位置 :

國泰君安證券：具身智能，人工智能的下一個浪潮

推薦文章

資訊

行業(yè)動態(tài)

下一页亚洲11p_国产精品亚洲第一页在线观看_麻豆影院在线观看免费视频_亚洲色播在线观看_激情亚洲欧美另类小说图片

您現(xiàn)在的位置 :

國泰君安證券：具身智能，人工智能的下一個浪潮

推薦文章

資訊

行業(yè)動態(tài)

國泰君安證券：具身智能，人工智能的下一個浪潮