訂閱
糾錯
加入自媒體

GPT-4誕生1年,OpenAI把它放到了機(jī)器人上

2024-03-15 08:55
新火種
關(guān)注

作者:一號

編輯:美美

ChatGPT擁有了身體,機(jī)器人也有了靈魂。

從OpenAI在去年3月14日拿出GPT-4后,已經(jīng)過了整整一年。顯然,在GPT-4誕生之后的這一年,一切都迭代得太快了,從GPT-4展現(xiàn)多模態(tài)能力,到千行百業(yè)都在談?wù)揂I,再到Sora引爆AI生成視頻的市場。

資深機(jī)器人專家Eric Jang在不久之前還預(yù)言,“ChatGPT曾在一夜之間出現(xiàn)。我認(rèn)為,有智慧的機(jī)器人技術(shù)也將如此。”

他或許沒錯,在一年后的今天,一家名為Figure的公司在X上上傳了一段人形機(jī)器人的視頻。

圖片22.png

在視頻中,F(xiàn)igure的人形機(jī)器人Figure 01,能夠完全與人類流暢對話,理解人類的想法,同時根據(jù)理解進(jìn)行抓取和放置的操作,并解釋自己這么做的原因。而這只是OpenAI宣布和Figure共同合作推進(jìn)人形機(jī)器人領(lǐng)域前沿的第十三天。

圖片23.png

這段Demo迅速吸引了廣大網(wǎng)友的眼球,有人感嘆,AGI的曙光似乎就在眼前了。

沒弄虛未作假,這些都是機(jī)器人自學(xué)的

視頻發(fā)布之后,F(xiàn)igure AI的掌門人Brett Adock,在X上來了一番精彩解讀。

視頻中Figure展示了端到端神經(jīng)網(wǎng)絡(luò)(end-to-end neural networks)框架下與人類對話的應(yīng)用。在此過程中沒有任何遠(yuǎn)程操作。并且機(jī)器人的速度也有了顯著的提升,開始接近人類的速度。

圖片24.png

那具體是怎么做到的呢?

首先,F(xiàn)igure AI會將機(jī)器人攝像頭拍攝到的圖像和通過板載麥克風(fēng)記錄到的語言轉(zhuǎn)錄成文本輸入到一個由OpenAI訓(xùn)練的大模型中,這是一個能夠同時處理圖像和文本信息的模型。

然后,這個模型會處理整個對話的歷史記錄,包括以往的圖像,然后通過文本到語音的方式,生成語音進(jìn)行響應(yīng),向人類回話。

圖片25.png

這個模型還同時負(fù)責(zé)決定執(zhí)行哪種已學(xué)習(xí)的閉環(huán)行為來響應(yīng)給定的命令,它將特定的神經(jīng)網(wǎng)絡(luò)權(quán)重加載到GPU上,并執(zhí)行相應(yīng)的策略。

這樣做之后,F(xiàn)igure 01就有了很多有趣的新功能。例如描述它周圍的環(huán)境、在做決定的時候運(yùn)用常識進(jìn)行推理,并且會理解一些含糊的高級指令,例如當(dāng)人類說“我餓了”的時候,它會將桌面上唯一的食物——蘋果,遞給人類,并用簡單的英語說明它為什么這么做。

而關(guān)于Figure 01通過學(xué)習(xí)掌握的精細(xì)雙手操作技能,這些所有的行為都是由神經(jīng)網(wǎng)絡(luò)的視覺-運(yùn)動轉(zhuǎn)換器策略驅(qū)動,能將像素直接映射到動作。這些網(wǎng)絡(luò)以每秒10幀的速率接收機(jī)載圖像,并以200hz的頻率生成24-DOF動作,包括手腕姿勢和手指關(guān)節(jié)角度。

簡單來說,預(yù)訓(xùn)練模型會首先對圖像和文本進(jìn)行常識推理,然后給出動作計劃;接著,機(jī)器人再基于已學(xué)習(xí)的視覺-動作執(zhí)行策略,做出快速的反應(yīng)行動。同時通過全身控制器確保動作的安全性和穩(wěn)定性,保持機(jī)器人的平衡。

Figure,眾人看好的具身智能公司

人工智能的后半場,以機(jī)器人為代表的具身智能將成為新的智能增長點。

英偉達(dá)CEO黃仁勛曾說,“具身智能將引領(lǐng)下一波人工智能浪潮”。這樣的觀點正在被越來越多的公司所贊同。當(dāng)前,生成式AI的競爭已經(jīng)從連續(xù)對話走向長文本以及多模態(tài),各家科技公司和機(jī)構(gòu)也開始投資具身智能。

而這家名為Figure的具身智能公司,除了被OpenAI看好,還拿到了多方的投資,成為了硅谷備受關(guān)注的新星。

圖片26.png

公開資料顯示,F(xiàn)igure成立于2022年,成立之初就瞄準(zhǔn)了通用人形機(jī)器人領(lǐng)域。在3月1日,它宣布完成了驚人的6.75億美元B輪融資,公司估值達(dá)到了26億美元。而它的投資方,幾乎占據(jù)了硅谷的半壁江山。除了OpenAI,微軟、英特爾、英偉達(dá)、亞馬遜創(chuàng)始人貝索斯以及“木頭姐”等,都是它的投資方。

圖片27.png

而在獲得融資之后,F(xiàn)igure也沒有讓人失望。在今年1月,它們的產(chǎn)品Figure就通過端到端神經(jīng)網(wǎng)絡(luò),僅用10小時就掌握了制作咖啡的技能。1個月后,它又展示了把箱子搬運(yùn)到傳送帶的新技能,而現(xiàn)在,它又學(xué)會了理解人類的意圖。

圖片28.png

當(dāng)然,在商業(yè)化的道路上,F(xiàn)igure也在積極探索。目前,F(xiàn)igure已經(jīng)和寶馬制造公司簽訂了商業(yè)協(xié)議,F(xiàn)igure 01已經(jīng)開始在寶馬位于南卡羅來納州斯帕坦堡的汽車工廠接受測試。

從ChatGPT到Figure 01,OpenAI想的依舊是AGI

盡管OpenAI在2021年夏天悄悄關(guān)閉了其機(jī)器人團(tuán)隊,但顯然,OpenAI對于機(jī)器人領(lǐng)域的關(guān)注并未減少。

除了Figure,OpenAI在一年之前就投資了挪威一家名為1X Technologies的機(jī)器人制造商。與此同時,OpenAI還被彭博社爆料,說它投資了一家新成立的機(jī)器人AI公司Physical Intelligence,他們的創(chuàng)始團(tuán)隊分別來自谷歌研究團(tuán)隊、加州大學(xué)伯克利分校以及斯坦福大學(xué)教授等。而這家公司也是研究未來能夠成為通用機(jī)器人系統(tǒng)的人工智能。

顯然,將OpenAI大模型融入Figure 01是OpenAI有意的戰(zhàn)略布局。

圖片29.png

對于計算機(jī)視覺、機(jī)器人等領(lǐng)域來說,具身智能是一個很有挑戰(zhàn)的目標(biāo):如果AI智能體(機(jī)器人)不僅能夠接收來自數(shù)據(jù)集的靜態(tài)圖像,還能夠在三維的世界中,無論是虛擬還是真實的,四處移動并與環(huán)境進(jìn)行交互,那么我們將能迎來一次重大的突破,即從識別圖像等機(jī)器學(xué)習(xí)的簡單能力,轉(zhuǎn)變到學(xué)習(xí)如何通過多個步驟執(zhí)行復(fù)雜的類人任務(wù)。

而當(dāng)機(jī)器人能夠執(zhí)行類人任務(wù)后,通過數(shù)據(jù)的迭代升級,將會越來越像人。而到了那個時候,也許AGI能夠取得突破,這也是OpenAI一直以來的目標(biāo)。

一年之前,OpenAI發(fā)布了GPT-4,向世界證明了大模型的威力,而在一年后的今天,F(xiàn)igure 01的表現(xiàn),也許會是機(jī)器人領(lǐng)域的GPT-4時刻。不過,正與OpenAI爭得不可開交的馬斯克,他的Optimus也是機(jī)器人領(lǐng)域的佼佼者,這兩者之間還會有什么樣的故事,我們拭目以待。

       原文標(biāo)題 : 新火種AI|GPT-4誕生1年,OpenAI把它放到了機(jī)器人上

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

人工智能 獵頭職位 更多
掃碼關(guān)注公眾號
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容
文章糾錯
x
*文字標(biāo)題:
*糾錯內(nèi)容:
聯(lián)系郵箱:
*驗 證 碼:

粵公網(wǎng)安備 44030502002758號