国产欧美日韩亚洲一区二区三区,国产情侣偷情盗摄

采用 ChatGPT 類似大模型作為自動(dòng)駕駛算法核心的 - Waymo 的端到端多模態(tài)算法 EMMA

2024-11-08 13:39

最近，一直采用激光雷達(dá)和高精地圖實(shí)現(xiàn) L4 的自動(dòng)駕駛公司 Waymo 的一個(gè)內(nèi)部研究團(tuán)隊(duì)，發(fā)布了一篇關(guān)于利用端到端多模態(tài)自動(dòng)駕駛模型實(shí)現(xiàn)自動(dòng)駕駛的新論文。

它采用類似于 ChatGPT 的大語言模型 Gemini LLM 作為算法核心，算法所有的輸入和輸出表示為普通文本，具有非常強(qiáng)大的通用性和泛化性，算法還具有可解釋性。

引起了自動(dòng)駕駛行業(yè)的轟動(dòng)。所以，本文將初步總結(jié)和介紹Waymo 的端到端多模態(tài)自動(dòng)駕駛模型EMMA相關(guān)信息：

目前智能駕駛行業(yè)算法的四種算法方案。

“端到端多模態(tài)自動(dòng)駕駛模型”（EMMA）是怎么做的？

當(dāng)前 EMMA 類方案有什么局限性？

對(duì)當(dāng)前智能駕駛乃至汽車行業(yè)產(chǎn)生什么影響？

希望能給大家?guī)硪恍┲悄荞{駛和汽車發(fā)展的信息和思路。

目前智能駕駛行業(yè)算法的四種算法方案：

模塊化自動(dòng)駕駛算法

模塊化的高階智能駕駛系統(tǒng)采用，感知、地圖、預(yù)測和規(guī)劃等不同的模塊或者組件來實(shí)現(xiàn)。

這種設(shè)計(jì)便于單個(gè)模塊或組件的調(diào)試和優(yōu)化，但由于模塊間的錯(cuò)誤積累和模塊間的通信有限，它在可擴(kuò)展性方面面臨挑戰(zhàn)。特別需要指出的是，這些模塊通常是基于目標(biāo)場景預(yù)先定義的，所以，這些基于規(guī)則設(shè)計(jì)的模塊間接口（例如感知和行為模塊之間的接口）可能難以適應(yīng)新環(huán)境。

這種方案在現(xiàn)在的智能駕駛應(yīng)用，能夠?qū)崿F(xiàn)針對(duì)性場景下高性能，高性價(jià)比，我們之前文章《被逼墻角的Mobileye，祭出 CAIS 大旗，挑戰(zhàn)端到端大模型智能駕駛》中介紹的Mobileye是這方面的強(qiáng)者代表。端到端自動(dòng)駕駛算法

特斯拉FSD V12，首先發(fā)起在智能駕駛方面采用端到端的自動(dòng)駕駛算法，直接從傳感器數(shù)據(jù)學(xué)習(xí)生成駕駛行為。該方法消除了模塊之間信號(hào)接口的需求，并允許從原始傳感器輸入聯(lián)合優(yōu)化駕駛目標(biāo)。這種端到端算法是專門針對(duì)駕駛這種特定的任務(wù)，它需要收集大量的道路駕駛數(shù)據(jù)來訓(xùn)練全新的模型。

這也就是當(dāng)前特斯拉以及國內(nèi)一眾智能駕駛公司的方法，數(shù)據(jù)，算力為王，大家都在賣力重復(fù)造自己的輪子，希望有朝一日自己輪子能夠成為米其林或者馬牌輪胎，獨(dú)步天下。但是，長尾理論一直存在，大家一直在 push 尋找這個(gè)長尾到底有多長。端到端自動(dòng)駕駛算法+LVM圖像語言模型。我們之前文章《智能駕駛技術(shù)演進(jìn)與未來挑戰(zhàn)：從目標(biāo)物識(shí)別到大模型上車》分享了將現(xiàn)有智能駕駛系統(tǒng)的能力與多模特語言模型進(jìn)行整合和增強(qiáng)的案例，它就是借用大語言模型對(duì)世界理解的能力去解讀道路圖片信息來增強(qiáng)端到端算法能力，彌補(bǔ)長尾。

業(yè)內(nèi)理想汽車最新的自動(dòng)駕駛就是采用此類方案E2E大模型+LVM圖像語言模型。端到端多模態(tài)自動(dòng)駕駛大模型本文介紹的 Waymo 端到端多模態(tài)自動(dòng)駕駛模型EMMA是另外一種方法，當(dāng)然它目前只是學(xué)術(shù)論文，沒有進(jìn)行工程化。它采用多模態(tài)大型語言模型為自動(dòng)駕駛中的人工智能提供了一個(gè)有前景的新范式，采用專門針對(duì)駕駛調(diào)整過的通用基礎(chǔ)大語言模型，作為智能駕駛算法的核心算法或者組件。大語言模型在兩個(gè)關(guān)鍵領(lǐng)域表現(xiàn)出色，所以采用它不需要重新訓(xùn)練一個(gè)模型：他們是基于人類在互聯(lián)網(wǎng)上積累的文字信息訓(xùn)練而成，所以可以理解為三體中的“智子”他把人類豐富的“世界知識(shí)”全部折疊進(jìn)入它算法內(nèi)，它的知識(shí)量遠(yuǎn)遠(yuǎn)超過我們常見駕駛?cè)罩局兴膬?nèi)容。它們通過鏈?zhǔn)剿季S推理等技術(shù)展示了卓越的推理能力，這些能力在專用駕駛系統(tǒng)中并不具備。

其實(shí)目前業(yè)內(nèi)已經(jīng)有兩三家開始靠近這個(gè)方案，例如我們之前文章《探秘美國加州自動(dòng)駕駛路試：豪橫競逐、勤奮探索與技術(shù)挑戰(zhàn)》提到的采用Open AI大模型的 Ghost (今年已經(jīng)倒閉)和 Wayve，但他們應(yīng)該是部分采用這個(gè)思維。“端到端多模態(tài)自動(dòng)駕駛模型”（EMMA）是怎么做的？“端到端多模態(tài)自動(dòng)駕駛模型”（EMMA）是以谷歌的大語言模型 Gemini 框架為算法核心構(gòu)建。Gemini 是一個(gè)基于文本的 LLM，類似于 Open AI的 ChatGPT，它使用大量通用文本語料庫進(jìn)行訓(xùn)練，從而獲得世界和人類自然語言的知識(shí)。同時(shí)該算法針對(duì)大量有關(guān)道路和駕駛的文本以及許多其他通用知識(shí)進(jìn)行訓(xùn)練和微調(diào)。此外，還添加了基于駕駛視頻的“端到端”訓(xùn)練。EMMA的關(guān)鍵創(chuàng)新在于能夠同時(shí)處理視覺輸入（如攝像頭圖像）和非視覺輸入（如基于文本的駕駛指令和歷史上下文）。

通過將駕駛?cè)蝿?wù)重新表述為視覺問答（VQA）問題，這樣，EMMA能夠利用Gemini原有模型中編碼的大量知識(shí)，同時(shí)賦予其處理各種駕駛?cè)蝿?wù)的能力。以下是論文中討論的幾個(gè)關(guān)鍵要素：多模態(tài)輸入：EMMA接受攝像頭圖像（視覺數(shù)據(jù)）以及導(dǎo)航等文本輸入，駕駛指令和歷史上下文，使其能夠理解并應(yīng)對(duì)涉及視覺和非視覺信息的復(fù)雜駕駛場景。視覺問答VQA方法：將駕駛?cè)蝿?wù)重新表述為視覺問答問題，允許EMMA在文本指令的上下文中解讀視覺數(shù)據(jù)。這有助于模型更好地理解駕駛中的動(dòng)態(tài)和多樣化的情況。使用任務(wù)特定提示進(jìn)行微調(diào)：EMMA通過使用駕駛?cè)罩竞腿蝿?wù)特定的提示進(jìn)行微調(diào)，從而使其能夠生成各種駕駛輸出，如運(yùn)動(dòng)規(guī)劃的未來軌跡、感知目標(biāo)、道路圖元素和場景語義等。EMMA概述圖：

它的三個(gè)輸入：

導(dǎo)航指令，類似于人類使用導(dǎo)航一樣，系統(tǒng)接收來自于導(dǎo)航的high level高層次文本指令，例如前方100m左轉(zhuǎn)，前方路口右轉(zhuǎn)等等類似指令。自車的歷史狀態(tài)，表示為不同時(shí)間戳下的鳥瞰視圖（BEV）空間中的一組路標(biāo)坐標(biāo)。所有的路標(biāo)坐標(biāo)都表示為普通文本，不使用專門的標(biāo)記。方便擴(kuò)展為包含更高階的自車狀態(tài)，如速度和加速度。攝像頭視頻感知。通過攝像頭感知三維世界、識(shí)別周圍的物體、道路圖以及交通狀況。Waymo 團(tuán)隊(duì)將EMMA構(gòu)建為一個(gè)通用模型，能夠通過訓(xùn)練混合處理多個(gè)駕駛?cè)蝿?wù)。Waymo 團(tuán)隊(duì)使用視覺-語言框架將所有的輸入和輸出表示為普通文本，從而提供了將許多其他駕駛?cè)蝿?wù)融入系統(tǒng)的靈活性。對(duì)原有大語言模型采用指令微調(diào)（instruction-tuning），將感知任務(wù)組織為三個(gè)主要類別：空間推理、道路圖估計(jì)和場景理解。

空間推理是理解、推理并得出關(guān)于物體及其在空間中的關(guān)系的能力。這使得自動(dòng)駕駛系統(tǒng)能夠解釋并與其周圍環(huán)境互動(dòng)，從而實(shí)現(xiàn)安全導(dǎo)航。Waymo 團(tuán)隊(duì)巧妙的將空間推理結(jié)果的7維框((x, y, z)是車輛坐標(biāo)系中的中心位置，l, w, h是邊界框的長、寬和高，θ是航向角)轉(zhuǎn)換為文本表示。道路圖估計(jì)側(cè)重于識(shí)別關(guān)鍵的道路元素，以確保安全駕駛，包括語義元素（如車道標(biāo)線、標(biāo)志）和物理屬性（如車道曲率）。這些道路元素集合構(gòu)成了道路圖。場景理解任務(wù)測試模型對(duì)整個(gè)場景上下文的理解，這對(duì)于駕駛尤為重要。

例如，由于施工、緊急情況或其他事件，道路可能暫時(shí)被堵塞。及時(shí)檢測這些堵塞并安全繞行對(duì)于確保自動(dòng)駕駛車輛的順暢和安全運(yùn)行至關(guān)重要；然而，場景中的多個(gè)線索必須結(jié)合起來才能確定是否存在堵塞。所有的輸入和輸出都是文本信息，EMMA通過使用駕駛?cè)罩竞腿蝿?wù)特定的提示進(jìn)行微調(diào)，從而使微調(diào)的 LLM 語言大模型能夠生成各種駕駛輸出運(yùn)動(dòng)規(guī)劃和駕駛控制信號(hào)。

這樣的算法實(shí)現(xiàn)了三個(gè)優(yōu)點(diǎn)：自監(jiān)督：唯一需要監(jiān)督的是自車未來的位置，不需要專門的人工標(biāo)簽。僅使用攝像頭：唯一的傳感器輸入是周圍視角攝像頭。無需高清地圖：除了來自導(dǎo)航系統(tǒng)（如Google Maps類似于我們用的高德和百度地圖）的高層次導(dǎo)航信息外，不需要高清地圖。其實(shí)端到端大模型，最大的問題是可解釋性，EMMA引入了鏈?zhǔn)剿季S提示（Chain-of-Thought Prompting），它可以增強(qiáng)多模態(tài)大型語言模型（MLLMs）的推理能力，并提高其可解釋性。在EMMA中，Waymo團(tuán)隊(duì)通過要求模型在預(yù)測最終的未來軌跡路標(biāo)Otrajectory 時(shí)闡明其決策理由（Orationale），將鏈?zhǔn)剿季S推理融入端到端規(guī)劃軌跡生成中。Waymo 團(tuán)隊(duì)將駕駛推理結(jié)構(gòu)化為四種粗到細(xì)的信息類型：R1 - 場景描述：廣泛描述駕駛場景，包括天氣、時(shí)間、交通狀況和道路條件。

例如：“天氣晴朗，白天。道路是四車道的未分隔街道，中間有行人道，街道兩邊停著車。”R2 - 關(guān)鍵物體：指那些可能影響自車駕駛行為的路面上的其他代理物體，我們要求模型識(shí)別其精確的3D/BEV坐標(biāo)。例如：“行人位于[9.01, 3.22]，車輛位于[11.58, 0.35]。”R3 - 關(guān)鍵物體的行為描述：描述已識(shí)別關(guān)鍵物體的當(dāng)前狀態(tài)和意圖。例如：“行人目前站在人行道上，朝向道路，可能準(zhǔn)備過馬路。車輛目前在我前方，朝相同方向行駛，未來軌跡表明它將繼續(xù)直行。”R4 - 元駕駛決策：包括12類高層次駕駛決策，總結(jié)基于前述觀察的駕駛計(jì)劃。例如：“我應(yīng)該保持當(dāng)前的低速。”Waymo 團(tuán)隊(duì)強(qiáng)調(diào)，駕駛推理文本是通過自動(dòng)化工具生成的，而沒有任何額外的人工標(biāo)簽，從而確保了數(shù)據(jù)生成流程的可擴(kuò)展性。

當(dāng)前 EMMA 有什么局限性這么好的東西，那么直接上車了?Waymo 團(tuán)隊(duì)指出其當(dāng)前模型每次只能處理有限數(shù)量的圖像幀（最多4幀），搞自動(dòng)駕駛的朋友肯定知道，當(dāng)前牽扯安全的場景，甚至可能需要更多幀圖片來確定場景。同時(shí)這限制了其捕捉駕駛?cè)蝿?wù)所需的長期依賴關(guān)系的能力。有效的自動(dòng)駕駛不僅需要實(shí)時(shí)決策，還需要在較長的時(shí)間范圍內(nèi)進(jìn)行推理，能夠預(yù)測并應(yīng)對(duì)不斷變化的場景。所以，此類算法還需要解決長時(shí)間記憶問題。

另外，目前，哪里有能跑如此多參數(shù)的大模型車載算力芯片，我們之前文章《高通的下一代智能汽車芯片 - 驍龍 Cockpit Elite 和 Ride Elite》介紹過高通下一代智能汽車芯片，最大能跑數(shù)十億個(gè)參數(shù)的大型語言模型;最近小鵬AI日表示其新一代Turing芯片也最高可運(yùn)行300億參數(shù)大模型，還不知道何時(shí)能上車。而現(xiàn)在的大語言模型參數(shù)量都是千億級(jí)別。

除此之外，隨著算力的增大，整個(gè)計(jì)算系統(tǒng)從緩存到帶寬再到熱管理都需要跟上，這都需要當(dāng)前車載算力平臺(tái)能夠跟上。

同時(shí)，另外一個(gè)要命的問題是實(shí)時(shí)性，大模型用作ChatGPT對(duì)話，或者M(jìn)idjourny畫圖延遲幾秒完全沒問題，不會(huì)影響到生命安全，但是對(duì)于汽車來講毫秒必爭，都是事關(guān)安全。總的來講，當(dāng)前大語言模型，需要通過蒸餾，來縮小參數(shù)，保證一定的準(zhǔn)確性來實(shí)現(xiàn)。所以這個(gè)方法必須要優(yōu)化模型，或者將其蒸餾成適合實(shí)時(shí)部署的更緊湊版本，同時(shí)確保不犧牲性能和安全。此外，當(dāng)前這個(gè)模型可以直接預(yù)測駕駛信號(hào)，而無需依賴中間輸出（如物體檢測或道路圖估計(jì)）。這種方法在實(shí)時(shí)驗(yàn)證和后期分析時(shí)帶來了挑戰(zhàn)。盡管Waymo 團(tuán)隊(duì)已經(jīng)證明，模型可以生成如物體和道路圖預(yù)測這樣的可解釋輸出，并且駕駛決策可以通過思維鏈推理來解釋，但這些輸出與實(shí)際駕駛信號(hào)之間并不總是能夠完全一致，也就是說這個(gè)可解釋性目前有時(shí)候也會(huì)出錯(cuò)。

最后，當(dāng)前的模型主要依賴于預(yù)訓(xùn)練的多模態(tài)大語言模型（MLLMs），這些模型通常不包括LiDAR或雷達(dá)輸入，汽車冗余多傳感器方案部署是個(gè)大問題。所以此類大模型上車，需要解決工程問題有：強(qiáng)大算力的芯片，支持本地高達(dá)百億，千億參數(shù)的LLM大模型。蒸餾優(yōu)化后縮小參數(shù)可以部署上車的大模型，適合實(shí)時(shí)部署，同時(shí)確保不犧牲性能和安全，這個(gè)有點(diǎn)和小鵬汽車的云端大模型，車端小模型理論相吻合。

支持長記憶的LLM大模型，并降低延遲。泛化并融合好例如激光雷達(dá)和雷達(dá)。

解決好此類的工程問題，才為上車工程化鋪好了路。對(duì)當(dāng)前智能駕駛乃至汽車行業(yè)產(chǎn)生什么影響？首先，Waymo 發(fā)布的端到端多模態(tài)自動(dòng)駕駛模型 EMMA 給智能駕駛時(shí)代又添加了一顆定心丸，當(dāng)前基于AI的人工智能，端到端方案理論上能夠?qū)崿F(xiàn)自動(dòng)駕駛，接下來就是工程化落地。它一定能夠幫助人類實(shí)現(xiàn)自動(dòng)駕駛，而且還不會(huì)太遠(yuǎn)。另外，通用人工智能會(huì)成為智能駕駛的發(fā)動(dòng)機(jī)，智能汽車的劃分，可以通過模型參數(shù)和算力來實(shí)現(xiàn)能力的分級(jí)，猶如燃油車時(shí)代，發(fā)動(dòng)機(jī)排量決定車輛的等級(jí)和性能。那么對(duì)于車企來講，如果需要贏的智能汽車時(shí)代，可能需要擴(kuò)大自己的野心，做一個(gè)足夠大的集團(tuán)覆蓋汽車，機(jī)器人等人工智能落地的制造機(jī)器集團(tuán)。可能必須要自研通用人工智能并利用 AI 賦能整個(gè)汽車和機(jī)器項(xiàng)目，提高汽車機(jī)器制造業(yè)的附加值。抑或采用通用人工智能打造差異化產(chǎn)品實(shí)現(xiàn)競爭。最終或許通用人工智能接管人類的重復(fù)性的腦力勞動(dòng)，猶如現(xiàn)在機(jī)械取代人類的體力勞動(dòng)。

*未經(jīng)準(zhǔn)許嚴(yán)禁轉(zhuǎn)載和摘錄-參考資料：

EMMA: End-to-End Multimodal Modelfor Autonomous Driving - waymo

Could Foundation Models really resolveEnd-to-end Autonomy?Hongyang Li

The Next Frontier in Embodied AI:Autonomous DrivingCUED Guest Lecture – 25 April 2024

introduce autonomous vehicles - 英偉達(dá)

GAIA-1: A Generative World Model for Autonomous Driving - wayve

原文標(biāo)題 : 采用 ChatGPT 類似大模型作為自動(dòng)駕駛算法核心的 - Waymo 的端到端多模態(tài)算法 EMMA