日韩精品影院,婷综合婷丁五月国产成人网

自駕技術(shù)突破的第一刀，砍向自駕人

2024-06-24 16:41

在 2024 年 6 月 8 日的中國(guó)汽車重慶論壇上，理想汽車 CEO 李想發(fā)表演講時(shí)表示：“最近團(tuán)隊(duì)致力于自動(dòng)駕駛技術(shù)的突破，他們?cè)伎歼@樣一個(gè)問(wèn)題：人類開車為什么不涉及學(xué)習(xí) corner case？如果我們不能解決這個(gè)問(wèn)題，所有自動(dòng)駕駛團(tuán)隊(duì)每天干的活都是靠人工去調(diào)試各種各樣的 corner case，而且放的人越多，corner case 越多，和真正的自動(dòng)駕駛就越遙遠(yuǎn)。”他接著說(shuō)：“當(dāng)人工智能技術(shù)在不斷的發(fā)展的時(shí)候，我們會(huì)發(fā)現(xiàn)，其實(shí)人類開車的方式，不是過(guò)去那么多年里我們用的自動(dòng)駕駛研發(fā)的一個(gè)方式。這是一個(gè)根本的不同。因?yàn)槿碎_車沒(méi)那么辛苦，沒(méi)那么累，不需要養(yǎng)幾千人的團(tuán)隊(duì)去搞 corner case。”

聯(lián)想到最近理想汽車大規(guī)模裁員的動(dòng)作，此番表態(tài)似乎是李想在為裁員做出回應(yīng)。過(guò)去，我和業(yè)內(nèi)朋友們討論自動(dòng)駕駛技術(shù)對(duì)社會(huì)發(fā)展的價(jià)值時(shí)，往往會(huì)有朋友提出：“屆時(shí)大量出租車、網(wǎng)約車司機(jī)失業(yè)，帶來(lái)的社會(huì)影響怎么辦？”誰(shuí)也沒(méi)想到，最先被自動(dòng)駕駛技術(shù)優(yōu)化掉的，并不是司機(jī)們，反而是為自動(dòng)駕駛技術(shù)的發(fā)展掉光一茬又一茬頭發(fā)的算法工程師們，堪稱 2024 年最佳地獄笑話了。李想所說(shuō)的“自動(dòng)駕駛技術(shù)的突破”，就是最近非�；馃岬亩说蕉俗詣�(dòng)駕駛技術(shù)。那么，什么是“端到端自動(dòng)駕駛”？為什么端到端的到來(lái)，讓李想有這個(gè)底氣去大規(guī)模裁掉自動(dòng)駕駛團(tuán)隊(duì)人員呢？本文將從以下幾個(gè)方面展開論述，看完這篇，你就理解為什么端到端讓李想認(rèn)為做自駕，不再需要那么多人了。

傳統(tǒng)的模塊化自動(dòng)駕駛方案，以及其局限性

端到端是什么，是怎么實(shí)現(xiàn)的

端到端對(duì)自駕行業(yè)的影響端到端自動(dòng)駕駛之前，我們是怎么做的要想理解什么是端到端自動(dòng)駕駛，我們首先要思考，什么是“非端到端的自動(dòng)駕駛”？非端到端的自動(dòng)駕駛，我們這里稱為傳統(tǒng)的自動(dòng)駕駛技術(shù)，一般稱作模塊化自動(dòng)駕駛技術(shù)。也就是大家所熟知的，分為感知、定位、規(guī)劃、控制幾大模塊。感知模塊負(fù)責(zé)接收傳感器的信號(hào)，分析出傳感器探測(cè)到的物體是什么。感知模塊把這個(gè)信息傳遞給規(guī)劃模塊，規(guī)劃模塊做出判斷和決策后，將指令傳遞給控制模塊，再由控制模塊去執(zhí)行。自駕圈過(guò)去幾年的技術(shù)演進(jìn)，是無(wú)圖，還是重圖，是純視覺(jué)，還是雷達(dá)全家桶，其實(shí)都沒(méi)有脫離這個(gè)模塊化自動(dòng)駕駛技術(shù)。

比如說(shuō)，純視覺(jué)好還是上激光雷達(dá)更好？技術(shù)上的分歧點(diǎn)在于，純視覺(jué)夠不夠感知到所有物體？需不需要使用激光雷達(dá)去輔助感知？過(guò)去幾年，我們自動(dòng)駕駛相關(guān)技術(shù)的發(fā)展，無(wú)論是激光雷達(dá)，還是所謂的 4D 毫米波雷達(dá)，還是雙目攝像頭，其實(shí)都是在加強(qiáng)這個(gè)感知模塊。硬件的感知能力加強(qiáng)了，但機(jī)器本身，他只知道那里有東西，并不能識(shí)別那個(gè)東西，需要人為去給機(jī)器定義。通俗地解釋，就是我們給機(jī)器去設(shè)定好一個(gè)規(guī)則，去告訴機(jī)器，有這些特征參數(shù)的，是 A 物體，有那些特征參數(shù)的，是 B 物體。

這就是感知算法工程師的工作。在端到端到來(lái)之前，我們加強(qiáng)機(jī)器感知能力的方法，都是通過(guò)打補(bǔ)丁的方式，不斷地去增加規(guī)則。比如特斯拉，放棄了激光雷達(dá)，僅靠純視覺(jué)去識(shí)別物體。帶來(lái)的問(wèn)題是，只有標(biāo)注過(guò)的、見(jiàn)過(guò)的物體，機(jī)器能夠識(shí)別。一棵樹，長(zhǎng)在路邊，橫在路中間，豎在路中間，我們?nèi)祟惗伎梢砸谎壅J(rèn)出來(lái)那是一棵樹。但如果只標(biāo)注過(guò)長(zhǎng)在路邊的樹，對(duì)于橫在路中間的樹，機(jī)器可能就識(shí)別不出來(lái)了。比如，2020 年臺(tái)灣的一名特斯拉車主黃先生啟用 Autopilot 時(shí)，就撞上了一輛側(cè)翻的白色卡車。對(duì)機(jī)器來(lái)說(shuō)，行駛的卡車、停著的卡車，都能識(shí)別出來(lái)，但是側(cè)翻的卡車，以前沒(méi)人給標(biāo)注過(guò)啊。

算法工程師當(dāng)然可以很快打上補(bǔ)丁，告訴機(jī)器這是側(cè)翻的卡車，下次遇到了要提前避讓。但是，下次再遇到四腳朝天的卡車呢？或者側(cè)翻的轎車、泥頭車、靈車？算法工程師們，不可能把所有的 corner case 都窮舉完，總有更加奇葩的案例會(huì)發(fā)生，總不可能每展現(xiàn)一次 corner case，就要消耗一名特斯拉車主吧？所以，特斯拉在 2022 年的 AI DAY 上，分享了一個(gè)重要的技術(shù)，occupancy network，被稱作是下一代的感知范式。

這里通俗地解釋一下 occupancy：把汽車周圍的空間劃分成許多小格子，每個(gè)格子都有自己的位置和標(biāo)記。標(biāo)記分為兩種狀態(tài)，被占用和空閑。如果一個(gè)格子是被占用的狀態(tài)，那就意味著這個(gè)格子的空間是有物體的。隨著汽車的移動(dòng)，不斷地通過(guò)傳感器去更新這些格子的狀態(tài)。這么一來(lái)，機(jī)器就可以建模任意形狀的物體和任意形式的物體運(yùn)動(dòng)，不再依賴通過(guò)人工標(biāo)注的方式去讓機(jī)器學(xué)習(xí)�？雌饋�(lái)，特斯拉的 occupancy network 已經(jīng)完美解決了如何感知了，對(duì)不對(duì)？但是 occupancy 依然有局限性。

比如車前面飄過(guò)去一個(gè)塑料袋，或者一片落葉，人類駕駛員可以輕松判斷做出無(wú)視的決策，但機(jī)器會(huì)把它識(shí)別成障礙物。那怎么辦？還是打補(bǔ)丁，告訴機(jī)器，有這些特征的是塑料袋，是落葉，可以無(wú)視。這就又回到了上面的問(wèn)題，自然界的規(guī)則是無(wú)窮無(wú)盡的，永遠(yuǎn)都會(huì)有還沒(méi)考慮到的 corner case。上面說(shuō)了這么多，還只是感知模塊的問(wèn)題。規(guī)劃和決策模塊，這里面的規(guī)則就更復(fù)雜了。傳統(tǒng)自動(dòng)駕駛技術(shù)下的規(guī)控算法，一般被稱為 rule-based 算法。

我們通俗地去理解，就是 if A then B，else C。當(dāng)然，規(guī)控算法本身是非常非常復(fù)雜的，不是簡(jiǎn)單的 if else 語(yǔ)句，這里只是方便非工程專業(yè)的讀者理解。規(guī)控這里面的算法所遇到的 Corner Case，就更多更復(fù)雜了。我們的算法工程師去定義規(guī)控規(guī)則的時(shí)候，還是要基于我們?cè)O(shè)想的場(chǎng)景，去告訴機(jī)器，這個(gè)場(chǎng)景下要怎么做。比如通過(guò)識(shí)別車道線、識(shí)別交通標(biāo)識(shí)，以及車道與車道之間的連接關(guān)系，告訴車輛此時(shí)應(yīng)該直行、左轉(zhuǎn)還是右轉(zhuǎn)。那么問(wèn)題來(lái)了，現(xiàn)實(shí)世界中，周邊除了那些靜止的環(huán)境要素，還有大量的動(dòng)態(tài)環(huán)境要素。比如直行的時(shí)候，突然旁邊有輛車切入。或者綠燈過(guò)路口的時(shí)候，突然有個(gè)外賣小哥闖紅燈橫穿過(guò)來(lái)。

簡(jiǎn)單通俗地去理解，就是每一個(gè)場(chǎng)景，都需要一個(gè) if else 去告訴機(jī)器該怎么做。現(xiàn)在假設(shè)這么一個(gè)場(chǎng)景，路口有交警指揮交通，要求直行車輛全部右轉(zhuǎn)。這對(duì)于人類駕駛員來(lái)說(shuō)，是一個(gè)再普通不過(guò)的場(chǎng)景，哪怕一個(gè)新手司機(jī)也能立刻判斷要怎么做。但自動(dòng)駕駛汽車可能就不行了，因?yàn)橐?guī)則告訴它，這是直行車道，且周圍沒(méi)有其他障礙物或者車輛干涉，此時(shí)應(yīng)該直行。如果算法要解決這個(gè)問(wèn)題，怎么辦呢？首先要讓機(jī)器能夠識(shí)別交警。OK，我們給機(jī)器設(shè)定規(guī)則，穿天藍(lán)色衣服站在路口比劃手勢(shì)的，是交警，識(shí)別交警的手勢(shì)并做出對(duì)應(yīng)的路徑規(guī)劃。首先光是實(shí)現(xiàn)這一步識(shí)別，就非常非常麻煩……然后，某一年，交警換制服了，改成綠色了。又或者，某個(gè)特殊場(chǎng)景下，交警沒(méi)有穿制服，比如重大車禍現(xiàn)場(chǎng)，某個(gè)休假中的交警路過(guò)，臨時(shí)指揮交通。

又或者，不是交警，而是穿黃色衣服的路政工人指揮車輛離開前方路段。那繼續(xù)打補(bǔ)丁，告訴機(jī)器穿黃色衣服的人是路政，然后下次又遇到了美團(tuán)外賣小哥，又得告訴機(jī)器如何區(qū)分路政人員和美團(tuán)外賣�？偠灾�(guī)則是無(wú)窮無(wú)盡的，這里能拿出來(lái)舉例的，可能都已經(jīng)打上算法補(bǔ)丁了，還有更多更多的場(chǎng)景，可以非常非常奇葩，發(fā)生的概率非常低，沒(méi)有實(shí)際發(fā)生之前，人已經(jīng)沒(méi)有辦法提前設(shè)想出來(lái)了，自然也就沒(méi)辦法給機(jī)器設(shè)定規(guī)則。傳統(tǒng)的自動(dòng)駕駛技術(shù)，越是常見(jiàn)的場(chǎng)景，算法就訓(xùn)練的越成熟。

所以早些年，大家看到做自動(dòng)駕駛的公司如雨后春筍一般，一茬接一茬的冒出來(lái)。每家初創(chuàng)公司都可以很快在一些簡(jiǎn)單場(chǎng)景下實(shí)現(xiàn)自動(dòng)駕駛。融到錢以后，再去一點(diǎn)點(diǎn)研究 corner case，不斷地打補(bǔ)丁。然而，通過(guò)這種打補(bǔ)丁的方式，收益率是越來(lái)越低的。越往后，就需要投入越多的人力，去發(fā)現(xiàn)并解決一個(gè) corner case。這也是為什么最近幾年，大家感覺(jué)大部分自駕公司似乎沒(méi)什么技術(shù)上的明顯突破，一直都在 L2+，L2+++，L2.9999。理論上來(lái)說(shuō)，只要設(shè)定的規(guī)則足夠多，能夠把自然界 99.99999.....% 的場(chǎng)景都覆蓋到，那么通過(guò)這種模塊化的技術(shù)路線，自動(dòng)駕駛也是可以實(shí)現(xiàn)的。

這種方式下，自然就需要非常龐大的研發(fā)團(tuán)隊(duì)。比如比亞迪就曾經(jīng)公布過(guò)，4000 人的智駕團(tuán)隊(duì)，每個(gè)月的工資要發(fā) 10 億。如此高昂且需要持續(xù)投入的成本，也就限制了自駕技術(shù)的發(fā)展。另外，模塊化的自動(dòng)駕駛，由于感知、規(guī)劃、決策各個(gè)模塊是單獨(dú)開發(fā)和優(yōu)化的，系統(tǒng)的集成就變得非常復(fù)雜。不同模塊之間的信息傳遞存在誤差累計(jì)，進(jìn)而也會(huì)影響整體性能。最后，當(dāng)出現(xiàn)問(wèn)題時(shí)，快速定位問(wèn)題原因并給出解決方案也是一個(gè)難題。做感知的認(rèn)為是規(guī)控錯(cuò)了，做規(guī)控的認(rèn)為是感知錯(cuò)誤導(dǎo)致規(guī)控錯(cuò)了。

這幾個(gè)問(wèn)題比較技術(shù)，本篇就不展開來(lái)介紹了。端到端的自動(dòng)駕駛是什么上面說(shuō)了這么多，都是在解釋傳統(tǒng)自動(dòng)駕駛發(fā)展中遇到的技術(shù)瓶頸。那么，端到端自動(dòng)駕駛又是什么呢？與傳統(tǒng)的分模塊的思路不同，端到端自動(dòng)駕駛以感知的傳感器數(shù)據(jù)為輸入，直接輸出車輛的控制指令，中間過(guò)程是個(gè)黑盒，由神經(jīng)網(wǎng)絡(luò)來(lái)完成，人類不參與其中的規(guī)則定義。端到端的概念本身其實(shí)提出較早，但由于決策過(guò)程無(wú)法追溯，一直沒(méi)有被用于工程實(shí)踐。

大模型的出現(xiàn)以及快速發(fā)展，給端到端自動(dòng)駕駛帶來(lái)巨大轉(zhuǎn)機(jī)。特斯拉發(fā)布的 FSD 12，則是率先將端到端自動(dòng)駕駛率先工程落地。端到端和chat gpt這類語(yǔ)言大模型并不是一回事，但是，他們?cè)诩夹g(shù)層面上的應(yīng)用原理是非常類似的。端到端自動(dòng)駕駛和chat gpt都使用了深度學(xué)習(xí)技術(shù)，尤其是神經(jīng)網(wǎng)絡(luò)模型，來(lái)處理和生成數(shù)據(jù)。兩者都使用了大模型，都依賴大量的數(shù)據(jù)來(lái)訓(xùn)練模型。端到端自動(dòng)駕駛從大量的駕駛案例中學(xué)習(xí)駕車的操作規(guī)律，chat gpt則是從文本中學(xué)習(xí)人類的語(yǔ)言規(guī)律。

為了方便理解，這里，首先解釋一下語(yǔ)言大模型的工作原理。在上世紀(jì) 50-60 年代，人工智能專家通過(guò)給機(jī)器定義語(yǔ)法規(guī)則，來(lái)實(shí)現(xiàn)讓機(jī)器按照語(yǔ)法輸出人類語(yǔ)言。這種方式跟傳統(tǒng)模塊化自動(dòng)駕駛類似，本質(zhì)上都是人類給機(jī)器定義規(guī)則，機(jī)器去執(zhí)行規(guī)則。但是問(wèn)題來(lái)了，人類輸出語(yǔ)言，其實(shí)并不是完全按照語(yǔ)法規(guī)則，語(yǔ)法規(guī)則只是對(duì)人類輸出的語(yǔ)言信息的規(guī)律總結(jié)。而機(jī)器本身并不能理解語(yǔ)言本身的含義。所以機(jī)器按照設(shè)定好的語(yǔ)法規(guī)則輸出的語(yǔ)言，可以是語(yǔ)法完全正確但是沒(méi)有任何意義，不承載任何信息的廢話。比如著名的語(yǔ)言學(xué)家 Charmsky 舉了一個(gè)例子：colorless green ideas sleep furiously，無(wú)色的綠色點(diǎn)子狂暴地睡覺(jué)。

這句話完全符合語(yǔ)法規(guī)則，但沒(méi)有任何意義，正常人類的對(duì)話不可能輸出這樣的句子。另外，人類本身也不會(huì)完全按照語(yǔ)法規(guī)則去輸出語(yǔ)言。比如每年網(wǎng)絡(luò)上層出不窮的熱梗：YYDS，絕絕子，尊嘟假嘟，姬霓太美……這些詞原本沒(méi)有任何意義，但是人們給它賦予了含義，懂這個(gè)梗的一看就能明白什么意思。語(yǔ)言的目的是傳遞信息，雖然有些梗很爛很惡俗，但確實(shí)傳遞了信息。上面兩個(gè)案例就說(shuō)明，語(yǔ)法規(guī)則并不能完全定義人類語(yǔ)言。如果用定義語(yǔ)法規(guī)則的方式去告訴機(jī)器怎么輸出語(yǔ)言，那機(jī)器可能會(huì)輸出完全符合語(yǔ)法但毫無(wú)意義的語(yǔ)言，而且每次出現(xiàn)新的語(yǔ)法規(guī)則，就要給機(jī)器更新一個(gè)新的語(yǔ)法規(guī)則，這就太麻煩了。這和傳統(tǒng)自動(dòng)駕駛算法去不斷加規(guī)則所遇到的瓶頸，是不是很像？那么 GPT 又是怎么做的呢？

GPT，全稱為“Generative Pre-trained Transformer”，是一種基于 Transformer 架構(gòu)的預(yù)訓(xùn)練語(yǔ)言模型。它本質(zhì)上是一種預(yù)測(cè)語(yǔ)言模型。我們把 GPT 想象成是一個(gè)超級(jí)過(guò)目不忘的學(xué)霸，GPT 本身并不能理解語(yǔ)言，它通過(guò)閱讀互聯(lián)網(wǎng)上無(wú)數(shù)的文本資料，包括小說(shuō)、新聞、論壇帖子等，總結(jié)出了語(yǔ)言的規(guī)律，哪些詞經(jīng)常一起出現(xiàn)，句子怎么組織才自然。然后，GPT 預(yù)測(cè)文本中接下來(lái)可能出現(xiàn)的單詞。比如你給它一個(gè)句子的前半部分，它就能猜測(cè)后面可能跟著哪個(gè)詞。GPT 還能根據(jù)上下文理解詞義。比如“蘋果”這個(gè)詞，在不同的上下文中可能指的是水果，也可能是指科技公司。更通俗一點(diǎn)去理解，可以類比我們的聯(lián)想輸入法。輸入一個(gè)詞，后面會(huì)聯(lián)想出你可能想要輸入的下一個(gè)詞。這種聯(lián)想輸入法，其實(shí)就是一個(gè)最簡(jiǎn)單的語(yǔ)義模型了。

聯(lián)想輸入法只能根據(jù)前面的一個(gè)或兩個(gè)詞語(yǔ)去預(yù)測(cè)下一個(gè)詞，而大模型預(yù)測(cè)下一個(gè)詞的信息，不僅僅是局限于前面一兩個(gè)詞，而是之前所有的內(nèi)容。大模型通過(guò)學(xué)習(xí)前面的詞，預(yù)測(cè)下一個(gè)詞，涉及詞匯向量和運(yùn)算。這，叫做統(tǒng)計(jì)語(yǔ)言模型。大模型通過(guò)閱讀大量人類的語(yǔ)言文本，就能從中找出語(yǔ)言的規(guī)律。

比如：他非常喜歡你，只因你太____。大模型通過(guò)大量閱讀總結(jié)的規(guī)律，首先學(xué)習(xí)到了，“太”這個(gè)副詞往往會(huì)接形容詞，所以大模型接話不會(huì)接“只因你太打籃球”，或者“你太唱跳 rap”，大模型通過(guò)語(yǔ)言規(guī)律的總結(jié)，知道這里應(yīng)該接一個(gè)表達(dá)情緒的形容詞。又通過(guò)總結(jié)規(guī)律發(fā)現(xiàn)，“喜歡”這個(gè)詞是正面情緒，往往會(huì)接褒義的詞，所以大模型也不會(huì)接“只因你太蠢”或“只因你太沮喪”。

最后，語(yǔ)言大模型大概率就會(huì)給出“只因你太美”。所以，通過(guò)大量的數(shù)據(jù)輸入訓(xùn)練后的大模型，就可以根據(jù)前面的內(nèi)容不斷往后面接詞。上面盡可能通俗簡(jiǎn)化地講了語(yǔ)言大模型的工作原理。實(shí)際的語(yǔ)言模型當(dāng)然遠(yuǎn)遠(yuǎn)比上面描述的要復(fù)雜得多。那么，這跟端到端自動(dòng)駕駛又有什么關(guān)系呢？跟訓(xùn)練語(yǔ)言大模型類似，從傳感器輸入開始，信號(hào)給到神經(jīng)網(wǎng)絡(luò)。人類不在神經(jīng)網(wǎng)絡(luò)中定義規(guī)則，不去告訴它應(yīng)該識(shí)別什么，應(yīng)該怎么做。我們只是把這個(gè)場(chǎng)景下，人類的操作給它看。就像語(yǔ)言大模型總結(jié)出語(yǔ)言規(guī)律一樣，AI 也能通過(guò)大量的素材，總結(jié)出，當(dāng)某一些特定的傳感器信號(hào)，或是像素群出現(xiàn)的時(shí)候，人類就會(huì)進(jìn)行一定的操作。

語(yǔ)言大模型用的訓(xùn)練數(shù)據(jù)是人類的文本，而端到端自動(dòng)駕駛需要的訓(xùn)練數(shù)據(jù)，則是大量人類開車的視頻片段。這種訓(xùn)練方式，使得 AI 能夠像人類一樣思考。之前，特斯拉的FSD也是基于傳統(tǒng)的模塊自動(dòng)駕駛方案，但是，特斯拉最新發(fā)布的FSD Beta v12 已經(jīng)率先采用并落地了端到端自動(dòng)駕駛。特斯拉在此前的FSD多個(gè)版本中，通過(guò)純視覺(jué)感知方案，利用影子模式實(shí)時(shí)收集數(shù)據(jù)，已經(jīng)積累了大量數(shù)據(jù)用于訓(xùn)練模型。據(jù)媒體報(bào)道，特斯拉訓(xùn)練用到上千萬(wàn)個(gè)視頻片段。

馬斯克在此前的試駕直播中表示，F(xiàn)SD Beta V12是有史以來(lái)第一個(gè)端到端AI自動(dòng)駕駛系統(tǒng)（Full AI End-to-End），從頭到尾都是通過(guò)AI實(shí)現(xiàn)。我們沒(méi)有編程，沒(méi)有程序員寫一行代碼來(lái)識(shí)別道路、行人等概念，全部交給了神經(jīng)網(wǎng)絡(luò)自己思考。V12的C++代碼只有2000行，而V11有30萬(wàn)行。也就是說(shuō)，從傳統(tǒng)模塊化自動(dòng)駕駛轉(zhuǎn)向端到端后，特斯拉的FSD所需要的代碼，僅僅不到原來(lái)的1%！既然不需要那么多代碼了，自然也就不需要那么多寫代碼的人了。這大概就是李想裁人的底氣。端到端自動(dòng)駕駛的未來(lái)展望說(shuō)了這么多，現(xiàn)在回到標(biāo)題。端到端，給自動(dòng)駕駛行業(yè)帶來(lái)了什么？首先，是對(duì)從業(yè)者的影響。因?yàn)椴辉傩枰o AI 制定規(guī)則了，自然也就不再需要那么多算法工程師。

就像chat gpt的出現(xiàn)，讓大量翻譯人員失業(yè)一樣，端到端的到來(lái)，也會(huì)取代大量基層算法工程師的職能。所以不僅僅是李想才有底氣大規(guī)模裁研發(fā)人員，后續(xù)其他做自駕的 OEM 或者自駕 tier 1可能都會(huì)跟進(jìn)。當(dāng)然，這并不是所有的算法工程師就都要下崗了。因?yàn)橛?xùn)練的數(shù)據(jù)量還不足以支撐端到端自動(dòng)駕駛的直接落地，短期內(nèi)會(huì)有一個(gè)過(guò)渡期，即端到端實(shí)現(xiàn)自駕功能，但依然人為設(shè)定一套規(guī)則進(jìn)行兜底。其次，是對(duì)產(chǎn)業(yè)鏈的影響。我認(rèn)為，純視覺(jué)與雷達(dá)之爭(zhēng)可以休矣。純視覺(jué)方案一定大于雷達(dá)方案。攝像頭捕捉到的信息密度，是遠(yuǎn)遠(yuǎn)大于雷達(dá)的。雷達(dá)捕捉的信息強(qiáng)在精度。

設(shè)想這么一個(gè)場(chǎng)景，你開車在路上的時(shí)候，你的眼角余光看到路邊停著的車輛后邊冒出來(lái)一個(gè)腦袋在移動(dòng)，有經(jīng)驗(yàn)的司機(jī)可能就猜到這是有人準(zhǔn)備過(guò)馬路，只是身子被停在路邊的車輛擋住了，然后司機(jī)就會(huì)選擇減速觀察。神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到了這個(gè)規(guī)律，它會(huì)發(fā)現(xiàn)每次路邊靜止的車輛附近出現(xiàn)移動(dòng)的像素點(diǎn)時(shí)，人類司機(jī)就會(huì)做出一些減速操作。這類場(chǎng)景，只有純視覺(jué)可以捕捉到全量的場(chǎng)景信息，并且讓 AI 總結(jié)出，視頻的最角落的幾個(gè)像素信息也會(huì)影響人類操作，進(jìn)而學(xué)習(xí)這個(gè)機(jī)制。而雷達(dá)就只能等這個(gè)人出現(xiàn)在車子面前，探測(cè)到實(shí)體后，做出剎車的動(dòng)作。這就是自駕經(jīng)典難題“鬼探頭”。

但這并不是說(shuō)以后自動(dòng)駕駛就不需要雷達(dá)了。在性價(jià)比足夠高的情況下，可以加幾顆雷達(dá)去增加安全冗余，但端到端本身，并不需要雷達(dá)。所以，幾十塊錢的毫米波雷達(dá)，OEM 是不介意用幾顆的。但至今仍要 2-3000 一顆的激光雷達(dá)，唯一出路就是繼續(xù)卷價(jià)格，卷到價(jià)格低到 OEM 愿意接受它當(dāng)個(gè)備胎為止。目前，端到端本身還有一些局限性，比如訓(xùn)練數(shù)據(jù)不足，在某些場(chǎng)景下，其表現(xiàn)還不如原來(lái)模塊化自動(dòng)駕駛。另外，可測(cè)試性，可解釋性等問(wèn)題也是業(yè)內(nèi)人士爭(zhēng)論的焦點(diǎn)。本文不再展開。

結(jié)語(yǔ)大模型的興起改變了許多行業(yè)，也為沉寂多年的自動(dòng)駕駛行業(yè)帶來(lái)了新的可能。特斯拉的 FSD V12 的率先落地，也讓大家更加堅(jiān)信自動(dòng)駕駛必將實(shí)現(xiàn)。那么，完全的自動(dòng)駕駛是先有端到端實(shí)現(xiàn)？還是由模塊化技術(shù)方案實(shí)現(xiàn)？還是由兩者的結(jié)合呢？歡迎留言討論。

*未經(jīng)準(zhǔn)許嚴(yán)禁轉(zhuǎn)載和摘錄-參考資料：

原文標(biāo)題 : 自駕技術(shù)突破的第一刀，砍向自駕人