侵權(quán)投訴
訂閱
糾錯(cuò)
加入自媒體

自駕技術(shù)突破的第一刀,砍向自駕人

在 2024 年 6 月 8 日的中國(guó)汽車重慶論壇上,理想汽車 CEO 李想發(fā)表演講時(shí)表示:“最近團(tuán)隊(duì)致力于自動(dòng)駕駛技術(shù)的突破,他們?cè)伎歼@樣一個(gè)問(wèn)題:人類開車為什么不涉及學(xué)習(xí) corner case?如果我們不能解決這個(gè)問(wèn)題,所有自動(dòng)駕駛團(tuán)隊(duì)每天干的活都是靠人工去調(diào)試各種各樣的 corner case,而且放的人越多,corner case 越多,和真正的自動(dòng)駕駛就越遙遠(yuǎn)。”他接著說(shuō):“當(dāng)人工智能技術(shù)在不斷的發(fā)展的時(shí)候,我們會(huì)發(fā)現(xiàn),其實(shí)人類開車的方式,不是過(guò)去那么多年里我們用的自動(dòng)駕駛研發(fā)的一個(gè)方式。這是一個(gè)根本的不同。因?yàn)槿碎_車沒(méi)那么辛苦,沒(méi)那么累,不需要養(yǎng)幾千人的團(tuán)隊(duì)去搞 corner case。”

聯(lián)想到最近理想汽車大規(guī)模裁員的動(dòng)作,此番表態(tài)似乎是李想在為裁員做出回應(yīng)。過(guò)去,我和業(yè)內(nèi)朋友們討論自動(dòng)駕駛技術(shù)對(duì)社會(huì)發(fā)展的價(jià)值時(shí),往往會(huì)有朋友提出:“屆時(shí)大量出租車、網(wǎng)約車司機(jī)失業(yè),帶來(lái)的社會(huì)影響怎么辦?”誰(shuí)也沒(méi)想到,最先被自動(dòng)駕駛技術(shù)優(yōu)化掉的,并不是司機(jī)們,反而是為自動(dòng)駕駛技術(shù)的發(fā)展掉光一茬又一茬頭發(fā)的算法工程師們,堪稱 2024 年最佳地獄笑話了。李想所說(shuō)的“自動(dòng)駕駛技術(shù)的突破”,就是最近非;馃岬亩说蕉俗詣(dòng)駕駛技術(shù)。那么,什么是“端到端自動(dòng)駕駛”?為什么端到端的到來(lái),讓李想有這個(gè)底氣去大規(guī)模裁掉自動(dòng)駕駛團(tuán)隊(duì)人員呢?本文將從以下幾個(gè)方面展開論述,看完這篇,你就理解為什么端到端讓李想認(rèn)為做自駕,不再需要那么多人了。

傳統(tǒng)的模塊化自動(dòng)駕駛方案,以及其局限性

端到端是什么,是怎么實(shí)現(xiàn)的

端到端對(duì)自駕行業(yè)的影響端到端自動(dòng)駕駛之前,我們是怎么做的要想理解什么是端到端自動(dòng)駕駛,我們首先要思考,什么是“非端到端的自動(dòng)駕駛”?非端到端的自動(dòng)駕駛,我們這里稱為傳統(tǒng)的自動(dòng)駕駛技術(shù),一般稱作模塊化自動(dòng)駕駛技術(shù)。也就是大家所熟知的,分為感知、定位、規(guī)劃、控制幾大模塊。感知模塊負(fù)責(zé)接收傳感器的信號(hào),分析出傳感器探測(cè)到的物體是什么。感知模塊把這個(gè)信息傳遞給規(guī)劃模塊,規(guī)劃模塊做出判斷和決策后,將指令傳遞給控制模塊,再由控制模塊去執(zhí)行。自駕圈過(guò)去幾年的技術(shù)演進(jìn),是無(wú)圖,還是重圖,是純視覺(jué),還是雷達(dá)全家桶,其實(shí)都沒(méi)有脫離這個(gè)模塊化自動(dòng)駕駛技術(shù)。

比如說(shuō),純視覺(jué)好還是上激光雷達(dá)更好?技術(shù)上的分歧點(diǎn)在于,純視覺(jué)夠不夠感知到所有物體?需不需要使用激光雷達(dá)去輔助感知?過(guò)去幾年,我們自動(dòng)駕駛相關(guān)技術(shù)的發(fā)展,無(wú)論是激光雷達(dá),還是所謂的 4D 毫米波雷達(dá),還是雙目攝像頭,其實(shí)都是在加強(qiáng)這個(gè)感知模塊。硬件的感知能力加強(qiáng)了,但機(jī)器本身,他只知道那里有東西,并不能識(shí)別那個(gè)東西,需要人為去給機(jī)器定義。通俗地解釋,就是我們給機(jī)器去設(shè)定好一個(gè)規(guī)則,去告訴機(jī)器,有這些特征參數(shù)的,是 A 物體,有那些特征參數(shù)的,是 B 物體。

這就是感知算法工程師的工作。在端到端到來(lái)之前,我們加強(qiáng)機(jī)器感知能力的方法,都是通過(guò)打補(bǔ)丁的方式,不斷地去增加規(guī)則。比如特斯拉,放棄了激光雷達(dá),僅靠純視覺(jué)去識(shí)別物體。帶來(lái)的問(wèn)題是,只有標(biāo)注過(guò)的、見(jiàn)過(guò)的物體,機(jī)器能夠識(shí)別。一棵樹,長(zhǎng)在路邊,橫在路中間,豎在路中間,我們?nèi)祟惗伎梢砸谎壅J(rèn)出來(lái)那是一棵樹。但如果只標(biāo)注過(guò)長(zhǎng)在路邊的樹,對(duì)于橫在路中間的樹,機(jī)器可能就識(shí)別不出來(lái)了。比如,2020 年臺(tái)灣的一名特斯拉車主黃先生啟用 Autopilot 時(shí),就撞上了一輛側(cè)翻的白色卡車。對(duì)機(jī)器來(lái)說(shuō),行駛的卡車、停著的卡車,都能識(shí)別出來(lái),但是側(cè)翻的卡車,以前沒(méi)人給標(biāo)注過(guò)啊。

算法工程師當(dāng)然可以很快打上補(bǔ)丁,告訴機(jī)器這是側(cè)翻的卡車,下次遇到了要提前避讓。但是,下次再遇到四腳朝天的卡車呢?或者側(cè)翻的轎車、泥頭車、靈車?算法工程師們,不可能把所有的 corner case 都窮舉完,總有更加奇葩的案例會(huì)發(fā)生,總不可能每展現(xiàn)一次 corner case,就要消耗一名特斯拉車主吧?所以,特斯拉在 2022 年的 AI DAY 上,分享了一個(gè)重要的技術(shù),occupancy network,被稱作是下一代的感知范式。

這里通俗地解釋一下 occupancy:把汽車周圍的空間劃分成許多小格子,每個(gè)格子都有自己的位置和標(biāo)記。標(biāo)記分為兩種狀態(tài),被占用和空閑。如果一個(gè)格子是被占用的狀態(tài),那就意味著這個(gè)格子的空間是有物體的。隨著汽車的移動(dòng),不斷地通過(guò)傳感器去更新這些格子的狀態(tài)。這么一來(lái),機(jī)器就可以建模任意形狀的物體和任意形式的物體運(yùn)動(dòng),不再依賴通過(guò)人工標(biāo)注的方式去讓機(jī)器學(xué)習(xí)?雌饋(lái),特斯拉的 occupancy network 已經(jīng)完美解決了如何感知了,對(duì)不對(duì)?但是 occupancy 依然有局限性。

比如車前面飄過(guò)去一個(gè)塑料袋,或者一片落葉,人類駕駛員可以輕松判斷做出無(wú)視的決策,但機(jī)器會(huì)把它識(shí)別成障礙物。那怎么辦?還是打補(bǔ)丁,告訴機(jī)器,有這些特征的是塑料袋,是落葉,可以無(wú)視。這就又回到了上面的問(wèn)題,自然界的規(guī)則是無(wú)窮無(wú)盡的,永遠(yuǎn)都會(huì)有還沒(méi)考慮到的 corner case。上面說(shuō)了這么多,還只是感知模塊的問(wèn)題。規(guī)劃和決策模塊,這里面的規(guī)則就更復(fù)雜了。傳統(tǒng)自動(dòng)駕駛技術(shù)下的規(guī)控算法,一般被稱為 rule-based 算法。

我們通俗地去理解,就是 if A then B,else C。當(dāng)然,規(guī)控算法本身是非常非常復(fù)雜的,不是簡(jiǎn)單的 if else 語(yǔ)句,這里只是方便非工程專業(yè)的讀者理解。規(guī)控這里面的算法所遇到的 Corner Case,就更多更復(fù)雜了。我們的算法工程師去定義規(guī)控規(guī)則的時(shí)候,還是要基于我們?cè)O(shè)想的場(chǎng)景,去告訴機(jī)器,這個(gè)場(chǎng)景下要怎么做。比如通過(guò)識(shí)別車道線、識(shí)別交通標(biāo)識(shí),以及車道與車道之間的連接關(guān)系,告訴車輛此時(shí)應(yīng)該直行、左轉(zhuǎn)還是右轉(zhuǎn)。那么問(wèn)題來(lái)了,現(xiàn)實(shí)世界中,周邊除了那些靜止的環(huán)境要素,還有大量的動(dòng)態(tài)環(huán)境要素。比如直行的時(shí)候,突然旁邊有輛車切入。或者綠燈過(guò)路口的時(shí)候,突然有個(gè)外賣小哥闖紅燈橫穿過(guò)來(lái)。

簡(jiǎn)單通俗地去理解,就是每一個(gè)場(chǎng)景,都需要一個(gè) if else 去告訴機(jī)器該怎么做。現(xiàn)在假設(shè)這么一個(gè)場(chǎng)景,路口有交警指揮交通,要求直行車輛全部右轉(zhuǎn)。這對(duì)于人類駕駛員來(lái)說(shuō),是一個(gè)再普通不過(guò)的場(chǎng)景,哪怕一個(gè)新手司機(jī)也能立刻判斷要怎么做。但自動(dòng)駕駛汽車可能就不行了,因?yàn)橐?guī)則告訴它,這是直行車道,且周圍沒(méi)有其他障礙物或者車輛干涉,此時(shí)應(yīng)該直行。如果算法要解決這個(gè)問(wèn)題,怎么辦呢?首先要讓機(jī)器能夠識(shí)別交警。OK,我們給機(jī)器設(shè)定規(guī)則,穿天藍(lán)色衣服站在路口比劃手勢(shì)的,是交警,識(shí)別交警的手勢(shì)并做出對(duì)應(yīng)的路徑規(guī)劃。首先光是實(shí)現(xiàn)這一步識(shí)別,就非常非常麻煩……然后,某一年,交警換制服了,改成綠色了。又或者,某個(gè)特殊場(chǎng)景下,交警沒(méi)有穿制服,比如重大車禍現(xiàn)場(chǎng),某個(gè)休假中的交警路過(guò),臨時(shí)指揮交通。

又或者,不是交警,而是穿黃色衣服的路政工人指揮車輛離開前方路段。那繼續(xù)打補(bǔ)丁,告訴機(jī)器穿黃色衣服的人是路政,然后下次又遇到了美團(tuán)外賣小哥,又得告訴機(jī)器如何區(qū)分路政人員和美團(tuán)外賣?偠灾(guī)則是無(wú)窮無(wú)盡的,這里能拿出來(lái)舉例的,可能都已經(jīng)打上算法補(bǔ)丁了,還有更多更多的場(chǎng)景,可以非常非常奇葩,發(fā)生的概率非常低,沒(méi)有實(shí)際發(fā)生之前,人已經(jīng)沒(méi)有辦法提前設(shè)想出來(lái)了,自然也就沒(méi)辦法給機(jī)器設(shè)定規(guī)則。傳統(tǒng)的自動(dòng)駕駛技術(shù),越是常見(jiàn)的場(chǎng)景,算法就訓(xùn)練的越成熟

所以早些年,大家看到做自動(dòng)駕駛的公司如雨后春筍一般,一茬接一茬的冒出來(lái)。每家初創(chuàng)公司都可以很快在一些簡(jiǎn)單場(chǎng)景下實(shí)現(xiàn)自動(dòng)駕駛。融到錢以后,再去一點(diǎn)點(diǎn)研究 corner case,不斷地打補(bǔ)丁。然而,通過(guò)這種打補(bǔ)丁的方式,收益率是越來(lái)越低的。越往后,就需要投入越多的人力,去發(fā)現(xiàn)并解決一個(gè) corner case。這也是為什么最近幾年,大家感覺(jué)大部分自駕公司似乎沒(méi)什么技術(shù)上的明顯突破,一直都在 L2+,L2+++,L2.9999。理論上來(lái)說(shuō),只要設(shè)定的規(guī)則足夠多,能夠把自然界 99.99999.....% 的場(chǎng)景都覆蓋到,那么通過(guò)這種模塊化的技術(shù)路線,自動(dòng)駕駛也是可以實(shí)現(xiàn)的。

這種方式下,自然就需要非常龐大的研發(fā)團(tuán)隊(duì)。比如比亞迪就曾經(jīng)公布過(guò),4000 人的智駕團(tuán)隊(duì),每個(gè)月的工資要發(fā) 10 億。如此高昂且需要持續(xù)投入的成本,也就限制了自駕技術(shù)的發(fā)展。另外,模塊化的自動(dòng)駕駛,由于感知、規(guī)劃、決策各個(gè)模塊是單獨(dú)開發(fā)和優(yōu)化的,系統(tǒng)的集成就變得非常復(fù)雜。不同模塊之間的信息傳遞存在誤差累計(jì),進(jìn)而也會(huì)影響整體性能。最后,當(dāng)出現(xiàn)問(wèn)題時(shí),快速定位問(wèn)題原因并給出解決方案也是一個(gè)難題。做感知的認(rèn)為是規(guī)控錯(cuò)了,做規(guī)控的認(rèn)為是感知錯(cuò)誤導(dǎo)致規(guī)控錯(cuò)了。

這幾個(gè)問(wèn)題比較技術(shù),本篇就不展開來(lái)介紹了。端到端的自動(dòng)駕駛是什么上面說(shuō)了這么多,都是在解釋傳統(tǒng)自動(dòng)駕駛發(fā)展中遇到的技術(shù)瓶頸。那么,端到端自動(dòng)駕駛又是什么呢?與傳統(tǒng)的分模塊的思路不同,端到端自動(dòng)駕駛以感知的傳感器數(shù)據(jù)為輸入,直接輸出車輛的控制指令,中間過(guò)程是個(gè)黑盒,由神經(jīng)網(wǎng)絡(luò)來(lái)完成,人類不參與其中的規(guī)則定義。端到端的概念本身其實(shí)提出較早,但由于決策過(guò)程無(wú)法追溯,一直沒(méi)有被用于工程實(shí)踐。

大模型的出現(xiàn)以及快速發(fā)展,給端到端自動(dòng)駕駛帶來(lái)巨大轉(zhuǎn)機(jī)。特斯拉發(fā)布的 FSD 12,則是率先將端到端自動(dòng)駕駛率先工程落地。端到端和chat gpt這類語(yǔ)言大模型并不是一回事,但是,他們?cè)诩夹g(shù)層面上的應(yīng)用原理是非常類似的。端到端自動(dòng)駕駛和chat gpt都使用了深度學(xué)習(xí)技術(shù),尤其是神經(jīng)網(wǎng)絡(luò)模型,來(lái)處理和生成數(shù)據(jù)。兩者都使用了大模型,都依賴大量的數(shù)據(jù)來(lái)訓(xùn)練模型。端到端自動(dòng)駕駛從大量的駕駛案例中學(xué)習(xí)駕車的操作規(guī)律,chat gpt則是從文本中學(xué)習(xí)人類的語(yǔ)言規(guī)律。

為了方便理解,這里,首先解釋一下語(yǔ)言大模型的工作原理。在上世紀(jì) 50-60 年代,人工智能專家通過(guò)給機(jī)器定義語(yǔ)法規(guī)則,來(lái)實(shí)現(xiàn)讓機(jī)器按照語(yǔ)法輸出人類語(yǔ)言。這種方式跟傳統(tǒng)模塊化自動(dòng)駕駛類似,本質(zhì)上都是人類給機(jī)器定義規(guī)則,機(jī)器去執(zhí)行規(guī)則。但是問(wèn)題來(lái)了,人類輸出語(yǔ)言,其實(shí)并不是完全按照語(yǔ)法規(guī)則,語(yǔ)法規(guī)則只是對(duì)人類輸出的語(yǔ)言信息的規(guī)律總結(jié)。而機(jī)器本身并不能理解語(yǔ)言本身的含義。所以機(jī)器按照設(shè)定好的語(yǔ)法規(guī)則輸出的語(yǔ)言,可以是語(yǔ)法完全正確但是沒(méi)有任何意義,不承載任何信息的廢話。比如著名的語(yǔ)言學(xué)家 Charmsky 舉了一個(gè)例子:colorless green ideas sleep furiously,無(wú)色的綠色點(diǎn)子狂暴地睡覺(jué)。

這句話完全符合語(yǔ)法規(guī)則,但沒(méi)有任何意義,正常人類的對(duì)話不可能輸出這樣的句子。另外,人類本身也不會(huì)完全按照語(yǔ)法規(guī)則去輸出語(yǔ)言。比如每年網(wǎng)絡(luò)上層出不窮的熱梗:YYDS,絕絕子,尊嘟假嘟,姬霓太美……這些詞原本沒(méi)有任何意義,但是人們給它賦予了含義,懂這個(gè)梗的一看就能明白什么意思。語(yǔ)言的目的是傳遞信息,雖然有些梗很爛很惡俗,但確實(shí)傳遞了信息。上面兩個(gè)案例就說(shuō)明,語(yǔ)法規(guī)則并不能完全定義人類語(yǔ)言。如果用定義語(yǔ)法規(guī)則的方式去告訴機(jī)器怎么輸出語(yǔ)言,那機(jī)器可能會(huì)輸出完全符合語(yǔ)法但毫無(wú)意義的語(yǔ)言,而且每次出現(xiàn)新的語(yǔ)法規(guī)則,就要給機(jī)器更新一個(gè)新的語(yǔ)法規(guī)則,這就太麻煩了。這和傳統(tǒng)自動(dòng)駕駛算法去不斷加規(guī)則所遇到的瓶頸,是不是很像?那么 GPT 又是怎么做的呢?

GPT,全稱為“Generative Pre-trained Transformer”,是一種基于 Transformer 架構(gòu)的預(yù)訓(xùn)練語(yǔ)言模型。它本質(zhì)上是一種預(yù)測(cè)語(yǔ)言模型。我們把 GPT 想象成是一個(gè)超級(jí)過(guò)目不忘的學(xué)霸,GPT 本身并不能理解語(yǔ)言,它通過(guò)閱讀互聯(lián)網(wǎng)上無(wú)數(shù)的文本資料,包括小說(shuō)、新聞、論壇帖子等,總結(jié)出了語(yǔ)言的規(guī)律,哪些詞經(jīng)常一起出現(xiàn),句子怎么組織才自然。然后,GPT 預(yù)測(cè)文本中接下來(lái)可能出現(xiàn)的單詞。比如你給它一個(gè)句子的前半部分,它就能猜測(cè)后面可能跟著哪個(gè)詞。GPT 還能根據(jù)上下文理解詞義。比如“蘋果”這個(gè)詞,在不同的上下文中可能指的是水果,也可能是指科技公司。更通俗一點(diǎn)去理解,可以類比我們的聯(lián)想輸入法。輸入一個(gè)詞,后面會(huì)聯(lián)想出你可能想要輸入的下一個(gè)詞。這種聯(lián)想輸入法,其實(shí)就是一個(gè)最簡(jiǎn)單的語(yǔ)義模型了。

聯(lián)想輸入法只能根據(jù)前面的一個(gè)或兩個(gè)詞語(yǔ)去預(yù)測(cè)下一個(gè)詞,而大模型預(yù)測(cè)下一個(gè)詞的信息,不僅僅是局限于前面一兩個(gè)詞,而是之前所有的內(nèi)容。大模型通過(guò)學(xué)習(xí)前面的詞,預(yù)測(cè)下一個(gè)詞,涉及詞匯向量和運(yùn)算。這,叫做統(tǒng)計(jì)語(yǔ)言模型。大模型通過(guò)閱讀大量人類的語(yǔ)言文本,就能從中找出語(yǔ)言的規(guī)律。

比如:他非常喜歡你,只因你太____。大模型通過(guò)大量閱讀總結(jié)的規(guī)律,首先學(xué)習(xí)到了,“太”這個(gè)副詞往往會(huì)接形容詞,所以大模型接話不會(huì)接“只因你太打籃球”,或者“你太唱跳 rap”,大模型通過(guò)語(yǔ)言規(guī)律的總結(jié),知道這里應(yīng)該接一個(gè)表達(dá)情緒的形容詞。又通過(guò)總結(jié)規(guī)律發(fā)現(xiàn),“喜歡”這個(gè)詞是正面情緒,往往會(huì)接褒義的詞,所以大模型也不會(huì)接“只因你太蠢”或“只因你太沮喪”。

最后,語(yǔ)言大模型大概率就會(huì)給出“只因你太美”。所以,通過(guò)大量的數(shù)據(jù)輸入訓(xùn)練后的大模型,就可以根據(jù)前面的內(nèi)容不斷往后面接詞。上面盡可能通俗簡(jiǎn)化地講了語(yǔ)言大模型的工作原理。實(shí)際的語(yǔ)言模型當(dāng)然遠(yuǎn)遠(yuǎn)比上面描述的要復(fù)雜得多。那么,這跟端到端自動(dòng)駕駛又有什么關(guān)系呢?跟訓(xùn)練語(yǔ)言大模型類似,從傳感器輸入開始,信號(hào)給到神經(jīng)網(wǎng)絡(luò)。人類不在神經(jīng)網(wǎng)絡(luò)中定義規(guī)則,不去告訴它應(yīng)該識(shí)別什么,應(yīng)該怎么做。我們只是把這個(gè)場(chǎng)景下,人類的操作給它看。就像語(yǔ)言大模型總結(jié)出語(yǔ)言規(guī)律一樣,AI 也能通過(guò)大量的素材,總結(jié)出,當(dāng)某一些特定的傳感器信號(hào),或是像素群出現(xiàn)的時(shí)候,人類就會(huì)進(jìn)行一定的操作。

語(yǔ)言大模型用的訓(xùn)練數(shù)據(jù)是人類的文本,而端到端自動(dòng)駕駛需要的訓(xùn)練數(shù)據(jù),則是大量人類開車的視頻片段。這種訓(xùn)練方式,使得 AI 能夠像人類一樣思考。之前,特斯拉的FSD也是基于傳統(tǒng)的模塊自動(dòng)駕駛方案,但是,特斯拉最新發(fā)布的FSD Beta v12 已經(jīng)率先采用并落地了端到端自動(dòng)駕駛。特斯拉在此前的FSD多個(gè)版本中,通過(guò)純視覺(jué)感知方案,利用影子模式實(shí)時(shí)收集數(shù)據(jù),已經(jīng)積累了大量數(shù)據(jù)用于訓(xùn)練模型。據(jù)媒體報(bào)道,特斯拉訓(xùn)練用到上千萬(wàn)個(gè)視頻片段。

馬斯克在此前的試駕直播中表示,F(xiàn)SD Beta V12是有史以來(lái)第一個(gè)端到端AI自動(dòng)駕駛系統(tǒng)(Full AI End-to-End),從頭到尾都是通過(guò)AI實(shí)現(xiàn)。我們沒(méi)有編程,沒(méi)有程序員寫一行代碼來(lái)識(shí)別道路、行人等概念,全部交給了神經(jīng)網(wǎng)絡(luò)自己思考。V12的C++代碼只有2000行,而V11有30萬(wàn)行。也就是說(shuō),從傳統(tǒng)模塊化自動(dòng)駕駛轉(zhuǎn)向端到端后,特斯拉的FSD所需要的代碼,僅僅不到原來(lái)的1%!既然不需要那么多代碼了,自然也就不需要那么多寫代碼的人了。這大概就是李想裁人的底氣。端到端自動(dòng)駕駛的未來(lái)展望說(shuō)了這么多,現(xiàn)在回到標(biāo)題。端到端,給自動(dòng)駕駛行業(yè)帶來(lái)了什么?首先,是對(duì)從業(yè)者的影響。因?yàn)椴辉傩枰o AI 制定規(guī)則了,自然也就不再需要那么多算法工程師。

就像chat gpt的出現(xiàn),讓大量翻譯人員失業(yè)一樣,端到端的到來(lái),也會(huì)取代大量基層算法工程師的職能。所以不僅僅是李想才有底氣大規(guī)模裁研發(fā)人員,后續(xù)其他做自駕的 OEM 或者自駕 tier 1可能都會(huì)跟進(jìn)。當(dāng)然,這并不是所有的算法工程師就都要下崗了。因?yàn)橛?xùn)練的數(shù)據(jù)量還不足以支撐端到端自動(dòng)駕駛的直接落地,短期內(nèi)會(huì)有一個(gè)過(guò)渡期,即端到端實(shí)現(xiàn)自駕功能,但依然人為設(shè)定一套規(guī)則進(jìn)行兜底。其次,是對(duì)產(chǎn)業(yè)鏈的影響。我認(rèn)為,純視覺(jué)與雷達(dá)之爭(zhēng)可以休矣。純視覺(jué)方案一定大于雷達(dá)方案。攝像頭捕捉到的信息密度,是遠(yuǎn)遠(yuǎn)大于雷達(dá)的。雷達(dá)捕捉的信息強(qiáng)在精度。

設(shè)想這么一個(gè)場(chǎng)景,你開車在路上的時(shí)候,你的眼角余光看到路邊停著的車輛后邊冒出來(lái)一個(gè)腦袋在移動(dòng),有經(jīng)驗(yàn)的司機(jī)可能就猜到這是有人準(zhǔn)備過(guò)馬路,只是身子被停在路邊的車輛擋住了,然后司機(jī)就會(huì)選擇減速觀察。神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到了這個(gè)規(guī)律,它會(huì)發(fā)現(xiàn)每次路邊靜止的車輛附近出現(xiàn)移動(dòng)的像素點(diǎn)時(shí),人類司機(jī)就會(huì)做出一些減速操作。這類場(chǎng)景,只有純視覺(jué)可以捕捉到全量的場(chǎng)景信息,并且讓 AI 總結(jié)出,視頻的最角落的幾個(gè)像素信息也會(huì)影響人類操作,進(jìn)而學(xué)習(xí)這個(gè)機(jī)制。而雷達(dá)就只能等這個(gè)人出現(xiàn)在車子面前,探測(cè)到實(shí)體后,做出剎車的動(dòng)作。這就是自駕經(jīng)典難題“鬼探頭”。

但這并不是說(shuō)以后自動(dòng)駕駛就不需要雷達(dá)了。在性價(jià)比足夠高的情況下,可以加幾顆雷達(dá)去增加安全冗余,但端到端本身,并不需要雷達(dá)。所以,幾十塊錢的毫米波雷達(dá),OEM 是不介意用幾顆的。但至今仍要 2-3000 一顆的激光雷達(dá),唯一出路就是繼續(xù)卷價(jià)格,卷到價(jià)格低到 OEM 愿意接受它當(dāng)個(gè)備胎為止。目前,端到端本身還有一些局限性,比如訓(xùn)練數(shù)據(jù)不足,在某些場(chǎng)景下,其表現(xiàn)還不如原來(lái)模塊化自動(dòng)駕駛。另外,可測(cè)試性,可解釋性等問(wèn)題也是業(yè)內(nèi)人士爭(zhēng)論的焦點(diǎn)。本文不再展開。

結(jié)語(yǔ)大模型的興起改變了許多行業(yè),也為沉寂多年的自動(dòng)駕駛行業(yè)帶來(lái)了新的可能。特斯拉的 FSD V12 的率先落地,也讓大家更加堅(jiān)信自動(dòng)駕駛必將實(shí)現(xiàn)。那么,完全的自動(dòng)駕駛是先有端到端實(shí)現(xiàn)?還是由模塊化技術(shù)方案實(shí)現(xiàn)?還是由兩者的結(jié)合呢?歡迎留言討論。

*未經(jīng)準(zhǔn)許嚴(yán)禁轉(zhuǎn)載和摘錄-參考資料:

       原文標(biāo)題 : 自駕技術(shù)突破的第一刀,砍向自駕人

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

智能汽車網(wǎng) 獵頭職位 更多
文章糾錯(cuò)
x
*文字標(biāo)題:
*糾錯(cuò)內(nèi)容:
聯(lián)系郵箱:
*驗(yàn) 證 碼:

粵公網(wǎng)安備 44030502002758號(hào)