爆火的Sora將給自動(dòng)駕駛帶來怎樣的改變?
本文來源:智車科技
近日,OpenAI宣布推出生成式人工智能模型Sora,外界普遍認(rèn)為,這是AI視頻生成的全新里程碑時(shí)刻。僅需只言片語,Sora就可以給你輸出一段最長60秒的視頻,并且能夠全程保持高度的流暢性與穩(wěn)定性,實(shí)現(xiàn)了對(duì)Runway、Stable Video、Pika等生成式AI的超越。值得一提的是,Sora還能夠根據(jù)靜態(tài)圖像擴(kuò)展成一段視頻或補(bǔ)充缺失的動(dòng)態(tài)幀。
真賦能也好,蹭熱度也罷,一時(shí)間整個(gè)行業(yè)都在圍著AI轉(zhuǎn),也在開始認(rèn)真思考,更先進(jìn)的AI技術(shù)能夠?yàn)樗麄儙硎裁床灰粯拥膽?yīng)用場(chǎng)景。站在汽車行業(yè)的角度,Sora等更超前的大模型是否能助力智能駕駛的真正落地,其中最先從大模型獲益的當(dāng)屬感知模塊,本文想從大模型助力感知的表達(dá)來一探Sora將帶給智駕領(lǐng)域的革命。
感知表示的多樣性
感知的表達(dá)形式是多種多樣的,在現(xiàn)如今的主流自動(dòng)駕駛框架中,感知物體的表達(dá)形式往往分為以下幾類:
一是通過bounding box的形式來表示。對(duì)于常規(guī)物體例如交通流中的車輛,行人,自行車等等,Box的表達(dá)已經(jīng)完全可以勝任,且具備高度抽象和簡(jiǎn)潔的優(yōu)勢(shì)。但當(dāng)我們談?wù)摰礁呒?jí)別自動(dòng)駕駛,我們需要關(guān)心的是一切不可碰撞物體,其包含了柵欄、非剛體車、異形/未知類別物體、遺落的木頭塊等,Box并不能總適應(yīng)這樣的物體,尤其在狹窄路段,box的表示往往會(huì)過于保守,導(dǎo)致車輛行為笨拙。
那么如果用polygon的形式是否就可以呢?相較于box,polygon的表達(dá)可以幾乎不丟信息地完成障礙物的形狀表達(dá),同時(shí)兼?zhèn)淞顺橄蠛秃?jiǎn)潔的性質(zhì),但與此同時(shí)由于其是在連續(xù)空間中的表達(dá),對(duì)算力的要求非常高,因此較難以落地。
那么是否可以結(jié)合一下離散空間與連續(xù)空間的表達(dá)形式,對(duì)兩方都有一定的妥協(xié)呢?Tesla的Occupancy Network便給出了一個(gè)很好的結(jié)合樣例;贕rid的表示,能從本質(zhì)上解決目前感知完備性的問題,從激進(jìn)的角度,甚至可能代替掉Box的表示。而這一形式的推出,也立即成為了各家自動(dòng)駕駛企業(yè)的效仿對(duì)象,不僅在論文刷榜中取得了優(yōu)異的成績(jī),也在實(shí)車落地上取得了迄今為止最好的表現(xiàn)。但與此同時(shí)我們不禁想問,Occupancy Grid已然是最好的感知表達(dá)形式了嗎?難道這個(gè)討論了十幾年的問題已經(jīng)有了最終答案,沒有再改進(jìn)的空間了嗎?
下游規(guī)控的易用性
我們知道,感知想要完備地從各個(gè)傳感器的輸入中,提取出想要的物體,并將其進(jìn)行語義上的融合是一項(xiàng)非常困難的任務(wù),也在困擾著諸多的業(yè)界從業(yè)人員。其中非常大的一項(xiàng)挑戰(zhàn)便是,在信息的處理傳遞過程中,肯定會(huì)存在信息的損失。而這種信息的損失最終也會(huì)造成下游決策規(guī)控的出錯(cuò)。而要想解決這一問題,最好的方式便是以規(guī)控的目標(biāo)作為代價(jià)函數(shù),來優(yōu)化感知的輸出形式。
一直以來,模塊化處理復(fù)雜問題的最大劣勢(shì)便是信息的丟失問題,而端到端想要解決的便是徹底消除此間丟失的信息。通常,模塊化系統(tǒng)被稱為中間范式,并被構(gòu)建為離散組件的管道,連接傳感器輸入和運(yùn)動(dòng)輸出。模塊化系統(tǒng)的核心過程包括感知、定位、建圖、規(guī)劃和車輛控制。模塊化流水線首先將原始傳感器數(shù)據(jù)輸入到感知模塊,用于障礙物檢測(cè),并通過定位模塊進(jìn)行定位。隨后進(jìn)行規(guī)劃和預(yù)測(cè),以確定車輛的最佳和安全行程。最后控制器生成安全操縱的命令。
另一方面,直接感知或端到端驅(qū)動(dòng)直接從傳感器輸入輸出自車運(yùn)動(dòng)。它優(yōu)化了駕駛管道,繞過了與感知和規(guī)劃相關(guān)的子任務(wù),允許像人類一樣不斷學(xué)習(xí)感知和行動(dòng)。端到端駕駛基于傳感器輸入輸出自車運(yùn)動(dòng),這種運(yùn)動(dòng)可以是各種形式的。然而,最突出的是相機(jī)、LiDAR、導(dǎo)航命令、和車輛動(dòng)力學(xué),如速度。這種感知信息被用作主干模型的輸入,主干模型負(fù)責(zé)生成控制信號(hào)。自車運(yùn)動(dòng)可以包含不同類型的運(yùn)動(dòng),如加速、轉(zhuǎn)彎、轉(zhuǎn)向和蹬踏。此外,許多模型還輸出附加信息,例如安全機(jī)動(dòng)的成本圖、可解釋的輸出或其他輔助輸出。但整個(gè)系統(tǒng)過于龐大,并缺少一個(gè)整體的優(yōu)化目標(biāo),使得端到端無法真正落地產(chǎn)生效果。隨著UniAD的提出,以planning的目標(biāo)作為整個(gè)系統(tǒng)的優(yōu)化導(dǎo)向,并分模塊對(duì)各個(gè)子系統(tǒng)進(jìn)行打分,給從業(yè)者們一個(gè)新的思考方向。
Sora助力端到端落地
OpenAI表示,Sora在訓(xùn)練當(dāng)中表現(xiàn)出了與其它模型不同的涌現(xiàn)能力,通過涌現(xiàn)學(xué)習(xí)到了物品的時(shí)間與空間的相關(guān)性,以及與周圍世界互動(dòng)的能力等。簡(jiǎn)單來說,Sora不單止是擁有感知世界運(yùn)行法則的能力,它還可以判斷不同事物之間的關(guān)系,擁有發(fā)散思考的技能。智能汽車當(dāng)中的智能駕駛能力也是訓(xùn)練AI模型得出的結(jié)果。當(dāng)前汽車智能駕駛分為感知、定位、決策、規(guī)劃、控制幾個(gè)模塊,每個(gè)部分緊密配合,最終實(shí)現(xiàn)精確的智能駕駛。智能駕駛的不同模塊,目前都需要單獨(dú)訓(xùn)練,訓(xùn)練量龐大,研發(fā)人員要通過不斷地“喂數(shù)據(jù)”優(yōu)化迭代,所帶來的沉沒成本自然巨大。
人在駕駛汽車的時(shí)候,很多判斷都是基于對(duì)這個(gè)世界的理解,比如對(duì)方的速度、會(huì)否發(fā)生碰撞、碰撞的嚴(yán)重性如何。這就是當(dāng)前智能駕駛與真人司機(jī)之間的區(qū)別。
但Sora對(duì)世界的感知和交互能力,并不是單純的數(shù)據(jù)堆疊就能實(shí)現(xiàn)的。想要提高自動(dòng)駕駛的研發(fā)和運(yùn)行效率,人為優(yōu)化迭代是必須,更重要的還是要讓AI具備自主發(fā)散,縮短迭代周期,將交互能力賦能到現(xiàn)有的智駕模型當(dāng)中,更接近人類的駕駛體驗(yàn)或許就此誕生。
但與此同時(shí),端到端的落地也伴隨著相當(dāng)多的挑戰(zhàn)。首先是神經(jīng)網(wǎng)絡(luò)的可解釋性問題?梢韵胂螅绻詣(dòng)駕駛的車輛調(diào)試時(shí)出現(xiàn)安全問題,工程師們?cè)谂挪閱栴}時(shí)可不能說一句:“需要多采集點(diǎn)數(shù)據(jù),問題便可能得到解決”就能夠應(yīng)付的。事關(guān)性命安全問題,需要的是像汽車行業(yè)幾百年累積的經(jīng)驗(yàn)一般,要保障每輛車的安全性,這里容不得概率與可能性作祟。
其次便是用戶的接受程度。在自動(dòng)駕駛的過程中,用戶肯定希望能看到這輛車的行為,好對(duì)行進(jìn)狀況有個(gè)心理預(yù)期。而傳統(tǒng)的分模塊方案,感知的表達(dá)可以通過各種各樣的形式可視化出來,但端到端卻不具備這樣的能力,其更像是一個(gè)黑盒。在這種情況下,銷售如何向用戶保證這套系統(tǒng)的安全都是沒有說服力的,用戶的接受程度將會(huì)成為落地上真正困難的一環(huán)。
在過去的幾年里,由于與傳統(tǒng)的模塊化自動(dòng)駕駛相比,端到端自動(dòng)駕駛的設(shè)計(jì)簡(jiǎn)單,人們對(duì)它產(chǎn)生了濃厚的興趣。在端到端駕駛研究呈指數(shù)級(jí)增長的推動(dòng)下,越來越多的感知表達(dá)形式被提出,人們也希望在端到端的框架下,實(shí)現(xiàn)一種更加完備的感知表示方案,在保障規(guī)控接收到足夠信息的同時(shí),也減輕感知對(duì)于算力的依賴負(fù)擔(dān)。而Sora的爆火相信也會(huì)給智駕行業(yè)指明一條全新的道路。
原文標(biāo)題 : 爆火的Sora將給自動(dòng)駕駛帶來怎樣的改變?
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長度6~500個(gè)字
最新活動(dòng)更多
-
10月31日立即下載>> 【限時(shí)免費(fèi)下載】TE暖通空調(diào)系統(tǒng)高效可靠的組件解決方案
-
即日-11.13立即報(bào)名>>> 【在線會(huì)議】多物理場(chǎng)仿真助跑新能源汽車
-
11月28日立即報(bào)名>>> 2024工程師系列—工業(yè)電子技術(shù)在線會(huì)議
-
12月19日立即報(bào)名>> 【線下會(huì)議】OFweek 2024(第九屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
-
即日-12.26火熱報(bào)名中>> OFweek2024中國智造CIO在線峰會(huì)
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍(lán)皮書》
推薦專題
- 1 【一周車話】沒有方向盤和踏板的車,你敢坐嗎?
- 2 特斯拉發(fā)布無人駕駛車,還未迎來“Chatgpt時(shí)刻”
- 3 特斯拉股價(jià)大跌15%:Robotaxi離落地還差一個(gè)蘿卜快跑
- 4 馬斯克給的“驚喜”夠嗎?
- 5 打完“價(jià)格戰(zhàn)”,大模型還要比什么?
- 6 馬斯克致敬“國產(chǎn)蘿卜”?
- 7 神經(jīng)網(wǎng)絡(luò),誰是盈利最強(qiáng)企業(yè)?
- 8 比蘋果偉大100倍!真正改寫人類歷史的智能產(chǎn)品降臨
- 9 諾獎(jiǎng)進(jìn)入“AI時(shí)代”,人類何去何從?
- 10 Open AI融資后成萬億獨(dú)角獸,AI人才之爭(zhēng)開啟
- 高級(jí)軟件工程師 廣東省/深圳市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級(jí)銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市