踢開AGI大門!Sora會讓世界成為“太虛幻境”嗎?
就在前幾天,OpenAI發(fā)布了文生視頻工具Sora,盡管這并非行業(yè)首創(chuàng),但作為AGI的“開宗立派”者的旗艦產品,Sora依然震撼了科技產業(yè)。除了引爆科技圈熱議外,媒體、文娛等等相關產業(yè)均對Sora高度關注,更有消息稱“開工第一天,所有VC都在開會討論Sora”。
Sora從技術上迎來了全面革新,比如說,它能實現長達1分鐘的視頻內容創(chuàng)作,也能根據需要制作長鏡頭內容,還能根據不同角色的情感給出不同的鏡頭語言。如果最終發(fā)布的產品的能力,真如視頻Demo這般強大,Sora將對流水線制作模式的影視團隊帶來一些沖擊。
馬斯克也在個人社交平臺當中銳評道:“gg humans(人類愿賭服輸)”。
(圖源:X)
不過,Sora仍在測試階段,距離其真正投入使用還有一段時間。鑒于AIGC行業(yè)存在“Demo過度”的情況(比如Google Gemini發(fā)布會的演示就被揭露造假了),因此Sora發(fā)布版到底表現如何還有待體驗。至于Sora能否真正引發(fā)行業(yè)變革甚至像一些媒體危言聳聽宣稱的“顛覆世界,消滅XX”,其實也還是未知數。
史上最強AI視頻工具,到底有何突破?
Sora的最大突破在于能夠根據文本描述生成一段長達60秒的視頻內容,此前,世界記錄的保持者為Runway的Gen-2,最高能創(chuàng)作時長為16秒的視頻。但Sora并不是一個純粹的視頻生成工具。
(圖源:Sora)
在OpenAI公開的技術性報告中,Sora的真實身份被揭曉:底層是一個擴散Transformer模型,相較于傳統(tǒng)的基于二維模型的文生視頻產品而言,Sora具有對現實世界物理規(guī)律的感知,對于如何生成一段「逼真」的視頻,有深刻的自主意識。
OpenAI在Sora的官方網站中放出了多條演示視頻,其中一段兩只海盜船在咖啡杯中翻涌的視頻,展現出Sora對液體的狀態(tài)、船只的物理形態(tài)、運動軌跡的判斷多維度的理解。
(圖源:Sora)
此外,Sora還能產生多個角色、特定類型運動以及主體背景豐富細節(jié)等多種復雜場景的視頻,即便用戶沒有描述這些特定場景的細節(jié),Sora依然能夠理解并準確生成。比如說,當你需要一個描述為「晚宴」的視頻內容時,Sora并不會止步于饕客們將美食一掃而光的過程與結果,而是會將每一個動作所留下來的痕跡得以保留:咬了一口的漢堡,就會有咬過的痕跡。
事實上,Sora的成功離不開OpenAI公司前兩款產品的經驗積累,那就是2021年初、2022年末分別推出的圖像生成工具DALL.E與自然語言大模型工具ChatGPT,通過它們,Sora獲得了對文字描述的理解與圖像數據處理的能力。
(圖源:Sora)
更重要的是,OpenAI為Sora引入了視覺塊嵌入式代碼,即pathces,你也可以將其理解為LLM里的tokens,這些pathces就像是一個又一個包含了時間、空間信息的積木塊,Sora能夠更快速地從中找到所需的素材,為創(chuàng)作者生成視頻。此外,這些pathces也能幫助Sora完成高速的自主學習。
Sora還能接受圖片和視頻輸入,生成新的創(chuàng)意視頻,又或是根據描述生成多達五個分鏡頭,包含人物表情特寫、動作特寫、場景等。這只是目前為止我們能看到的Sora具備的能力,正如前面所提到,Sora是一個擴散Transformer模型,其與生俱來的學習能力才是讓人敬畏的關鍵所在。
很可惜,現階段的Sora也存在一些問題,例如空間、方位的細節(jié)。在官方演示視頻里,展示了反向跑步的運動者、憑空出現的狼崽以及從杯底流出果汁的水杯等。
(圖源:Sora)
(圖源:Sora)
盡管仍有美中不足的地方,但Sora絕對稱得上是AI視頻的一大革命性突破——是真的革命性,而不是夸大其詞那種。
過于聰明的Sora,確實會讓人后背發(fā)涼?
在所有演示視頻中,最令人感到震撼的還是那段一對情侶漫步東京的短片。
(圖源:Sora)
Sora通過對現實空間的精確識別,創(chuàng)作出帶有動態(tài)視角變化的視頻內容,視頻中,人物、背景都在立體三維空間內移動,就像真實的影片創(chuàng)作一樣。
作為一個文本視頻生成工具,Sora似乎有些過于「聰明」了,它的到來,也不禁讓人對AI在未來的發(fā)展產生更多思考。
全球化人工智能企業(yè)APUS董事長兼CEO李濤先生認為,Sora的橫空出世,帶來了三個問題:
1、打造無限逼近真實的場景。
正如我們前面提到,Sora擁有現實世界的「意識」,這意味著它構建的內容基本都會遵循真實存在的物理規(guī)律,而這種「虛擬」在未來只會更加「逼真」,這也讓我們不禁思考:在AI時代,我們應該如何定義和理解真實與虛擬。
這讓雷科技想到了曹雪芹《紅樓夢》第一回的這樣一段:
士隱接了看時,原來是塊鮮明美玉,上面字跡分明,鐫著“通靈寶玉”四字,后面還有幾行小字。正欲細看時,那僧便說“已到幻境”,便強從手中奪了去,與道人竟過一大石牌坊,上書四個大字,乃是“太虛幻境”。兩邊又有一幅對聯,道是:
假作真時真亦假,無為有處有還無。
Sora的出現,讓真實世界與虛擬世界的邊界一下變得模糊,在如夢如幻的“太虛幻境”,真假難辨,將給人類帶來許多困惑。對此,人類必須要想法來應對。
2、學習能力高度類人。
Sora與之前問世的文本視頻生成工具不太一樣,它具備高度模擬能力與學習能力,而作為一個有自主學習能力的「模擬器」,參考ChatGPT從3.5到4.0的進化速度,是否可以大膽預測,Sora很快就會成為類人的智能,不光學習速度快,反應能力與反應速度甚至可以超越人類。
3、算力之上芯片落后。
每一個深度學習的人工智能模型,都離不開背后強大算力的支持,Sora亦是如此。如今,中國人工智能所擁有的能力遠遠落后于此,算力的局限無疑是制約我國AI發(fā)展的重要因素之一。因此,加強芯片研發(fā)、提升算力水平,是我國人工智能發(fā)展的當務之急。
Sora仍在測試階段,我們仍有時間在短期時間內嘗試駕馭它、了解它,同時繼續(xù)在芯片端鞏固地位,為AI提供更強大的底層硬件支持。
AI時代落幕,Sora叩開了AGI世界的大門
在Sora問世之后,馬斯克急得像熱鍋上的螞蟻,只因Sora是當下最接近AGI概念的產品,而AGI又是馬斯克心心念念的藍海市場。
AGI,即Artificial General Intelligence,又稱人工通用智能,是指能夠完全模仿人類情感、行為,實現自我學習、自我改進、自我修正的智能計算機系統(tǒng)。盡管Sora當前只展示了其在視頻,又或是內容創(chuàng)作上的能力,但其對于真實世界的理解,已經展現出強悍的實力。
(圖源:Sora)
為什么三六零周鴻祎說Sora讓AGI時代到來的時間從十年縮短至一年?歸根結底就是對現實世界的理解能力。AGI最大的特點在于對真實世界的規(guī)則,尤其是物理狀態(tài)、自然規(guī)律、化學變化等等因素的反饋。Sora雖然只在內容創(chuàng)作上帶來幫助,但誰能確保經過足夠的訓練,OpenAI不會基于此推出真正意義上的AGI產品呢?
周鴻祎在見證Sora誕生后表示,Sora有別于其他文本視頻生成工具,它能理解坦克是有巨大沖擊力的,坦克能夠沖毀汽車,而不會出現汽車撞毀坦克這樣的事情發(fā)生。同時,他還認為,Sora只是OpenAI小試牛刀的產品,真正的好戲還在后頭。
(圖源:微博)
這并非空穴來風,早在去年10月,路透社就曾報道OpenAI已經參與投資至少三家半導體設計公司,其中Cerebras更是一家初創(chuàng)型企業(yè)。OpenAI CEO Altman曾公開表示,其工作與產品仍需更多算力提供幫助,目前公司所使用的還遠遠不夠。除去已經投入運營的DALL.E和ChatGPT,以及測試中的Sora,或許還有真正屬于AGI時代的產品蓄勢待發(fā)。
2016年,Google旗下的AlphaGo戰(zhàn)勝李世石讓深度學習被全世界關注,我們進入了深度學習驅動的AI時代,許多科技產品和傳統(tǒng)行業(yè)均被深度學習技術改變,這一階段也迎來了抖音、小紅書這樣的AI驅動的世界級產品的崛起。
2023年兔年開工,全世界沉浸在 ChatGPT 帶來的 AGI(通用型人工智能)的震撼之中,一年之后的今天,Sora再度震撼人類,且是更大的震撼,見過大世面的人類就像原始人發(fā)現火種一般激動不已。
毫無疑問,一個嶄新的AGI時代的序幕已經緩緩拉開,一個新的智能時代已然到來。或許Sora不一定取代影像工作者,但Sora背后的AGI技術,一定會重構科技產業(yè)的秩序,催生抖音這樣的世界級產品,賦予人類全新的工具和力量,這一切,都是如此振奮人心。
來源:雷科技
原文標題 : 踢開AGI大門!Sora會讓世界成為“太虛幻境”嗎?
請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
-
10月31日立即下載>> 【限時免費下載】TE暖通空調系統(tǒng)高效可靠的組件解決方案
-
即日-11.13立即報名>>> 【在線會議】多物理場仿真助跑新能源汽車
-
11月28日立即報名>>> 2024工程師系列—工業(yè)電子技術在線會議
-
12月19日立即報名>> 【線下會議】OFweek 2024(第九屆)物聯網產業(yè)大會
-
即日-12.26火熱報名中>> OFweek2024中國智造CIO在線峰會
-
即日-2025.8.1立即下載>> 《2024智能制造產業(yè)高端化、智能化、綠色化發(fā)展藍皮書》
推薦專題
- 高級軟件工程師 廣東省/深圳市
- 自動化高級工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級銷售經理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結構工程師 廣東省/深圳市