OpenAI錯過的7個月，智能體2.0借終端爆發(fā)？

2024-11-05 08:51

文｜魏琳華劉俊宏

編｜王一粟

2024年3月，OpenAI關(guān)停僅運營兩個月的GPT Store。

時隔僅7個月，同樣是做Agent平臺，OpenAI現(xiàn)任董事會主席Bret Taylor創(chuàng)立的新公司，融了45億美元。整個AI界在前后發(fā)布的Claude的“Computer Use”和智譜的AutoGLM智能體下，開始了一場“丟下”OpenAI的狂歡。

10月26日，微軟開源了基于純視覺的GUI屏幕解析工具OmniParser，谷歌的同類產(chǎn)品“Project Jarvis”也有望在12月上線。

加入狂歡的不止是大模型廠商。和智譜宣布達(dá)成深度合作的一個月后，榮耀也交出了自己的答卷。10月30日，榮耀CEO趙明展示了AI智能體YOYO自主處理任務(wù)的能力，只需要對手機說一句“訂2000杯咖啡”，YOYO就幫他在附近下單成功，忙壞了周圍的咖啡店和外賣員。

無論是電腦端還是手機端，Agent開始真正實現(xiàn)了“自主性”：從點咖啡到買牙膏，無需人類操作，一句指令就能讓AI完成所有任務(wù)。和前一代只能提建議的Agent相比，AutoGLM實現(xiàn)了從1.0到2.0的進階。

二級市場的熱度，也被智能體點燃。發(fā)布AutoGLM后，一眾投資、參股智譜，或是和智譜合作密切的公司股價明顯上漲，“智譜概念股”走強。上周開始，智譜概念股持續(xù)活躍，豆神教育、思美傳媒、常山北明等相關(guān)概念股一度漲停。

當(dāng)端側(cè)大模型開始落地到手機端，苦于落地的大模型廠商，不僅僅只將目光放在了軟件能力上，從智能體到做以大模型為能力中心的“AI OS”，大模型創(chuàng)企們找到了AI大模型商業(yè)化的新道路。

在OpenAI錯過的7個月中間，Agent到底發(fā)生了什么變化？

AI Agent進入2.0時代

為什么智能體突然點燃了二級市場的熱情？

華泰證券指出，AI Agent已經(jīng)解決了大模型從“言”到“行”的突破。

對比上一代“只動嘴皮子”的Agent，無論是Computer Use還是Phone Use，上述智能體產(chǎn)品均實現(xiàn)了AI端的自主操作：接收到指令后，AI將親自接管設(shè)備，包括點擊、輸入等交互功能。

以Anthropic發(fā)布的“Computer Use”為例。演示中，無需人類操作，它完成了“填寫公司表格數(shù)據(jù)”的任務(wù)。

接到上述任務(wù)后，AI將工作拆分為多個步驟：

1、首先，查找已有表格中是否有所需公司的相關(guān)數(shù)據(jù)；

2、在查詢不到結(jié)果后，AI打開搜索界面，自行查找相關(guān)公司的數(shù)據(jù)信息；

3、最后，它對應(yīng)著表格的空缺部分逐個完成數(shù)據(jù)的輸入。

通過在對話欄輸入指令，AI自主根據(jù)表格信息情況完成填寫

在展示視頻中，智譜發(fā)布的AutoGLM 調(diào)用手機上的多個App也很絲滑，當(dāng)用戶要求購買瑞幸的美式咖啡，AutoGLM打開美團搜索品牌，并把想要的商品自動加入購物車，并跳轉(zhuǎn)至結(jié)算界面。交給用戶的，只有選擇“下單”按鈕。

根據(jù)用戶的需求，AI自主選定咖啡的口味

微軟也在近日開源了一個用于識別Web端視覺界面的工具產(chǎn)品OmniParser。在Github展示頁的示例視頻中，OmniParser也做到了自主操作的能力：

當(dāng)交付給它一個收集素食餐廳的任務(wù)時，OmniParser通過解析界面元素，在網(wǎng)頁中定位到“餐廳”字樣。檢索不符合要求后，它再自動拉起搜索框，根據(jù)關(guān)鍵詞定位到相關(guān)餐廳，并完成勾選。

這些對人類來說非常簡單的操作，交給AI，需要克服的障礙不少：

首先，無論是電腦端還是手機端的交互，Agent均需要完成點擊、劃動、查找等步驟，如何讓模型學(xué)會并做到精準(zhǔn)操作，這是阻礙Agent進化的一大難題。

而這個難題的突破，得益于基礎(chǔ)大模型發(fā)展帶來的能力躍遷。

比如，如何讓AI理解GUI（圖形用戶界面）并完成操作？

Agent的核心系統(tǒng)分為感知-規(guī)劃-記憶-行動-工具五個部分，其中，感知系統(tǒng)負(fù)責(zé)捕捉外界的視覺、聽覺、文本信息，并加以分析。通過對上述信息的完整認(rèn)知，Agent會結(jié)合這些信息對接受到的任務(wù)進行規(guī)劃，也就是用CoT（思維鏈）的方式拆解成多個步驟，依次執(zhí)行。

但在2023年，大語言模型仍然停留在文本能力階段，在視頻、語音等多模態(tài)能力發(fā)展尚未突破的時候，Agent受底層基座能力的限制，尚且無法完整感知環(huán)境，從而在多個任務(wù)上的執(zhí)行過程中犯錯，自然也難以達(dá)到應(yīng)用階段的水準(zhǔn)。

對此，微軟的解決方案是，通過屏幕截圖的方式，將屏幕中的所有可交互圖標(biāo)和按鈕一一標(biāo)注出來，將它們提取為信息，再根據(jù)識別的內(nèi)容進行定義，讓AI理解每個交互點的作用，從而實現(xiàn)自主操作。而智譜AutoGLM在手機端的操作應(yīng)用，同樣借助了多模態(tài)能力來完成對UI的識別解讀。

而在上述基礎(chǔ)上，針對數(shù)據(jù)不足、策略分布漂移等問題，智譜也找到了問題的解法。

比如，受制于軌跡數(shù)據(jù)獲取成本高昂和數(shù)據(jù)不足的問題，無法對大模型智能體完成充分的動作執(zhí)行能力訓(xùn)練。

為此，他們在AutoGLM中引入自研的“基礎(chǔ)智能體解耦合中間界面”設(shè)計。以“提交訂單”為例，把AutoGLM作為中間界面，將「任務(wù)規(guī)劃」與「動作執(zhí)行」兩個階段通過自然語言中間界面進行解耦合。

對比過往端到端智能體的直接處理，這種方式將AI的操作準(zhǔn)確度提升了將近一倍。

除了實現(xiàn)精準(zhǔn)交互操作的需求之外，面對種類繁多的復(fù)雜任務(wù)，智能體還需要具備即時規(guī)劃和糾正能力，從而在遇到問題的時候及時給出有效的解決方法。

對此，AutoGLM上應(yīng)用了“自進化在線課程強化學(xué)習(xí)框架”技術(shù)，讓智能體在基于手機和電腦的環(huán)境中不斷學(xué)習(xí)和提升應(yīng)對能力。

“就像一個人，在成長過程中，不斷獲取新技能。”張鵬解釋道。

在上述兩種能力的加持下，AutoGLM 在 Phone Use 和 Web Browser Use 上都取得了大幅的性能提升。官方數(shù)據(jù)顯示，在 WebArena-Lite 評測基準(zhǔn)中，AutoGLM 更是相對 GPT-4o 取得了約 200% 的性能提升。

總體來看，在大語言模型和多模態(tài)模型進化一年之后，AI Agent終于實現(xiàn)了從單體智能，向使用工具方向邁進，完成了2.0的進階。

學(xué)會使用工具人工智能進入L3階段

縱觀人工智能的發(fā)展史，人工智能和人類的進化路徑何其類似，正在經(jīng)歷從學(xué)會“語言”，到“解決問題”，再到“使用工具”。

3個多月前，OpenAI將通往AGI之路劃分為五個階段。AutoGLM上線當(dāng)天，智譜也向外界公示了自己的技術(shù)路線圖。

首先在L1階段，AI的重點在于學(xué)會使用“語言”，包括語音、文字還有視覺。

回顧兩年前，從ChatGPT誕生開始，人們對AI的注意力開始轉(zhuǎn)移到生成式AI上。在短短半年的時間里，大語言模型頻頻涌現(xiàn)：GPT、Claude、GLM等系列大模型出現(xiàn)并持續(xù)更新?lián)Q代，它們均圍繞語言理解、邏輯能力等指標(biāo)完成進化。

在大語言模型之外，AI廠商還把關(guān)注點放在了另一座高峰——多模態(tài)大模型上。圍繞視覺、聽覺等能力，實現(xiàn)了從無到有的突破：

從今年上半年開始，端到端語音模型開始先后發(fā)布，它讓AI能夠“聽到”人的情緒，并完成有溫度的交流。

今年4月，GPT-4o的發(fā)布會向人們展示了和AI實時對話的魅力。和以往模型相比，端到端語音模型將過往的多個大模型串聯(lián)完成的任務(wù)壓縮到一個模型中完成，降低時延的同時，還能完整保留人聲的情緒、停頓等信息，可以隨時打斷它并繼續(xù)交流。

多模態(tài)模型則讓大模型裝上了“眼睛”，看到并理解現(xiàn)實世界環(huán)境的變化。

以智譜的GLM-4V-Plus為例，它不僅能夠完成大語言模型的對話能力，同時，在視頻、圖像的理解能力上提升明顯。智譜還推出了視頻通話API接口GLM-4-Plus-VideoCall，讓大模型能夠和人類打“視頻通話”，識別周邊物品并對答如流。

“大腦是一個非常復(fù)雜的系統(tǒng)，包括聽覺、視覺、味覺、語言等多模態(tài)的感知與理解能力，有短期和長期記憶能力，深度思考和推理能力，以及情感和想象力。”張鵬說。

可以看到，當(dāng)前階段下，大模型能力開始能夠模擬人腦的一些功能，包括視覺、聽覺、語言理解等能力。

智譜方面透露，在他們規(guī)劃的五個階段中，L1能力“已經(jīng)達(dá)到了80-90%”。

在聽說讀寫等基本能力的進化過程中，代表L2的邏輯思維能力，也在快速進化。

L2的一個里程碑就是OpenAI發(fā)布的o1模型，跳脫出過往的GPT大家族，專注于CoT（思維鏈）能力上精進，它學(xué)會了慢思考：在應(yīng)用思維鏈，將指令拆分為多個簡單步驟完成的同時，o1用強化學(xué)習(xí)的能力，用于識別和糾正錯誤。

OpenAI表示，隨著強化學(xué)習(xí)的增加和思考時間的增加，o1的性能會持續(xù)提高。官方數(shù)據(jù)顯示，在Codeforces主辦的編程競賽上，o1取得了超越93%參賽者的成績，并在物理、化學(xué)、生物等基礎(chǔ)學(xué)科的能力指標(biāo)上取得了超過博士生的水準(zhǔn)。

因此，o1也被視為人類在L2邏輯思維能力上取得的新進化，開始展現(xiàn)和人類旗鼓相當(dāng)?shù)耐评砟芰Α?/p>

當(dāng)L1語言和多模態(tài)能力基本打通后，基于上述底層能力，才能涌現(xiàn)出達(dá)到L2邏輯思維能力和L3工具能力級別的新產(chǎn)品。

而這次升級的智能體操控智能終端的能力，實際上在L3階段。

正如哲學(xué)家恩格斯所言，人類和動物，最本質(zhì)的區(qū)別就是——能否制造和使用工具。

智能體2.0的升級，也代表著人類在通往AGI的路線上，又拿下了一城。

“AutoGLM 可以看作是智譜在 L3 工具能力方面的探索和嘗試”，張鵬表示。

展望L4和L5，OpenAI認(rèn)為，L4階段，AI能夠自我完成創(chuàng)新；L5階段，AI則具備融入或自成組織的能力。

而智譜也對L4和L5階段給出了新的定義，相對于OpenAI，智譜對AGI的期待更加激進。

“我們認(rèn)為 L4 級人工智能意味著 AI 可以實現(xiàn)自我學(xué)習(xí)、自我反思和自我改進。L5 則意味著人工智能全面超越人類，具備探究科學(xué)規(guī)律、世界起源等終極問題的能力。”張鵬表示。

端側(cè)大模型AI落地的新高地

當(dāng)AI進階至L3階段，大模型廠商們在商業(yè)化的進程上也按下了“加速鍵”。

事實上，終端硬件和大模型廠商們正在雙向奔赴。觀察今年發(fā)布的AI硬件，是否搭載Agent，對應(yīng)著產(chǎn)品AI能力的“天差地別”。

最顯著的對比，是10月30日發(fā)布的，搭載YOYO智能體的榮耀Magic7。

基于智能體可直接執(zhí)行任務(wù)的特性，趙明一句2000杯飲料的需求，爆單了附近所有咖啡店。從“一步步”交互，到智能體“脫手自動執(zhí)行”，趙明自豪地宣布道，“手機進入自動駕駛時代”。

為了挖掘硬件端和AI能力結(jié)合的潛力，智能終端廠商和大模型公司的聯(lián)姻早已見怪不怪。

其中，智譜是當(dāng)前國內(nèi)大模型創(chuàng)企中和手機廠商聯(lián)動最多的一家。此前，智譜已經(jīng)和榮耀官宣戰(zhàn)略合作，而在最近半年的時間中，其先后和三星、英特爾、高通聯(lián)手，通過提供底層AI能力支持終端智能化升級。

同樣，蘋果就認(rèn)為，Apple Intelligence的智能體將直接改善蘋果手機的銷量。在剛剛結(jié)束的蘋果2024年四季度財報電話會中，CEO庫克稱，“iPhone 16系列賣得比iPhone 15系列更好，Apple Intelligence上線后，用戶升級iOS18.1版本的積極性都是去年同期的兩倍。”

加持AI，將是手機廠商未來多年的重要戰(zhàn)略。根據(jù)IDC預(yù)測，預(yù)計2024年AI手機出貨量將同比增長363.6%，達(dá)到2.3億部。IDC手機研究總監(jiān)Anthony Scarsella表示，在2024年實現(xiàn)三位數(shù)增長之后，AI手機將連續(xù)四年實現(xiàn)兩位數(shù)增長。

為何硬件終端廠商如此熱衷于智能體的落地？背后是智能體從底層顛覆了硬件廠商與消費平臺之間的權(quán)力地位。

以“趙明點咖啡”為例，在沒有智能體之前，用戶點咖啡大多依賴渠道慣性。用戶需要根據(jù)習(xí)慣、優(yōu)惠券、積分等因素，在美團、星巴克小程序、餓了么等平臺之間選擇下單。而有了替用戶下單的智能體之后，由于平臺不再直接對接客戶，智能體有了為平臺直接分配訂單的權(quán)利。換句話說，通過搭載智能體，AI終端廠商有了向軟件平臺“征稅”的權(quán)利。

如同蘋果當(dāng)前被無數(shù)廠商“痛”，又無可奈何的“蘋果稅”。正是因為掌握了App Store的分發(fā)和流水，蘋果才能依靠幾乎“躺賺”的商業(yè)模式，才能以平均高達(dá)70%以上毛利率的軟件服務(wù)收入，拉高整個公司的營收質(zhì)量。

據(jù)2024年四季報顯示，蘋果本季度軟件服務(wù)業(yè)務(wù)的營收占比為26%，業(yè)務(wù)毛利率為74%，公司整體毛利率為44%。

看到如此優(yōu)質(zhì)的營收，也難怪AI硬件廠商“大干快上”智能體。而看到了這場全新變現(xiàn)模式的大模型公司，也紛紛與AI硬件廠商展開了合作。

除了加碼修圖、文本總結(jié)等AI軟件功能、植入智能體之外，打造端側(cè)大模型，并將其深度融入硬件系統(tǒng)，成為原生能力，是手機廠商加碼AI能力的下一步。

基于端側(cè)大模型提供的核心能力，AI手機正在做到更多之前無法完成的事情，用智能體做事還是第一步。

相比之下，智譜還有更加宏大的野心，他們更希望將AI能力深度植入終端，用大模型重塑操作系統(tǒng)。

“希望我們的努力能夠推動人機交互范式實現(xiàn)新轉(zhuǎn)變，為構(gòu)建 GLM-OS ，即以大模型為中心的通用計算系統(tǒng)打好基礎(chǔ)。”在發(fā)布AutoGLM時，張鵬如是說。

不僅智能手機關(guān)注AI能力的加碼，芯片端也在加速和AI能力的融合。上個月，高通宣布將智譜GLM-4V端側(cè)視覺大模型搭載到芯片驍龍8至尊版，進行深度適配和推理優(yōu)化。其推出的應(yīng)用ChatGLM支持用相機進行實時語音對話，也支持上傳照片和視頻進行對話。

在AI完美落地具身智能之前，手機、電腦等終端將是AI大模型落地的更佳場景。通過L3工具能力的展現(xiàn)，AutoGLM們將有機會撕開新的商業(yè)模式。

不過，智譜的AutoGLM目前還是通過調(diào)用手機的無障礙權(quán)限實現(xiàn)跨應(yīng)用調(diào)用，未來如果想要完成更加復(fù)雜的指令，還需要和智能終端廠商以及應(yīng)用開發(fā)商達(dá)成深度合作，從而獲取更多操作權(quán)限。

大模型的“軟”實力，最終還得“硬”實現(xiàn)。

目前，大模型的商業(yè)化仍然是以軟件付費為主，包括面向C端的訂閱制和面向B端的API接口或者項目制。但在未來，要想真正實現(xiàn)AGI，以及釋放更強大的能力，還得是通過硬件來和物理世界交互。

智能體在端側(cè)的落地，就像一個機遇，幫助大模型公司在硬件上積累了眾多的工程化能力，甚至還能獲得一些不錯的邊緣數(shù)據(jù)。這給未來，無論是通過XR設(shè)備還是具身智能機器人，來完成物理世界的交互，都打下了一個好的基礎(chǔ)。

未來，在智能終端上的落地，將是大模型技術(shù)和商業(yè)化的新高地。

原文標(biāo)題 : OpenAI錯過的7個月，智能體2.0借終端爆發(fā)？

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號的作者撰寫，觀點僅代表作者本人，不代表OFweek立場。如有侵權(quán)或其他問題，請聯(lián)系舉報。

發(fā)表評論

共0條評論，0人參與

登錄登錄即可訪問所有OFweek服務(wù)

用戶名/郵箱/手機：
密碼：
忘記密碼？
用其他賬號登錄： QQ | 微信 | 新浪微博

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

暫無評論

圖片新聞

AI Agent進入2.0時代

學(xué)會使用工具 人工智能進入L3階段

端側(cè)大模型AI落地的新高地

發(fā)表評論

學(xué)會使用工具人工智能進入L3階段