訂閱
糾錯(cuò)
加入自媒體

科大訊飛交卷,實(shí)測星火大模型

作者 | 辰紋

來源 | 洞見新研社

星星之火,可以燎原。

5月6日,訊飛星火認(rèn)知大模型揭開神秘面紗。

發(fā)布會(huì)上,科大訊飛董事長劉慶峰、研究院院長劉聰現(xiàn)場實(shí)測了星火大模型七大核心能力,并發(fā)布基于該大模型的教育、辦公、汽車和數(shù)字員工等多個(gè)領(lǐng)域的相關(guān)產(chǎn)品。

與此同時(shí),劉慶峰還給出了訊飛星火的迭代時(shí)間表及每階段目標(biāo):

第一階段:6月9日,突破開放性問答,如實(shí)時(shí)問答;多輪對(duì)話能力再次升級(jí);數(shù)學(xué)能力再上臺(tái)階;

第二階段:8月15日,突破代碼能力;多模態(tài)交互能力正式開放給客戶;

第三階段:10月24日,在通用大模型領(lǐng)域?qū)?biāo)ChatGPT,其中中文能力超越后者,英文能力與后者相當(dāng)。

“當(dāng)前,在文本生成、知識(shí)問答、數(shù)學(xué)能力三大能力上,訊飛星火認(rèn)知大模型已超ChatGPT”,劉慶峰表示,認(rèn)知大模型成為通用人工智能的曙光,科大訊飛有信心實(shí)現(xiàn)“智慧涌現(xiàn)”。

在星火認(rèn)知大模型之前,百度文心一言、華為盤古、阿里通義千問、京東靈犀、商湯日日新等科技大廠的大模型先后發(fā)布,加上美團(tuán)聯(lián)合創(chuàng)始人王慧文、搜狗創(chuàng)始人王小川、出門問問創(chuàng)始人李志飛等科技大佬重出江湖,并且?guī)?dòng)了一批資金,也參與到大模型方向的再創(chuàng)業(yè)中,以至于有專業(yè)人士用“百模大戰(zhàn)”來形容當(dāng)前行業(yè)競爭的激烈程度。

此時(shí)問題來了,劉慶峰為何如此有信心,星火認(rèn)知大模型實(shí)力又到底如何,憑什么能夠超越ChatGPT,實(shí)現(xiàn)“智慧涌現(xiàn)”?

01到底行不行,結(jié)果說話

光說不練假把式,我們直接對(duì)星火認(rèn)知大模型進(jìn)行一場測試,驗(yàn)驗(yàn)“成色”,是否真如劉慶峰說的那樣“對(duì)答如流”。

1、文本生成

發(fā)布會(huì)現(xiàn)場,劉聰展示了星火大模型的文本生成能力,不但可以現(xiàn)編“故事”,還會(huì)撰寫新聞稿,然而,通過我們后續(xù)的測試發(fā)現(xiàn),星火大模型的文本生成能力遠(yuǎn)遠(yuǎn)不止這兩項(xiàng),根據(jù)場景的不同,還能衍生出更多的能力。

比如,可以請(qǐng)大模型擔(dān)任編輯助手,根據(jù)用戶提供的文本段落進(jìn)行修改并提出寫作技巧上的改進(jìn)建議。

比如,請(qǐng)大模型幫忙潤色群聊通知,甚至還可要求大模型加上emoji表情。

至于將口語轉(zhuǎn)換成書面語,或是與大模型進(jìn)行英文陪練,不在話下。

甚至要求大模型制作旅游指南,或是設(shè)計(jì)一份幼兒園大班體育游戲活動(dòng)的計(jì)劃,也能很好的完成任務(wù)。

點(diǎn)評(píng):很顯然星火大模型的文本生成能力長文本、短文本都能來者不拒,還具備多種風(fēng)格、多種任務(wù)、跨語言等能力,實(shí)測結(jié)果顯示,劉慶峰所說這一功能“星火大模型在國內(nèi)明顯領(lǐng)先,并且在中文方面超過ChatGPT”并不是吹牛自大。

2、語言理解

理解問題是解答的第一步,而中文又博大精深,星火大模型能準(zhǔn)確理解不同語境下的語義嗎?

我們先看看發(fā)布會(huì)現(xiàn)場的測試案例:“俗話說,男子漢大丈夫,寧死不屈。但俗話又說,男子漢大文夫,能屈能伸。這兩種說法哪種是對(duì)的”?

然后追問:“如果有個(gè)小伙子和女朋友吵架了,他是應(yīng)該寧死不屈還是能屈能伸”。

如果女朋友生氣時(shí),說隨便,在這個(gè)語境下,男朋友應(yīng)該怎么做呢?

對(duì)時(shí)下流行的熱點(diǎn),星火大模型掌握的怎樣?

將問題再深入一些,代入到心理治療的特定場景中,大模型又會(huì)給出怎樣的答案呢?

點(diǎn)評(píng):由于有深厚的知識(shí)積累,訊飛星火大模型的情商和語義理解能力在很多情況下甚至超過了個(gè)別人類,這也是科大訊飛一貫以來的強(qiáng)項(xiàng),表現(xiàn)突出并不意外。

3、數(shù)學(xué)能力

數(shù)理能力一定程度代表一個(gè)大模型的聰明程度,劉慶峰在發(fā)布會(huì)上就表示,訊飛星火大模型的數(shù)學(xué)能力很強(qiáng),能夠達(dá)到ChatGPT的水平,現(xiàn)場測試中,劉聰出了一個(gè)計(jì)算三類花朵數(shù)量的題目,大模型用三元一次方程順利解出了答案。

這個(gè)問題不算難,接著我們?cè)O(shè)計(jì)了一個(gè)根據(jù)“三個(gè)點(diǎn)的坐標(biāo),如何計(jì)算三角形面積”的問題,大模型除了給出正確答案外,還能解釋和列出具體的分步步驟,顯示格式也非常友好。

點(diǎn)評(píng):數(shù)學(xué)能力是體現(xiàn)大模型通用水平的重要能力之一,而在統(tǒng)一大模型框架下也是非常難以實(shí)現(xiàn)的,大量測試證明ChatGPT在這一塊也很容易出錯(cuò),因?yàn)椴皇谴蠹以瓉砝斫獾囊?guī)則性的輸入輸出(例如平常的直接調(diào)用計(jì)算器能力),而是在統(tǒng)一框架下用文本生成的方式來輸出每一個(gè)字符。

因此在這個(gè)框架之下也不是大家通常理解的難的數(shù)學(xué)題難做,簡單的數(shù)學(xué)題就好做。整體來說,星火大模型在解決綜合性數(shù)學(xué)問題的效果上,目前是很領(lǐng)先的(綜合評(píng)價(jià)比ChatGPT 3.5效果好,差于GPT 4),但是在各類題型的整體覆蓋上,還要持續(xù)去優(yōu)化。

4、邏輯推理

邏輯推理與語義理解強(qiáng)關(guān)聯(lián),科大訊飛在這方面繼續(xù)延續(xù)著自己的技術(shù)優(yōu)勢(shì)。

我們先用一個(gè)日常生活中不是很常見的促銷套路來探路,看看大模型能否理解其中的意思。

很可惜,大模型中了圈套,沒能識(shí)破文字陷阱,不過話說回來,人類在這個(gè)問題上,如果稍不注意,也會(huì)翻車,換位思考下,對(duì)大模型的疏漏也就可以理解了。

我們換一個(gè)經(jīng)典的“過河”推理問題再測一次。

這次大模型的表現(xiàn)很棒,知無不言,言無不盡,回答的非常詳細(xì)。

接著,我們?cè)賳栆粋(gè)“探寶”的推理問題。

點(diǎn)評(píng):星火大模型在邏輯推理上的表現(xiàn)整體不錯(cuò),特別是一些復(fù)雜的推理問題,表現(xiàn)出非常強(qiáng)的邏輯性,在這方面,大大強(qiáng)于一般人類的表現(xiàn)。

5、泛領(lǐng)域知識(shí)問答

我們先來一個(gè)生活常識(shí),鐵鍋炒菜能補(bǔ)鐵嗎?

再問一個(gè)科學(xué)知識(shí),為什么自拍總是比他拍更好看?哪個(gè)更接近自己真實(shí)的樣子?

如果將大模型模擬成一名育兒專家,將生活常識(shí)、科學(xué)知識(shí)等進(jìn)行融合,它又會(huì)如何作答呢?

再來一個(gè)有關(guān)文言文學(xué)習(xí)的提問,模擬一個(gè)苦于學(xué)習(xí)文言文的高中生,向大模型求教有關(guān)文言文字句和語法的疏通,主要內(nèi)容,以及作者想要表達(dá)的含義和文字藝術(shù)之美。

點(diǎn)評(píng):通過這項(xiàng)能力的展現(xiàn),我們第一次了解到科大訊飛在泛領(lǐng)域知識(shí)數(shù)據(jù)上的積累完全不輸其他科技大廠,通過與文本生成能力相融合,形成了科大訊飛在中文能力上的特有優(yōu)勢(shì),也使得大模型更加接近個(gè)人助手的形態(tài)。

6、代碼能力

在官方介紹中,星火認(rèn)知大模型不僅可以生成代碼,還可以修改、理解、編譯代碼,并且還具備Python、Java等多語言能力。

發(fā)布會(huì)現(xiàn)場,科大訊飛研究院院長劉聰就演示了用Python生成一段簡單代碼的能力,我們?cè)诤罄m(xù)測評(píng)中,星火大模型對(duì)找Bug以及類似數(shù)據(jù)抽取、條件篩選等方向的代碼生成的表現(xiàn)都還不錯(cuò)。

下面是要求星火大模型對(duì)一段代碼進(jìn)行修改與改良的實(shí)例。

我們請(qǐng)教了一名資深程序員,對(duì)星火大模型的上述工作進(jìn)行評(píng)價(jià),星火大模型基本上完成了任務(wù)要求,經(jīng)程序員檢查,星火大模型在將boxes的數(shù)字轉(zhuǎn)換成整數(shù)的過程中還是存在小小的瑕疵,漏掉了path節(jié)點(diǎn)。

事實(shí)上,劉慶峰在發(fā)布會(huì)上也承認(rèn)星火大模型的代碼能力與ChatGPT相比,存在一定差距,下一步升級(jí)的重點(diǎn)功能也是這一塊。

大模型自己也說:“我的代碼生成功能仍然有限,可能無法滿足復(fù)雜的業(yè)務(wù)需求”。

點(diǎn)評(píng):目前星火認(rèn)知大模型對(duì)于簡單的代碼問題不大,但在涉及到一些復(fù)雜問題,架構(gòu)時(shí),則需保持警惕,其生成內(nèi)容只能作為參考,站在開發(fā)者的角度,需要自行檢查代碼的正確性、可靠性和保密性等等。

02大模型競速,落地為王

通過上文的實(shí)測,星火大模型的表現(xiàn)已經(jīng)很好的回答了文章開頭的提問,也確實(shí)具備與頭部大模型掰掰手腕的實(shí)力,在各項(xiàng)能力中,如劉慶峰所說的,文本生成、知識(shí)問答、數(shù)學(xué)能力這三項(xiàng)表現(xiàn)出有別于友商競品的長板。

除此之外,星火大模型的差異性還體現(xiàn)在商業(yè)化的落地實(shí)踐,表現(xiàn)出更強(qiáng)的進(jìn)攻性。

科大訊飛之所以能夠突然爆發(fā),給到行業(yè)驚喜,其實(shí)是從誕生之時(shí)起就開始進(jìn)行鋪墊了。

24年前,6個(gè)中科大在校學(xué)生喊出,“要把中文語音做到世界最好”,這也成了科大訊飛創(chuàng)業(yè)的初心。

2011年,科大訊飛承建語音及語言信息處理國家工程實(shí)驗(yàn)室,躋身人工智能“國家隊(duì)”,提出“讓機(jī)器像人一樣能聽會(huì)說。” 

2014年,科大訊飛推出“訊飛超腦計(jì)劃”,明確提出:讓機(jī)器像人一樣能理解會(huì)思考。

2022年,又升級(jí)為“訊飛超腦2030計(jì)劃”,提出讓懂知識(shí)、善學(xué)習(xí)、能進(jìn)化的通用人工智能技術(shù)成為每個(gè)人未來發(fā)展的重要機(jī)會(huì),讓機(jī)器人走進(jìn)家庭。

從學(xué)界到產(chǎn)屆,從輸入法到翻譯機(jī),科大訊飛一直深耕于語音語義領(lǐng)域,繼而形成了對(duì)認(rèn)知智能的獨(dú)到理解和布局。

算法上,科大訊飛經(jīng)驗(yàn)豐富,尤其擅長認(rèn)知智能,僅去年就獲得了常識(shí)閱讀理解挑戰(zhàn)賽OpenBookQA等13項(xiàng)世界冠軍,開源了六個(gè)大類,超過40個(gè)通用領(lǐng)域的系列中文預(yù)訓(xùn)練語言模型。

數(shù)據(jù)上,在多年認(rèn)知智能系統(tǒng)研發(fā)推廣中積累了超過50TB的行業(yè)語料和每天超10億人次用戶交互的活躍應(yīng)用。

算力上,訊飛總部有自建的數(shù)據(jù)中心,在工程技術(shù)方面實(shí)現(xiàn)了百億參數(shù)大模型推理效率的近千倍加速,同時(shí)還與華為合作,大模型建立在安全可靠的國產(chǎn)算力平臺(tái)之上。

所以,星火大模型發(fā)布的時(shí)間雖然較晚,但技術(shù)儲(chǔ)備的時(shí)間卻非常的長,繼而由模型到產(chǎn)品落地的速度反而跑到了前面。

對(duì)于當(dāng)前大模型的“涌現(xiàn)”,很多行業(yè)人士都旗幟鮮明的表率,大模型的應(yīng)用不應(yīng)只停留在人機(jī)對(duì)答的自我娛樂,而應(yīng)與產(chǎn)業(yè)融合才能產(chǎn)生更大的價(jià)值。

劉慶峰也強(qiáng)調(diào),“一個(gè)大模型系統(tǒng)到底好不好,首先要看它是不是能解決剛需、是不是真的有用,而不是一個(gè)簡單的單點(diǎn)測試。”

因而星火大模型很大一個(gè)特點(diǎn)是,一方面不忌諱自己的缺陷和不足,勇于面向公眾大規(guī)模開放,這也顯示出科大訊飛超強(qiáng)的技術(shù)自信。

另一方面,實(shí)現(xiàn)了大模型在應(yīng)用和產(chǎn)品層面的率先落地,通過學(xué)習(xí)機(jī)、智能辦公本、汽車座艙交互系統(tǒng)、訊飛聽見、數(shù)字員工等一系列產(chǎn)品,打通了“大模型+產(chǎn)品”的生態(tài)閉環(huán),在數(shù)據(jù)和模型之間形成正向反饋循環(huán)的“漣漪效應(yīng)”。

星火大模型落地的上述產(chǎn)品本身就擁有數(shù)量龐大的用戶群體,自然而然會(huì)產(chǎn)生大量數(shù)據(jù),數(shù)據(jù)反饋給模型后,在“漣漪效應(yīng)”下,將推動(dòng)模型的迭代更新,變得越來越強(qiáng)。

星火大模型的率先落地,表面上看以提升用戶體驗(yàn)的方式,提高了訊飛產(chǎn)品的競爭力,特別是像學(xué)習(xí)機(jī)和智能辦公本,幾乎變成了完全不同的產(chǎn)品,更深層次的影響或?qū)⒏淖冃袠I(yè)生產(chǎn)協(xié)同的行為模式。

03結(jié)語

科大訊飛是人工智能國家隊(duì),自身也有非常強(qiáng)的AI標(biāo)簽,因而在擁抱大模型這件事情上,一定比像百度、華為這類擁有多條業(yè)務(wù)線,更多方向選擇的科技巨頭更加堅(jiān)定。

在中國率先實(shí)現(xiàn)“智慧涌現(xiàn)”之前,科大訊飛還得對(duì)照著人工智能紅利兌現(xiàn)的三大標(biāo)準(zhǔn):“有沒有看得見摸得著的真實(shí)應(yīng)用案例,有沒有能夠規(guī)模化推廣應(yīng)用的產(chǎn)品,有沒有統(tǒng)計(jì)數(shù)據(jù)能夠證明的應(yīng)用成效”,繼續(xù)夯實(shí)科研、產(chǎn)品和服務(wù)這些基礎(chǔ)工作,這樣才能經(jīng)得住時(shí)間的考驗(yàn),真正迎來星火燎原。

       原文標(biāo)題 : 科大訊飛交卷,實(shí)測星火大模型

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評(píng)論

暫無評(píng)論

人工智能 獵頭職位 更多
掃碼關(guān)注公眾號(hào)
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容
文章糾錯(cuò)
x
*文字標(biāo)題:
*糾錯(cuò)內(nèi)容:
聯(lián)系郵箱:
*驗(yàn) 證 碼:

粵公網(wǎng)安備 44030502002758號(hào)