AI數(shù)據(jù)爆發(fā)“石油危機”,內(nèi)容公司可以躺著賺錢了
“
如果把AI 大模型比作汽車,原始數(shù)據(jù)就是原油。
”
作者 | 江江編輯|蔓蔓周ChatGPT 的出現(xiàn)和 Midjourney 的爆發(fā)式采用讓 AI 實現(xiàn)了第一次大規(guī)模應(yīng)用,即大模型的普及。
所謂大模型,是指具有大量參數(shù)和復(fù)雜結(jié)構(gòu)的機器學(xué)習(xí)模型,能夠處理海量數(shù)據(jù)、完成各種復(fù)雜的任務(wù)。
01
AI數(shù)據(jù)版權(quán)糾紛
如果把當(dāng)下的 AI 大模型比作汽車,原始數(shù)據(jù)就是原油。無論如何,首先 AI 模型需要足夠的“原油”。
AI 公司的“原油”來源主要有以下幾類:
●網(wǎng)上公開免費的數(shù)據(jù)源,比如維基百科、博客、論壇、新聞資訊等;
●老牌新聞媒體和出版社;
●大學(xué)等研究機構(gòu);
●使用模型的 C 端用戶。
現(xiàn)實世界的石油歸屬權(quán)已經(jīng)有成熟的法律規(guī)范,而在 AI 這個天地尚且混沌的領(lǐng)域,“原油”開采權(quán)還不明晰,由此造成的糾紛不勝枚舉。
就在最近,多家大型音樂廠牌起訴AI音樂制作公司Suno和Udio,指控其侵犯版權(quán)。這起訴訟與《紐約時報》去年12月對OpenAI的訴訟類似。
圖源:Billboard
2023年7月,一些作家對該公司提起訴訟,指控ChatGPT根據(jù)受版權(quán)保護的內(nèi)容生成了作者作品的摘要。
同年12月,《紐約時報》也對微軟和OpenAI提起類似版權(quán)侵權(quán)訴訟,指控這兩家公司利用該報的內(nèi)容訓(xùn)練人工智能聊天機器人。
此外,還有一起集體訴訟在加利福尼亞州提起,指控OpenAI未經(jīng)用戶同意,從互聯(lián)網(wǎng)上獲取用戶私人信息來訓(xùn)練ChatGPT。
OpenAI 最終并沒有為這份指控買單,他們表示不認同《紐約時報》的指控,也無法復(fù)現(xiàn)《紐約時報》提到的問題,更重要的是,所謂《紐約時報》提供的數(shù)據(jù)源,對于 OpenAI 來說并不重要。
來源:https://openai.com/index/openai-and-journalism/
對于 OpenAI 來說,這件事情帶來的最大教訓(xùn)也許就是處理好與數(shù)據(jù)供應(yīng)商的關(guān)系,明確雙方權(quán)責(zé)。于是,我們在近一年的時間內(nèi)看到 OpenAI 跟很多數(shù)據(jù)供應(yīng)商達成合作伙伴關(guān)系,包括但不僅限于The Atlantic、Vox Media、News Corp、Reddit、Financial Times、Le Monde、Prisa Media、Axel Springer、American Journalism Project 等等。
未來,OpenAI 將名正言順地使用這些媒體的數(shù)據(jù),而這些媒體也會將 OpenAI 的技術(shù)融合到產(chǎn)品中。
02
AI 推動內(nèi)容平臺變現(xiàn)
不過,OpenAI 跟數(shù)據(jù)供應(yīng)商達成合作關(guān)系最根本的原因不是恐懼被起訴,而是機器學(xué)習(xí)即將面臨的數(shù)據(jù)枯竭。MIT等研究人員曾進行一項研究估計,機器學(xué)習(xí)數(shù)據(jù)集可能會在 2026 年之前耗盡所有「高質(zhì)量語言數(shù)據(jù)」。
「高質(zhì)量的數(shù)據(jù)」因此成為像 OpenAI 和 Google 這樣的模型制造商的香餑餑。內(nèi)容公司與AI模型廠商屢屢達成合作,開啟躺平賺錢模式。
傳統(tǒng)媒體平臺Shutterstock陸續(xù)和Meta, Alphabet, Amazon, Apple, OpenAI, Reka等AI公司達成合作, 2023年通過內(nèi)容授權(quán)給AI模型將年收入提高到 1.04 億美元,預(yù)計 2027 年產(chǎn)生 2.5 億美元收入;Reddit 授權(quán)給谷歌的內(nèi)容版權(quán)收入每年高達 6000 萬美元;蘋果也在尋求與主流新聞媒體合作,開出一年至少5000萬美元的版權(quán)費。內(nèi)容公司從 AI 公司收到的版權(quán)費正在以 450% 的年增長率瘋狂上漲著。
圖源:CX Scoop
而在過去一些年里,流媒體之外的內(nèi)容難以變現(xiàn),這是內(nèi)容行業(yè)的一大痛點。相比互聯(lián)網(wǎng)創(chuàng)業(yè)時代,AI 的出現(xiàn)給內(nèi)容行業(yè)帶來了更大的想象力以及更強烈的收入預(yù)期。
03
高質(zhì)量數(shù)據(jù)依然稀缺
當(dāng)然不是什么樣的內(nèi)容都符合 AI 的需求。
關(guān)于前文提到的 OpenAI 和《紐約時報》的爭論,另一個亮點是數(shù)據(jù)質(zhì)量。從原油中提煉石油,一則是要油本身質(zhì)量好,二則提純技術(shù)要好。
OpenAI 特意強調(diào)《紐約時報》的內(nèi)容并未對 OpenAI 的模型訓(xùn)練產(chǎn)生任何重大貢獻,比起能夠讓 OpenAI 每年自掏腰包數(shù)千萬美金的 Shutterstock,《紐約時報》這類靠時效性起家的文字媒體并不是 AI 時代的寵兒。AI 更需要深刻而獨特的數(shù)據(jù)。
而高質(zhì)量數(shù)據(jù)太稀缺,AI 公司也開始在“提純技術(shù)”和“一站式應(yīng)用”上下功夫。
6 月 25 日,OpenAI 收購實時分析數(shù)據(jù)庫公司 Rockset。這家公司主要提供實時數(shù)據(jù)索引和查詢功能,OpenAI將在其產(chǎn)品中集成 Rockset 的技術(shù),提高數(shù)據(jù)的實時使用價值。
圖源:DePIN Scan
通過收購Rockset,OpenAI 計劃使 AI 更好地利用和訪問實時數(shù)據(jù)。這能使 OpenAI 的產(chǎn)品支持更復(fù)雜的應(yīng)用,如實時推薦系統(tǒng)、動態(tài)數(shù)據(jù)驅(qū)動的聊天機器人、實時監(jiān)控和報警系統(tǒng)等。
Rocket是 OpenAI 內(nèi)置的“石化部門”,將普通數(shù)據(jù)直接轉(zhuǎn)化為應(yīng)用所需的高質(zhì)量數(shù)據(jù)。
04
創(chuàng)作者數(shù)據(jù)確權(quán)是異想天開嗎?
互聯(lián)網(wǎng)媒體平臺(Facebook、Reddit 等)的數(shù)據(jù)很大程度來自于UGC,即用戶貢獻內(nèi)容。很多平臺在向 AI 公司收取高額數(shù)據(jù)費的同時,也悄悄在用戶條款上加上了一條“平臺擁有使用用戶數(shù)據(jù)訓(xùn)練 AI 模型的權(quán)力”。
雖然用戶條款對 AI 模型訓(xùn)練權(quán)力有所標(biāo)注,但創(chuàng)很多作者并不清楚自己生產(chǎn)的內(nèi)容具體被哪些模型使用,也不知道是否是付費使用,更無從獲得本該屬于自己的相關(guān)權(quán)益。
在今年 2 月份的 Meta 季度業(yè)績電話會議上,扎克伯格明確表示將使用 Facebook 和 Instagram 上的圖片來訓(xùn)練他的 AI 生成工具。
據(jù)報道,Tumblr 也已經(jīng)與 OpenAi 和 Midjourney 神秘達成內(nèi)容授權(quán)協(xié)議,但并未公開具體協(xié)議的具體的內(nèi)容。
圖片庫平臺EyeEm的創(chuàng)作者們最近也收到一份通知,提示他們發(fā)布過的照片會用于 AI 模型訓(xùn)練。通知提到,用戶可以選擇因此不使用產(chǎn)品,但還未提及任何補償政策。EyeEm 的母公司 Freepik 向路透社透露,該公司已與兩家大型科技公司簽署協(xié)議,以每張圖片 3 美分左右的價格授權(quán)其 2 億張圖片中的大部分圖片。首席執(zhí)行官 Joaquin Cuenca Abela 表示,還有五筆類似的交易正在進行中,但拒絕透露買家的身份。
Getty Images、Adobe、Photobucket、Flickr、Reddit 等UGC 為主導(dǎo)的內(nèi)容平臺都面臨類似的問題,在巨大的數(shù)據(jù)變現(xiàn)誘惑下,平臺選擇忽視用戶的內(nèi)容所有權(quán),一把將數(shù)據(jù)打包賣給 AI 模型公司。
整個過程都在暗處進行,創(chuàng)作者并沒有任何反抗的機會。甚至許多創(chuàng)作者,可能要在未來某一天,在某個模型中訓(xùn)練出與自己作品類似的內(nèi)容時,才能有機會懷疑曾經(jīng)的作品被某個平臺拿去賣給 AI 公司做模型訓(xùn)練。
解決創(chuàng)作者的數(shù)據(jù)確權(quán)和收益難以保護的問題,Web3 可能是個好選擇。當(dāng) AI 公司在美股屢創(chuàng)新高時,web3 的 AI 概念幣也在同時一飛沖天。區(qū)塊鏈以其去中心化和不可篡改的特性,在保護創(chuàng)作者權(quán)益上享有得天獨厚的優(yōu)勢。
諸如圖片和視頻這樣的媒體內(nèi)容已經(jīng)在 2021 年的牛市完成了上鏈的大規(guī)模采用,而社交平臺的 UGC 內(nèi)容上鏈也在悄然發(fā)生。同時,許多 web3 AI 模型平臺已經(jīng)在激勵為模型訓(xùn)練做貢獻的普通用戶,無論是數(shù)據(jù)所有者,還是訓(xùn)練者,都被激勵著。
AI 模型指數(shù)級的發(fā)展為數(shù)據(jù)確權(quán)提出了更大的需求,創(chuàng)作者應(yīng)該思考:為什么我的作品在沒有經(jīng)過我同意的情況下被 5 美分一幅賣給了 AI 模型公司?為什么整個過程中我不知情,且無法得到任何收益?
媒體平臺竭澤而漁也無法緩解 AI 模型公司的數(shù)據(jù)焦慮,實現(xiàn)高質(zhì)量數(shù)據(jù)高產(chǎn)量的前提是數(shù)據(jù)確權(quán),是創(chuàng)作者、平臺和 AI 模型公司三者合理的利益分配。
參考來源:Shutterstock Made $104 Million Licensing Assets to AI Devs Last Year(PetaPixel)All The Photo Companies That Have Struck Licensing Deals With AI Firms(PetaPixel)Reddit has a new AI training deal to sell user content(TheEverge)GPT-4耗盡全宇宙數(shù)據(jù)!OpenAI接連吃官司,竟因數(shù)據(jù)太缺了,UC伯克利教授發(fā)出警告(新智元)OpenAI acquires Rockset(OpenAI)
原文標(biāo)題 : AI數(shù)據(jù)爆發(fā)“石油危機”,內(nèi)容公司可以躺著賺錢了
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
-
10月31日立即下載>> 【限時免費下載】TE暖通空調(diào)系統(tǒng)高效可靠的組件解決方案
-
即日-11.13立即報名>>> 【在線會議】多物理場仿真助跑新能源汽車
-
11月28日立即報名>>> 2024工程師系列—工業(yè)電子技術(shù)在線會議
-
12月19日立即報名>> 【線下會議】OFweek 2024(第九屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會
-
即日-12.26火熱報名中>> OFweek2024中國智造CIO在線峰會
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍皮書》
推薦專題
- 高級軟件工程師 廣東省/深圳市
- 自動化高級工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市