AI的數(shù)據(jù)、算法、算力“輪流坐莊”,NLP到了“數(shù)據(jù)為王”的時(shí)代
由此,我們?cè)賮?lái)理解商業(yè)機(jī)會(huì)。
數(shù)據(jù)采集與標(biāo)注的公司有很多,從巨頭的“副業(yè)”到AI數(shù)據(jù)專業(yè)化平臺(tái),總體而言主要玩家如圖所示:
除此之外,更多中小玩家甚至幾十人的草臺(tái)班子數(shù)不勝數(shù)。在中國(guó),目前全國(guó)從事數(shù)據(jù)標(biāo)注業(yè)務(wù)的公司約有幾百家,全職的數(shù)據(jù)標(biāo)注從業(yè)者有約20萬(wàn)人,兼職數(shù)據(jù)標(biāo)注從業(yè)者有約100萬(wàn)人。
易入門、難精通,而上述兩大因素決定NLP數(shù)據(jù)面臨巨大的挑戰(zhàn),做得好的就更少。
在數(shù)據(jù)“坐莊”NLP的大背景下,空出了大量的商業(yè)機(jī)會(huì),而客觀上的高要求阻卻了大量低門檻入場(chǎng)的玩家,NLP數(shù)據(jù)相對(duì)于CV更像一個(gè)藍(lán)海。
打破單純“體力活”標(biāo)簽,NLP數(shù)據(jù)采集與標(biāo)注從四個(gè)方面自我演進(jìn)
有機(jī)會(huì)就總有人會(huì)進(jìn)場(chǎng),不久前,中國(guó)人工智能高峰論發(fā)布了中國(guó)人工智能科技服務(wù)商50強(qiáng),既有商湯、曠視這種明星企業(yè),也出現(xiàn)了榜單內(nèi)唯一的AI數(shù)據(jù)服務(wù)商云測(cè)數(shù)據(jù),這顯示AI數(shù)據(jù)正在進(jìn)入“主流圈”,在藍(lán)海中嘗試跑出獨(dú)角獸企業(yè)。
當(dāng)然,前提是平臺(tái)能夠解決好NLP數(shù)據(jù)的痛點(diǎn)問(wèn)題。
事實(shí)上,CV的“感知”需求使得“體力活”可能就能夠勝任大多數(shù)據(jù)生產(chǎn)工作(誰(shuí)不認(rèn)識(shí)一輛車、一個(gè)人呢),而“認(rèn)知”的NLP數(shù)據(jù)要突圍,只是“體力活”早已經(jīng)不夠。
至少目前來(lái)看,行業(yè)玩家在四個(gè)方面有所動(dòng)作,或正在解決NLP數(shù)據(jù)痛點(diǎn)問(wèn)題。
1、業(yè)務(wù)模式,用“定制化”迎合商業(yè)落地期的NLP
曾有媒體向Google工程師提起M-Turk的時(shí)候,他表示“我們不敢用Turk標(biāo)注”,因?yàn)榛厥盏臄?shù)據(jù)良莠不齊。
眾包模式(在公開平臺(tái)發(fā)布任務(wù),自由申領(lǐng))是曾經(jīng)的AI數(shù)據(jù)產(chǎn)業(yè)主流,擁有數(shù)據(jù)豐富性和多樣性的優(yōu)勢(shì),不過(guò)數(shù)據(jù)質(zhì)量比較難以把控。在數(shù)據(jù)精細(xì)化要求的今天,很多需求方都轉(zhuǎn)向了“定制化”(一對(duì)一,以項(xiàng)目制的方式完成交辦的數(shù)據(jù)任務(wù))服務(wù)模式。
例如,云測(cè)數(shù)據(jù)的“定制化”服務(wù)模式,跟的就是需求方復(fù)雜、精深而個(gè)性化的數(shù)據(jù)要求。具體到NLP,在數(shù)據(jù)采集上滿足特定人物(老人、婦女、小孩)、特定場(chǎng)景(家居、辦公、商業(yè)等)、不同方言的聲音/文本數(shù)據(jù)采集;在數(shù)據(jù)標(biāo)注上進(jìn)行需求的對(duì)接、理解清楚場(chǎng)景化要求再分發(fā)盡量具體的規(guī)范指導(dǎo)(同樣一句話在不同交流目的中可能需要標(biāo)注不同的內(nèi)容,例如“我沒(méi)錢”在信貸服務(wù)中意味著潛在客戶,在理財(cái)服務(wù)中則表達(dá)拒絕的態(tài)度)。
當(dāng)然,眾包模式也有它的優(yōu)點(diǎn),能夠輕量化承載大量相對(duì)簡(jiǎn)單的數(shù)據(jù)需求,而場(chǎng)景化的定制模式則更專業(yè),主要依靠自有員工和基地,像云測(cè)數(shù)據(jù)就在華東、華南、華北擁有自建標(biāo)注基地,這種玩法顯然更適合匹配客單價(jià)更高的場(chǎng)景化、定制化需求,NLP是典型。
2、管理流程,從“粗放制造”到“精益制造”
既然數(shù)據(jù)采集與標(biāo)注很像是工廠的流水線,那么如果要提升數(shù)據(jù)的精準(zhǔn)度,其實(shí)就如同“制造業(yè)”升級(jí)那樣需要進(jìn)行“粗放制造”到“精益制造”的轉(zhuǎn)變,首要體現(xiàn)在管理流程的優(yōu)化上。
無(wú)論是從平臺(tái)接取任務(wù)的眾包團(tuán)隊(duì),還是直接對(duì)接需求方的定制化服務(wù)平臺(tái),至少,草臺(tái)班子式的做法已經(jīng)不適合NLP對(duì)數(shù)據(jù)的要求。
高精準(zhǔn)度、高效率,都依賴管理流程的優(yōu)化,以云測(cè)數(shù)據(jù)為例,具體做法包括這幾個(gè)大方向:
標(biāo)注、審核、抽檢的層層把關(guān):標(biāo)注人員的結(jié)果交由另一批人進(jìn)行審核,打回不合格的,最終再由質(zhì)檢進(jìn)行抽檢,大體如此,可能步驟更復(fù)雜;
人才類型的基礎(chǔ)分類:文本、語(yǔ)音、圖像標(biāo)注人員不相互混用;
擅長(zhǎng)場(chǎng)景的優(yōu)先任務(wù)派發(fā):在同等條件下,擅長(zhǎng)對(duì)應(yīng)場(chǎng)景的人優(yōu)先派發(fā)給任務(wù)。
例會(huì)制度:如同精細(xì)化管理的制造業(yè)一樣,早會(huì)、晚會(huì)、周會(huì)、月會(huì),總結(jié)問(wèn)題、提醒改進(jìn)。
……
而無(wú)論如何,管理流程的事,說(shuō)得再多,日常工作的落實(shí)才是最重要的。
3、職業(yè)技能,專業(yè)培訓(xùn)擺脫“低水平重復(fù)”
“不要門檻”意味著更低的價(jià)值,在人員個(gè)人能力上,NLP在逐漸拋棄那些“無(wú)門檻”入局的人,尤其是在特定的場(chǎng)景需求下。
例如,這是一個(gè)非常簡(jiǎn)單的NLP數(shù)據(jù)標(biāo)注實(shí)例:
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
10月31日立即下載>> 【限時(shí)免費(fèi)下載】TE暖通空調(diào)系統(tǒng)高效可靠的組件解決方案
-
即日-11.13立即報(bào)名>>> 【在線會(huì)議】多物理場(chǎng)仿真助跑新能源汽車
-
11月28日立即報(bào)名>>> 2024工程師系列—工業(yè)電子技術(shù)在線會(huì)議
-
12月19日立即報(bào)名>> 【線下會(huì)議】OFweek 2024(第九屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
-
即日-12.26火熱報(bào)名中>> OFweek2024中國(guó)智造CIO在線峰會(huì)
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍(lán)皮書》
推薦專題
- 1 【一周車話】沒(méi)有方向盤和踏板的車,你敢坐嗎?
- 2 特斯拉發(fā)布無(wú)人駕駛車,還未迎來(lái)“Chatgpt時(shí)刻”
- 3 特斯拉股價(jià)大跌15%:Robotaxi離落地還差一個(gè)蘿卜快跑
- 4 馬斯克給的“驚喜”夠嗎?
- 5 打完“價(jià)格戰(zhàn)”,大模型還要比什么?
- 6 馬斯克致敬“國(guó)產(chǎn)蘿卜”?
- 7 神經(jīng)網(wǎng)絡(luò),誰(shuí)是盈利最強(qiáng)企業(yè)?
- 8 比蘋果偉大100倍!真正改寫人類歷史的智能產(chǎn)品降臨
- 9 諾獎(jiǎng)進(jìn)入“AI時(shí)代”,人類何去何從?
- 10 Open AI融資后成萬(wàn)億獨(dú)角獸,AI人才之爭(zhēng)開啟
- 高級(jí)軟件工程師 廣東省/深圳市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級(jí)銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市