極鏈科技張奕:消費級視頻內(nèi)容識別的算法設計與應用
近幾年,視頻行業(yè)迎來了井噴式爆發(fā),隨著人工智能技術的逐漸成熟,用戶體驗不斷升級。
在觀看影視劇、綜藝等視頻時,我們總能在畫面中看到跟視頻場景相關的廣告,比如當出現(xiàn)地標性建筑時,會出現(xiàn)旅游相關廣告;當觀看明星真人秀節(jié)目,會有同款服飾的購物鏈接。在這背后,是智能視頻識別技術發(fā)展的成果。
近期,極鏈科技AI研究院資深研究員張奕在公開課上進行了主題為《消費級視頻內(nèi)容識別的算法設計與應用》的講解,從視聯(lián)網(wǎng)產(chǎn)業(yè)簡介、智能視頻技術應用于消費級視頻的挑戰(zhàn)、數(shù)據(jù)的重要性與VideoNet視頻數(shù)據(jù)集、視頻內(nèi)容識別的算法設計與應用四大模塊進行了分享。
以下為分享實錄:
在5G和AI的加持下,互聯(lián)網(wǎng)演進出三大形態(tài),物聯(lián)網(wǎng),視聯(lián)網(wǎng)和車聯(lián)網(wǎng)。目前視頻占據(jù)了全網(wǎng)數(shù)據(jù)的80%,且仍在不斷提高。視頻將成為互聯(lián)網(wǎng)最重要的入口,承擔起信息傳遞介質(zhì)和互聯(lián)網(wǎng)功能載體的作用,進而形成以視頻作為主要信息傳遞介質(zhì)和功能載體的互聯(lián)網(wǎng)形態(tài),視聯(lián)網(wǎng)。龐大的消費級視頻是視聯(lián)網(wǎng)的首個落地場景。
作為「AI+視頻」行業(yè)獨角獸企業(yè),全球視聯(lián)網(wǎng)開源操作系統(tǒng)構建者,極鏈科技專注于消費級視頻AI技術研發(fā)和商業(yè)應用,聚焦以視頻作為信息和功能核心載體的新互聯(lián)網(wǎng)形態(tài)——視聯(lián)網(wǎng)。以AI技術賦能視頻中的信息,鏈接互聯(lián)網(wǎng)信息、服務、購物、社交、游戲五大模式,實現(xiàn)基于視頻的新互聯(lián)網(wǎng)經(jīng)濟體。極鏈科技自主研發(fā)的VideoAI是視聯(lián)網(wǎng)整個生態(tài)的底層引擎,VideoOS為視聯(lián)網(wǎng)底層操作系統(tǒng),是繼PC時代Linux系統(tǒng)和移動互聯(lián)網(wǎng)時代安卓系統(tǒng)之后的第三大操作系統(tǒng)。以VideoAI、VideoOS為基礎,開發(fā)出廣告、電商等各類視聯(lián)網(wǎng)應用。
視聯(lián)網(wǎng)的基礎數(shù)據(jù)即視頻,尤其是消費級視頻。區(qū)別于工業(yè)級視頻是利用專業(yè)設備在固定條件、固定場景下拍攝的視頻,如監(jiān)控視頻。消費級視頻是指用戶用手機等便攜式圖像采集設備生成的視頻。消費級視頻有三大特點。一,消費級視頻數(shù)據(jù)體量巨大;二,消費級視頻的類別多樣,如電影、綜藝、體育、短視頻等;三,消費級視頻場景復雜,如場景內(nèi)的特效、切換、淡入淡出和字幕,都會對整體或局部產(chǎn)生模糊。以上特點對視頻識別算法提出了更高的挑戰(zhàn)。
視頻識別算法本身有較長的歷史,然而受到計算能力的限制,算法各項性能與產(chǎn)品商業(yè)化要求間還存在較大的差距。直到2012年,深度學習技術、大數(shù)據(jù)及GPU算力的結合極大提升了算法準確率和運算效率,拉低了與產(chǎn)品商業(yè)化要求的差距。
眾所周知,深度學習的成功建立在大規(guī)模數(shù)據(jù)集的基礎上。現(xiàn)有視頻數(shù)據(jù)集從規(guī)模、維度和標注方式上都與深度學習算法的要求存在很大差距。今年,極鏈科技與復旦大學聯(lián)合推出了全新的VideoNet視頻數(shù)據(jù)集,具備規(guī)模大、多維度標注、標注細三大特點。
第一,規(guī)模大。VideoNet數(shù)據(jù)集包含逾9萬段視頻,總時長達4000余小時。
第二,多維度標注。視頻中存在著大量的物體、場景等多維度內(nèi)容信息,這些維度內(nèi)容之間又存在著廣泛的語義聯(lián)系。近年來涌現(xiàn)出大量針對物體、場景、人臉等維度的識別技術,在各自的目標維度上取得了明顯的進步。但各視頻識別算法基本針對單一維度來設計的,無法利用各維度之間存在的豐富的語義關聯(lián)建立模型,提高識別準確度。VideoNet數(shù)據(jù)集從事件、物體、場景三個維度進行了聯(lián)合標注,為多維度視頻識別算法研提供支持。
第三,標注細。視頻標注工作量非常巨大,當前大部分視頻僅針對整段視頻打標簽。而VideoNet數(shù)據(jù)集對視頻進行了事件分類標注,并針對每個鏡頭的關鍵幀進行了場景和物體兩個維度的共同標注,充分體現(xiàn)了多維度內(nèi)容之間的語義聯(lián)系。
那么,VideoNet數(shù)據(jù)集是如何進行標注的?首先,對視頻數(shù)據(jù)進行預處理,即鏡頭分割,并根據(jù)清晰度對鏡頭單元進行關鍵幀提取。之后從三個維度進行視頻標注,事件維度上對整個視頻標注類別標簽,物體維度上對鏡頭關鍵幀標注類別和位置框,場景維度上對鏡頭關鍵幀標注類別標簽。目前,VideoNet數(shù)據(jù)集包含353類事件,超過200類場景和200類物體,總視頻數(shù)達到9萬。其中60%作為訓練集,20%作為驗證集,20%作為測試集。
自6月18日「VideoNet視頻內(nèi)容識別挑戰(zhàn)賽」公布訓練和驗證數(shù)據(jù)集以來,截止到8月12日,注冊報名的隊伍已超過360支,其中參賽隊伍當中有來自中科院、北京大學、中國科學技術大學等頂尖高校隊伍以及來自阿里巴巴、京東、華為、騰訊、大華等眾多知名企業(yè)隊伍。預計明年,極鏈科技將會繼續(xù)增加VideoNet數(shù)據(jù)集的規(guī)模和標注維度。
消費級視頻的數(shù)據(jù)特點,對算法系統(tǒng)的處理速度、效率和準確率提出了較高的要求。消費級視頻算法的總體框架分為五層:1、視頻輸入層進行視頻源的管理;2、視頻處理層進行鏡頭分割、采樣、增強和去噪等工作;3、內(nèi)容提取層主要分析視頻中內(nèi)容、語義等信息,進行目標檢測、跟蹤和識別等來檢測目標在視頻中的時間、空間、位置等維度;4、語義融合層進行目標軌跡融合、識別結果融合、特征表示融合、高層語義融合等;5、在數(shù)據(jù)輸出層,進行結構化數(shù)據(jù)管理,方便后續(xù)數(shù)據(jù)檢索與應用。
視頻內(nèi)容識別維度多樣,包括場景、物體、人臉、地標、Logo、情緒、動作、聲音等。不同維度的算法結構有所區(qū)別。人臉識別算法結構為:輸入視頻后進行鏡頭分割,在進行人臉檢測、跟蹤、人臉對齊,根據(jù)質(zhì)量評估過濾,進行特征提取和特征比對識別,最后進行識別結果融合,輸入最終識別結果。
在場景識別算法結構中,首先對輸入視頻進行鏡頭分割采樣,有所不同的是只需進行時間間隔分割的采樣,再對視頻進行場景類別的初分類,預處理之后進入卷積神經(jīng)網(wǎng)合階段,卷積神經(jīng)網(wǎng)絡通過對不同的數(shù)據(jù)集進行預訓練,得到不同的特征和描述,將這些特征進行融合、降維處理得到特征表示后,對不同場景如高頻場景、次級場景和新增場景,進行分類處理,最終對識別結果進行融合。
在物體、Logo識別算法結構中,有所不同的是需要多尺度提取特征,跟蹤識別物體軌跡,并關注物體類別,對結果進行優(yōu)化。
在地標識別算法結構中,分為三步,第一,通過基礎網(wǎng)絡(VGG,ResNet等)獲得特征圖(一般為最后一層卷積或池化層);第二,從特征圖中提取特征(例如R-Mac,SPoC,CroW,GeM等)并用ROI Pooling,PCA 白化,L2-歸一化等方式處理,一般最終維度為256,512,1024,或2048;用kNN,MR,DBA,QE,Diffusion等方式將得到的特征對數(shù)據(jù)庫內(nèi)的特征進行后處理獲得最終特征;訓練模型一般損失函數(shù)采用contrastive loss或triplet loss,最終比對一般采用余弦或歐式距離。
我們自主研發(fā)的算法主要做了以下優(yōu)化:1. 對基礎網(wǎng)絡進行多層的特征提。ǘ痪窒抻谌B接的前一層)并融合,降維等。2. 采用CroW算法的核心思想對特征圖的不同空間點以及channel增加權重,不同于CroW算法,我們的權重是通過端到端方式學習所獲得。在2018、2019年Google地標識別挑戰(zhàn)賽中,極鏈科技AI研究院蟬聯(lián)了兩屆全球冠軍。
下面,介紹一下視頻檢索,也就是以圖搜視頻的流程。以圖搜視頻可以分為兩部分,一部分是通過視頻深度圖像檢索構建視頻數(shù)據(jù)庫,另一部分是用戶檢索時,輸入圖像到第一部分的視頻庫中進行檢索。
具體來看,首先通過視頻下載、視頻數(shù)據(jù)庫檢索、特征提取、特征排序等生成一個特征表述數(shù)據(jù)庫,當用戶需求輸入后進行特征提取、比對、排序和結構展示。這是標準的檢索流程。在算法結構方面,用戶輸入后會經(jīng)過卷積神經(jīng)網(wǎng)絡和索引得出粗檢索結果,再通過細檢索進行排序、查詢,最后輸出鏡頭信息,另外也可以通過劇目信息進行子部檢索減少搜索任務的壓力,同時提高算法的準確率。
以圖搜視頻的核心在于我們自研的深度圖像檢索模型VDIR,由視頻任務調(diào)度系統(tǒng)派發(fā)的視頻分片,經(jīng)過鏡頭檢測分割成片段,片段信息經(jīng)過VDIR會生成視頻信息庫、視頻特征庫以及哈希索引庫。用戶輸入一張或者多張圖像,同時可以指定劇目信息,比如古裝劇、玄幻劇等,輸入的圖像經(jīng)過VDIR算法提取到哈希編碼和特征,首先會去歷史檢索庫中查找是否有相似的檢索,如果有直接使用特征即進行細匹配,沒有就會先通過哈希編碼到哈希索引庫中檢索,然后進行細匹配,根據(jù)匹配相似度進行排序后,從視頻信息庫中查詢到視頻片段信息,配合截圖輸出到界面。
深度圖像檢索模型VDIR會輸出兩部分內(nèi)容,分別是用于快速檢索的哈希編碼以及用來細匹配的特征,一個片段的幾個幀特征或者相鄰片段的幀特征并不是都需要,因為我們設計關鍵幀篩選邏輯,只保留關鍵幀特征。
為了將以上算法實際落地,還需要進行工程化的工作。在工程化工作中,需要解決以下幾個問題:1、算法進行并行化加速其運營;2、面對高并發(fā)狀態(tài)解決分布式系統(tǒng)和多任務調(diào)度的問題;3、對資源調(diào)度進行算法分割與CPU+GPU配比;4、對高優(yōu)先級任務規(guī)劃處理策略。
最后,向大家介紹一下三個算法實際產(chǎn)業(yè)化應用的案例。
VideoAI視頻智能識別和大數(shù)據(jù)運營系統(tǒng),實現(xiàn)視頻輸入、識別、結構化數(shù)據(jù)管理和多維度檢索全流程技術。極鏈科技獨創(chuàng)獨創(chuàng)全序列采樣識別,對視頻內(nèi)的場景、物體、人臉、品牌、表情、動作、地標、事件8大維度進行數(shù)據(jù)結構化,32軌跡流同時追蹤,通過復合推薦算法將內(nèi)容元素信息升級為情景信息,直接賦能各種視聯(lián)網(wǎng)商業(yè)化場景。
靈悅AI廣告平臺,通過VideoAI將全網(wǎng)海量視頻進行結構化分析,對消費場景標簽化,結合品牌投放需求,提供智能化投放策略和批量化投放,讓用戶在觀看視頻時有效獲取相關品牌信息及購買,實現(xiàn)廣告主精準投放的營銷目的和效果。目前通過VideoAI技術的賦能,靈悅AI廣告平臺已完成2012年至今全網(wǎng)熱門視頻,實現(xiàn)掃描累計時長達15,600,000+分鐘劇目復合雙向匹配。開發(fā)了965類成熟商業(yè)化可投放情景,服務300+百家一線品牌,并與全網(wǎng)頭部流量視頻平臺簽訂深度投放合作,實現(xiàn)廣告創(chuàng)新營銷的新動能。
神眼系統(tǒng),廣電級內(nèi)容安全多模AI審核系統(tǒng),可實現(xiàn)本地部署的高可用技術解決方案,提供長視頻、直播、短視頻的敏感、政治、色情、暴恐審核服務。產(chǎn)品核心功能包括:智能鑒黃(識別視頻和圖片中的色情、裸露、性感等畫面);智能鑒暴(識別視頻和圖片中的血腥、暴力、槍支等畫面);政治敏感人物識別(基于政治人物庫,識別視頻和圖片中的國家領導人物或者落馬官員等);涉毒/涉政明星識別(基于明星庫,結合黑名單,識別視頻和圖片中的涉毒、涉政等明星)。
最后,想和大家強調(diào)一下數(shù)據(jù)對于人工智能發(fā)展的重要性。目前半監(jiān)督、無監(jiān)督算法還處于研究階段,性能差距較大,我們所用AI算法大多基于監(jiān)督學習,因此數(shù)據(jù)的體量和質(zhì)量非常重要。我們要學會思考更多問題,例如采集數(shù)據(jù)與實際應用間的相關度,常規(guī)數(shù)據(jù)操作有哪些,如何獲取“高效”的數(shù)據(jù),如何應用數(shù)據(jù)管理工具讓我們更好的管理、應用數(shù)據(jù)等等。謝謝大家!
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
-
10月31日立即下載>> 【限時免費下載】TE暖通空調(diào)系統(tǒng)高效可靠的組件解決方案
-
即日-11.13立即報名>>> 【在線會議】多物理場仿真助跑新能源汽車
-
11月28日立即報名>>> 2024工程師系列—工業(yè)電子技術在線會議
-
12月19日立即報名>> 【線下會議】OFweek 2024(第九屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會
-
即日-12.26火熱報名中>> OFweek2024中國智造CIO在線峰會
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍皮書》
推薦專題
- 高級軟件工程師 廣東省/深圳市
- 自動化高級工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結構工程師 廣東省/深圳市