一文了解深度學(xué)習(xí)模型VAE的時(shí)序性解耦
現(xiàn)代深度學(xué)習(xí)架構(gòu)一直被描述為一個(gè)黑匣子:被輸入數(shù)據(jù),并期望從中得到一些結(jié)果。然而,由于此類架構(gòu)存在許多的復(fù)雜性,過程中發(fā)生的事情,通常難以解釋和分析。這已發(fā)展成為整個(gè)社會(huì)未能廣泛接受深度學(xué)習(xí)的主要原因之一,尤其是對(duì)于關(guān)鍵任務(wù)應(yīng)用程序。
因此,“黑匣子”的解體已成為機(jī)器學(xué)習(xí)研究人員的一個(gè)重大開放問題,并且是該領(lǐng)域當(dāng)前感興趣的問題之一,這一研究領(lǐng)域通常被稱為機(jī)器學(xué)習(xí)架構(gòu)的“可解釋性”。在本文中,我們將討論可解釋性研究中的一個(gè)重要主題,即解耦問題。
Disentangled
Sequential VAE
光的解耦(Ddisentangled)
我們舉個(gè)常見的例子:在日常生活中,太陽光看起來是白色的,但是如果我們讓陽光通過三棱鏡,就會(huì)發(fā)現(xiàn)陽光分別折射出多種色彩。這說明白光其實(shí)是多種顏色混合的體現(xiàn),而我們可以通過三棱鏡把它分解成基本七種顏色,其中包括紅、綠、藍(lán)三原色。
我們繼續(xù)聊聊白光:在廣泛意義上說光是由RGB三種顏色組成的。這也就定義了光的解耦過程:光可以分離成R、G、B三種顏色,同時(shí)我們也可以用這三種顏色,進(jìn)行不同程度的疊加,產(chǎn)生豐富而廣泛的顏色。
計(jì)算機(jī)定義顏色時(shí)R、G、 B三種成分的取值范圍是0-255,0表示沒有刺激量,255表示刺激量達(dá)最大值。R、G、B均為255時(shí)就合成了白光,R、G、B均為0時(shí)就形成了黑色。在這個(gè)區(qū)間范圍內(nèi),我們可以通過任意的數(shù)值組合構(gòu)造出無數(shù)種不同的顏色,讓我們的生活充滿色彩。
白光和解耦又有什么關(guān)系呢?那關(guān)系就大了!我們下面簡單聊一下一種深度學(xué)習(xí)模型——變分自編碼器模型(VAE:variational autoencoder),然后用它來解釋解耦。
什么是VAE?
什么是VAE呢?那要先從AE開始說起了。
AE(Autoencoder)
上圖由兩個(gè)部分組成,第一個(gè)部分是編碼器(Encoder),第二部分是解碼器(Decoder),圖片經(jīng)過編碼器得到一個(gè)潛在的編碼(code),編碼再通過解碼器還原輸入的圖片,因此得到的編碼就是圖片在一個(gè)潛在空間的表示。而編碼器和解碼器就是由神經(jīng)網(wǎng)絡(luò)組成的。圖中例子就是希望能夠生成一張一樣的圖片。
VAE (Variational Autoencoder)
變分編碼器是自動(dòng)編碼器的升級(jí)版本,其結(jié)構(gòu)跟自動(dòng)編碼器相似,也由編碼器和解碼器構(gòu)成。在AE中,輸入一個(gè)圖片得到一個(gè)的編碼(code),但這個(gè)編碼是一個(gè)固定的編碼,使得模型沒有很好的泛化功能。所以VAE引入了一種新的方式有效解決了上述的問題,就是將編碼問題變成一個(gè)分布問題,具體操作是在AE的基礎(chǔ)上增加一個(gè)限制,迫使編碼器得到的編碼(code)能夠粗略地遵循一個(gè)標(biāo)準(zhǔn)正態(tài)分布,這就是其與一般的自動(dòng)編碼器最大的不同。
這樣我們生成一張新圖片就很簡單了,我們只需要給它一個(gè)標(biāo)準(zhǔn)正態(tài)分布的隨機(jī)隱含向量,這樣通過解碼器就能夠生成我們想要的圖片,而不需要給它一張?jiān)紙D片先進(jìn)行編碼。
VAE的演變?cè)黾恿四P偷姆夯?以上圖VAE的過程為例,當(dāng)輸入的圖片是貓時(shí),通過貓的特征來生成新的圖片,VAE的好處就在于當(dāng)輸入的圖片不是完整的圖片時(shí)(訓(xùn)練集外),它依舊可以還原成原來的樣子。
在深度學(xué)習(xí)中,不管是什么樣的模型,數(shù)據(jù)都很重要,而VAE的好處就在于 :
它可以通過編碼和解碼的過程,通過抽樣,生成新的數(shù)據(jù)。這樣對(duì)于機(jī)器學(xué)習(xí)就有了更多的數(shù)據(jù)支撐從而得到更好的模型效果。
VAE在中間層會(huì)得到一個(gè)編碼(code),也就是一個(gè)語義層,我們可以通過對(duì)于這個(gè)語義的理解,從而達(dá)到圖片的分類、變換的效果。
如果我們類比光的解耦(將光分離成R、G、B三種顏色),VAE(Variational Autoencoder)就可以理解成是深度學(xué)習(xí)框架的三棱鏡。
這是為什么呢?我們先給一個(gè)淺顯的技術(shù)介紹,然后再回來聊顏色分離。
VAE是一種深度學(xué)習(xí)框架,更具體來說,它是一種生成模型。生成模型的操作很簡單:它可以讀取數(shù)據(jù)(多為圖片),抽取數(shù)據(jù)的特征,然后自動(dòng)生成有這些特征的新數(shù)據(jù)。我們這里關(guān)心的是提取特征這個(gè)環(huán)節(jié)。大多生成模型的特征提取模式,便是經(jīng)過所謂的“潛在變量”(latent variables)來編碼提取到的特征。
這里的一個(gè)明顯的問題便是:我們?cè)趺磁袛嗾綌?shù)據(jù)里的某一個(gè)特征對(duì)應(yīng)的是哪個(gè)語義變量?我們可以回到類比成顏色分離和生成的過程,將一種顏色先編碼(encoder)成R,G,B,再通過解碼(decoder)形成一種顏色。
Disentangled Sequential VAE
隨著對(duì)VAE的研究,越來越多的研究重點(diǎn)就放在了如何在VAE的基礎(chǔ)上做到disentangled的過程。以下簡單介紹一下深蘭科學(xué)院對(duì)于該項(xiàng)目的研究內(nèi)容:對(duì)于時(shí)序的數(shù)據(jù)解耦出其數(shù)據(jù)的動(dòng)態(tài)信息和靜態(tài)信息,并理解靜態(tài)信息和動(dòng)態(tài)信息的語義,后續(xù)團(tuán)隊(duì)的目標(biāo)也是基于當(dāng)前的項(xiàng)目,進(jìn)行這個(gè)主流方向的基礎(chǔ)研究。
本項(xiàng)目采用的數(shù)據(jù)是Sprites,這是個(gè)具有時(shí)序性的數(shù)據(jù)。如上圖所示小精靈有著不同的顏色和動(dòng)作,團(tuán)隊(duì)的任務(wù)就是通過這些小精靈的圖片,解耦出小精靈的動(dòng)態(tài)信息(小精靈的動(dòng)作)和靜態(tài)信息(小精靈的顏色)。通過深度學(xué)習(xí)來獲得小精靈動(dòng)靜態(tài)信息的語義,并理解這語義從而生成新的小精靈。
如下圖所示,通過深度學(xué)習(xí)得到小精靈的動(dòng)態(tài)信息和靜態(tài)信息,并改變他們的值的生成效果(上排是原始數(shù)據(jù),下排是生成數(shù)據(jù))。
1. 改變靜態(tài)信息(顏色)
2.改變動(dòng)態(tài)信息
對(duì)于VAE時(shí)序性解耦的工作可以更容易地說明神經(jīng)網(wǎng)絡(luò)的可解釋性,這樣的任務(wù)不僅可以對(duì)神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)研究作出貢獻(xiàn),還可以應(yīng)用到很多人工智能的項(xiàng)目中,例如對(duì)圖像視頻的處理;動(dòng)靜的解耦可以實(shí)現(xiàn)換臉等效果;在自然語言處理中,可以改變聲音的種類等。
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長度6~500個(gè)字
最新活動(dòng)更多
-
10月31日立即下載>> 【限時(shí)免費(fèi)下載】TE暖通空調(diào)系統(tǒng)高效可靠的組件解決方案
-
即日-11.13立即報(bào)名>>> 【在線會(huì)議】多物理場(chǎng)仿真助跑新能源汽車
-
11月28日立即報(bào)名>>> 2024工程師系列—工業(yè)電子技術(shù)在線會(huì)議
-
12月19日立即報(bào)名>> 【線下會(huì)議】OFweek 2024(第九屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
-
即日-12.26火熱報(bào)名中>> OFweek2024中國智造CIO在線峰會(huì)
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍(lán)皮書》
推薦專題
- 1 【一周車話】沒有方向盤和踏板的車,你敢坐嗎?
- 2 特斯拉發(fā)布無人駕駛車,還未迎來“Chatgpt時(shí)刻”
- 3 特斯拉股價(jià)大跌15%:Robotaxi離落地還差一個(gè)蘿卜快跑
- 4 馬斯克給的“驚喜”夠嗎?
- 5 打完“價(jià)格戰(zhàn)”,大模型還要比什么?
- 6 馬斯克致敬“國產(chǎn)蘿卜”?
- 7 神經(jīng)網(wǎng)絡(luò),誰是盈利最強(qiáng)企業(yè)?
- 8 比蘋果偉大100倍!真正改寫人類歷史的智能產(chǎn)品降臨
- 9 諾獎(jiǎng)進(jìn)入“AI時(shí)代”,人類何去何從?
- 10 Open AI融資后成萬億獨(dú)角獸,AI人才之爭(zhēng)開啟
- 高級(jí)軟件工程師 廣東省/深圳市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級(jí)銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市