請輸入產(chǎn)品關鍵字:
郵編:200431
聯(lián)系人:王小姐
電話:021-56640936
傳真:021-33250231
手機:13122441390 15900755943
留言:發(fā)送留言
個性化:www.shifengsj.com
網(wǎng)址:www.shfeng-edu.com
商鋪:http://sorrent.com.cn/st236594/
類腦信息處理研究取得進展
點擊次數(shù):1539 發(fā)布時間:2018-5-30
近期,,中國科學院自動化研究所類腦智能研究中心類腦信息處理(BRAVE)研究組,,在研究員張兆翔的帶領下,在借鑒生物神經(jīng)結(jié)構(gòu),、認知機制與學習特性的神經(jīng)網(wǎng)絡建模與類人學習研究中取得了一系列突破性進展,。該研究組在“視聽模態(tài)的生成、融合”以及“智能體之間的知識遷移”取得了重大突破,,系列成果發(fā)表在AAAI 2018上,。
在“視聽模態(tài)的融合”問題中,該研究組提出了有效將聽覺信息融合在視頻描述生成框架中的特征融合策略,,并取得了理想的效果,; 在“視聽模態(tài)的生成”問題中,該研究組提出了一個跨模態(tài)循環(huán)對抗生成網(wǎng)絡,、一個聯(lián)合對應對抗損失函數(shù)和一個動態(tài)多模態(tài)分類網(wǎng)絡,,構(gòu)建出更有效的視聽跨模態(tài)相互生成模型;在“智能體之間的知識遷移”問題中,,該研究組將一種新類型的知識——交叉樣本相似性引入到深度度量學習中,,將知識形式化成一個教師和學生網(wǎng)絡間的排序匹配問題,將經(jīng)典的基于列的學習轉(zhuǎn)換成排序?qū)W習算法,,這一方法可大幅提高學生網(wǎng)絡的性能,,也可得到較傳統(tǒng)方法更好的遷移性能。
1.視聽模態(tài)的融合
視頻描述生成在很多領域中有著潛在應用,,比如人機交互,、盲人輔助和視頻檢索,。近些年來,受益于卷積神經(jīng)網(wǎng)絡CNN,,遞歸神經(jīng)網(wǎng)絡和大規(guī)模的視頻描述數(shù)據(jù)集,,視頻描述生成已經(jīng)取得比較理想的結(jié)果。
大多數(shù)視頻描述生成框架可以分為一個編碼器和一個解碼器,,編碼器對視頻特征進行編碼形成一個固定長度的視頻特征向量,,解碼器基于該視頻特征生成對應的視頻描述子。研究者們針對定長的視頻特征描述子提出了一些方法,,比如對視頻幀進行池化操作,,下采樣固定長度的視頻幀,在遞歸網(wǎng)絡視頻特征編碼階段提取zui后一個時刻的狀態(tài)表示,。
雖然上述方法均可生成比較合理的視頻描述,,但是這些模型的視頻特征編碼都只側(cè)重于視覺信息而忽略了音頻信息。該課題組認為,,忽視聲音模態(tài)會損害模型性能,。比如,一個人躺在床上唱歌,。大部分傳統(tǒng)的視頻描述生成方法只關注視覺信息而忽略聲音信息,,可能會產(chǎn)生語義不完整的句子:“一個人躺在床上”。如果可以將音頻信息結(jié)合到模型中,,就可以產(chǎn)生語義完整的句子“一個人躺在床上唱歌”。
那么如何更合理地利用視聽覺信息,?課題組提出并分析了三種視聽覺特征深度融合框架(如圖1所示),,*種為將視聽覺信息簡單并連在一起,第二種在視聽特征編碼階段共享LSTM內(nèi)部記憶單元,,建立視聽模態(tài)間的短時依賴性,,第三種在視聽特征編碼階段共享外部記憶單元,建立視聽模態(tài)的長時依賴性,。
同時,,為了處理聽覺模態(tài)缺失問題,課題組提出了一個動態(tài)多模態(tài)特征融合框架(如圖2所示),。其核心模塊為由一個編碼器和一個解碼器組成的聽覺推理模型,。聽覺推理模型具體為將視覺特征輸入編碼器進行編碼,利用解碼器解碼出對應的聽覺特征,,通過在生成的聽覺特征與真實的聽覺特征之間增加L2范數(shù)約束來更新該模型參數(shù),,并實現(xiàn)視覺特征到聽覺特征的準確映射。模型在MSR-VTT,、MSVD數(shù)據(jù)集上取得了理想的效果,。
2.視聽模態(tài)的生成
視聽模態(tài)是視頻中的兩個共生模態(tài),包含相同和互補信息。利用共同信息可實現(xiàn)模態(tài)間的相互轉(zhuǎn)換,。同時,,互補信息可作為先驗去輔助相關工作。因此,,充分利用視聽模態(tài)間的共同和互補信息可以進一步增強相關任務的性能,。然而,由于環(huán)境干擾和傳感器故障等因素,,其中的一個模態(tài)會受損或者缺失,,從而帶來一些嚴重的問題,比如消音的影片或者模糊的屏幕,。如果可以基于已知模態(tài)生成缺失模態(tài),,會給許多多媒體任務帶來好處。因此,,課題組致力于創(chuàng)建有效的視聽跨模態(tài)相互生成模型,。
傳統(tǒng)的跨模態(tài)相互生成方法主要存在以下幾個問題,一是模態(tài)間存在嚴重的結(jié)構(gòu),、維度和信息不對稱性,,導致跨模態(tài)相互生成的質(zhì)量不理想。二是模態(tài)間的相互生成是獨立的,,具有很大的不便性,。三是其訓練過程并不是端到端的。
為解決上述問題,,課題組提出基于循環(huán)對抗生成網(wǎng)絡的跨模態(tài)相互生成模型(CMCGAN),。(如圖3所示)
該模型包含四個子網(wǎng)絡,分別為A-V(聽覺到視覺),,V-A(視覺到聽覺),,A-A(聽覺到聽覺)和V-V(視覺到視覺)子網(wǎng)絡。每個子網(wǎng)絡均由一個編碼器和一個解碼器組成,。這四種子網(wǎng)絡以對稱的形式組成了兩種生成路徑,,一種是V-A-V/A-V-A(視覺-聽覺-視覺/聽覺-視覺-聽覺),另一種為跨模態(tài)生成路徑A-A-V/V-V-A(聽覺-聽覺-視覺/視覺-視覺-聽覺),。
受益于CMCGAN,,課題組同時也提出了一個動態(tài)多模態(tài)分類網(wǎng)絡。若輸入有兩個模態(tài),,則首先將它們進行融合然后輸入到后續(xù)的分類網(wǎng)絡中,。若輸入只有一個模態(tài),則可基于CMCGAN生成缺失模態(tài),,然后將已知模態(tài)和缺失模態(tài)輸入到后續(xù)的動態(tài)多模態(tài)分類網(wǎng)絡中,。在該研究中,,研究組提出了一個跨模態(tài)循環(huán)對抗生成網(wǎng)絡去實現(xiàn)跨模態(tài)的視聽相互生成;提出了一個聯(lián)合對應對抗損失函數(shù)將視聽相互生成集成在一個統(tǒng)一的框架中,,該損失函數(shù)不僅可以區(qū)分圖像來自原始樣本集還是生成集,,而且可以判斷(圖像,聲音)是否匹配,;針對不同模態(tài)的輸入,,提出了一個動態(tài)多模態(tài)分類網(wǎng)絡。
3.智能體之間的知識遷移
度量學習是許多計算機視覺任務的基礎,,包括人臉驗證,,行人再識別等。近年,,基于度量損失函數(shù)指導的端到端深度度量學習取得了很大的成功,。這些深度度量學習成功的關鍵因素是網(wǎng)絡結(jié)構(gòu)的強大。然而,,隨著所需表征特征的增強,,網(wǎng)絡結(jié)構(gòu)變的更深更寬從而帶來了嚴重的計算負擔。在現(xiàn)實世界的許多應用如無人駕駛上,,由于硬件資源的限制,,使用這些網(wǎng)絡會導致系統(tǒng)產(chǎn)生嚴重的延時。為保證安全性,,這些系統(tǒng)需要實時的響應,。因此,很難將的網(wǎng)絡結(jié)構(gòu)設計應用到該研究的系統(tǒng)中,。
為緩解該問題,,研究者們提出了許多模型加速的方法,可簡單分為三類:網(wǎng)絡剪枝,,模型量化和知識遷移,。網(wǎng)絡剪枝迭代地刪除對zui后決策不太重要的神經(jīng)元或權值,。模型量化通過降低網(wǎng)絡中權值和激活函數(shù)的表達準確性來增加了網(wǎng)絡的吞吐量,。知識遷移使用一個更大更強的老師網(wǎng)絡去指導一個小的學生網(wǎng)絡的學習過程。在這些方法中,,基于知識遷移的方法是實際價值的,。跟其他需要定制硬件或者實現(xiàn)細節(jié)的方法相比,知識遷移在沒有額外開銷的情況下也可得到相當?shù)哪P图铀傩阅堋?/p>
知識蒸餾和它的變體是知識遷移領域的核心方法,。盡管它們所使用的知識形式不同,,但都只針對于單個樣本。也就是說,,這些方法中的教師網(wǎng)絡不管在分類層還是中間特征層都只為每個樣本提供監(jiān)督信息,。所有這些方法均忽略了另外一種有價值的度量——不同樣本之間的關系,。這類知識同樣編碼了教師網(wǎng)絡中所嵌入的空間結(jié)構(gòu)。同時,,該種知識所使用的實例水平的監(jiān)督信息符合度量學習的目標,。圖4展示了研究組的動機。右上角展示了知識遷移后學生網(wǎng)絡可以更好的捕捉圖像相似性,。數(shù)字0與6的相似性比數(shù)字3,、4、5與6的相似性更大,,因此等級更高,。該研究中,課題組解決了以下幾個問題:將一種新類型的知識——交叉樣本相似性引入到深度度量學習中,;將知識形式化成一個教師和學生網(wǎng)絡間的排序匹配問題,,將經(jīng)典的基于列的學習轉(zhuǎn)換成排序?qū)W習算法并致力于解決它;在不同度量學習任務上測試該方法,,均可極大地提高學生網(wǎng)絡的性能,。另外,與目前的方法融合后可得到更好的遷移性能,。
以上研究得到了國家自然科學基金,、微軟合作研究項目的資助