復雜系統(tǒng)安全性和可靠性實驗室|從帶有噪聲標簽的數(shù)據(jù)中提取困難且確信樣本

時間：2024/10/31閱讀：124

論文題目： Me-Momentum: Extracting Hard Confident Examples from Noisily Labeled Data

論文作者：Yingbin Bai, Tongliang Liu

論文來源：ICCV-2021,，中國計算機協(xié)會A類會議，DOI：10.1109/ICCV48922.2021.00918

接近決策邊界的樣本——作者稱之為難樣本,，對于塑造準確分類器至關重要。但從訓練數(shù)據(jù)中提取困難確信樣本仍是較為困難的問題,。在這篇文章中,，作者提出了一種深度學習范式來解決這個問題，利用了深度神經(jīng)網(wǎng)絡的記憶效應來篩選樣本,。作者借鑒了物理學中的動量概念來提取包含非簡單模式并且與不準確標記的樣本糾纏在一起的困難確信樣本,。作者的想法是算法前一輪提取的確信樣本可以用來學習一個更好的分類器，而更好的分類器也助于識別更困難的確信樣本,。作者將這種方法稱為“記憶動量"（MeMomentum）,。在基準模擬和真實世界的標簽噪聲數(shù)據(jù)上的實證結果說明了Me-Momentum提取難確信樣本的有效性，利用記憶動量方法可以使模型具有更好的分類性能,。

文獻背景

實際應用中,，帶標簽噪聲的數(shù)據(jù)集是普遍存在的。如果不加注意,，標簽噪聲將降低學習算法的性能,。帶有噪聲標簽的學習旨在減少標簽噪聲的副作用，因此已經(jīng)成為機器學習中的一個重要主題,。

提取具有干凈標簽的樣本——確信樣本是一種不依賴噪聲轉移矩陣的方法,，與原始的帶有噪聲的訓練數(shù)據(jù)相比，提取出的樣本噪聲較少,，因此分類器具有更好的性能,。在只有噪聲數(shù)據(jù)的情況下,，先進的方法利用了記憶效應來提取確信樣本。深度神經(jīng)網(wǎng)絡首先會擬合具有干凈標簽的訓練數(shù)據(jù),，然后逐漸擬合具有不正確標簽的樣本,。但現(xiàn)有方法都沒有研究如何從噪聲數(shù)據(jù)中提取接近決策邊界的難樣本。

在這篇文章中,，通過交替更新確信樣本并完善分類器,，作者提出了一種深度學習范式，能夠從訓練數(shù)據(jù)中提取困難確信樣本,，從而實現(xiàn)更好的分類性能,。作者的想法類似于物理學中動量的運用，將分類器看作是在假設空間中移動的粒子,，從確信的數(shù)據(jù)中獲得加速度,。通過正確利用之前提取的確信樣本，可以實現(xiàn)具有更好性能的分類器,。這類似于優(yōu)化中使用的動量技巧,，之前的梯度信息可以用來跳出局部最小值并實現(xiàn)快速收斂率。在高層次上,，所提出的方法建立在深度神經(jīng)網(wǎng)絡的記憶效應和更好的確信樣本將導致更好的分類器以及更好的分類器將識別出更好的確信樣本（和困難的確信樣本）的直覺之上,。因此，所提出的方法被稱為記憶動量（Me-Momentum）,。

研究方法

作者提出的提取困難置信樣本并提高分類性能的記憶動量方法,，在高層次上，通過交替更新確信樣本和完善分類器,，Me-Momentum實現(xiàn)了一個正循環(huán),，即通過的確信樣本獲得更好的分類器，更好的分類器又反過來篩選出更好的確信樣本,。Me-Momentum有內外兩個循環(huán),。在內循環(huán)中交替更新確信樣本和分類器。在外循環(huán)重新初始化分類器,，同時保持先前提取的確信樣本,，避免因內循環(huán)在先前分類器基礎上繼續(xù)訓練而對于分類器初始化的嚴重依賴。

算法流程:

算法第一步,，為正循環(huán)初始化一個用于初步選擇確信樣本的分類器,，使用了早期停止的策略避免網(wǎng)絡擬合錯誤樣本，這種初始化利用了神經(jīng)網(wǎng)絡首先擬合干凈數(shù)據(jù)的記憶效應,。（有關記憶效應相關內容可以查看文獻（Devansh Arpit, 2017）,，其中講述了神經(jīng)網(wǎng)絡可以通過記憶強行擬合被隨機標注的數(shù)據(jù)。（Zhang, 2017）講述了網(wǎng)絡總是優(yōu)先擬合更為簡單的真實模式,，隨后才是記憶更為復雜的噪聲模式）

算法第二步,，由于初始化的分類器是利用早期停止和記憶效應獲得的,，所以分類器主要擬合的是確信樣本，因此可以認為標簽與分類器預測結果相同的樣本為確信樣本,。

算法第三步,，利用先前的分類器的權重初始化網(wǎng)絡，同時用上一步篩選出的確信樣本訓練分類器,，這就實現(xiàn)了使用更好的訓練樣本來獲得更好的分類器,。

算法第四步，反復執(zhí)行二三步,，使不斷篩選確信樣本和優(yōu)化分類器過程在驗證精度不再提升時跳出,。

算法第五步，利用隨機初始化而非使用先前的權重初始化網(wǎng)絡,，使用先前篩選出的確信樣本訓練分類器,，防止始終使用先前分類器的權重導致結果嚴重依賴初始化結果。

算法第六步,，反復執(zhí)行二到五步,，在第五步中隨機初始化的網(wǎng)絡在訓練后的驗證精度不再提升時結束整個流程。

實驗驗證

在本節(jié)中,，作者進行實驗來展示所提出的Me-Momentum在MNIST,、CIFAR10、CIFAR100和真實世界標簽噪聲數(shù)據(jù)集 Clothing1M上的有效性,。在MNIST和CIFAR上,，作者生成了類別相關和實例相關的標簽噪聲（相較于需要標簽噪聲與類別相關的噪聲轉移矩陣方法，Me-Momentum可以處理實例相關噪聲） ,，并可視化提取的困難確信樣本，從而證明了Me-Momentum始終優(yōu)于基線方法,。

如圖 1 所示,，提取的確信樣本的可視化。第一列和第三列是內循環(huán)第一次提取的確信數(shù)據(jù),；而第二列和第四列是外循環(huán)中提取的確信數(shù)據(jù),。綠色點表示第一輪中選定的數(shù)據(jù)。藍色和紅色點分別表示中間輪和最后一輪中新提取的數(shù)據(jù),。

在人工添加了不同程度的類相關噪聲和實例相關噪聲的 MNIST, CIFAR10,CIFAR100 上不同方法分類準確率的均值和標準差如表 1,、表 2、表 3 所示,。

在 Clothing1M 數(shù)據(jù)集上,，作者將 Me-Momentum 與基線方法進行比較，結果如表 4 所示,。 “clean" 和 “noisy" 分別表示驗證數(shù)據(jù)集是干凈的和帶有噪聲的,?？梢杂^察到 Me-Momentum 在帶有噪聲驗證數(shù)據(jù)上表現(xiàn)良好，超過了許多使用干凈驗證數(shù)據(jù)的基線方法,。為了公平比較,，作者也使用了干凈驗證數(shù)據(jù)來驗證作者的方法，在測試準確率方面取得了最高的 75.18% ,，比 T-revision 高出 1% ,、比 Joint Optim 高出 2.95% 。需要注意的是,， Forward 和 T-revision 需要 5 萬個干凈數(shù)據(jù)來估計噪聲轉移矩陣,，而 Me-Momentum 在訓練過程中不需要任何干凈數(shù)據(jù)。此外,，為了展示 Me-Momentum 的魯棒性,，作者使用了從頭開始訓練的 ResNet-50 進行實驗，它取得了第二高的準確率,。

總結

這篇文章中，作者提出了一種名為Me-Momentum的方法,，通過利用深度神經(jīng)網(wǎng)絡的記憶效應,，能夠從帶有噪聲標簽的數(shù)據(jù)中提取困難的確信樣本。作者通過分析提取樣本的統(tǒng)計數(shù)據(jù),、可視化困難確信樣本以及將其分類性能與先進的基線方法進行比較,，從經(jīng)驗上驗證了其有效性

復雜系統(tǒng)安全性和可靠性實驗室|從帶有噪聲標簽的數(shù)據(jù)中提取困難且確信樣本

會員登錄

收藏該商鋪

提示