日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機(jī)站
  • 小程序

    汽車測(cè)試網(wǎng)

  • 公眾號(hào)
    • 汽車測(cè)試網(wǎng)

    • 在線課堂

    • 電車測(cè)試

如何解決數(shù)據(jù)不平衡問題?

2019-04-18 21:14:22·  來源:Charlotte數(shù)據(jù)挖掘 ?  
 
在機(jī)器學(xué)習(xí)的實(shí)踐中,我們通常會(huì)遇到實(shí)際數(shù)據(jù)中正負(fù)樣本比例不平衡的情況,也叫數(shù)據(jù)傾斜。對(duì)于數(shù)據(jù)傾斜的情況,如果選取的算法不合適,或者評(píng)價(jià)指標(biāo)不合適,那么
在機(jī)器學(xué)習(xí)的實(shí)踐中,我們通常會(huì)遇到實(shí)際數(shù)據(jù)中正負(fù)樣本比例不平衡的情況,也叫數(shù)據(jù)傾斜。對(duì)于數(shù)據(jù)傾斜的情況,如果選取的算法不合適,或者評(píng)價(jià)指標(biāo)不合適,那么對(duì)于實(shí)際應(yīng)用線上時(shí)效果往往會(huì)不盡人意,所以如何解決數(shù)據(jù)不平衡問題是實(shí)際生產(chǎn)中非常常見且重要的問題。
什么是類別不平衡問題
 
我們拿到一份數(shù)據(jù)時(shí),如果是二分類問題,通常會(huì)判斷一下正負(fù)樣本的比例,在機(jī)器學(xué)習(xí)中,通常會(huì)遇到正負(fù)樣本極不均衡的情況,如垃圾郵件的分類等;在目標(biāo)檢測(cè)SSD中,也經(jīng)常遇到數(shù)據(jù)不平衡的情況,檢測(cè)器需要在每張圖像中評(píng)價(jià)一萬個(gè)到十萬個(gè)候選位置,然而其中只有很少的點(diǎn)真的含有目標(biāo)物體。這就導(dǎo)致了訓(xùn)練效率低下和簡(jiǎn)單的負(fù)面樣本引發(fā)整個(gè)模型表現(xiàn)下降的問題。
 
如何解決不平衡問題
 
1. 從數(shù)據(jù)角度
  • 主動(dòng)獲?。韩@取更多的少量樣本數(shù)據(jù)
  • 針對(duì)少量樣本數(shù)據(jù),可以盡可能去擴(kuò)大這些少量樣本的數(shù)據(jù)集,或者盡可能去增加他們特有的特征來豐富數(shù)據(jù)的多樣性。譬如,如果是一個(gè)情感分析項(xiàng)目,在分析數(shù)據(jù)比例時(shí)發(fā)現(xiàn)負(fù)樣本(消極情感)的樣本數(shù)量較少,那么我們可以盡可能在網(wǎng)站中搜集更多的負(fù)樣本數(shù)量。
  • 算法采樣:上采樣、下采樣、生成合成數(shù)據(jù)
  • ADASYN采樣方法:
  • ADASYN為樣本較少的類生成合成數(shù)據(jù),其生成的數(shù)據(jù)與更容易學(xué)習(xí)的樣本相比,更難學(xué)習(xí)。基本思想是根據(jù)學(xué)習(xí)難度的不同,對(duì)不同的少數(shù)類的樣本使用加權(quán)分布。其中,更難學(xué)習(xí)的少數(shù)類的樣本比那些更容易學(xué)習(xí)的少數(shù)類的樣本要產(chǎn)生更多的合成數(shù)據(jù)。因此,ADASYN方法通過以下兩種方式改善了數(shù)據(jù)分布的學(xué)習(xí):(1)減少由于類別不平衡帶來的偏差;(2)自適應(yīng)地將分類決策邊界轉(zhuǎn)移到困難的例子。
  • SMOTE采樣方法:
  • 從少數(shù)類創(chuàng)建新的合成點(diǎn),以增加其基數(shù)。但是SMOTE算法也有一定的局限性。具體有兩項(xiàng),一是在近鄰選擇時(shí),存在一定的盲目性。在算法執(zhí)行過程中,需要確定K值,即選擇幾個(gè)近鄰樣本,這個(gè)需要根據(jù)具體的實(shí)驗(yàn)數(shù)據(jù)和實(shí)驗(yàn)人自己解決。二是該算法無法克服非平衡數(shù)據(jù)集的數(shù)據(jù)分布問題,容易產(chǎn)生分布邊緣化的問題。由于負(fù)類樣本的分布決定了其可選擇的近鄰,如果一個(gè)負(fù)類樣本處在負(fù)類樣本的邊緣,則由此負(fù)類樣本和近鄰樣本產(chǎn)生的樣本也會(huì)處在邊緣,從而無法確定正負(fù)類的分類邊界。下圖是以前做的一個(gè)項(xiàng)目應(yīng)用個(gè)各種采樣方法做數(shù)據(jù)增強(qiáng)的情況。(效果不明顯,因?yàn)樵紨?shù)據(jù)的分布重合太明顯,可視化不容易顯示出效果)
  • 圖1 原始數(shù)據(jù)的分布
  •  
  • 圖2 下采樣結(jié)果
  • 圖3 上采樣結(jié)果
  • 數(shù)據(jù)增強(qiáng):加噪音增強(qiáng)模型魯棒性、對(duì)不同性質(zhì)的數(shù)據(jù)也可以做不同的augmentation
  • 改變權(quán)重:設(shè)定懲罰因子,如libsvm等算法里設(shè)置的正負(fù)樣本的權(quán)重項(xiàng)等。懲罰多樣本類別,其實(shí)還可以加權(quán)少樣本類別
注意:在選擇采樣法事需要注意一個(gè)問題,如果你的實(shí)際數(shù)據(jù)是數(shù)據(jù)不平衡的,在訓(xùn)練模型時(shí)發(fā)現(xiàn)效果不好,于是采取了采樣法平衡的數(shù)據(jù)的比例再來進(jìn)行訓(xùn)練,然后去測(cè)試數(shù)據(jù)上預(yù)測(cè),這個(gè)時(shí)候算法的效果是否會(huì)有偏差呢?此時(shí)你的訓(xùn)練樣本的分布與測(cè)試樣本的分布已經(jīng)發(fā)生了改變,這樣做反而會(huì)產(chǎn)生不好的效果。在實(shí)際情況中,我們盡可能的需要保持訓(xùn)練和測(cè)試的樣本的概率分布是一致的,如果測(cè)試樣本的分布是不平衡的,那么訓(xùn)練樣本盡可能與測(cè)試樣本的分布保持一致,哪怕拿到手的是已經(jīng)清洗和做過預(yù)處理后的平衡的數(shù)據(jù)。具體原因感興趣的可以仔細(xì)思考一下。
2.從評(píng)價(jià)指標(biāo)角度
  • 謹(jǐn)慎選擇AUC作為評(píng)價(jià)指標(biāo):對(duì)于數(shù)據(jù)極端不平衡時(shí),可以觀察觀察不同算法在同一份數(shù)據(jù)下的訓(xùn)練結(jié)果的precision和recall,這樣做有兩個(gè)好處,一是可以了解不同算法對(duì)于數(shù)據(jù)的敏感程度,二是可以明確采取哪種評(píng)價(jià)指標(biāo)更合適。針對(duì)機(jī)器學(xué)習(xí)中的數(shù)據(jù)不平衡問題,建議更多PR(Precision-Recall曲線),而非ROC曲線,具體原因畫圖即可得知,如果采用ROC曲線來作為評(píng)價(jià)指標(biāo),很容易因?yàn)锳UC值高而忽略實(shí)際對(duì)少兩樣本的效果其實(shí)并不理想的情況。
  • 不要只看Accuracy:Accuracy可以說是最模糊的一個(gè)指標(biāo)了,因?yàn)檫@個(gè)指標(biāo)高可能壓根就不能代表業(yè)務(wù)的效果好,在實(shí)際生產(chǎn)中,我們可能更關(guān)注precision/recall/mAP等具體的指標(biāo),具體側(cè)重那個(gè)指標(biāo),得結(jié)合實(shí)際情況看。
3.從算法角度
  • 選擇對(duì)數(shù)據(jù)傾斜相對(duì)不敏感的算法。如樹模型等。
  • 集成學(xué)習(xí)(Ensemble集成算法)。首先從多數(shù)類中獨(dú)立隨機(jī)抽取出若干子集,將每個(gè)子集與少數(shù)類數(shù)據(jù)聯(lián)合起來訓(xùn)練生成多個(gè)基分類器,再加權(quán)組成新的分類器,如加法模型、Adaboost、隨機(jī)森林等。
  • 將任務(wù)轉(zhuǎn)換成異常檢測(cè)問題。譬如有這樣一個(gè)項(xiàng)目,需要從高壓線的航拍圖片中,將松動(dòng)的螺絲/零件判斷為待檢測(cè)站點(diǎn),即負(fù)樣本,其他作為正樣本,這樣來看,數(shù)據(jù)傾斜是非常嚴(yán)重的,而且在圖像質(zhì)量一般的情況下小物體檢測(cè)的難度較大,所以不如將其轉(zhuǎn)換為無監(jiān)督的異常檢測(cè)算法,不用過多的去考慮將數(shù)據(jù)轉(zhuǎn)換為平衡問題來解決。
目標(biāo)檢測(cè)中的不平衡問題的進(jìn)展

1.GHM_Detection
論文:https://arvix.org/pdf/1811.05181.pdf
github:https://github.com/libuyu/GHM_Detection
本文是香港中文大學(xué)發(fā)表于 AAAI 2019 的工作,文章從梯度的角度解決樣本中常見的正負(fù)樣本不均衡的問題。從梯度的角度給計(jì)算 loss 的樣本加權(quán),相比與 OHEM 的硬截?cái)啵@種思路和 Focal Loss 一樣屬于軟截?cái)唷?/div>
文章設(shè)計(jì)的思路不僅可以用于分類 loss 改進(jìn),對(duì)回歸 loss 也很容易進(jìn)行嵌入。不需要考慮 Focal Loss 的超參設(shè)計(jì)問題,同時(shí)文章提出的方法效果比 Focal Loss 更好。創(chuàng)新點(diǎn)相當(dāng)于 FL 的下一步方案,給出了解決 class-imbalance 的另一種思路,開了一條路,估計(jì)下一步會(huì)有很多這方面的 paper 出現(xiàn)。

2.Focal Loss for Dense Object Detection
論文:
Focal Loss:https://arxiv.org/abs/1708.02002
RetinaNet:https://github.com/unsky/RetinaNet
github:https://github.com/unsky/focal-loss
本文通過重塑標(biāo)準(zhǔn)交叉熵?fù)p失來解決這一類不平衡問題。他們的想法是降低簡(jiǎn)單的負(fù)面樣本所占的權(quán)重,所以他們提出的焦點(diǎn)損失(Focal Loss)方法將訓(xùn)練集中在一系列難點(diǎn)上,并且防止了大量的簡(jiǎn)單負(fù)面例子在訓(xùn)練過程中阻礙探測(cè)器學(xué)習(xí)。如上圖,參數(shù) γ 的值選擇得越大,模型就會(huì)對(duì)已經(jīng)得到了很好的分類的樣本忽略得越多,越專注于難的樣本的學(xué)習(xí)。這樣的機(jī)制就讓他們的檢測(cè)器在密集對(duì)象檢測(cè)這樣的真實(shí)正面樣本比例很低的情況下取得了很高的準(zhǔn)確率。對(duì)于應(yīng)對(duì)樣本不平衡問題的關(guān)鍵方法“焦距損失”,作者們?cè)谡撐闹羞€提出了兩種不同的表現(xiàn)形式,都起到了很好的效果.
 
3.在線困難樣例挖掘(online hard example mining, OHEM)
目標(biāo)檢測(cè)的另一個(gè)問題是類別不平衡,圖像中大部分的區(qū)域是不包含目標(biāo)的,而只有小部分區(qū)域包含目標(biāo)。此外,不同目標(biāo)的檢測(cè)難度也有很大差異,絕大部分的目標(biāo)很容易被檢測(cè)到,而有一小部分目標(biāo)卻十分困難。OHEM和Boosting的思路類似,其根據(jù)損失值將所有候選區(qū)域進(jìn)行排序,并選擇損失值最高的一部分候選區(qū)域進(jìn)行優(yōu)化,使網(wǎng)絡(luò)更關(guān)注于圖像中更困難的目標(biāo)。此外,為了避免選到相互重疊很大的候選區(qū)域,OHEM對(duì)候選區(qū)域根據(jù)損失值進(jìn)行NMS。
 
總之,針對(duì)數(shù)據(jù)不平衡問題,有多重解決方式,但是不能為了解決這個(gè)問題就去改變數(shù)據(jù)的真實(shí)分布來得到更好的結(jié)果,可以從算法、loss function的設(shè)計(jì)等等多種角度來選擇解決數(shù)據(jù)不平衡的方法。 
分享到:
 
反對(duì) 0 舉報(bào) 0 收藏 0 評(píng)論 0
滬ICP備11026917號(hào)-25