如何解決數(shù)據(jù)不平衡問題？

2019-04-18 21:14:22· 來源：Charlotte數(shù)據(jù)挖掘 ?

在機(jī)器學(xué)習(xí)的實(shí)踐中，我們通常會(huì)遇到實(shí)際數(shù)據(jù)中正負(fù)樣本比例不平衡的情況，也叫數(shù)據(jù)傾斜。對(duì)于數(shù)據(jù)傾斜的情況，如果選取的算法不合適，或者評(píng)價(jià)指標(biāo)不合適，那么對(duì)于實(shí)際應(yīng)用線上時(shí)效果往往會(huì)不盡人意，所以如何解決數(shù)據(jù)不平衡問題是實(shí)際生產(chǎn)中非常常見且重要的問題。

什么是類別不平衡問題

我們拿到一份數(shù)據(jù)時(shí)，如果是二分類問題，通常會(huì)判斷一下正負(fù)樣本的比例，在機(jī)器學(xué)習(xí)中，通常會(huì)遇到正負(fù)樣本極不均衡的情況，如垃圾郵件的分類等；在目標(biāo)檢測(cè)SSD中，也經(jīng)常遇到數(shù)據(jù)不平衡的情況，檢測(cè)器需要在每張圖像中評(píng)價(jià)一萬個(gè)到十萬個(gè)候選位置，然而其中只有很少的點(diǎn)真的含有目標(biāo)物體。這就導(dǎo)致了訓(xùn)練效率低下和簡(jiǎn)單的負(fù)面樣本引發(fā)整個(gè)模型表現(xiàn)下降的問題。

如何解決不平衡問題

1. 從數(shù)據(jù)角度

主動(dòng)獲?。韩@取更多的少量樣本數(shù)據(jù)
針對(duì)少量樣本數(shù)據(jù)，可以盡可能去擴(kuò)大這些少量樣本的數(shù)據(jù)集，或者盡可能去增加他們特有的特征來豐富數(shù)據(jù)的多樣性。譬如，如果是一個(gè)情感分析項(xiàng)目，在分析數(shù)據(jù)比例時(shí)發(fā)現(xiàn)負(fù)樣本（消極情感）的樣本數(shù)量較少，那么我們可以盡可能在網(wǎng)站中搜集更多的負(fù)樣本數(shù)量。
算法采樣：上采樣、下采樣、生成合成數(shù)據(jù)
ADASYN采樣方法：
ADASYN為樣本較少的類生成合成數(shù)據(jù)，其生成的數(shù)據(jù)與更容易學(xué)習(xí)的樣本相比，更難學(xué)習(xí)。基本思想是根據(jù)學(xué)習(xí)難度的不同，對(duì)不同的少數(shù)類的樣本使用加權(quán)分布。其中，更難學(xué)習(xí)的少數(shù)類的樣本比那些更容易學(xué)習(xí)的少數(shù)類的樣本要產(chǎn)生更多的合成數(shù)據(jù)。因此，ADASYN方法通過以下兩種方式改善了數(shù)據(jù)分布的學(xué)習(xí)：(1)減少由于類別不平衡帶來的偏差；(2)自適應(yīng)地將分類決策邊界轉(zhuǎn)移到困難的例子。
SMOTE采樣方法:
從少數(shù)類創(chuàng)建新的合成點(diǎn)，以增加其基數(shù)。但是SMOTE算法也有一定的局限性。具體有兩項(xiàng)，一是在近鄰選擇時(shí)，存在一定的盲目性。在算法執(zhí)行過程中，需要確定Ｋ值，即選擇幾個(gè)近鄰樣本，這個(gè)需要根據(jù)具體的實(shí)驗(yàn)數(shù)據(jù)和實(shí)驗(yàn)人自己解決。二是該算法無法克服非平衡數(shù)據(jù)集的數(shù)據(jù)分布問題，容易產(chǎn)生分布邊緣化的問題。由于負(fù)類樣本的分布決定了其可選擇的近鄰，如果一個(gè)負(fù)類樣本處在負(fù)類樣本的邊緣，則由此負(fù)類樣本和近鄰樣本產(chǎn)生的樣本也會(huì)處在邊緣，從而無法確定正負(fù)類的分類邊界。下圖是以前做的一個(gè)項(xiàng)目應(yīng)用個(gè)各種采樣方法做數(shù)據(jù)增強(qiáng)的情況。（效果不明顯，因?yàn)樵紨?shù)據(jù)的分布重合太明顯，可視化不容易顯示出效果）
圖1 原始數(shù)據(jù)的分布
圖2 下采樣結(jié)果
圖3 上采樣結(jié)果
數(shù)據(jù)增強(qiáng)：加噪音增強(qiáng)模型魯棒性、對(duì)不同性質(zhì)的數(shù)據(jù)也可以做不同的augmentation
改變權(quán)重：設(shè)定懲罰因子，如libsvm等算法里設(shè)置的正負(fù)樣本的權(quán)重項(xiàng)等。懲罰多樣本類別，其實(shí)還可以加權(quán)少樣本類別

注意：在選擇采樣法事需要注意一個(gè)問題，如果你的實(shí)際數(shù)據(jù)是數(shù)據(jù)不平衡的，在訓(xùn)練模型時(shí)發(fā)現(xiàn)效果不好，于是采取了采樣法平衡的數(shù)據(jù)的比例再來進(jìn)行訓(xùn)練，然后去測(cè)試數(shù)據(jù)上預(yù)測(cè)，這個(gè)時(shí)候算法的效果是否會(huì)有偏差呢？此時(shí)你的訓(xùn)練樣本的分布與測(cè)試樣本的分布已經(jīng)發(fā)生了改變，這樣做反而會(huì)產(chǎn)生不好的效果。在實(shí)際情況中，我們盡可能的需要保持訓(xùn)練和測(cè)試的樣本的概率分布是一致的，如果測(cè)試樣本的分布是不平衡的，那么訓(xùn)練樣本盡可能與測(cè)試樣本的分布保持一致，哪怕拿到手的是已經(jīng)清洗和做過預(yù)處理后的平衡的數(shù)據(jù)。具體原因感興趣的可以仔細(xì)思考一下。

2.從評(píng)價(jià)指標(biāo)角度

謹(jǐn)慎選擇AUC作為評(píng)價(jià)指標(biāo)：對(duì)于數(shù)據(jù)極端不平衡時(shí)，可以觀察觀察不同算法在同一份數(shù)據(jù)下的訓(xùn)練結(jié)果的precision和recall，這樣做有兩個(gè)好處，一是可以了解不同算法對(duì)于數(shù)據(jù)的敏感程度，二是可以明確采取哪種評(píng)價(jià)指標(biāo)更合適。針對(duì)機(jī)器學(xué)習(xí)中的數(shù)據(jù)不平衡問題，建議更多PR(Precision-Recall曲線)，而非ROC曲線，具體原因畫圖即可得知，如果采用ROC曲線來作為評(píng)價(jià)指標(biāo)，很容易因?yàn)锳UC值高而忽略實(shí)際對(duì)少兩樣本的效果其實(shí)并不理想的情況。
不要只看Accuracy：Accuracy可以說是最模糊的一個(gè)指標(biāo)了，因?yàn)檫@個(gè)指標(biāo)高可能壓根就不能代表業(yè)務(wù)的效果好，在實(shí)際生產(chǎn)中，我們可能更關(guān)注precision/recall/mAP等具體的指標(biāo)，具體側(cè)重那個(gè)指標(biāo)，得結(jié)合實(shí)際情況看。

3.從算法角度

選擇對(duì)數(shù)據(jù)傾斜相對(duì)不敏感的算法。如樹模型等。
集成學(xué)習(xí)（Ensemble集成算法）。首先從多數(shù)類中獨(dú)立隨機(jī)抽取出若干子集，將每個(gè)子集與少數(shù)類數(shù)據(jù)聯(lián)合起來訓(xùn)練生成多個(gè)基分類器，再加權(quán)組成新的分類器，如加法模型、Adaboost、隨機(jī)森林等。
將任務(wù)轉(zhuǎn)換成異常檢測(cè)問題。譬如有這樣一個(gè)項(xiàng)目，需要從高壓線的航拍圖片中，將松動(dòng)的螺絲/零件判斷為待檢測(cè)站點(diǎn)，即負(fù)樣本，其他作為正樣本，這樣來看，數(shù)據(jù)傾斜是非常嚴(yán)重的，而且在圖像質(zhì)量一般的情況下小物體檢測(cè)的難度較大，所以不如將其轉(zhuǎn)換為無監(jiān)督的異常檢測(cè)算法，不用過多的去考慮將數(shù)據(jù)轉(zhuǎn)換為平衡問題來解決。

目標(biāo)檢測(cè)中的不平衡問題的進(jìn)展

1.GHM_Detection

論文：https://arvix.org/pdf/1811.05181.pdf

github：https://github.com/libuyu/GHM_Detection

本文是香港中文大學(xué)發(fā)表于 AAAI 2019 的工作，文章從梯度的角度解決樣本中常見的正負(fù)樣本不均衡的問題。從梯度的角度給計(jì)算 loss 的樣本加權(quán)，相比與 OHEM 的硬截?cái)啵@種思路和 Focal Loss 一樣屬于軟截?cái)唷?/div>

文章設(shè)計(jì)的思路不僅可以用于分類 loss 改進(jìn)，對(duì)回歸 loss 也很容易進(jìn)行嵌入。不需要考慮 Focal Loss 的超參設(shè)計(jì)問題，同時(shí)文章提出的方法效果比 Focal Loss 更好。創(chuàng)新點(diǎn)相當(dāng)于 FL 的下一步方案，給出了解決 class-imbalance 的另一種思路，開了一條路，估計(jì)下一步會(huì)有很多這方面的 paper 出現(xiàn)。

2.Focal Loss for Dense Object Detection

論文：

Focal Loss：https://arxiv.org/abs/1708.02002

RetinaNet：https://github.com/unsky/RetinaNet

github：https://github.com/unsky/focal-loss

本文通過重塑標(biāo)準(zhǔn)交叉熵?fù)p失來解決這一類不平衡問題。他們的想法是降低簡(jiǎn)單的負(fù)面樣本所占的權(quán)重，所以他們提出的焦點(diǎn)損失（Focal Loss）方法將訓(xùn)練集中在一系列難點(diǎn)上，并且防止了大量的簡(jiǎn)單負(fù)面例子在訓(xùn)練過程中阻礙探測(cè)器學(xué)習(xí)。如上圖，參數(shù) γ 的值選擇得越大，模型就會(huì)對(duì)已經(jīng)得到了很好的分類的樣本忽略得越多，越專注于難的樣本的學(xué)習(xí)。這樣的機(jī)制就讓他們的檢測(cè)器在密集對(duì)象檢測(cè)這樣的真實(shí)正面樣本比例很低的情況下取得了很高的準(zhǔn)確率。對(duì)于應(yīng)對(duì)樣本不平衡問題的關(guān)鍵方法“焦距損失”，作者們?cè)谡撐闹羞€提出了兩種不同的表現(xiàn)形式，都起到了很好的效果.

3.在線困難樣例挖掘(online hard example mining, OHEM)

目標(biāo)檢測(cè)的另一個(gè)問題是類別不平衡，圖像中大部分的區(qū)域是不包含目標(biāo)的，而只有小部分區(qū)域包含目標(biāo)。此外，不同目標(biāo)的檢測(cè)難度也有很大差異，絕大部分的目標(biāo)很容易被檢測(cè)到，而有一小部分目標(biāo)卻十分困難。OHEM和Boosting的思路類似，其根據(jù)損失值將所有候選區(qū)域進(jìn)行排序，并選擇損失值最高的一部分候選區(qū)域進(jìn)行優(yōu)化，使網(wǎng)絡(luò)更關(guān)注于圖像中更困難的目標(biāo)。此外，為了避免選到相互重疊很大的候選區(qū)域，OHEM對(duì)候選區(qū)域根據(jù)損失值進(jìn)行NMS。

總之，針對(duì)數(shù)據(jù)不平衡問題，有多重解決方式，但是不能為了解決這個(gè)問題就去改變數(shù)據(jù)的真實(shí)分布來得到更好的結(jié)果，可以從算法、loss function的設(shè)計(jì)等等多種角度來選擇解決數(shù)據(jù)不平衡的方法。

分享到：

微信“掃一掃”
分享到朋友圈

下一篇：華域汽車舒適制動(dòng)的精準(zhǔn)之道
上一篇：全球第一套真正L3系統(tǒng)：奔馳DRIVE PILOT

點(diǎn)贊 0 反對(duì) 0 舉報(bào) 0 收藏 0 評(píng)論 0

汽車測(cè)試網(wǎng)V課堂
微信公眾號(hào)
汽車測(cè)試網(wǎng)手機(jī)站

相關(guān)閱讀

0 條相關(guān)評(píng)論

• 瓦力大作戰(zhàn)｜輕科普——誤碼儀（BERT）架構(gòu)及測(cè)試原理解析	• 為什么 HUD 合規(guī)真正“卡人”的不是參數(shù)，而是證據(jù)鏈
• 輔助駕駛撞扛樹枝老人、撞環(huán)衛(wèi)工人是預(yù)期功能安全應(yīng)該覆蓋	• 大推力直驅(qū)技術(shù)助力EPS安全測(cè)試，為你的安全出行 “保駕護(hù)
• 單機(jī)體積，雙倍效能！激光切割機(jī)玩轉(zhuǎn)“降本增效”	• 同步難？空間擠？這款雙出軸電機(jī)，是你雙十二的“必囤”硬
• 即刻探索8臺(tái)機(jī)器人如何解放數(shù)百名工人！	• 考慮驅(qū)動(dòng)單元性能變化的分布式驅(qū)動(dòng)智能車輛強(qiáng)化學(xué)習(xí)增強(qiáng)運(yùn)
• eVTOL/飛行汽車→低噪聲氣動(dòng)設(shè)計(jì)與主動(dòng)降噪控制策略1/3	• 比亞迪車輛避撞專利公布

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

如何解決數(shù)據(jù)不平衡問題？

微信公眾號(hào)

編輯推薦

最新資訊

聯(lián)合國(guó)法規(guī)R60對(duì)兩輪車操縱件與指示裝置的

標(biāo)準(zhǔn)立項(xiàng)|《汽車異種材料鉚接接頭拉伸性能

“汽車大角度座椅第1部分：通用要求”將有

“汽車大角度座椅第2部分：可靠性要求”將

電池耐久評(píng)價(jià)開始從“電池單體性能指標(biāo)”轉(zhuǎn)

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

如何解決數(shù)據(jù)不平衡問題？

微信公眾號(hào)

編輯推薦

最新資訊

聯(lián)合國(guó)法規(guī)R60對(duì)兩輪車操縱件與指示裝置的

標(biāo)準(zhǔn)立項(xiàng)|《汽車異種材料鉚接接頭拉伸性能

“汽車大角度座椅 第1部分：通用要求”將有

“汽車大角度座椅 第2部分：可靠性要求”將

電池耐久評(píng)價(jià)開始從“電池單體性能指標(biāo)”轉(zhuǎn)

“汽車大角度座椅第1部分：通用要求”將有

“汽車大角度座椅第2部分：可靠性要求”將