日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機站
  • 小程序

    汽車測試網

  • 公眾號
    • 汽車測試網

    • 在線課堂

    • 電車測試

首頁 > 汽車技術 > 正文

基于動態(tài)表示和決策門的深度神經網絡有效推理

2019-04-11 00:06:38·  來源:同濟智能汽車研究所  
 
作者:MohammadSaeedShafiee*編譯:同濟智能汽車研究所編輯:啜小雪摘要:在神經網絡的深度和其計算成本之間難以權衡的問題使得當前很難將深度神經網絡應用于許
作者:Mohammad Saeed Shafiee* 
編譯:同濟智能汽車研究所
編輯:啜小雪
 
摘要:在神經網絡的深度和其計算成本之間難以權衡的問題使得當前很難將深度神經網絡應用于許多工業(yè)應用,尤其是在計算能力有限的情況下。在這篇文章中,我們受到這樣的想法啟發(fā):雖然需要更深的嵌入來區(qū)分復雜的樣本,但是通過較淺的嵌入可以很好地區(qū)分大批量的樣本。在本研究中,我們介紹了決策門(d-gate)的概念,訓練這些模塊來決定是否需要將樣本投影到更深的嵌入中,或者是否可以在決策門進行早期預測,從而能夠計算不同深度的動態(tài)表示。所提出的決策門模塊可以與任何深度神經網絡集成,并且在保持建模精度的同時降低深度神經網絡的平均計算成本。實驗結果表明,在 CIFAR10 數據集上訓練后,利用提出的決策門模塊,ResNet-101 加速約 38%,FLOPS 減少約 39%,DenseNet-201 加速約 46%,FLOPS 減少約 36%,精度僅下降約 2%。
 
一、介紹
 
之前的研究[16]已經表明,更深層的網絡架構通常會帶來更好的建模性能;然而,更深層的網絡架構也會帶來一些問題。除了變得更容易過擬合和更難訓練之外,深度和計算成本之間的權衡使得許多工業(yè)應用很難采用更深的架構。
 
He 等人[7]通過引入殘差學習的概念,解決了深層神經網絡學習中的退化問題(例如梯度消失),其中學習是基于殘差映射,而不是直接基于未參照映射。緊隨其后是,Xie 等人[19]利用殘差塊結構中的初始思想(即分裂-變換-合并策略)來提供更好的子空間建模,同時解決退化問題,從而得到具有改進建模精度的 ResNext 體系結構。為了解決計算成本問題,人們提出了各種各樣的方法,包括:精度降低[10]、模型壓縮[6]、師生策略[8]和進化算法[13,14]。
 
最近,條件計算[1,4,12,18,2]和早期預測[17]方法已經被提出來處理這個問題,這些方法涉及網絡內不同模塊的動態(tài)執(zhí)行。條件計算方法在很大程度上受到以下思想的推動:殘余網絡可被視為較淺網絡的集合。因此,這些方法利用跳躍連接來確定哪些剩余模塊需要執(zhí)行,其中大多數利用了增強學習。
 
在本研究中,我們主要探究早期預測這個想法,但取而代之的是從軟邊際支持向量機[3]理論中得到決策啟示。特別地,我們引入決策門的概念,訓練模塊以決定是否需要將樣本投影到更深的嵌入中,或是否可以在決策門處進行早期預測,從而能夠在不同深度上進行動態(tài)表示的條件計算。所提出的決策門模塊可以與任何深層神經網絡集成,而不需要從頭訓練網絡,從而在保持模型精度的同時降低了深層神經網絡的平均計算復雜度。
圖1 決策門被直接集成到深層神經網絡中,并且被訓練來預測決策是在決策門處做出還是需要投影到深層嵌入中。

二、方法論
 
與淺層結構相比,深層神經網絡結構能夠提供更好的數據子空間嵌入,從而能夠更好地區(qū)分數據空間,進而得到更好的建模精度。受軟邊際支持向量機[3]理論的啟發(fā),我們提出了一個假設,盡管對于在較低的網絡層的并且位于決策邊界的上的樣本使用更深的嵌入式子空間是必要的,但是他們實際上對于那些在淺層嵌入式空間并且已經遠離決策邊界的點已經不重要了。因此,用于確定樣本與網絡下層中的決策邊界之間的距離的有效機制將使得能夠在不將樣本投影到更深的嵌入空間中,對這些樣本執(zhí)行早期預測成為可能。這種方法將大大降低預測的平均計算成本。然而,設計一種有效的方法來確定樣本是否為邊界樣本是一個具有挑戰(zhàn)性的問題。
 
這里,我們將早期預測問題描述為風險最小化問題,并引入一組直接集成到深層神經網絡(參見圖1)的單層前向傳播網絡(我們稱為決策門)。決策門模塊的目標不僅是確定樣本是否需要投影到深嵌入空間中,而且還最小化早期錯誤分類的風險。具體而言,我們訓練決策門模塊,該決策門模塊通過鉸鏈損耗[5]集成到深度神經網絡中,該鉸鏈損耗[5]使得在較低嵌入中早期誤分類的風險最小化,同時決定樣本是否是邊界樣本: 
其中,y 是輸入數據x的真值標簽, 是通過具有權重 w 和偏置 b 集合的決策門模塊預測的類標簽。權重 w 的集合具有 fxc 的維數,其中,f 表示向決策門模塊的輸入特征的數量,c 表示分類任務中的類標簽的數量。該決策門模塊提供了重要的優(yōu)勢,其中的結果 wTx-b 提供了樣本到嵌入空間中每個類標簽的相應決策邊界的距離。以這種方式訓練決策門模塊提供了線性分類器,其中不需要更深嵌入以進行區(qū)分的樣本是那些與決策邊界具有較大距離(即為正號)的樣本。值得注意的是,決策門模塊的單層特性旨在考慮效率。
決策門模塊是通過用于訓練深層神經網絡的訓練數據來訓練的,每個決策門模塊的目標是最小化訓練數據的分類誤差。因此,訓練數據上的損失函數可以表述為:
其中 Y 表示所有訓練數據的地面實況標記集。關于 ,最有趣的是  是 w 和 b 的凸函數,因此可以。通過梯度下降優(yōu)化。因此,這里可以采用傳統(tǒng)的梯度下降,其中沿著從函數的次梯度[15]中選擇的向量的方向采取步驟以找到優(yōu)化值。因此,決策門可以在小批量訓練框架下進行訓練,這使得它在具有大數據集的深層神經網絡訓練中的應用非常方便。
在本質上,所提出的決策門模塊可以基于 wTx-b 計算每個樣本到決策邊界的距離;計算出的距離與各決策門決策閾值t比較以確定是否需要對樣品在決策門進行早期預測,或者將樣本移動到深度神經網絡的更深的網絡階層來提高預測的效果。遠離決策邊界的樣本導致在 wTx-b 中輸出較大值;因此,如果樣本的決策門距離滿足決策門決策閾值,則對應于最大距離的類被分配為該早期預測步驟中樣本的預測類標簽。
圖2:精確度與 FLOP 的數量:通過建議的鉸鏈損失訓練有決策門的網絡的性能與通過傳統(tǒng)的交叉熵損失方法訓練的決策門進行比較??梢钥闯?,通過鉸鏈損耗訓練的決策門比使用交叉熵損耗時具有更高的計算效率和更高的精度
 
表1:ReNET-101 和 DeNeNET-201 的實驗結果與不同的決策門配置。將每個配置的觸發(fā)器的平均數和精度與原始網絡的平均數進行比較。決策門(T1,T2)表示具有兩個決策門模塊的網絡,分別配置有決策閾值 T1 和 T2。

三、結果與討論
在 CIFAR10 數據集上,使用兩種不同的網絡體系結構(ResNet101[7]和DenseNet201[9])來檢驗所提出的決策門模塊的有效性。該決策門模塊的一個主要優(yōu)點是它能夠通過調整 d 門決策閾值,進而精確控制建模精度和計算成本之間的平衡。通過降低決策門決策閾值,增加進行早期預測的樣本數,從而大大降低網絡的預測平均計算成本。在這項研究中,我們結合兩 Resnet-101 決策門模塊(在第一和第二主塊)和 Densenet-201(后的第一和第二的致密塊),并探討不同的決策門配置。在 Pytorch 框架中實現網絡,并且基于單個 Nvidia TITAN XP GPU 報告預測速度。
 
從表 1 中可以觀察到,通過集成具有(t1,t2)=(2.5,2.5)的決策閾值的兩個決策門模塊,ResNet 網絡的計算成本可減少 67MFLOPS,同時保持與原始 ResNet-101 相同的精度水平。決策門模塊的集成可以使 ResNet-101 網絡的計算成本降低 39%(即降低1.95GFLOPS),與原始的 ResNet-101(在決策門 1 和決策門 2 中具有距離閾值(t1,t2)=(1.0,2.0))相比,準確度降低 1.7%,導致 38% 的加速。對 DenseNet-201 的試驗表明,在精度只有 2% 下降的情況下,將 FLOP 的數量減少 970MFLOP(36%)是可能的,從而加速 46%。此外,在精度 3% 的范圍內,使用決策門模塊可以達到與原來的 DenseNet-201 相比 2.3 倍的加速。基于實驗結果,提出的決策門模塊導致預測速度顯著增加,使得它非常適合于工業(yè)應用。
 
除了提出的決策門模塊外,本文的主要貢獻之一是引入了用于訓練決策門模塊的鉸鏈損耗。過去的研究[11]認為交叉熵在決策邊界和訓練數據之間產生的差距很小。因此,由于 Softmax 輸出中沒有有價值的信息,所以很難信任 Softmax 層的置信值來決定樣本。為了驗證所提出的決策門中鉸鏈損耗與交叉熵損耗相比的有效性,進行了額外的對比實驗。更具體地,兩個決策門以與報告相同的方式添加到 ResNET101。然而,不是訓練使用建議的鉸鏈損耗,而是通過交叉熵損失來訓練決策門。這使我們能夠比較鉸鏈損耗與交叉熵損失對決策門功能的影響。
 
圖 2 顯示了基于所提議的鉸鏈損失法訓練決策門的網絡的精確度與 FLOP 的數量,與使用常規(guī)交叉熵訓練過程訓練相比??梢杂^察到,在網絡中具有相同數量的 FLOP 的情況下,基于所提出的鉸鏈損耗訓練決策門的網絡與通過交叉熵損耗訓練的網絡相比,提供了更高的建模精度。當判決門被配置成使得網絡使用較少數量的觸發(fā)器時,精度間隙呈指數增加。這說明了上述使用交叉熵損失和決策邊界的問題。

參考文獻
[1] Emmanuel Bengio, Pierre-Luc Bacon, Joelle Pineau, and Doina Precup.Conditional computation in neural networks for faster models. arXiv preprintarXiv:1511.06297, 2015.
[2] Tolga Bolukbasi, Joseph Wang, Ofer Dekel, and Venkatesh Saligrama.Adaptive neural networks for ef?cient inference. arXivpreprint arXiv:1702.07811, 2017.
[3] Corinna Cortes and Vladimir Vapnik. Support-vector networks. Machinelearning, 20(3):273–297, 1995.
[4] Ludovic Denoyer and PatrickGallinari. Deep sequential neural network.arXiv preprint arXiv:1410.0510, 2014.
[5] Ürün Dogan, Tobias Glasmachers, and Christian Igel. A uni?ed viewon multi-class support vector classi?cation. Journal ofMachine Learning Research, 17(45):1–32, 2016.
[6] Song Han, Huizi Mao, and William J Dally. Deep compression:Compressing deep neural networks with pruning, trained quantization and huffmancoding. arXiv preprint arXiv:1510.00149, 2015.
[7] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residuallearning for image recognition. In Proceedings of the IEEE conference oncomputer vision and pattern recognition, pages 770–778, 2016.
[8] Geoffrey Hinton, Oriol Vinyals, and Jeff Dean. Distilling theknowledge in a neural network. arXiv preprint arXiv:1503.02531, 2015.
[9] Gao Huang, Zhuang Liu, Laurens Van Der Maaten, and Kilian QWeinberger. Densely connected convolutional networks. In CVPR, volume 1, page3, 2017.
[10] Benoit Jacob, Skirmantas Kligys, Bo Chen, Menglong Zhu, Matthew Tang,Andrew Howard, Hartwig Adam, and Dmitry Kalenichenko. Quantization and trainingof neural networks for ef?cientintegerarithmetic-only inference. arXiv preprint arXiv:1712.05877, 2017.
[11] Xuezhi Liang, Xiaobo Wang, Zhen Lei, Shengcai Liao, and Stan Z Li.Soft-margin softmax for deep classi?cation. In InternationalConference on Neural Information Processing, pages 413–421. Springer, 2017.
[12] Lanlan Liu and Jia Deng. Dynamic deep neural networks: Optimizingaccuracy-ef?ciency trade-offs by selective execution. arXivpreprint arXiv:1701.00299, 2017.
[13] M. Sha?ee, A. Mishra, and A. Wong. Deep learning withdarwin: Evolutionary synthesis of deep neural networks. arXiv:1606.04393, 2016.
[14] M. Sha?ee and A. Wong. Evolutionary synthesis of deepneural networks via synaptic cluster-driven genetic encoding. In NIPS Workshop,2016.
[15] Shai Shalev-Shwartz, Yoram Singer, Nathan Srebro, and Andrew Cotter.Pegasos: Primal estimated subgradient solver for svm. Mathematical programming,127(1):3–30, 2011.
[16] Karen Simonyan and Andrew Zisserman. Very deep convolutional networksfor large-scale image recognition. arXiv preprint arXiv:1409.1556, 2014.
[17] Surat Teerapittayanon, Bradley McDanel, and HT Kung. Branchynet: Fastinference via early exiting from deep neural networks. In Pattern Recognition(ICPR), 2016 23rd International Conference on, pages 2464–2469. IEEE, 2016.
[18] Zuxuan Wu, Tushar Nagarajan, Abhishek Kumar, Steven Rennie, Larry SDavis, Kristen Grauman, and Rogerio Feris. Blockdrop: Dynamic inference pathsin residual networks. In Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition, pages 8817–8826, 2018.
[19] Saining Xie, Ross Girshick, Piotr Dollár, Zhuowen Tu, and Kaiming He.Aggregated residual transformations for deep neural networks. In ComputerVision and Pattern Recognition (CVPR), 2017 IEEE Conference on, pages5987–5995. IEEE, 2017. 
分享到:
 
反對 0 舉報 0 收藏 0 評論 0
滬ICP備11026917號-25