首頁 > 汽車技術(shù) > 正文

機(jī)器學(xué)習(xí)最全知識點(diǎn)匯總

2022-03-06 23:59:43· 來源：機(jī)器學(xué)習(xí)算法與Python實戰(zhàn)

有些應(yīng)用中已知樣本服從的概率分布，但是要估計分布函數(shù)的參數(shù)

，確定這些參數(shù)常用的一種方法是最大似然估計。
最大似然估計構(gòu)造一個似然函數(shù)，通過讓似然函數(shù)最大化，求解出

。最大似然估計的直觀解釋是，尋求一組參數(shù)，使得給定的樣本集出現(xiàn)的概率最大。
假設(shè)樣本服從的概率密度函數(shù)為

，其中X為隨機(jī)變量，

為要估計的參數(shù)。給定一組樣本xi,i =1,...,l，它們都服從這種分布，并且相互獨(dú)立。最大似然估計構(gòu)造如下似然函數(shù)：

其中xi是已知量，這是一個關(guān)于

的函數(shù)，我們要讓該函數(shù)的值最大化，這樣做的依據(jù)是這組樣本發(fā)生了，因此應(yīng)該最大化它們發(fā)生的概率，即似然函數(shù)。這就是求解如下最優(yōu)化問題：

乘積求導(dǎo)不易處理，因此我們對該函數(shù)取對數(shù)，得到對數(shù)似然函數(shù)：

最后要求解的問題為：

最大似然估計在機(jī)器學(xué)習(xí)中的典型應(yīng)用包括logistic回歸，貝葉斯分類器，隱馬爾科夫模型等。

基本概念

1.有監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)

根據(jù)樣本數(shù)據(jù)是否帶有標(biāo)簽值，可以將機(jī)器學(xué)習(xí)算法分成有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)兩類。有監(jiān)督學(xué)習(xí)的樣本數(shù)據(jù)帶有標(biāo)簽值，它從訓(xùn)練樣本中學(xué)習(xí)得到一個模型，然后用這個模型對新的樣本進(jìn)行預(yù)測推斷。有監(jiān)督學(xué)習(xí)的典型代表是分類問題和回歸問題。
無監(jiān)督學(xué)習(xí)對沒有標(biāo)簽的樣本進(jìn)行分析，發(fā)現(xiàn)樣本集的結(jié)構(gòu)或者分布規(guī)律。無監(jiān)督學(xué)習(xí)的典型代表是聚類，表示學(xué)習(xí)，和數(shù)據(jù)降維，它們處理的樣本都不帶有標(biāo)簽值。

2.分類問題與回歸問題

在有監(jiān)督學(xué)習(xí)中，如果樣本的標(biāo)簽是整數(shù)，則預(yù)測函數(shù)是一個向量到整數(shù)的映射，這稱為分類問題。如果標(biāo)簽值是連續(xù)實數(shù)，則稱為回歸問題，此時預(yù)測函數(shù)是向量到實數(shù)的映射。

3.生成模型與判別模型

分類算法可以分成判別模型和生成模型。給定特征向量x與標(biāo)簽值y，生成模型對聯(lián)合概率p(x,y)建模，判別模型對條件概率p(y|x)進(jìn)行建模。另外，不使用概率模型的分類器也被歸類為判別模型，它直接得到預(yù)測函數(shù)而不關(guān)心樣本的概率分布：

判別模型直接得到預(yù)測函數(shù)f(x)，或者直接計算概率值p(y|x)，比如SVM和logistic回歸，softmax回歸，判別模型只關(guān)心決策面，而不管樣本的概率分布的密度。
生成模型計算p(x, y)或者p(x|y) ，通俗來說，生成模型假設(shè)每個類的樣本服從某種概率分布，對這個概率分布進(jìn)行建模。
機(jī)器學(xué)習(xí)中常見的生成模型有貝葉斯分類器，高斯混合模型，隱馬爾可夫模型，受限玻爾茲曼機(jī)，生成對抗網(wǎng)絡(luò)等。典型的判別模型有決策樹，kNN算法，人工神經(jīng)網(wǎng)絡(luò)，支持向量機(jī)，logistic回歸，AdaBoost算法等。

4.交叉驗證

交叉驗證（cross validation）是一種統(tǒng)計準(zhǔn)確率的技術(shù)。k折交叉驗證將樣本隨機(jī)、均勻的分成k份，輪流用其中的k-1份訓(xùn)練模型，1份用于測試模型的準(zhǔn)確率，用k個準(zhǔn)確率的均值作為最終的準(zhǔn)確率。

5.過擬合與欠擬合

欠擬合也稱為欠學(xué)習(xí)，直觀表現(xiàn)是訓(xùn)練得到的模型在訓(xùn)練集上表現(xiàn)差，沒有學(xué)到數(shù)據(jù)的規(guī)律。引起欠擬合的原因有模型本身過于簡單，例如數(shù)據(jù)本身是非線性的但使用了線性模型；特征數(shù)太少無法正確的建立映射關(guān)系。
過擬合也稱為過學(xué)習(xí)，直觀表現(xiàn)是在訓(xùn)練集上表現(xiàn)好，但在測試集上表現(xiàn)不好，推廣泛化性能差。過擬合產(chǎn)生的根本原因是訓(xùn)練數(shù)據(jù)包含抽樣誤差，在訓(xùn)練時模型將抽樣誤差也進(jìn)行了擬合。所謂抽樣誤差，是指抽樣得到的樣本集和整體數(shù)據(jù)集之間的偏差。引起過擬合的可能原因有：
模型本身過于復(fù)雜，擬合了訓(xùn)練樣本集中的噪聲。此時需要選用更簡單的模型，或者對模型進(jìn)行裁剪。訓(xùn)練樣本太少或者缺乏代表性。此時需要增加樣本數(shù)，或者增加樣本的多樣性。訓(xùn)練樣本噪聲的干擾，導(dǎo)致模型擬合了這些噪聲，這時需要剔除噪聲數(shù)據(jù)或者改用對噪聲不敏感的模型。

6.偏差與方差分解

模型的泛化誤差可以分解成偏差和方差。偏差是模型本身導(dǎo)致的誤差，即錯誤的模型假設(shè)所導(dǎo)致的誤差，它是模型的預(yù)測值的數(shù)學(xué)期望和真實值之間的差距。
方差是由于對訓(xùn)練樣本集的小波動敏感而導(dǎo)致的誤差。它可以理解為模型預(yù)測值的變化范圍，即模型預(yù)測值的波動程度。
模型的總體誤差可以分解為偏差的平方與方差之和：

如果模型過于簡單，一般會有大的偏差和小的方差；反之如果模型復(fù)雜則會有大的方差但偏差很小。

7.正則化

為了防止過擬合，可以為損失函數(shù)加上一個懲罰項，對復(fù)雜的模型進(jìn)行懲罰，強(qiáng)制讓模型的參數(shù)值盡可能小以使得模型更簡單，加入懲罰項之后損失函數(shù)為：

正則化被廣泛應(yīng)用于各種機(jī)器學(xué)習(xí)算法，如嶺回歸，LASSO回歸，logistic回歸，神經(jīng)網(wǎng)絡(luò)等。除了直接加上正則化項之外，還有其他強(qiáng)制讓模型變簡單的方法，如決策樹的剪枝算法，神經(jīng)網(wǎng)絡(luò)訓(xùn)練中的dropout技術(shù)，提前終止技術(shù)等。

8.維數(shù)災(zāi)難

為了提高算法的精度，會使用越來越多的特征。當(dāng)特征向量維數(shù)不高時，增加特征確實可以帶來精度上的提升；但是當(dāng)特征向量的維數(shù)增加到一定值之后，繼續(xù)增加特征反而會導(dǎo)致精度的下降，這一問題稱為維數(shù)災(zāi)難。

貝葉斯分類器

貝葉斯分類器將樣本判定為后驗概率最大的類，它直接用貝葉斯公式解決分類問題。假設(shè)樣本的特征向量為x，類別標(biāo)簽為y，根據(jù)貝葉斯公式，樣本屬于每個類的條件概率（后驗概率）為：

分母p(x)對所有類都是相同的，分類的規(guī)則是將樣本歸到后驗概率最大的那個類，不需要計算準(zhǔn)確的概率值，只需要知道屬于哪個類的概率最大即可，這樣可以忽略掉分母。分類器的判別函數(shù)為：

在實現(xiàn)貝葉斯分類器時，需要知道每個類的條件概率分布p(x|y)即先驗概率。一般假設(shè)樣本服從正態(tài)分布。訓(xùn)練時確定先驗概率分布的參數(shù)，一般用最大似然估計，即最大化對數(shù)似然函數(shù)。
如果假設(shè)特征向量的各個分量之間相互獨(dú)立，則稱為樸素貝葉斯分類器，此時的分類判別函數(shù)為：

實現(xiàn)時可以分為特征分量是離散變量和連續(xù)變量兩種情況。貝葉斯分分類器是一種生成模型，可以處理多分類問題，是一種非線性模型。

決策樹

決策樹是一種基于規(guī)則的方法，它用一組嵌套的規(guī)則進(jìn)行預(yù)測。在樹的每個決策節(jié)點(diǎn)處，根據(jù)判斷結(jié)果進(jìn)入一個分支，反復(fù)執(zhí)行這種操作直到到達(dá)葉子節(jié)點(diǎn)，得到預(yù)測結(jié)果。這些規(guī)則通過訓(xùn)練得到，而不是人工制定的。
決策樹既可以用于分類問題，也可以用于回歸問題。分類樹的映射函數(shù)是多維空間的分段線性劃分，用平行于各坐標(biāo)軸的超平面對空間進(jìn)行切分；回歸樹的映射函數(shù)是分段常數(shù)函數(shù)。決策樹是分段線性函數(shù)而不是線性函數(shù)。只要劃分的足夠細(xì)，分段常數(shù)函數(shù)可以逼近閉區(qū)間上任意函數(shù)到任意指定精度，因此決策樹在理論上可以對任意復(fù)雜度的數(shù)據(jù)進(jìn)行擬合。對于分類問題，如果決策樹深度夠大，它可以將訓(xùn)練樣本集的所有樣本正確分類。
決策樹的訓(xùn)練算法是一個遞歸的過程，首先創(chuàng)建根節(jié)點(diǎn)，然后遞歸的建立左子樹和右子樹。如果練樣本集為D，訓(xùn)練算法的流程為：

1.用樣本集D建立根節(jié)點(diǎn)，找到一個判定規(guī)則，將樣本集分裂成D1和D2兩部分，同時為根節(jié)點(diǎn)設(shè)置判定規(guī)則。

2.用樣本集D1遞歸建立左子樹。

3.用樣本集D2遞歸建立右子樹。

4.如果不能再進(jìn)行分裂，則把節(jié)點(diǎn)標(biāo)記為葉子節(jié)點(diǎn)，同時為它賦值。

對于分類樹，如果采用Gini系數(shù)作為度量準(zhǔn)則，決策樹在訓(xùn)練時尋找最佳分裂的依據(jù)為讓Gini不純度最小化，這等價于讓下面的值最大化：

尋找最佳分裂時需要計算用每個閾值對樣本集進(jìn)行分裂后的純度值，尋找該值最大時對應(yīng)的分裂，它就是最佳分裂。如果是數(shù)值型特征，對于每個特征將l個訓(xùn)練樣本按照該特征的值從小到大排序，假設(shè)排序后的值為：

接下來從x1開始，依次用每個xi作為閾值，將樣本分成左右兩部分，計算上面的純度值，該值最大的那個分裂閾值就是此特征的最佳分裂閾值。在計算出每個特征的最佳分裂閾值和上面的純度值后，比較所有這些分裂的純度值大小，該值最大的分裂為所有特征的最佳分裂。
決策樹可以處理屬性缺失問題，采用的方法是使用替代分裂規(guī)則。為了防止過擬合，可以對樹進(jìn)行剪枝，讓模型變得更簡單。如果想要更詳細(xì)的了解決策樹的原理，請閱讀SIGAI之前的公眾號文章“理解決策樹”，在SIGAI云端實驗室有決策樹訓(xùn)練算法的原理實驗，此功能免費(fèi)，網(wǎng)址為：www.sigai.cn
決策樹是一種判別模型，既支持分類問題，也支持回歸問題，是一種非線性模型，它支持多分類問題。

隨機(jī)森林

隨機(jī)森林是一種集成學(xué)習(xí)算法，是Bagging算法的具體實現(xiàn)。集成學(xué)習(xí)是機(jī)器學(xué)習(xí)中的一種思想，而不是某一具體算法，它通過多個模型的組合形成一個精度更高的模型，參與組合的模型稱為弱學(xué)習(xí)器。在預(yù)測時使用這些弱學(xué)習(xí)器模型聯(lián)合進(jìn)行預(yù)測，訓(xùn)練時需要依次訓(xùn)練出這些弱學(xué)習(xí)器。
隨機(jī)森林用有放回抽樣（Bootstrap抽樣）構(gòu)成出的樣本集訓(xùn)練多棵決策樹，訓(xùn)練決策樹的每個節(jié)點(diǎn)時只使用了隨機(jī)抽樣的部分特征。預(yù)測時，對于分類問題，一個測試樣本會送到每一棵決策樹中進(jìn)行預(yù)測，然后投票，得票最多的類為最終分類結(jié)果。對于回歸問題，隨機(jī)森林的預(yù)測輸出是所有決策樹輸出的均值。
假設(shè)有n個訓(xùn)練樣本。訓(xùn)練每一棵樹時，從樣本集中有放回的抽取n個樣本，每個樣本可能會被抽中多次，也可能一次都沒抽中。如果樣本量很大，在整個抽樣過程中每個樣本有0.368的概率不被抽中。由于樣本集中各個樣本是相互獨(dú)立的，在整個抽樣中所有樣本大約有36.8%沒有被抽中。這部分樣本稱為包外（Out Of Bag，簡稱OOB）數(shù)據(jù)。
用這個抽樣的樣本集訓(xùn)練一棵決策樹，訓(xùn)練時，每次尋找最佳分裂時，還要對特征向量的分量采樣，即只考慮部分特征分量。由于使用了隨機(jī)抽樣，隨機(jī)森林泛化性能一般比較好，可以有效的降低模型的方差。
如果想更詳細(xì)的了解隨機(jī)森林的原理，請閱讀SIGAI之前的公眾號文章“隨機(jī)森林概述”。隨機(jī)森林是一種判別模型，既支持分類問題，也支持回歸問題，并且支持多分類問題，這是一種非線性模型。

分享到：

微信“掃一掃”
分享到朋友圈

下一篇：新能源乘用車產(chǎn)業(yè)現(xiàn)狀及發(fā)展趨勢
上一篇：量產(chǎn)主控芯片的網(wǎng)絡(luò)安全設(shè)計

點(diǎn)贊 0 反對 0 舉報 0 收藏 0 評論 0

汽車測試網(wǎng)V課堂
微信公眾號
汽車測試網(wǎng)手機(jī)站

相關(guān)閱讀

0 條相關(guān)評論

• 瓦力大作戰(zhàn)｜輕科普——誤碼儀（BERT）架構(gòu)及測試原理解析	• 為什么 HUD 合規(guī)真正“卡人”的不是參數(shù)，而是證據(jù)鏈
• 輔助駕駛撞扛樹枝老人、撞環(huán)衛(wèi)工人是預(yù)期功能安全應(yīng)該覆蓋	• 大推力直驅(qū)技術(shù)助力EPS安全測試，為你的安全出行 “保駕護(hù)
• 單機(jī)體積，雙倍效能！激光切割機(jī)玩轉(zhuǎn)“降本增效”	• 同步難？空間擠？這款雙出軸電機(jī)，是你雙十二的“必囤”硬
• 即刻探索8臺機(jī)器人如何解放數(shù)百名工人！	• 考慮驅(qū)動單元性能變化的分布式驅(qū)動智能車輛強(qiáng)化學(xué)習(xí)增強(qiáng)運(yùn)
• eVTOL/飛行汽車→低噪聲氣動設(shè)計與主動降噪控制策略1/3	• 比亞迪車輛避撞專利公布

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

機(jī)器學(xué)習(xí)最全知識點(diǎn)匯總

微信公眾號

編輯推薦

最新資訊

開年豪擲1.8億搶用戶，又一車企加入“價格

聯(lián)合國法規(guī)R60對兩輪車操縱件與指示裝置的

標(biāo)準(zhǔn)立項|《汽車異種材料鉚接接頭拉伸性能

“汽車大角度座椅第1部分：通用要求”將有

“汽車大角度座椅第2部分：可靠性要求”將

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

機(jī)器學(xué)習(xí)最全知識點(diǎn)匯總

微信公眾號

編輯推薦

最新資訊

開年豪擲1.8億搶用戶，又一車企加入“價格

聯(lián)合國法規(guī)R60對兩輪車操縱件與指示裝置的

標(biāo)準(zhǔn)立項|《汽車異種材料鉚接接頭拉伸性能

“汽車大角度座椅 第1部分：通用要求”將有

“汽車大角度座椅 第2部分：可靠性要求”將

開年豪擲1.8億搶用戶，又一車企加入“價格

“汽車大角度座椅第1部分：通用要求”將有

“汽車大角度座椅第2部分：可靠性要求”將