統(tǒng)計(jì)學(xué)習(xí)方法
統(tǒng)計(jì)學(xué)習(xí)三要素
模型
模型就是所要學(xué)習(xí)的條件概率分布或決策函數(shù)。 或 模型的假設(shè)空間包括所有可能的條件概率分布或決策函數(shù)。 或。 其中的取值空間稱為參數(shù)空間。
策略
策略也即學(xué)習(xí)的準(zhǔn)則。一般來說監(jiān)督學(xué)習(xí)的策略即指經(jīng)驗(yàn)風(fēng)險(xiǎn)或結(jié)構(gòu)風(fēng)險(xiǎn)函數(shù)最優(yōu)化。
經(jīng)驗(yàn)風(fēng)險(xiǎn)
損失函數(shù)
0-1損失函數(shù)
平方損失函數(shù)
絕對(duì)損失函數(shù)
對(duì)數(shù)損失函數(shù)
風(fēng)險(xiǎn)函數(shù)
風(fēng)險(xiǎn)函數(shù)(risk function)又叫期望損失(expected loss),是理論模型關(guān)于聯(lián)合分布的平均意義下的損失。
經(jīng)驗(yàn)風(fēng)險(xiǎn)
風(fēng)險(xiǎn)函數(shù)和聯(lián)合分布,用作為模型的后者求作為策略的前者,顯然是病態(tài)的。故取訓(xùn)練數(shù)據(jù)集上的平均損失稱為經(jīng)驗(yàn)風(fēng)險(xiǎn)(empirical risk)。
當(dāng)訓(xùn)練樣本數(shù)量趨于無窮時(shí),趨于。
結(jié)構(gòu)風(fēng)險(xiǎn)
結(jié)構(gòu)風(fēng)險(xiǎn)(structural risk)在經(jīng)驗(yàn)風(fēng)險(xiǎn)的基礎(chǔ)上添加正則化項(xiàng)(regularization,也叫罰項(xiàng)(penalty term))。
-------------
經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化
在找到一個(gè)使得最小。
p.s. 當(dāng)模型是條件概率分布,損失函數(shù)是對(duì)數(shù)損失函數(shù)時(shí),經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化等價(jià)于極大似然估計(jì)。
結(jié)構(gòu)風(fēng)險(xiǎn)最小化
為防止經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化有可能帶來的過擬合,添加代表模型復(fù)雜度的罰項(xiàng)。
算法
最優(yōu)化算法
模型評(píng)估與模型選擇
誤差
訓(xùn)練誤差
訓(xùn)練誤差(training error)是學(xué)習(xí)到的模型關(guān)于訓(xùn)練數(shù)據(jù)集的平均損失。
測(cè)試誤差
測(cè)試誤差(test error)是學(xué)習(xí)到的模型關(guān)于測(cè)試數(shù)據(jù)集的平均損失。
當(dāng)損失函數(shù)是0-1損失時(shí),測(cè)試誤差即為測(cè)試數(shù)據(jù)集上的誤差率。
正則化
正則化方法就是在經(jīng)驗(yàn)風(fēng)險(xiǎn)函數(shù)上添加正則化項(xiàng)。正則化項(xiàng)(regularizer)一般是模型復(fù)雜度的單調(diào)遞增函數(shù)。如可以是模型參數(shù)向量的范數(shù)。
* 奧卡姆剃刀(Occam's razor)原理:在所有可能選擇的模型中,能夠很好解釋已知數(shù)據(jù)并且十分簡(jiǎn)單才是最好的模型。
交叉驗(yàn)證
將數(shù)據(jù)集隨機(jī)分為訓(xùn)練集、驗(yàn)證集(validation set)和測(cè)試集,分別用于模型的訓(xùn)練、選擇和評(píng)估。
1. 簡(jiǎn)單交叉驗(yàn)證
分兩部分:訓(xùn)練集和測(cè)試集
2. 折交叉驗(yàn)證
等分部分:份做訓(xùn)練集,1份做測(cè)試集。重復(fù)進(jìn)行。
3. 留一交叉驗(yàn)證
折交叉驗(yàn)證的特例。
泛化能力
泛化誤差
泛化誤差(generalization error)學(xué)到的模型對(duì)未知數(shù)據(jù)預(yù)測(cè)的誤差。
泛化誤差就是學(xué)習(xí)到的模型的期望風(fēng)險(xiǎn)。
泛化誤差上界
樣本容量增加,泛化誤差上界趨近于0
假設(shè)空間容量增加,泛化誤差上界增大
監(jiān)督學(xué)習(xí)分類
按學(xué)習(xí)方法分類
生成方法->生成模型
由數(shù)據(jù)學(xué)習(xí)聯(lián)合概率分布后,求出概率分布。
包括:樸素貝葉斯法、隱馬爾科夫模型
判別方法->判別模型
由數(shù)據(jù)直接學(xué)習(xí)決策函數(shù)或者條件概率分布。
包括:k近鄰法、感知機(jī)、邏輯斯蒂回歸模型、最大熵模型、支持向量機(jī)、提升方法、條件隨機(jī)場(chǎng)。
區(qū)別:
生成方法:
可還原出學(xué)習(xí)收斂速度快,當(dāng)N增大時(shí),更快收斂于真實(shí)模型
當(dāng)存在隱變量時(shí),仍可以使用
判別方法
直接學(xué)習(xí)或,往往學(xué)習(xí)的準(zhǔn)確率更高
可對(duì)數(shù)據(jù)進(jìn)行抽象、特征定義以簡(jiǎn)化學(xué)習(xí)問題
按
分類問題
評(píng)價(jià)指標(biāo)
精確率(precision)
召回率(recall)
標(biāo)注問題
回歸問題
【統(tǒng)計(jì)學(xué)習(xí)方法】相關(guān)文章:
初中數(shù)學(xué)統(tǒng)計(jì)學(xué)習(xí)方法10-06
探討統(tǒng)計(jì)學(xué)的學(xué)習(xí)方法10-08
學(xué)習(xí)方法10-26
高一學(xué)習(xí)方法指導(dǎo)與學(xué)習(xí)方法12-07
統(tǒng)計(jì)局統(tǒng)計(jì)述職報(bào)告06-25
統(tǒng)計(jì)局統(tǒng)計(jì)述職報(bào)告10-26
《統(tǒng)計(jì)》教案10-08
學(xué)習(xí)方法作文02-06
學(xué)習(xí)方法的作文06-01