《機器學(xué)習(xí)筆記》

印度阿三17 2019-04-29

展開全文

chapter-1

監(jiān)督學(xué)習(xí)：分類，回歸
無監(jiān)督學(xué)習(xí)：聚類

泛化能力：具有強泛化能力的模型能很好地適用與整個樣本空間。

NFL定理（沒有免費的午餐定理）：總誤差與學(xué)習(xí)算法無關(guān)，任意兩個學(xué)習(xí)算法，他們的期望性相同。即學(xué)習(xí)算法的期望性跟隨機胡猜差不多。
要具體問題具體分析，談?wù)撍惴ǖ膬?yōu)劣，必須針對具體的學(xué)習(xí)問題。

統(tǒng)計學(xué)習(xí)：支持向量機（SVM），核方法（kernel methods）

數(shù)據(jù)挖掘（data mining）

遷移學(xué)習(xí)（transfer learning）

?

chapter-2模型評估與選擇

?

留出法（hold-out）：直接將數(shù)據(jù)集D劃分為兩個互斥的集合，即一個作為訓(xùn)練集，一個為測試集。

交叉驗證法（cross validation）：將數(shù)據(jù)集D劃分為K個大小相似的互斥子集，進行K次訓(xùn)練和測試，最終返回K個結(jié)果均值。

交叉驗證法的特例：留一法（Leave One-Out，LOO）

自助法（bootstrapping），隨機從D中采樣，將其拷貝到D‘，再將樣本放回D，使得該樣本在下一次仍有可能被采到。在數(shù)據(jù)集較小，難以有效劃分訓(xùn)練/測試集時很有作用。

驗證集（validation set）：模型評估與選擇中用于評估測試的數(shù)據(jù)集，把訓(xùn)練數(shù)據(jù)劃分訓(xùn)練集和驗證集，基于驗證集的性能來進行模型選擇和調(diào)參。

性能度量（performance measure）：衡量模型泛化能力。

均方誤差（mean squared error）

Roc(Receiver Operating Characteristic)：受試者工作特征
AUC(Area Under ROC Curve)：ROC曲線下的面積
損失（loss）：對應(yīng)ROC曲線之上的面積

泛化誤差可分解為偏差、方差與噪聲之和。

?

chapter-3線性模型

均方誤差（square loss）：平方損失，對應(yīng)歐式距離
最小二乘法（least square method）：基于均方誤差最小化來進行模型求解的方法，在線性回歸中，最小二乘法試圖找到一條直線，使所有樣本到直線的歐氏距離之和最小。

線性判別分析（LDA）：一種經(jīng)典的線性學(xué)習(xí)方法，亦稱“Fisher判別分析”

chapter-4決策樹

信息熵（information entropy）：度量樣本集合純度的一種指標。

使用信息增益來選擇最優(yōu)劃分屬性，當信息增益過大時，不具有泛化能力。著名的C4.5決策樹算法不直接使用信息增益，使用增益率（gain ratio）來選擇最優(yōu)劃分屬性

剪枝（pruning）是決策樹學(xué)習(xí)算法對付過擬合的主要手段。

chapter-5神經(jīng)網(wǎng)絡(luò)

閾值，亦稱bias，如果某神經(jīng)元的點位超過了一個“閾值”，就會被激活。

感知機（Perceptron）由兩層神經(jīng)元組成。很容易實現(xiàn)邏輯與或非運算。

“前饋”：不存在環(huán)成回路

學(xué)習(xí)率控制著算法每一輪迭代中更新步長，太大容易振蕩，太小收斂速度會過慢。

累積BP算法直接針對累積誤差最小化，在讀取訓(xùn)練集D一遍后才對參數(shù)進行更新，參數(shù)更新的頻率低。累積誤差下降到一定程度后，進一步下降會非常緩慢。

標準BP和累積BP的區(qū)別類似隨機梯度下降（SGD）與標準梯度下降的區(qū)別。

BP過擬合策略：
1.早停:將數(shù)據(jù)分成訓(xùn)練集和驗證集，訓(xùn)練集計算梯度、更新連接權(quán)和閾值，驗證集用來估計誤差。
2.正則化（regularization），增加一個描述網(wǎng)絡(luò)復(fù)雜的部分。使網(wǎng)絡(luò)輸出更加“光滑”。

BP下降方向，沿負梯度方向，負梯度方向是函數(shù)值下降最快的方向。

陷入局部極小，怎么“跳出”？
1.從不同點開始搜索
2.模擬退火（simulated annealing），每一步以一定的概率接受比當前解更差的結(jié)果，有助于“跳出”局部極小，接受“次優(yōu)解”的概率隨著時間的推移逐漸降低，保證算法穩(wěn)定。
3.使用隨機梯度下降

遺傳算法（genetic algorithm）也常用來訓(xùn)練神經(jīng)網(wǎng)絡(luò)以更好地逼近全局最小。

RBF（Radial Basis Function，徑向基函數(shù)）網(wǎng)絡(luò)，一種但隱含層前饋神經(jīng)網(wǎng)絡(luò)，使用徑向基函數(shù)作為隱含層神經(jīng)元激活函數(shù)，輸出是對神經(jīng)元的線性組合。

可塑性，神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)新知識的能力。
穩(wěn)定性，學(xué)習(xí)新知識要保持對舊知識的記憶。

訓(xùn)練的目的，利用訓(xùn)練樣本來確定合適的連接權(quán)，閾值等參數(shù)。

級聯(lián)相關(guān)網(wǎng)絡(luò)（Cascade-Correlation），結(jié)構(gòu)自適應(yīng)網(wǎng)絡(luò)代表。
級聯(lián)：建立層次連接的層次結(jié)構(gòu)
相關(guān)：通過最大化新神經(jīng)元的輸出與網(wǎng)絡(luò)誤差之間的相關(guān)性來訓(xùn)練相關(guān)的參數(shù)。

遞歸神經(jīng)網(wǎng)絡(luò)，允許出現(xiàn)環(huán)形結(jié)構(gòu)，Elman，最常用的遞歸神經(jīng)網(wǎng)絡(luò)之一。

特征映射（feature map）

匯合（pooling），池化，基于局部相關(guān)性原理進行采樣，減少數(shù)據(jù)量同時保留有用信息。

深度學(xué)習(xí)（deep learning）通過多層處理，逐漸將初始的“底層”特征表示轉(zhuǎn)化為“高層”特征表示之后，用“簡單模型”完成復(fù)雜的分類等學(xué)習(xí)任務(wù)，可理解為“特征學(xué)習(xí)”或“表示學(xué)習(xí)”。

chapter-6支持向量機

SMO（Sequential Minimal Optimization），固定ai之外的所有參數(shù)，然后求ai上的極值。由于存在約束，選擇兩個變量ai和aj。SMO先選取違背KTT條件程度最大的變量，第二個變量選擇一個是目標函數(shù)值減少最快的變量。由于對應(yīng)目標函數(shù)減幅復(fù)雜度過高，采用啟發(fā)式，使選取的兩變量所對應(yīng)樣本之間的間隔最大。

支持向量回歸（support vector regression，SVR），以f(x)為中心，構(gòu)建一個寬度為2c的間隔帶，若訓(xùn)練樣本落入此間隔帶，則認為是被預(yù)測正確的。

chapter-7貝葉斯分類器

貝葉斯決策論，考慮如何基于這些概率和誤判損失來選擇最優(yōu)的類別標記。

貝葉斯網(wǎng)，亦稱“信念網(wǎng)”借助有向無環(huán)圖來刻畫屬性之間的依賴關(guān)系，并使用條件概率表來描述屬性的聯(lián)合概率分布。

EM（expectation maximization）算法是常用的估計參數(shù)隱變量的利器，一種迭代式的方法。

數(shù)據(jù)挖掘十大算法：c4.5，CART決策樹，支持向量機，樸素貝葉斯算法，EM算法，AdaBoost，k均值聚類，k近鄰算法

一、C4.5???? C4.5，是機器學(xué)習(xí)算法中的一個分類決策樹算法，它是決策樹(決策樹也就是做決策的節(jié)點間的組織方式像一棵樹，其實是一個倒樹)核心算法ID3的改進算法，所以基本上了解了一半決策樹構(gòu)造方法就能構(gòu)造它。決策樹構(gòu)造方法其實就是每次選擇一個好的特征以及分裂點作為當前節(jié)點的分類條件。

二、The k-means algorithm 即K-Means算法
k-means algorithm算法是一個聚類算法，把n的對象根據(jù)他們的屬性分為k個分割(k < n)。它與處理混合正態(tài)分布的最大期望算法很相似，因為他們都試圖找到數(shù)據(jù)中自然聚類的中心。它假設(shè)對象屬性來自于空間向量，并且目標是使各個群組內(nèi)部的均方誤差總和最小。

三、 Support vector machines
支持向量機，英文為Support Vector Machine，簡稱SV機。它是一種監(jiān)督式學(xué)習(xí)的方法，它廣泛的應(yīng)用于統(tǒng)計分類以及回歸分析中。支持向量機將向量映射到一個更高維的空間里，在這個空間里建立有一個最大間隔超平面。在分開數(shù)據(jù)的超平面的兩邊建有兩個互相平行的超平面，分隔超平面使兩個平行超平面的距離最大化。

四、The Apriori algorithm
Apriori算法是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項集的算法。
其核心是基于兩階段頻集思想的遞推算法。該關(guān)聯(lián)規(guī)則在分類上屬于單維、單層、布爾關(guān)聯(lián)規(guī)則。在這里，所有支持度大于最小支持度的項集稱為頻繁項集，簡稱頻集。

五、最大期望(EM)算法
在統(tǒng)計計算中，最大期望（EM，Expectation–Maximization）算法是在概率（probabilistic）模型中尋找參數(shù)最大似然估計的算法，其中概率模型依賴于無法觀測的隱藏變量（Latent Variabl）。最大期望經(jīng)常用在機器學(xué)習(xí)和計算機視覺的數(shù)據(jù)集聚（Data Clustering）領(lǐng)域。

六、 PageRank
PageRank是Google算法的重要內(nèi)容。2001年9月被授予美國專利，專利人是Google創(chuàng)始人之一拉里·佩奇（Larry Page）。因此，PageRank里的page不是指網(wǎng)頁，而是指佩奇，即這個等級方法是以佩奇來命名的。PageRank根據(jù)網(wǎng)站的外部鏈接和內(nèi)部鏈接的數(shù)量和質(zhì)量，衡量網(wǎng)站的價值。PageRank背后的概念是，每個到頁面的鏈接都是對該頁面的一次投票，被鏈接的越多，就意味著被其他網(wǎng)站投票越多。

七、AdaBoost??? Adaboost是一種迭代算法，其核心思想是針對同一個訓(xùn)練集訓(xùn)練不同的分類器(弱分類器)，然后把這些弱分類器集合起來，構(gòu)成一個更強的最終分類器 (強分類器)。其算法本身是通過改變數(shù)據(jù)分布來實現(xiàn)的，它根據(jù)每次訓(xùn)練集之中每個樣本的分類是否正確，以及上次的總體分類的準確率，來確定每個樣本的權(quán)值。將修改過權(quán)值的新數(shù)據(jù)集送給下層分類器進行訓(xùn)練，最后將每次訓(xùn)練得到的分類器融合起來，作為最后的決策分類器。

八、 kNN: k-nearest neighbor classification
K最近鄰(k-Nearest Neighbor，KNN)分類算法，是一個理論上比較成熟的方法，也是最簡單的機器學(xué)習(xí)算法之一。該方法的思路是：如果一個樣本在特征空間中的k個最相似(即特征空間中最鄰近)的樣本中的大多數(shù)屬于某一個類別，則該樣本也屬于這個類別。

九、 Naive Bayes
在眾多的分類模型中，應(yīng)用最為廣泛的兩種分類模型是決策樹模型(Decision Tree Model)和樸素貝葉斯模型（Naive Bayesian Model，NBC）。
樸素貝葉斯模型發(fā)源于古典數(shù)學(xué)理論，有著堅實的數(shù)學(xué)基礎(chǔ)，以及穩(wěn)定的分類效率。同時，NBC模型所需估計的參數(shù)很少，對缺失數(shù)據(jù)不太敏感，算法也比較簡單。理論上，NBC模型與其他分類方法相比具有最小的誤差率。
但是實際上并非總是如此，這是因為NBC模型假設(shè)屬性之間相互獨立，這個假設(shè)在實際應(yīng)用中往往是不成立的，這給NBC模型的正確分類帶來了一定影響。在屬性個數(shù)比較多或者屬性之間相關(guān)性較大時，NBC模型的分類效率比不上決策樹模型。而在屬性相關(guān)性較小時，NBC模型的性能最為良好。

十、 CART: 分類與回歸樹
CART, Classification and Regression Trees。在分類樹下面有兩個關(guān)鍵的思想：第一個是關(guān)于遞歸地劃分自變量空間的想法；第二個想法是用驗證數(shù)據(jù)進行剪枝。

chapter-8集成學(xué)習(xí)

集成學(xué)習(xí)，構(gòu)建并結(jié)合多個學(xué)習(xí)器來完成學(xué)習(xí)任務(wù)，也稱為多分類器系統(tǒng)。

目前集成學(xué)習(xí)分為兩大類，1.個體學(xué)習(xí)器之間存在強依賴關(guān)系，必須串行生成的序列化方法，代表是Boosting，2.個體學(xué)習(xí)器間不存在強依賴關(guān)系、可同時生成的并行化方法，代表是Bagging和“隨機森林”（Random Forest）

Boosting是一種可將弱學(xué)習(xí)器提升為強學(xué)習(xí)器的算法。

Bagging 是并行式集成學(xué)習(xí)方法著名的代表，基于自助采樣法

隨機森林（random Forest，RF）的Bagging的一個變體，在RF中，對基決策樹的每個結(jié)點，先從該結(jié)點的屬性集合中隨機選擇一個包含k個屬性的子集，然后從這個子集中選擇一個最優(yōu)屬性用于劃分。

chapter-9聚類

聚類，試圖將數(shù)據(jù)集中的樣本劃分為若干個不相交的子集，每個子集稱為一個“簇”（cluster），每個簇可能對應(yīng)于一些潛在的概念（類別），這些概念對聚類算法事先是未知的，聚類過程僅能自動形成簇結(jié)構(gòu)，簇所對應(yīng)的概念語義需由使用者來把握和命名。

聚類既能作為一個單獨過程，用于尋找數(shù)據(jù)內(nèi)在的分布結(jié)構(gòu)，也可以作為分類等其他學(xué)習(xí)任務(wù)的前驅(qū)過程。

chapter-10降維與度量學(xué)習(xí)

k近鄰（k-Nearest Neighbor，簡稱KNN）學(xué)習(xí)是一種常用的監(jiān)督學(xué)習(xí)方法，基于某種距離度量找出訓(xùn)練集中與其最靠近的k個訓(xùn)練樣本，然后基于這k個“鄰居”的信息來進行預(yù)測。

主成分分析（principal component analysis，PCA）是常用的一種降維方法。

線性判別（LDA），監(jiān)督線性降維最著名的方法。

chapter-11特征選擇與稀疏學(xué)習(xí)

常見的特征選擇可分為三類：過濾式（filter）、包裹式（wrapper）和嵌入式（embedding）。

chapter-12計算學(xué)習(xí)理論

?

chapter-13半監(jiān)督學(xué)習(xí)

半監(jiān)督學(xué)習(xí)（semi supervised learning），讓學(xué)習(xí)器不依賴外界交互、自動地利用未標記樣本來提升學(xué)習(xí)性能。

chapter-14概率圖模型

隱馬爾可夫模型（Hidden Markov Model，HMM）是結(jié)構(gòu)最簡單的動態(tài)貝葉斯網(wǎng)，是一種著名的有向圖模型，主要用于時序數(shù)據(jù)建模，在語音識別，自然語言處理等領(lǐng)域有廣泛應(yīng)用。

chapter-15規(guī)則學(xué)習(xí)

?

chapter-16強化學(xué)習(xí)

強化學(xué)習(xí)，可看作具有“延遲標記信息”的監(jiān)督學(xué)習(xí)問題。

來源：http://www./content-4-176301.html

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊一鍵舉報。

少妇脱了内裤让我添,久久久久亚洲精品无码网址蜜桃,性色av免费观看,久久人妻av无码中文专区