chapter-1
監(jiān)督學(xué)習(xí):分類,回歸 無監(jiān)督學(xué)習(xí):聚類
泛化能力:具有強泛化能力的模型能很好地適用與整個樣本空間。
NFL定理(沒有免費的午餐定理):總誤差與學(xué)習(xí)算法無關(guān),任意兩個學(xué)習(xí)算法,他們的期望性相同。即學(xué)習(xí)算法的期望性跟隨機胡猜差不多。 要具體問題具體分析,談?wù)撍惴ǖ膬?yōu)劣,必須針對具體的學(xué)習(xí)問題。
統(tǒng)計學(xué)習(xí):支持向量機(SVM),核方法(kernel methods)
數(shù)據(jù)挖掘(data mining)
遷移學(xué)習(xí)(transfer learning)
?
chapter-2模型評估與選擇
?
留出法(hold-out):直接將數(shù)據(jù)集D劃分為兩個互斥的集合,即一個作為訓(xùn)練集,一個為測試集。
交叉驗證法(cross validation):將數(shù)據(jù)集D劃分為K個大小相似的互斥子集,進行K次訓(xùn)練和測試,最終返回K個結(jié)果均值。
交叉驗證法的特例:留一法(Leave One-Out,LOO)
自助法(bootstrapping),隨機從D中采樣,將其拷貝到D‘,再將樣本放回D,使得該樣本在下一次仍有可能被采到。在數(shù)據(jù)集較小,難以有效劃分訓(xùn)練/測試集時很有作用。
驗證集(validation set):模型評估與選擇中用于評估測試的數(shù)據(jù)集,把訓(xùn)練數(shù)據(jù)劃分訓(xùn)練集和驗證集,基于驗證集的性能來進行模型選擇和調(diào)參。
性能度量(performance measure):衡量模型泛化能力。
均方誤差(mean squared error)
Roc(Receiver Operating Characteristic):受試者工作特征 AUC(Area Under ROC Curve):ROC曲線下的面積 損失(loss):對應(yīng)ROC曲線之上的面積
泛化誤差可分解為偏差、方差與噪聲之和。
?
chapter-3線性模型
均方誤差(square loss):平方損失,對應(yīng)歐式距離 最小二乘法(least square method):基于均方誤差最小化來進行模型求解的方法,在線性回歸中,最小二乘法試圖找到一條直線,使所有樣本到直線的歐氏距離之和最小。
線性判別分析(LDA):一種經(jīng)典的線性學(xué)習(xí)方法,亦稱“Fisher判別分析”
chapter-4決策樹
信息熵(information entropy):度量樣本集合純度的一種指標。
使用信息增益來選擇最優(yōu)劃分屬性,當信息增益過大時,不具有泛化能力。著名的C4.5決策樹算法不直接使用信息增益,使用增益率(gain ratio)來選擇最優(yōu)劃分屬性
剪枝(pruning)是決策樹學(xué)習(xí)算法對付過擬合的主要手段。
chapter-5神經(jīng)網(wǎng)絡(luò)
閾值,亦稱bias,如果某神經(jīng)元的點位超過了一個“閾值”,就會被激活。
感知機(Perceptron)由兩層神經(jīng)元組成。很容易實現(xiàn)邏輯與或非運算。
“前饋”:不存在環(huán)成回路
學(xué)習(xí)率控制著算法每一輪迭代中更新步長,太大容易振蕩,太小收斂速度會過慢。
累積BP算法直接針對累積誤差最小化,在讀取訓(xùn)練集D一遍后才對參數(shù)進行更新,參數(shù)更新的頻率低。累積誤差下降到一定程度后,進一步下降會非常緩慢。
標準BP和累積BP的區(qū)別 類似 隨機梯度下降(SGD)與標準梯度下降的區(qū)別。
BP過擬合策略: 1.早停:將數(shù)據(jù)分成訓(xùn)練集和驗證集,訓(xùn)練集計算梯度、更新連接權(quán)和閾值,驗證集用來估計誤差。 2.正則化(regularization),增加一個描述網(wǎng)絡(luò)復(fù)雜的部分。使網(wǎng)絡(luò)輸出更加“光滑”。
BP下降方向,沿負梯度方向,負梯度方向是函數(shù)值下降最快的方向。
陷入局部極小,怎么“跳出”? 1.從不同點開始搜索 2.模擬退火(simulated annealing),每一步以一定的概率接受比當前解更差的結(jié)果,有助于“跳出”局部極小,接受“次優(yōu)解”的概率隨著時間的推移逐漸降低,保證算法穩(wěn)定。 3.使用隨機梯度下降
遺傳算法(genetic algorithm)也常用來訓(xùn)練神經(jīng)網(wǎng)絡(luò)以更好地逼近全局最小。
RBF(Radial Basis Function,徑向基函數(shù))網(wǎng)絡(luò),一種但隱含層前饋神經(jīng)網(wǎng)絡(luò),使用徑向基函數(shù)作為隱含層神經(jīng)元激活函數(shù),輸出是對神經(jīng)元的線性組合。
可塑性,神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)新知識的能力。 穩(wěn)定性,學(xué)習(xí)新知識要保持對舊知識的記憶。
訓(xùn)練的目的,利用訓(xùn)練樣本來確定合適的連接權(quán),閾值等參數(shù)。
級聯(lián)相關(guān)網(wǎng)絡(luò)(Cascade-Correlation),結(jié)構(gòu)自適應(yīng)網(wǎng)絡(luò)代表。 級聯(lián):建立層次連接的層次結(jié)構(gòu) 相關(guān):通過最大化新神經(jīng)元的輸出與網(wǎng)絡(luò)誤差之間的相關(guān)性來訓(xùn)練相關(guān)的參數(shù)。
遞歸神經(jīng)網(wǎng)絡(luò),允許出現(xiàn)環(huán)形結(jié)構(gòu),Elman,最常用的遞歸神經(jīng)網(wǎng)絡(luò)之一。
特征映射(feature map)
匯合(pooling),池化,基于局部相關(guān)性原理進行采樣,減少數(shù)據(jù)量同時保留有用信息。
深度學(xué)習(xí)(deep learning)通過多層處理,逐漸將初始的“底層”特征表示轉(zhuǎn)化為“高層”特征表示之后,用“簡單模型”完成復(fù)雜的分類等學(xué)習(xí)任務(wù),可理解為“特征學(xué)習(xí)”或“表示學(xué)習(xí)”。
chapter-6支持向量機
SMO(Sequential Minimal Optimization),固定ai之外的所有參數(shù),然后求ai上的極值。由于存在約束,選擇兩個變量ai和aj。SMO先選取違背KTT條件程度最大的變量,第二個變量選擇一個是目標函數(shù)值減少最快的變量。由于對應(yīng)目標函數(shù)減幅復(fù)雜度過高,采用啟發(fā)式,使選取的兩變量所對應(yīng)樣本之間的間隔最大。
支持向量回歸(support vector regression,SVR),以f(x)為中心,構(gòu)建一個寬度為2c的間隔帶,若訓(xùn)練樣本落入此間隔帶,則認為是被預(yù)測正確的。
chapter-7貝葉斯分類器
貝葉斯決策論,考慮如何基于這些概率和誤判損失來選擇最優(yōu)的類別標記。
貝葉斯網(wǎng),亦稱“信念網(wǎng)”借助有向無環(huán)圖來刻畫屬性之間的依賴關(guān)系,并使用條件概率表來描述屬性的聯(lián)合概率分布。
EM(expectation maximization)算法是常用的估計參數(shù)隱變量的利器,一種迭代式的方法。
數(shù)據(jù)挖掘十大算法:c4.5,CART決策樹,支持向量機,樸素貝葉斯算法,EM算法,AdaBoost,k均值聚類,k近鄰算法
一、C4.5???? C4.5,是機器學(xué)習(xí)算法中的一個分類決策樹算法,它是決策樹(決策樹也就是做決策的節(jié)點間的組織方式像一棵樹,其實是一個倒樹)核心算法ID3的改進算法,所以基本上了解了一半決策樹構(gòu)造方法就能構(gòu)造它。決策樹構(gòu)造方法其實就是每次選擇一個好的特征以及分裂點作為當前節(jié)點的分類條件。
二、The k-means algorithm 即K-Means算法 k-means algorithm算法是一個聚類算法,把n的對象根據(jù)他們的屬性分為k個分割(k < n)。它與處理混合正態(tài)分布的最大期望算法很相似,因為他們都試圖找到數(shù)據(jù)中自然聚類的中心。它假設(shè)對象屬性來自于空間向量,并且目標是使各個群組內(nèi)部的均方誤差總和最小。
三、 Support vector machines 支持向量機,英文為Support Vector Machine,簡稱SV機。它是一種監(jiān)督式學(xué)習(xí)的方法,它廣泛的應(yīng)用于統(tǒng)計分類以及回歸分析中。支持向量機將向量映射到一個更高維的空間里,在這個空間里建立有一個最大間隔超平面。在分開數(shù)據(jù)的超平面的兩邊建有兩個互相平行的超平面,分隔超平面使兩個平行超平面的距離最大化。
四、The Apriori algorithm Apriori算法是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項集的算法。 其核心是基于兩階段頻集思想的遞推算法。該關(guān)聯(lián)規(guī)則在分類上屬于單維、單層、布爾關(guān)聯(lián)規(guī)則。在這里,所有支持度大于最小支持度的項集稱為頻繁項集,簡稱頻集。
五、最大期望(EM)算法 在統(tǒng)計計算中,最大期望 (EM,Expectation–Maximization)算法是在概率(probabilistic)模型中尋找參數(shù)最大似然估計的算法,其中概率模型依賴于無法觀測的隱藏變量(Latent Variabl)。最大期望經(jīng)常用在機器學(xué)習(xí)和計算機視覺的數(shù)據(jù)集聚(Data Clustering)領(lǐng)域。
六、 PageRank PageRank是Google算法的重要內(nèi)容。2001年9月被授予美國專利,專利人是Google創(chuàng)始人之一拉里·佩奇(Larry Page)。因此,PageRank里的page不是指網(wǎng)頁,而是指佩奇,即這個等級方法是以佩奇來命名的。PageRank根據(jù)網(wǎng)站的外部鏈接和內(nèi)部鏈接的數(shù)量和質(zhì)量,衡量網(wǎng)站的價值。PageRank背后的概念是,每個到頁面的鏈接都是對該頁面的一次投票, 被鏈接的越多,就意味著被其他網(wǎng)站投票越多。
七、AdaBoost??? Adaboost是一種迭代算法,其核心思想是針對同一個訓(xùn)練集訓(xùn)練不同的分類器(弱分類器),然后把這些弱分類器集合起來,構(gòu)成一個更強的最終分類器 (強分類器)。其算法本身是通過改變數(shù)據(jù)分布來實現(xiàn)的,它根據(jù)每次訓(xùn)練集之中每個樣本的分類是否正確,以及上次的總體分類的準確率,來確定每個樣本的權(quán)值。將修改過權(quán)值的新數(shù)據(jù)集送給下層分類器進行訓(xùn)練,最后將每次訓(xùn)練得到的分類器融合起來,作為最后的決策分類器。
八、 kNN: k-nearest neighbor classification K最近鄰(k-Nearest Neighbor,KNN)分類算法,是一個理論上比較成熟的方法,也是最簡單的機器學(xué)習(xí)算法之一。該方法的思路是:如果一個樣本在特征空間中的k個最相似(即特征空間中最鄰近)的樣本中的大多數(shù)屬于某一個類別,則該樣本也屬于這個類別。
九、 Naive Bayes 在眾多的分類模型中,應(yīng)用最為廣泛的兩種分類模型是決策樹模型(Decision Tree Model)和樸素貝葉斯模型(Naive Bayesian Model,NBC)。 樸素貝葉斯模型發(fā)源于古典數(shù)學(xué)理論,有著堅實的數(shù)學(xué)基礎(chǔ),以及穩(wěn)定的分類效率。同時,NBC模型所需估計的參數(shù)很少,對缺失數(shù)據(jù)不太敏感,算法也比較簡單。理論上,NBC模型與其他分類方法相比具有最小的誤差率。 但是實際上并非總是如此,這是因為NBC模型假設(shè)屬性之間相互獨立,這個假設(shè)在實際應(yīng)用中往往是不成立的,這給NBC模型的正確分類帶來了一定影響。在屬性個數(shù)比較多或者屬性之間相關(guān)性較大時,NBC模型的分類效率比不上決策樹模型。而在屬性相關(guān)性較小時,NBC模型的性能最為良好。
十、 CART: 分類與回歸樹 CART, Classification and Regression Trees。 在分類樹下面有兩個關(guān)鍵的思想:第一個是關(guān)于遞歸地劃分自變量空間的想法;第二個想法是用驗證數(shù)據(jù)進行剪枝。
chapter-8集成學(xué)習(xí)
集成學(xué)習(xí),構(gòu)建并結(jié)合多個學(xué)習(xí)器來完成學(xué)習(xí)任務(wù),也稱為多分類器系統(tǒng)。
目前集成學(xué)習(xí)分為兩大類,1.個體學(xué)習(xí)器之間存在強依賴關(guān)系,必須串行生成的序列化方法,代表是Boosting,2.個體學(xué)習(xí)器間不存在強依賴關(guān)系、可同時生成的并行化方法,代表是Bagging和“隨機森林”(Random Forest)
Boosting是一種可將弱學(xué)習(xí)器提升為強學(xué)習(xí)器的算法。
Bagging 是并行式集成學(xué)習(xí)方法著名的代表,基于自助采樣法
隨機森林(random Forest,RF)的Bagging的一個變體,在RF中,對基決策樹的每個結(jié)點,先從該結(jié)點的屬性集合中隨機選擇一個包含k個屬性的子集,然后從這個子集中選擇一個最優(yōu)屬性用于劃分。
chapter-9聚類
聚類,試圖將數(shù)據(jù)集中的樣本劃分為若干個不相交的子集,每個子集稱為一個“簇”(cluster),每個簇可能對應(yīng)于一些潛在的概念(類別),這些概念對聚類算法事先是未知的,聚類過程僅能自動形成簇結(jié)構(gòu),簇所對應(yīng)的概念語義需由使用者來把握和命名。
聚類既能作為一個單獨過程,用于尋找數(shù)據(jù)內(nèi)在的分布結(jié)構(gòu),也可以作為分類等其他學(xué)習(xí)任務(wù)的前驅(qū)過程。
chapter-10降維與度量學(xué)習(xí)
k近鄰(k-Nearest Neighbor,簡稱KNN)學(xué)習(xí)是一種常用的監(jiān)督學(xué)習(xí)方法,基于某種距離度量找出訓(xùn)練集中與其最靠近的k個訓(xùn)練樣本,然后基于這k個“鄰居”的信息來進行預(yù)測。
主成分分析(principal component analysis,PCA)是常用的一種降維方法。
線性判別(LDA),監(jiān)督線性降維最著名的方法。
chapter-11特征選擇與稀疏學(xué)習(xí)
常見的特征選擇可分為三類:過濾式(filter)、包裹式(wrapper)和嵌入式(embedding)。
chapter-12計算學(xué)習(xí)理論
?
chapter-13半監(jiān)督學(xué)習(xí)
半監(jiān)督學(xué)習(xí)(semi supervised learning),讓學(xué)習(xí)器不依賴外界交互、自動地利用未標記樣本來提升學(xué)習(xí)性能。
chapter-14概率圖模型
隱馬爾可夫模型(Hidden Markov Model,HMM)是結(jié)構(gòu)最簡單的動態(tài)貝葉斯網(wǎng),是一種著名的有向圖模型,主要用于時序數(shù)據(jù)建模,在語音識別,自然語言處理等領(lǐng)域有廣泛應(yīng)用。
chapter-15規(guī)則學(xué)習(xí)
?
chapter-16強化學(xué)習(xí)
強化學(xué)習(xí),可看作具有“延遲標記信息”的監(jiān)督學(xué)習(xí)問題。
來源:http://www./content-4-176301.html
|