少妇脱了内裤让我添,久久久久亚洲精品无码网址蜜桃,性色av免费观看,久久人妻av无码中文专区

分享

《機器學(xué)習(xí)筆記》

 印度阿三17 2019-04-29

chapter-1

監(jiān)督學(xué)習(xí):分類,回歸
無監(jiān)督學(xué)習(xí):聚類

泛化能力:具有強泛化能力的模型能很好地適用與整個樣本空間。

NFL定理(沒有免費的午餐定理):總誤差與學(xué)習(xí)算法無關(guān),任意兩個學(xué)習(xí)算法,他們的期望性相同。即學(xué)習(xí)算法的期望性跟隨機胡猜差不多。
要具體問題具體分析,談?wù)撍惴ǖ膬?yōu)劣,必須針對具體的學(xué)習(xí)問題。

統(tǒng)計學(xué)習(xí):支持向量機(SVM),核方法(kernel methods)

數(shù)據(jù)挖掘(data mining)

遷移學(xué)習(xí)(transfer learning)

?

chapter-2模型評估與選擇

?

留出法(hold-out):直接將數(shù)據(jù)集D劃分為兩個互斥的集合,即一個作為訓(xùn)練集,一個為測試集。

交叉驗證法(cross validation):將數(shù)據(jù)集D劃分為K個大小相似的互斥子集,進行K次訓(xùn)練和測試,最終返回K個結(jié)果均值。

交叉驗證法的特例:留一法(Leave One-Out,LOO)

自助法(bootstrapping),隨機從D中采樣,將其拷貝到D‘,再將樣本放回D,使得該樣本在下一次仍有可能被采到。在數(shù)據(jù)集較小,難以有效劃分訓(xùn)練/測試集時很有作用。

驗證集(validation set):模型評估與選擇中用于評估測試的數(shù)據(jù)集,把訓(xùn)練數(shù)據(jù)劃分訓(xùn)練集和驗證集,基于驗證集的性能來進行模型選擇和調(diào)參。

性能度量(performance measure):衡量模型泛化能力。

均方誤差(mean squared error)

Roc(Receiver Operating Characteristic):受試者工作特征
AUC(Area Under ROC Curve):ROC曲線下的面積
損失(loss):對應(yīng)ROC曲線之上的面積

泛化誤差可分解為偏差、方差與噪聲之和。

?

chapter-3線性模型

均方誤差(square loss):平方損失,對應(yīng)歐式距離
最小二乘法(least square method):基于均方誤差最小化來進行模型求解的方法,在線性回歸中,最小二乘法試圖找到一條直線,使所有樣本到直線的歐氏距離之和最小。

線性判別分析(LDA):一種經(jīng)典的線性學(xué)習(xí)方法,亦稱“Fisher判別分析”

chapter-4決策樹

信息熵(information entropy):度量樣本集合純度的一種指標。

使用信息增益來選擇最優(yōu)劃分屬性,當信息增益過大時,不具有泛化能力。著名的C4.5決策樹算法不直接使用信息增益,使用增益率(gain ratio)來選擇最優(yōu)劃分屬性

剪枝(pruning)是決策樹學(xué)習(xí)算法對付過擬合的主要手段。

chapter-5神經(jīng)網(wǎng)絡(luò)

閾值,亦稱bias,如果某神經(jīng)元的點位超過了一個“閾值”,就會被激活。

感知機(Perceptron)由兩層神經(jīng)元組成。很容易實現(xiàn)邏輯與或非運算。

“前饋”:不存在環(huán)成回路

學(xué)習(xí)率控制著算法每一輪迭代中更新步長,太大容易振蕩,太小收斂速度會過慢。

累積BP算法直接針對累積誤差最小化,在讀取訓(xùn)練集D一遍后才對參數(shù)進行更新,參數(shù)更新的頻率低。累積誤差下降到一定程度后,進一步下降會非常緩慢。

標準BP和累積BP的區(qū)別 類似 隨機梯度下降(SGD)與標準梯度下降的區(qū)別。

BP過擬合策略:
1.早停:將數(shù)據(jù)分成訓(xùn)練集和驗證集,訓(xùn)練集計算梯度、更新連接權(quán)和閾值,驗證集用來估計誤差。
2.正則化(regularization),增加一個描述網(wǎng)絡(luò)復(fù)雜的部分。使網(wǎng)絡(luò)輸出更加“光滑”。

BP下降方向,沿負梯度方向,負梯度方向是函數(shù)值下降最快的方向。

陷入局部極小,怎么“跳出”?
1.從不同點開始搜索
2.模擬退火(simulated annealing),每一步以一定的概率接受比當前解更差的結(jié)果,有助于“跳出”局部極小,接受“次優(yōu)解”的概率隨著時間的推移逐漸降低,保證算法穩(wěn)定。
3.使用隨機梯度下降

遺傳算法(genetic algorithm)也常用來訓(xùn)練神經(jīng)網(wǎng)絡(luò)以更好地逼近全局最小。

RBF(Radial Basis Function,徑向基函數(shù))網(wǎng)絡(luò),一種但隱含層前饋神經(jīng)網(wǎng)絡(luò),使用徑向基函數(shù)作為隱含層神經(jīng)元激活函數(shù),輸出是對神經(jīng)元的線性組合。

可塑性,神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)新知識的能力。
穩(wěn)定性,學(xué)習(xí)新知識要保持對舊知識的記憶。

訓(xùn)練的目的,利用訓(xùn)練樣本來確定合適的連接權(quán),閾值等參數(shù)。

級聯(lián)相關(guān)網(wǎng)絡(luò)(Cascade-Correlation),結(jié)構(gòu)自適應(yīng)網(wǎng)絡(luò)代表。
級聯(lián):建立層次連接的層次結(jié)構(gòu)
相關(guān):通過最大化新神經(jīng)元的輸出與網(wǎng)絡(luò)誤差之間的相關(guān)性來訓(xùn)練相關(guān)的參數(shù)。

遞歸神經(jīng)網(wǎng)絡(luò),允許出現(xiàn)環(huán)形結(jié)構(gòu),Elman,最常用的遞歸神經(jīng)網(wǎng)絡(luò)之一。

特征映射(feature map)

匯合(pooling),池化,基于局部相關(guān)性原理進行采樣,減少數(shù)據(jù)量同時保留有用信息。

深度學(xué)習(xí)(deep learning)通過多層處理,逐漸將初始的“底層”特征表示轉(zhuǎn)化為“高層”特征表示之后,用“簡單模型”完成復(fù)雜的分類等學(xué)習(xí)任務(wù),可理解為“特征學(xué)習(xí)”或“表示學(xué)習(xí)”。

chapter-6支持向量機

SMO(Sequential Minimal Optimization),固定ai之外的所有參數(shù),然后求ai上的極值。由于存在約束,選擇兩個變量ai和aj。SMO先選取違背KTT條件程度最大的變量,第二個變量選擇一個是目標函數(shù)值減少最快的變量。由于對應(yīng)目標函數(shù)減幅復(fù)雜度過高,采用啟發(fā)式,使選取的兩變量所對應(yīng)樣本之間的間隔最大。

支持向量回歸(support vector regression,SVR),以f(x)為中心,構(gòu)建一個寬度為2c的間隔帶,若訓(xùn)練樣本落入此間隔帶,則認為是被預(yù)測正確的。

chapter-7貝葉斯分類器

貝葉斯決策論,考慮如何基于這些概率和誤判損失來選擇最優(yōu)的類別標記。

貝葉斯網(wǎng),亦稱“信念網(wǎng)”借助有向無環(huán)圖來刻畫屬性之間的依賴關(guān)系,并使用條件概率表來描述屬性的聯(lián)合概率分布。

EM(expectation maximization)算法是常用的估計參數(shù)隱變量的利器,一種迭代式的方法。

數(shù)據(jù)挖掘十大算法:c4.5,CART決策樹,支持向量機,樸素貝葉斯算法,EM算法,AdaBoost,k均值聚類,k近鄰算法

一、C4.5???? C4.5,是機器學(xué)習(xí)算法中的一個分類決策樹算法,它是決策樹(決策樹也就是做決策的節(jié)點間的組織方式像一棵樹,其實是一個倒樹)核心算法ID3的改進算法,所以基本上了解了一半決策樹構(gòu)造方法就能構(gòu)造它。決策樹構(gòu)造方法其實就是每次選擇一個好的特征以及分裂點作為當前節(jié)點的分類條件。

二、The k-means algorithm 即K-Means算法
k-means algorithm算法是一個聚類算法,把n的對象根據(jù)他們的屬性分為k個分割(k < n)。它與處理混合正態(tài)分布的最大期望算法很相似,因為他們都試圖找到數(shù)據(jù)中自然聚類的中心。它假設(shè)對象屬性來自于空間向量,并且目標是使各個群組內(nèi)部的均方誤差總和最小。

三、 Support vector machines
支持向量機,英文為Support Vector Machine,簡稱SV機。它是一種監(jiān)督式學(xué)習(xí)的方法,它廣泛的應(yīng)用于統(tǒng)計分類以及回歸分析中。支持向量機將向量映射到一個更高維的空間里,在這個空間里建立有一個最大間隔超平面。在分開數(shù)據(jù)的超平面的兩邊建有兩個互相平行的超平面,分隔超平面使兩個平行超平面的距離最大化。

四、The Apriori algorithm
Apriori算法是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項集的算法。
其核心是基于兩階段頻集思想的遞推算法。該關(guān)聯(lián)規(guī)則在分類上屬于單維、單層、布爾關(guān)聯(lián)規(guī)則。在這里,所有支持度大于最小支持度的項集稱為頻繁項集,簡稱頻集。

五、最大期望(EM)算法
在統(tǒng)計計算中,最大期望 (EM,Expectation–Maximization)算法是在概率(probabilistic)模型中尋找參數(shù)最大似然估計的算法,其中概率模型依賴于無法觀測的隱藏變量(Latent Variabl)。最大期望經(jīng)常用在機器學(xué)習(xí)和計算機視覺的數(shù)據(jù)集聚(Data Clustering)領(lǐng)域。

六、 PageRank
PageRank是Google算法的重要內(nèi)容。2001年9月被授予美國專利,專利人是Google創(chuàng)始人之一拉里·佩奇(Larry Page)。因此,PageRank里的page不是指網(wǎng)頁,而是指佩奇,即這個等級方法是以佩奇來命名的。PageRank根據(jù)網(wǎng)站的外部鏈接和內(nèi)部鏈接的數(shù)量和質(zhì)量,衡量網(wǎng)站的價值。PageRank背后的概念是,每個到頁面的鏈接都是對該頁面的一次投票, 被鏈接的越多,就意味著被其他網(wǎng)站投票越多。

七、AdaBoost??? Adaboost是一種迭代算法,其核心思想是針對同一個訓(xùn)練集訓(xùn)練不同的分類器(弱分類器),然后把這些弱分類器集合起來,構(gòu)成一個更強的最終分類器 (強分類器)。其算法本身是通過改變數(shù)據(jù)分布來實現(xiàn)的,它根據(jù)每次訓(xùn)練集之中每個樣本的分類是否正確,以及上次的總體分類的準確率,來確定每個樣本的權(quán)值。將修改過權(quán)值的新數(shù)據(jù)集送給下層分類器進行訓(xùn)練,最后將每次訓(xùn)練得到的分類器融合起來,作為最后的決策分類器。

八、 kNN: k-nearest neighbor classification
K最近鄰(k-Nearest Neighbor,KNN)分類算法,是一個理論上比較成熟的方法,也是最簡單的機器學(xué)習(xí)算法之一。該方法的思路是:如果一個樣本在特征空間中的k個最相似(即特征空間中最鄰近)的樣本中的大多數(shù)屬于某一個類別,則該樣本也屬于這個類別。

九、 Naive Bayes
在眾多的分類模型中,應(yīng)用最為廣泛的兩種分類模型是決策樹模型(Decision Tree Model)和樸素貝葉斯模型(Naive Bayesian Model,NBC)。
樸素貝葉斯模型發(fā)源于古典數(shù)學(xué)理論,有著堅實的數(shù)學(xué)基礎(chǔ),以及穩(wěn)定的分類效率。同時,NBC模型所需估計的參數(shù)很少,對缺失數(shù)據(jù)不太敏感,算法也比較簡單。理論上,NBC模型與其他分類方法相比具有最小的誤差率。
但是實際上并非總是如此,這是因為NBC模型假設(shè)屬性之間相互獨立,這個假設(shè)在實際應(yīng)用中往往是不成立的,這給NBC模型的正確分類帶來了一定影響。在屬性個數(shù)比較多或者屬性之間相關(guān)性較大時,NBC模型的分類效率比不上決策樹模型。而在屬性相關(guān)性較小時,NBC模型的性能最為良好。

十、 CART: 分類與回歸樹
CART, Classification and Regression Trees。 在分類樹下面有兩個關(guān)鍵的思想:第一個是關(guān)于遞歸地劃分自變量空間的想法;第二個想法是用驗證數(shù)據(jù)進行剪枝。

chapter-8集成學(xué)習(xí)

集成學(xué)習(xí),構(gòu)建并結(jié)合多個學(xué)習(xí)器來完成學(xué)習(xí)任務(wù),也稱為多分類器系統(tǒng)。

目前集成學(xué)習(xí)分為兩大類,1.個體學(xué)習(xí)器之間存在強依賴關(guān)系,必須串行生成的序列化方法,代表是Boosting,2.個體學(xué)習(xí)器間不存在強依賴關(guān)系、可同時生成的并行化方法,代表是Bagging和“隨機森林”(Random Forest)

Boosting是一種可將弱學(xué)習(xí)器提升為強學(xué)習(xí)器的算法。

Bagging 是并行式集成學(xué)習(xí)方法著名的代表,基于自助采樣法

隨機森林(random Forest,RF)的Bagging的一個變體,在RF中,對基決策樹的每個結(jié)點,先從該結(jié)點的屬性集合中隨機選擇一個包含k個屬性的子集,然后從這個子集中選擇一個最優(yōu)屬性用于劃分。

chapter-9聚類

聚類,試圖將數(shù)據(jù)集中的樣本劃分為若干個不相交的子集,每個子集稱為一個“簇”(cluster),每個簇可能對應(yīng)于一些潛在的概念(類別),這些概念對聚類算法事先是未知的,聚類過程僅能自動形成簇結(jié)構(gòu),簇所對應(yīng)的概念語義需由使用者來把握和命名。

聚類既能作為一個單獨過程,用于尋找數(shù)據(jù)內(nèi)在的分布結(jié)構(gòu),也可以作為分類等其他學(xué)習(xí)任務(wù)的前驅(qū)過程。

chapter-10降維與度量學(xué)習(xí)

k近鄰(k-Nearest Neighbor,簡稱KNN)學(xué)習(xí)是一種常用的監(jiān)督學(xué)習(xí)方法,基于某種距離度量找出訓(xùn)練集中與其最靠近的k個訓(xùn)練樣本,然后基于這k個“鄰居”的信息來進行預(yù)測。

主成分分析(principal component analysis,PCA)是常用的一種降維方法。

線性判別(LDA),監(jiān)督線性降維最著名的方法。

chapter-11特征選擇與稀疏學(xué)習(xí)

常見的特征選擇可分為三類:過濾式(filter)、包裹式(wrapper)和嵌入式(embedding)。

chapter-12計算學(xué)習(xí)理論

?

chapter-13半監(jiān)督學(xué)習(xí)

半監(jiān)督學(xué)習(xí)(semi supervised learning),讓學(xué)習(xí)器不依賴外界交互、自動地利用未標記樣本來提升學(xué)習(xí)性能。

chapter-14概率圖模型

隱馬爾可夫模型(Hidden Markov Model,HMM)是結(jié)構(gòu)最簡單的動態(tài)貝葉斯網(wǎng),是一種著名的有向圖模型,主要用于時序數(shù)據(jù)建模,在語音識別,自然語言處理等領(lǐng)域有廣泛應(yīng)用。

chapter-15規(guī)則學(xué)習(xí)

?

chapter-16強化學(xué)習(xí)

強化學(xué)習(xí),可看作具有“延遲標記信息”的監(jiān)督學(xué)習(xí)問題。



來源:http://www./content-4-176301.html

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多

    主站蜘蛛池模板: 欧美变态口味重另类在线视频| 精品无码中文字幕在线| 国产亚洲精品久久久美女| 永久免费的av在线电影网无码| 国产成人精品日本亚洲| 欧美人与动牲交zooz3d| 国产成人亚洲精品狼色在线| 亚洲精品国产suv一区88| 久久99精品久久久大学生| 中文字幕色av一区二区三区| 一本大道无码人妻精品专区| 国产成人av性色在线影院色戒| 蜜臀av国产精品久久久久| 午夜福利视频极品国产83| 国产综合久久久久久鬼色| 亚洲女初尝黑人巨高清| 无码中字出轨中文人妻中文中| 夜夜爽一区二区三区精品| 四虎成人欧美精品在永久在线| 最新国产精品精品视频| 波多野结衣av高清一区二区三区| 丁香婷婷综合激情五月色| 免费国精产品自偷自偷免费看| 99久热re在线精品99re8热视频| 疯狂添女人下部视频免费| 正在播放的国产a一片| 国产无遮挡裸体免费直播| 欧美人与动牲交app视频| 精品国产乱码久久久久久1区2区| 老司机在线精品视频网站| 日日干夜夜干| 天天噜噜揉揉狠狠夜夜| 狠狠久久五月精品中文字幕| 五月天中文字幕mv在线| V888AV| 制服国产欧美亚洲日韩| 国产精品热久久高潮av袁孑怡| 欧美xxxx做受性欧美88| 丰满无码人妻热妇无码区| 狠狠色噜噜狠狠狠狠97首创麻豆| 西西人体大胆www44he七|