新聞中心

EEPW首頁(yè) > 智能計(jì)算 > 業(yè)界動(dòng)態(tài) > 你想要的機(jī)器學(xué)習(xí)課程筆記在這:主要討論監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)

你想要的機(jī)器學(xué)習(xí)課程筆記在這:主要討論監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)

作者: 時(shí)間:2018-10-29 來(lái)源:網(wǎng)絡(luò) 收藏

  定義:A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E(一個(gè)程序從經(jīng)驗(yàn)E中學(xué)習(xí)解決任務(wù)T進(jìn)行某一任務(wù)量度P,通過(guò)P測(cè)量在T的表現(xiàn)而提高經(jīng)驗(yàn)E(另一種定義:是用數(shù)據(jù)或以往的經(jīng)驗(yàn),以此優(yōu)化計(jì)算機(jī)程序的性能標(biāo)準(zhǔn)。)

本文引用地址:http://2s4d.com/article/201810/393509.htm

  不同類(lèi)型的算法:主要討論和無(wú)

  :利用一組已知類(lèi)別的樣本調(diào)整分類(lèi)器的參數(shù),使其達(dá)到所要求性能的 過(guò)程,也稱(chēng)為監(jiān)督訓(xùn)練或有教師學(xué)習(xí)。(樣本有明確的標(biāo)簽和定義,數(shù)據(jù)間有明確的邏輯關(guān)系。通過(guò)已有的數(shù)據(jù)來(lái)預(yù)測(cè)未知的數(shù)據(jù)。),主要涉及回歸問(wèn)題和分類(lèi)問(wèn)題。







  :根據(jù)沒(méi)有標(biāo)記的數(shù)據(jù)樣本識(shí)別各種問(wèn)題。典型例子是聚類(lèi)算法。

  1.線(xiàn)性回歸問(wèn)題

  設(shè)計(jì)一個(gè)函數(shù),使它盡量滿(mǎn)足我們所給出的數(shù)據(jù)(訓(xùn)練集,可能有很多個(gè)特征,這里簡(jiǎn)化假設(shè)只有一個(gè)特征也就是只有一個(gè)變量x,我們假設(shè)給出m組數(shù)據(jù)*),并可以對(duì)數(shù)據(jù)做出可信的預(yù)測(cè)。

  如果我們的假設(shè)函數(shù)設(shè)為

  hθ(x)=θ0+θ1x,此處的θ為模型參數(shù),選擇不同的θ0和θ1能夠得到不同的函數(shù)圖像?,F(xiàn)在如何得到最能夠擬合數(shù)據(jù)的一組θ0和θ1呢?

  這個(gè)“最能擬合數(shù)據(jù)”可以理解為對(duì)每一個(gè)x,其預(yù)測(cè)值與真實(shí)值,也即

  |hθ(xi)-yi| 最小,我們引入一個(gè)代價(jià)函數(shù) J(θ0,θ1):

  J(θ0,θ1)=1/2m∑(hθ(xi)-yi)^2

  可以看出,我們的目的就是找出最適合的θ0和θ1,使代價(jià)函數(shù)J(θ0,θ1)的值最小。

  要找出這個(gè)最小值,我們可以采用一種梯度下降的方法,在此之前,先得更深層次地理解代價(jià)函數(shù)。

  我們先忽視θ0,那么代價(jià)函數(shù)是關(guān)于θ1的函數(shù),要找出其最小值,通過(guò)圖像可以看到:



  θ1取中間那一點(diǎn)就是我們所求值。我們可以從其他的點(diǎn)不斷”逼近“最低點(diǎn),具體操作為:

  不斷更新θ1:

  θ1:=θ1-α/θ1*J(θ1)

  后面那一項(xiàng)是J在θ1這一點(diǎn)的偏導(dǎo)數(shù)??梢岳斫鉃閷ⅵ?向其斜率方向偏移一點(diǎn)點(diǎn),由于J(θ1)不斷減小,偏移量也不斷減小。這樣隨著不斷更新,我們可以得到最終結(jié)果。

  現(xiàn)在如果我們?cè)谝毽?,那么代價(jià)函數(shù)是關(guān)于兩個(gè)變量的函數(shù),所成的圖像是一個(gè)曲面,同樣要找到”最低點(diǎn)“,應(yīng)對(duì)兩變量同時(shí)進(jìn)行上面的更新。

  同樣的,如果特征量非常多,J是有關(guān)n個(gè)變量的函數(shù),同樣沿用上面的方法。

  梯度下降的幾個(gè)注意點(diǎn):

  更新式子的α可以理解為下降的”“步幅”,但α過(guò)小會(huì)導(dǎo)致回歸速度很慢,需要更新多次。而α過(guò)大會(huì)導(dǎo)致無(wú)法達(dá)到最低點(diǎn),在更新一次后可能越過(guò)最低點(diǎn)。



  α(稱(chēng)為學(xué)習(xí)率)的選取可以觀察(更新次數(shù))~J的圖像。

  藍(lán)色的曲線(xiàn)表示所取的α較合適,下面的綠色表示α過(guò)小,上面的綠色表示α過(guò)大。

  對(duì)于θ的更新,式子可以展開(kāi)簡(jiǎn)化為

  *θi=θi-1/m∑(hθ(xi)-yi)xi

  (i=0,1,2,3···n)其中x0=1;

  特征縮放。對(duì)于有多個(gè)特征的數(shù)據(jù),如果各個(gè)特征的范圍比較接近,梯度下降法可以更快的收斂。

  執(zhí)行時(shí)更一般地將特征約束到-1到1之間??梢杂眠@個(gè)式子:

  xi=(xi-μi)/si其中μ為特征x的平均值,s為特征x的范圍。

  正則化問(wèn)題。實(shí)際問(wèn)題中一個(gè)結(jié)果可能和多個(gè)特征有關(guān),如果特征過(guò)多,而訓(xùn)練數(shù)據(jù)較少,為了強(qiáng)行滿(mǎn)足所有的數(shù)據(jù),會(huì)出現(xiàn)“過(guò)擬合”現(xiàn)象:



  解決方法是盡量去掉不必要的特征量,或者進(jìn)行正則化,將所有特征量減小(一般不包括x0)。

  J(θ)=1/2m[∑(hθ(x)-y)2+λ∑θ 2](后面加的稱(chēng)為懲罰項(xiàng))要讓這個(gè)式子盡量小,那么θ就要盡量小,以此達(dá)到減小θ的目的。

  將這個(gè)修改后的代價(jià)函數(shù)帶入更新式。

  θ=θ(1-αλ/m)-a/m∑(h(x)-y)x

  這會(huì)使曲線(xiàn)相對(duì)平滑。正則化參數(shù)要設(shè)的大一點(diǎn),但如果太大的話(huà)所有θ相當(dāng)于不存在,曲線(xiàn)就會(huì)成一條水平直線(xiàn)。

 2,分類(lèi)問(wèn)題

  在分類(lèi)問(wèn)題中,我們簡(jiǎn)化模型為只有兩個(gè)分類(lèi)0和1.但數(shù)據(jù)的范圍遠(yuǎn)在0至1之外,所以我們可以用logistic函數(shù)做處理:

  h(x)=1/(1+e-fθ(x))

  z為0時(shí)g(z)取0.5,g(z)在0到1之間

  這樣就可以將正負(fù)改為與0.5的大小區(qū)別,實(shí)際上h(x)=P(y=1|x;θ)

  即得到的結(jié)果可以代表y為1的概率

  這樣當(dāng)h(x)>0.5時(shí)我們可以認(rèn)為對(duì)應(yīng)的xi分類(lèi)為使y為1,h(x)<0.5認(rèn)為對(duì)應(yīng)的xi使y為0。



  如圖的h(x)將數(shù)據(jù)分為兩部分,這條線(xiàn)叫做決策邊界。在線(xiàn)內(nèi)外的數(shù)據(jù)位置分別對(duì)應(yīng)著與零的大小,概率表現(xiàn)在h(x)上。當(dāng)然決策邊界可以是不同形式的函數(shù)。



評(píng)論


相關(guān)推薦

技術(shù)專(zhuān)區(qū)

關(guān)閉