ML(機(jī)器學(xué)習(xí)):輕松理解回歸觀(guān)念
1 簡(jiǎn)單的回歸觀(guān)念
當(dāng)今主流的AI 是機(jī)器學(xué)習(xí)(ML)。這種AI 的主要能力之一就是:從復(fù)雜的數(shù)據(jù)里探索潛在的規(guī)律?;镜母怕屎突貧w分析觀(guān)念,就是AI/ 機(jī)器學(xué)習(xí)探索規(guī)律的基礎(chǔ)技術(shù)。例如,有一群二維的數(shù)據(jù)點(diǎn),有一條最具有代表性的直線(xiàn):X*W+B=Y。在統(tǒng)計(jì)學(xué)上,這條線(xiàn)通稱(chēng)為:回歸(Regression) 線(xiàn)。其中,X[ ] 和Y[ ] 值是已知的,而W 和B 是未知的,如圖1。
圖1
所謂“回歸分析”就是找尋最棒的W 和B 值。就得到這條線(xiàn)了。從上圖的Excel 畫(huà)面里,按下“尋找規(guī)律”按鈕,就會(huì)進(jìn)行回歸分析,找出最適合的W和B 值,并輸出如圖2。
圖2
剛才的回歸分析已經(jīng)找出最棒的W 和B 值了,也就是找到最具代表性的回歸曲線(xiàn)了。于是就繪出圖形如圖3。
圖3
這一條線(xiàn)就是X*1.3+3.3=Y 線(xiàn)性方程式的圖形表示。接下來(lái),就拿圖3 里的“test data”來(lái)進(jìn)行預(yù)測(cè)(Predict)?,F(xiàn)在,請(qǐng)按下“Predict”,就拿新數(shù)據(jù)X 來(lái)預(yù)測(cè)出對(duì)應(yīng)的E(Y/X) 值,如圖4。
圖4
這兩筆資料,就會(huì)對(duì)映到這回歸線(xiàn)上的兩個(gè)點(diǎn),如圖5。
這就意味著, 我們已知X 值為:1.5, 經(jīng)由X*1.3+3.3=Y 線(xiàn)性方程式來(lái)計(jì)算出Y 值為:5.25。這就是一種預(yù)測(cè)的方法。
圖5
2 邏輯回歸
一樣使用線(xiàn)性回歸:X*W+B=Y。將得出的Y 值,經(jīng)由Sigmoid() 函數(shù),可以計(jì)算出條件概率P(Y/X) 值。這是機(jī)器學(xué)習(xí)的二元分類(lèi)的標(biāo)準(zhǔn)做法。例如,有7 瓶水,其攝氏溫度分別是:[-5,-2,-1,2,3,4,6]。此時(shí)人們常常將之區(qū)分為兩個(gè)類(lèi)別:水與冰。就把這X 值和P(Y/X) 值,呈現(xiàn)于Excel 上,如圖6。
圖6
其數(shù)據(jù)的意義是:依據(jù)人們?nèi)粘I钪械慕?jīng)驗(yàn),第1 瓶溫度是-5℃,有95% 的概率是屬于“冰”類(lèi)。再如最后一瓶的溫度是6℃,有95% 的概率是屬于“水”類(lèi)?,F(xiàn)在,可以按下“尋找規(guī)律”,就進(jìn)行回歸分析,找出最棒的W 和B 值,如圖7。
圖7
就得到了線(xiàn)性方程式:X*0.689393699-0.071644135=Y。于是就繪出圖形如圖8。
圖8
這條直線(xiàn)就是AI 機(jī)器學(xué)習(xí)里,常常聽(tīng)到的:分類(lèi)線(xiàn)。只要經(jīng)有Sigmoid() 函數(shù)進(jìn)行轉(zhuǎn)換,就成為S 型的回歸曲線(xiàn)了。接著,按下“Sigmoid 圖”,就由Sigmoid()激活函數(shù)轉(zhuǎn)換,將直線(xiàn)轉(zhuǎn)換成為曲線(xiàn),并繪出圖形如圖9。
圖9
因?yàn)镾igmoid() 函數(shù)能從線(xiàn)性公式計(jì)算出來(lái)Y 值轉(zhuǎn)換成為P(Y/X) 概率值。因此,這條曲線(xiàn)成為上述(Excel里) 數(shù)據(jù)的最佳代表曲線(xiàn)( 即回歸線(xiàn))。這時(shí)候,就把7個(gè)瓶子區(qū)分為兩類(lèi)了,如圖10。
圖10
于是您就可以了解了,AI/ 機(jī)器學(xué)習(xí)就是,通過(guò)這樣來(lái)一堆數(shù)據(jù)進(jìn)行分門(mén)別類(lèi),簡(jiǎn)稱(chēng)為:分類(lèi)(Classification)。剛才的回歸分析已經(jīng)找出最棒的W 和B 值了,然后經(jīng)由Sigmoid() 轉(zhuǎn)換,而找到最具代表性的回歸曲線(xiàn)。接下來(lái),就能給予新的數(shù)據(jù)X,如圖11。
圖11
現(xiàn)在,按下“Predict”,就會(huì)通過(guò)這條回歸曲線(xiàn)而計(jì)算( 預(yù)測(cè)) 出相對(duì)應(yīng)的P(Y/X) 條件概率值。如圖12。
圖12
其中,先計(jì)算:X*W+B=Y,得到了Y 值。再將Y值經(jīng)由sigmoid() 函數(shù)計(jì)算出P(Y/X) 值。并且繪出圖形,如圖13。
圖13
以上說(shuō)明了,我們先提供7 筆訓(xùn)練數(shù)據(jù)(Training Data),按下“尋找規(guī)律”來(lái)進(jìn)行訓(xùn)練( 即回歸分析),找出最棒的W 和B 值。然后,拿5 筆新數(shù)據(jù)來(lái)(Test Data) 來(lái)進(jìn)行分類(lèi),果然完美地分類(lèi)了。
現(xiàn)在,可以按下“繪圖P(Y= 兔/X)”,就會(huì)把各P(Y/X) 條件概率值繪出于一條數(shù)值線(xiàn)( 即一維空間),如圖14。
圖14
以上的X 只含有一個(gè)特征值。下一期里,將會(huì)說(shuō)明多個(gè)特征值的例子。
(注:本文來(lái)源于科技期刊《電子產(chǎn)品世界》2021年第2期,歡迎您寫(xiě)論文時(shí)引用,并注明出處。)
評(píng)論