什么決定了訓(xùn)練 AI 所需的數(shù)據(jù)集的大小?
訓(xùn)練人工智能 (AI) 算法需要大型數(shù)據(jù)集,而且它們可能很昂貴。那么,多少數(shù)據(jù)才足夠呢?問題的復(fù)雜性、模型的復(fù)雜性、數(shù)據(jù)的質(zhì)量以及所需的準(zhǔn)確性水平主要決定了這一點(diǎn)。
本文引用地址:http://2s4d.com/article/202504/469557.htm數(shù)據(jù)增強(qiáng)技術(shù)可以增加數(shù)據(jù)集的大小,而學(xué)習(xí)曲線分析可以確定何時(shí)優(yōu)化了訓(xùn)練結(jié)果。
問題復(fù)雜性是影響所需數(shù)據(jù)集大小的一個(gè)主要因素。圖像識(shí)別很復(fù)雜,并且需要比簡單圖像分類更大的訓(xùn)練數(shù)據(jù)集。此外,具有更多特征的問題需要更多的訓(xùn)練示例來學(xué)習(xí)所有可能的關(guān)系。
模型復(fù)雜性也很重要,具有更多參數(shù)的深度學(xué)習(xí)模型可能需要非常大的數(shù)據(jù)集才能進(jìn)行有效學(xué)習(xí)。一個(gè)常見的經(jīng)驗(yàn)法則是 “10 法則”,它指出有效的訓(xùn)練需要的數(shù)據(jù)點(diǎn)是模型中參數(shù)數(shù)量的 10 倍。
數(shù)據(jù)質(zhì)量和增強(qiáng)
噪聲最小或不一致的數(shù)據(jù)是“高質(zhì)量”訓(xùn)練數(shù)據(jù)。獲取大量高質(zhì)量數(shù)據(jù)可能很困難,但可以擴(kuò)充較小的數(shù)據(jù)集以人為地增加數(shù)據(jù)集的大小。
Argumentation 可用于所有類型的數(shù)據(jù)。即使是看似微小的更改也足夠了。例如,圖像數(shù)據(jù)集的有效增強(qiáng)形式可以包括裁剪、反射、旋轉(zhuǎn)、縮放、平移或添加高斯噪聲,如圖 1 所示。
圖 1.一個(gè)原始圖像示例(左)和四個(gè)其他圖像是使用數(shù)據(jù)增強(qiáng)技術(shù)得出的。(圖片:Nexocode)
欠擬合和過擬合
偏差和方差指標(biāo)可用于確定 AI/ML 模型的質(zhì)量。偏差是與過于簡單的模型(也稱為欠擬合)相關(guān)的預(yù)測誤差,而高方差表示模型過于復(fù)雜(過度擬合),并且除了數(shù)據(jù)本身之外,還會(huì)考慮數(shù)據(jù)集中的“噪聲”。
理想的模型具有低偏差和低方差。這兩個(gè)指標(biāo)可以被認(rèn)為是獨(dú)立的,如圖 2 所示。但是,對(duì)于 AI/ML 模型,它們往往成反比,增加一個(gè)模型會(huì)導(dǎo)致另一個(gè)模型減少。這被稱為 “偏差-方差權(quán)衡”,是確定模型訓(xùn)練成功與否時(shí)學(xué)習(xí)曲線分析中的一個(gè)重要考慮因素。
圖 2.AI/ML 模型旨在產(chǎn)生偏差和方差的理想組合(左上角目標(biāo))。(圖片:Analytics Vidhya)
時(shí)期和學(xué)習(xí)曲線分析
紀(jì)元表示使用給定數(shù)據(jù)集訓(xùn)練 AI/ML 模型的完整周期。Epochs 還用于學(xué)習(xí)曲線分析,以確定最佳訓(xùn)練周期數(shù)。
學(xué)習(xí)曲線分析很重要,因?yàn)樗璧?epoch 數(shù)可以達(dá)到數(shù)千個(gè)。但是,使用更多的 epoch 來 “優(yōu)化” 結(jié)果并不是更好,因?yàn)橛?xùn)練太多 epoch 會(huì)導(dǎo)致過度擬合。
學(xué)習(xí)曲線在 x 軸上繪制數(shù)據(jù)量(通常是時(shí)期),在 y 軸上繪制模型的準(zhǔn)確性(或其他性能指標(biāo))。學(xué)習(xí)曲線分析將訓(xùn)練結(jié)果與一組驗(yàn)證數(shù)據(jù)進(jìn)行比較。驗(yàn)證數(shù)據(jù)可以是獨(dú)立的數(shù)據(jù)集,也可以是不用于訓(xùn)練的訓(xùn)練數(shù)據(jù)集的子集。
分析限制
并非所有模型在偏差和方差之間都具有相同的關(guān)系。這可能使確定最佳模型變得具有挑戰(zhàn)性。
通常,當(dāng)偏差和方差的組合達(dá)到全局最小值時(shí),可以確定最佳模型,如圖 3a 所示。對(duì)于某些模型,方差的增加速度可能慢于偏差的減少速度(圖 3b),并且確定最佳模型可能并不那么簡單。在這些情況下,新的或改進(jìn)的模型可能會(huì)提供更好的結(jié)果。
圖 3.偏差和方差之間的關(guān)系并不總是可以依靠來確定最佳模式。(Analytica Chimica Acta)
總結(jié)
“10 法則”可以為確定 AI/ML 訓(xùn)練所需的數(shù)據(jù)量提供一個(gè)起點(diǎn)。使用增強(qiáng)技術(shù)可以以低成本擴(kuò)展數(shù)據(jù)可用性??梢允褂脤W(xué)習(xí)曲線來分析訓(xùn)練結(jié)果,但找到最佳模型并不總是那么簡單,可能需要調(diào)整或替換。
評(píng)論