探索性數(shù)據(jù)分析(EDA),你會(huì)使用嗎?
所謂探索性數(shù)據(jù)分析(Exploratory Data Analysis,以下簡稱EDA),是指對(duì)已有的數(shù)據(jù)(特別是調(diào)查或觀察得來的原始數(shù)據(jù))在盡量少的先驗(yàn)假定下進(jìn)行探索,通過作圖、制表、方程擬合、計(jì)算特征量等手段探索數(shù)據(jù)的結(jié)構(gòu)和規(guī)律的一種數(shù)據(jù)分析方法。特別是當(dāng)我們對(duì)這些數(shù)據(jù)中的信息沒有足夠的經(jīng)驗(yàn),不知道該用何種傳統(tǒng)統(tǒng)計(jì)方法進(jìn)行分析時(shí),探索性數(shù)據(jù)分析就會(huì)非常有效。探索性數(shù)據(jù)分析在上世紀(jì)六十年代被提出,其方法由美國著名統(tǒng)計(jì)學(xué)家約翰·圖基(John Tukey)命名。
本文引用地址:http://2s4d.com/article/113459.htmEDA的出現(xiàn)主要是在對(duì)數(shù)據(jù)進(jìn)行初步分析時(shí),往往還無法進(jìn)行常規(guī)的統(tǒng)計(jì)分析。這時(shí)候,如果分析者先對(duì)數(shù)據(jù)進(jìn)行探索性分析,辨析數(shù)據(jù)的模式與特點(diǎn),并把它們有序地發(fā)掘出來,就能夠靈活地選擇和調(diào)整合適的分析模型,并揭示數(shù)據(jù)相對(duì)于常見模型的種種偏離。在此基礎(chǔ)上再采用以顯著性檢驗(yàn)和置信區(qū)間估計(jì)為主的統(tǒng)計(jì)分析技術(shù),就可以科學(xué)地評(píng)估所觀察到的模式或效應(yīng)的具體情況。
所以概括起來說,分析數(shù)據(jù)可以分為探索和驗(yàn)證兩個(gè)階段。探索階段強(qiáng)調(diào)靈活探求線索和證據(jù),發(fā)現(xiàn)數(shù)據(jù)中隱藏的有價(jià)值的信息,而驗(yàn)證階段則著重評(píng)估這些證據(jù),相對(duì)精確地研究一些具體情況。在驗(yàn)證階段,常用的主要方法是傳統(tǒng)的統(tǒng)計(jì)學(xué)方法,在探索階段,主要的方法就是EDA,下面我們重點(diǎn)對(duì)EDA做進(jìn)一步的說明。
EDA的特點(diǎn)有三個(gè):一是在分析思路上讓數(shù)據(jù)說話,不強(qiáng)調(diào)對(duì)數(shù)據(jù)的整理。傳統(tǒng)統(tǒng)計(jì)方法通常是先假定一個(gè)模型,例如數(shù)據(jù)服從某個(gè)分布(特別常見的是正態(tài)分布),然后使用適合此模型的方法進(jìn)行擬合、分析及預(yù)測。但實(shí)際上,多數(shù)數(shù)據(jù)(尤其是實(shí)驗(yàn)數(shù)據(jù))并不能保證滿足假定的理論分布。因此,傳統(tǒng)方法的統(tǒng)計(jì)結(jié)果常常并不令人滿意,使用上受到很大的局限。EDA則可以從原始數(shù)據(jù)出發(fā),深入探索數(shù)據(jù)的內(nèi)在規(guī)律,而不是從某種假定出發(fā),套用理論結(jié)論,拘泥于模型的假設(shè)。
二是EDA分析方法靈活,而不是拘泥于傳統(tǒng)的統(tǒng)計(jì)方法。傳統(tǒng)的統(tǒng)計(jì)方法以概率論為基礎(chǔ),使用有嚴(yán)格理論依據(jù)的假設(shè)檢驗(yàn)、置信區(qū)間等處理工具。EDA處理數(shù)據(jù)的方式則靈活多樣,分析方法的選擇完全從數(shù)據(jù)出發(fā),靈活對(duì)待,靈活處理,什么方法可以達(dá)到探索和發(fā)現(xiàn)的目的就使用什么方法。這里特別強(qiáng)調(diào)的是EDA更看重的是方法的穩(wěn)健性、耐抗性,而不刻意追求概率意義上的精確性。
三是EDA分析工具簡單直觀,更易于普及。傳統(tǒng)的統(tǒng)計(jì)方法都比較抽象和深?yuàn)W,一般人難于掌握,EDA則更強(qiáng)調(diào)直觀及數(shù)據(jù)可視化,更強(qiáng)調(diào)方法的多樣性及靈活性,使分析者能一目了然地看出數(shù)據(jù)中隱含的有價(jià)值的信息,顯示出其遵循的普遍規(guī)律及與眾不同的突出特點(diǎn),促進(jìn)發(fā)現(xiàn)規(guī)律,得到啟迪,滿足分析者的多方面要求,這也是EDA對(duì)于數(shù)據(jù)分析的的主要貢獻(xiàn)。
值得一提的是,正因?yàn)镋DA更強(qiáng)調(diào)直觀及圖形顯示,所以它采用了很多創(chuàng)新的可視化技術(shù),目前這些可視化技術(shù)已經(jīng)有了很好的實(shí)現(xiàn)載體,目前最為主流的探索性數(shù)據(jù)分析軟件是以圖形效果好、交互性強(qiáng)、易學(xué)易用著稱的統(tǒng)計(jì)發(fā)現(xiàn)軟件JMP。即使不具備統(tǒng)計(jì)學(xué)基礎(chǔ)的分析者也能在JMP的幫助下,輕松地發(fā)現(xiàn)數(shù)據(jù)、擬合以及殘差的規(guī)律,獲得意想不到的發(fā)現(xiàn),為后續(xù)的分析啟發(fā)思路、指明方向。
下面,用一個(gè)典型的小案例來說明EDA的實(shí)際應(yīng)用。
我們?yōu)榱藢?duì)全球經(jīng)濟(jì)的發(fā)展趨勢(shì)和世界頂級(jí)公司的經(jīng)營狀況做一些研究,可以從公共網(wǎng)站上下載數(shù)據(jù)(如http://www.forbes.com/lists中的福布斯2000強(qiáng)名單),用JMP略作整理之后可以得到如表一所示的數(shù)據(jù)表,其中包含了上榜公司的名稱、所屬行業(yè)、所屬國家、上榜年份、上榜排名、市場價(jià)值、資產(chǎn)額、銷售額、利潤額等9個(gè)變量,總計(jì)14000條記錄(每年2000條,從2004年至2010年共7個(gè)年度)。現(xiàn)在的問題是:數(shù)據(jù)有了,其中到底隱藏著怎樣的有價(jià)值的信息呢?我們又如何發(fā)現(xiàn)這些信息呢?
有人說:既然是連續(xù)型數(shù)據(jù),又包含時(shí)間變量,應(yīng)該用時(shí)間序列方法進(jìn)行分析!的確,時(shí)間序列可以告訴我們變量隨時(shí)間的變化,然而實(shí)際中我們所希望和可以得到的有價(jià)值的信息,往往遠(yuǎn)不止“隨時(shí)間變化”這么簡單,更何況,需要分析這些商業(yè)數(shù)據(jù)的用戶常常并不清楚什么是“時(shí)間序列分析”方法。
評(píng)論