擁抱大數(shù)據(jù) 需要大智慧

作者：時間：2014-04-28 來源：電子產(chǎn)品世界

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

　　近年來，有關大數(shù)據(jù)的熱點話題一浪高過一浪，關注大數(shù)據(jù)應用的人也越來越多。總體來說，人們對大數(shù)據(jù)的前景持樂觀態(tài)度，比如談到大數(shù)據(jù)的技術特征，人們最容易想起的就是4個“v”：vast(數(shù)量龐大)、variety(種類繁多)、velocity(增長迅速)和value(總價值高)。這些都沒錯，但仔細一想，它們都是偏重說明大數(shù)據(jù)的正面優(yōu)勢的。但其實，大也有大的難處，大數(shù)據(jù)也不可避免地存在著一些負面劣勢。結合筆者的從業(yè)經(jīng)驗，大數(shù)據(jù)的負面劣勢可以概括為4個“n”，下面逐一說明每個n的含義。

本文引用地址：http://2s4d.com/article/246098.htm

　　inflated大數(shù)據(jù)是肥胖的。大數(shù)據(jù)的大不僅僅體現(xiàn)在數(shù)據(jù)記錄的行數(shù)多，更體現(xiàn)在字段變量的列數(shù)多，這就為分析多因素之間的關聯(lián)性帶來了難度。哪怕是最簡單的方差分析，計算一兩個還行，計算一兩百個就讓人望而生畏了。

　　unstructured大數(shù)據(jù)是非結構化的。大數(shù)據(jù)的結構也是非常復雜的，既包括像交易額、時間等連續(xù)型變量，像性別、工作類型等離散型變量這樣傳統(tǒng)的結構化數(shù)據(jù)，更增添了如文本、社會關系網(wǎng)絡，乃至語音、圖像等大量新興的非結構化數(shù)據(jù)，而這些非結構化數(shù)據(jù)蘊含的信息量往往更加巨大，但分析手段卻略顯單薄。

　　incomplete大數(shù)據(jù)是殘缺的。在現(xiàn)實的世界里，由于用戶登記的信息不全、計算機數(shù)據(jù)存儲的錯誤等種種原因，數(shù)據(jù)缺失是常見的現(xiàn)象。在大數(shù)據(jù)的場景下，數(shù)據(jù)缺失更是家常便飯，這就為后期的分析與建模質量增加了不確定的風險。

　　abnormal大數(shù)據(jù)是異常的。同樣，在現(xiàn)實的世界里，大數(shù)據(jù)里還有不少異常值(outlier)。比如某些連續(xù)型變量(如一個短期時間內的交易金額)的取之太大，某些離散型變量(如某個被選購的產(chǎn)品名稱)里的某個水平值出現(xiàn)的次數(shù)太少，等等。如果不刪除，很可能干擾模型系數(shù)的計算和評估;如果直接刪除，又覺得缺乏說服力，容易引起他人的質疑。這使得分析人員落到了一個進退兩難的境地。

　　如果不能處理好這些不利因素，大數(shù)據(jù)應用的優(yōu)勢很難發(fā)揮出來。想要擁抱大數(shù)據(jù)，并不是一項在常規(guī)條件下數(shù)據(jù)分析的簡單升級，而是一項需要大智慧的綜合工作。STIR(喚醒)策略是筆者在實踐工作中提煉出來的、能夠在實際工作中有效克服大數(shù)據(jù)負面劣勢的應對方法。具體來說，STIR策略包含了四種技術手段，目前都已經(jīng)有機地整合在統(tǒng)計分析與數(shù)據(jù)挖掘專業(yè)軟件JMP中了，它可以用來解決上文提出的四個問題，下面將分別說明。

Switching Variables切換變量

　　它是用來解決大數(shù)據(jù)“殘缺”問題的。通過“列轉換器”、“動畫播放”等工具，海量因素之間的關聯(lián)性分析變得十分簡單、快捷，還可以根據(jù)需要對關聯(lián)性的重要程度進行排序，大數(shù)據(jù)分析的效率由此得到大幅提升。

　　基于JMP軟件的關聯(lián)性分析篩選的界面

Text Mining文本挖掘

　　它是用來解決大數(shù)據(jù)“非結構化”問題的。通過先對文字、圖像等新媒體信息源進行降維、去噪、轉換等處理，產(chǎn)生結構化數(shù)據(jù)，再用成熟的統(tǒng)計分析和數(shù)據(jù)挖掘方法進行評價和解釋。這樣一來，大數(shù)據(jù)的應用范圍得到了極大的拓展。

　　基于JMP軟件的文本分析結果的最終展現(xiàn)界面

Imputation缺失數(shù)賦值

　　它是用來解決大數(shù)據(jù)“殘缺”問題的。在有missing data的時候，我們并不完全排斥直接刪除的方法，但更多的時候，我們會在條件允許的情況下，用賦值的方法去替代原先的缺失值。具體的技術很多，簡單的如計算平均值、中位數(shù)、眾數(shù)之類的統(tǒng)計量，復雜的如用回歸、決策樹、貝葉斯定理去預測缺失數(shù)的近似值等。這樣一來，大數(shù)據(jù)的質量大為改觀，為后期的分析與建模奠定了扎實的基礎。

　基于JMP軟件的缺失數(shù)賦值方法選擇的操作界面

Robust Modeling穩(wěn)健建模

　　它是用來解決大數(shù)據(jù)“異常”問題的。在融入了自動識別、重要性加權等處理手段后，分析人員既直接消除了個別強影響點的敏感程度，又綜合考慮了所有數(shù)據(jù)的影響，增強了模型的抗干擾能力，使得模型體現(xiàn)出良好的預測特性，由此做出的業(yè)務決策自然變得更加科學、精準。

　　基于JMP軟件的模型穩(wěn)健擬合的報表界面

　　總之，我們必須要對大數(shù)據(jù)有一個全面、客觀的認識。只有在不同的業(yè)務和數(shù)據(jù)背景下采用不同的戰(zhàn)略戰(zhàn)術，才能在大數(shù)據(jù)時代，真正發(fā)揮大數(shù)據(jù)的杠桿作用，有效提高企業(yè)的運營效率和市場競爭力。

新聞中心

擁抱大數(shù)據(jù) 需要大智慧

評論

相關推薦

技術專區(qū)