新聞中心

EEPW首頁(yè) > 智能計(jì)算 > 設(shè)計(jì)應(yīng)用 > 智能硬件讓磁盤(pán)起死回生:獲取舊數(shù)據(jù)

智能硬件讓磁盤(pán)起死回生:獲取舊數(shù)據(jù)

作者: 時(shí)間:2018-07-30 來(lái)源:網(wǎng)絡(luò) 收藏

本文引用地址:http://2s4d.com/article/201807/384347.htm

將文件轉(zhuǎn)移到現(xiàn)代媒介上只是第一步。接下來(lái)要搞清楚其中的內(nèi)容,而這需要另一套工具。

2012年,William Parker和同事試圖尋找一個(gè)追蹤5萬(wàn)余棵精心栽培的白云杉在10年間和1500公里范圍內(nèi)生長(zhǎng)情況的數(shù)據(jù)集。他們發(fā)現(xiàn)了一盒計(jì)算機(jī)磁帶—— 一個(gè)相對(duì)現(xiàn)代的3.5英寸和一箱子較老的5.25英寸。這些包含了來(lái)自上世紀(jì)70年代田間試驗(yàn)、被用于提高商用木材產(chǎn)量的數(shù)據(jù)。在加拿大安大略森林研究所任職的Parker需要一些方法,以評(píng)估諸如“協(xié)助遷移”等策略可能如何在這個(gè)日益變暖的星球上保護(hù)森林。而這種長(zhǎng)期的系統(tǒng)研究正是他要找的東西。“當(dāng)我們發(fā)現(xiàn)它時(shí),那種感覺(jué)就像‘上帝呀!我們終于找到它啦!’”

不過(guò),事情并沒(méi)有發(fā)展得那么快。Parker啟動(dòng)一臺(tái)舊電腦,但它無(wú)法讀取最新的磁盤(pán)。同時(shí),也沒(méi)有人擁有嘗試讀取其他磁盤(pán)的設(shè)備。

Parker的IT服務(wù)商將其介紹給一家數(shù)據(jù)恢復(fù)公司。事實(shí)證明,較老的磁盤(pán)是一種小型軟盤(pán),即以極少數(shù)驅(qū)動(dòng)器能讀取的格式寫(xiě)入的雙面磁盤(pán)。專(zhuān)家們利用一個(gè)打孔機(jī)(有點(diǎn)類(lèi)似于數(shù)字取證)以及一些將過(guò)時(shí)的軟件轉(zhuǎn)化成現(xiàn)代電子表格的程序,最終讀取了這些磁盤(pán)。

Parker的經(jīng)歷是很多研究人員所遇到的問(wèn)題的縮影。位于美國(guó)威斯康辛州麥迪遜市的AVPreserve公司檔案保管員Bertram Lyons表示,從過(guò)時(shí)的數(shù)據(jù)存儲(chǔ)媒介中獲取信息就像解鎖一系列籠子。“科學(xué)家擁有很多困在舊格式中的信息。有些是硬件障礙,有些是編碼結(jié)構(gòu)的問(wèn)題。”

希望從過(guò)時(shí)的媒介中獲取數(shù)據(jù)的科學(xué)家首先需要找到能讀取它的設(shè)備,并將其連接到一臺(tái)現(xiàn)代電腦上。不過(guò),將文件轉(zhuǎn)移到現(xiàn)代媒介上只是第一步。接下來(lái)要搞清楚其中的內(nèi)容,而這需要另一套工具。

去當(dāng)?shù)貓D書(shū)館尋求幫助

當(dāng)提到舊硬件時(shí),一個(gè)不錯(cuò)的開(kāi)始方式是去當(dāng)?shù)貓D書(shū)館。位于美國(guó)華盛頓特區(qū)的公共圖書(shū)館記憶實(shí)驗(yàn)室提供了一個(gè)自己動(dòng)手(DIY)的工作站,比如人們可將3.5英寸磁盤(pán)轉(zhuǎn)移成現(xiàn)代格式。斯坦福大學(xué)圖書(shū)館則為5.25英寸磁盤(pán)提供類(lèi)似資源。澳大利亞墨爾本大學(xué)電子學(xué)術(shù)研究中心主任Gavan McCarthy擁有一個(gè)能處理很多格式的“冗余技術(shù)圖書(shū)館”。“如果你有磁帶、磁盤(pán)以及它能放進(jìn)去的任何東西,我們就有對(duì)應(yīng)的轉(zhuǎn)換插頭。”McCarthy表示。

只需要為每張磁盤(pán)支付幾美元,諸如位于加州的軟盤(pán)公司等轉(zhuǎn)換服務(wù)企業(yè)便能提供幫助。專(zhuān)門(mén)處理受損媒介的數(shù)據(jù)恢復(fù)服務(wù)也是這種情況??偛课挥诩又葜Z瓦托市的數(shù)據(jù)恢復(fù)公司DriveSavers擁有約2萬(wàn)個(gè)存儲(chǔ)設(shè)備,其中最老的一個(gè)是1980年舒加特聯(lián)合公司的ST-506硬盤(pán)驅(qū)動(dòng)器。Parker利用位于多倫多且同穆勒媒介服務(wù)公司簽訂了分包合同的CBL數(shù)據(jù)恢復(fù)公司恢復(fù)他的數(shù)據(jù),并為此支付了約3000美元。

成功取決于媒介的脆弱性及其被儲(chǔ)存的方式。5.25英寸磁盤(pán)很容易遭到油和壓力的破壞,艾美加公司的壓縮盤(pán)則很不穩(wěn)定。不過(guò),McCarthy介紹說(shuō),這不僅僅是“電子信息的衰減”問(wèn)題,或者說(shuō)對(duì)媒介本身造成的破壞,從而使舊的媒介無(wú)法被讀取。“機(jī)器和零部件的數(shù)量也在以令人難以置信的速度不斷減少。”具有諷刺意味的是,紙張反而更加穩(wěn)定。

與時(shí)俱進(jìn)

擁有舊驅(qū)動(dòng)器和電源線的人們或許會(huì)受誘惑建立自己的DIY工作站,但最終發(fā)現(xiàn),新的電腦不再含有將其同驅(qū)動(dòng)器連接起來(lái)的插件板和接口。比如,一些舊的壓縮盤(pán)要插進(jìn)并行端口—— 一個(gè)如今幾乎已經(jīng)消失的接口。不過(guò),現(xiàn)在有很多可以幫上忙的適配器。它們主要被檔案保管員和視頻游戲的狂熱愛(ài)好者使用,其中最尖端的是由軟件保護(hù)協(xié)會(huì)開(kāi)發(fā)的KryoFlux設(shè)備。它能通過(guò)USB接口轉(zhuǎn)移軟盤(pán)數(shù)據(jù)。位于英國(guó)梅德斯通的KryoFlux保護(hù)技術(shù)集團(tuán)就該設(shè)備向私人用戶收取約100美元的費(fèi)用。

與此同時(shí),現(xiàn)代電腦上的操作系統(tǒng)可能無(wú)法讀取舊格式的文件。科羅拉多大學(xué)媒介考古學(xué)實(shí)驗(yàn)室主任Lori Emerson表示,他們?cè)鴰椭?dāng)?shù)匾患铱茖W(xué)博物館恢復(fù)壓縮盤(pán)上的秘密文件,而這取決于找到了合適的電腦(來(lái)自1994年的運(yùn)行OS 7系統(tǒng)的威力麥金塔8100計(jì)算機(jī))讀取這份文件。最終證明,這是一個(gè)來(lái)自舊版本的引文管理軟件EndNote的程序庫(kù)。

伊利諾依大學(xué)藥物化學(xué)研究員Guido Pauli建議,對(duì)付數(shù)據(jù)衰減的最好方法是與時(shí)俱進(jìn)。Pauli維護(hù)著讓研究人員尋找天然產(chǎn)物(比如植物提取物)以及報(bào)道過(guò)的生物活性的NAPRALERT數(shù)據(jù)庫(kù)。它起始于由Pauli博士生導(dǎo)師組織起來(lái)的索引卡,并且自此以后經(jīng)歷了磁帶和各種磁盤(pán)格式,如今則以云存儲(chǔ)和硬盤(pán)驅(qū)動(dòng)器的形式分布在兩個(gè)大洲。“我確實(shí)有一些舊的媒介,但不會(huì)因?yàn)闊o(wú)法讀取它們而影響工作。”Pauli表示。

理解和評(píng)估數(shù)據(jù)文件

恢復(fù)的下一個(gè)挑戰(zhàn)是搞清楚數(shù)據(jù)文件本身。對(duì)于數(shù)字檔案保管員來(lái)說(shuō),維護(hù)數(shù)據(jù)的第一步是獲取磁盤(pán)鏡像,即將所有電子數(shù)據(jù)逐位對(duì)應(yīng)地拷貝到一個(gè)設(shè)備上,包括覆蓋的和隱藏的文件。雖然這是數(shù)字取證技術(shù)的范圍,但針對(duì)此類(lèi)工具的商業(yè)許可會(huì)花費(fèi)上千美元。此外,由于它們關(guān)注的是法律應(yīng)用,因此忽略了一些對(duì)檔案保管員來(lái)說(shuō)非常重要的特定功能,比如編寫(xiě)敏感信息。

這促使檔案保管人員創(chuàng)建了開(kāi)源“虛擬機(jī)器”——BitCurator。它對(duì)磁盤(pán)進(jìn)行鏡像,并且指導(dǎo)人們自行操作內(nèi)容解讀的最初幾步,比如檢測(cè)比特和字節(jié)如何被格式化成供諸如Windows NT操作系統(tǒng)、Linux或者DOS等讀取的文件。格式越模糊,解讀起來(lái)便會(huì)越困難。

創(chuàng)建穆勒媒介服務(wù)公司的Chris Muller編寫(xiě)了軟件來(lái)解鎖舊文件。不過(guò),在他看來(lái),人類(lèi)線索有時(shí)會(huì)更有價(jià)值。在一個(gè)潛在項(xiàng)目的初期,Muller會(huì)讓客戶把初始媒介的照片用電子郵件發(fā)送給他。有時(shí),對(duì)客戶毫無(wú)意義的某個(gè)專(zhuān)家的信手涂鴉正是讓Muller推導(dǎo)出備份數(shù)據(jù)時(shí)可能利用了哪種格式和軟件的字母或數(shù)字。

BitCurator的主要推動(dòng)者之一、來(lái)自北卡羅萊納大學(xué)教堂山分校信息和圖書(shū)館科學(xué)學(xué)院的Christopher Lee解釋說(shuō),下一步是評(píng)估文件。文件可能以無(wú)法識(shí)別的形式存在,因此很難知道哪種程序可以打開(kāi)它。“軟件經(jīng)常會(huì)成為障礙。”Lee表示。研究人員可以利用名為“文書(shū)編輯”的計(jì)算機(jī)程序,顯示此類(lèi)文件初始的二進(jìn)制內(nèi)容。運(yùn)氣好的話,這或許能揭示某個(gè)文件是用什么軟件生成的,或者使可用數(shù)據(jù)被直接提取出來(lái)。BitCurator還同美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究所軟件參考圖書(shū)館建立互動(dòng),以試圖將文件同創(chuàng)建它們的軟件匹配起來(lái)。

不過(guò),在數(shù)字檔案保管員看來(lái),有時(shí)最大的障礙不是技術(shù)上的而是人。將文件提取出來(lái)然后僅知道它有6列和10萬(wàn)行是不夠的。研究人員需要知道這些數(shù)字意味著什么。例如,由來(lái)自密歇根州高校校際政治與社會(huì)研究聯(lián)盟的Amy Pienta領(lǐng)導(dǎo)的檔案保管員購(gòu)買(mǎi)了翻新的穿孔卡片讀出器,以便從上世紀(jì)50年代一項(xiàng)關(guān)于退休的大規(guī)模隊(duì)列研究中獲取數(shù)據(jù)。不過(guò),在這些卡片被轉(zhuǎn)換成數(shù)字代碼后,他們需要密碼本以便知道這些數(shù)字指的是什么——代碼“1”意味著“是”還是“否”?

Parker的故事則有了一個(gè)有趣的結(jié)尾:電子數(shù)據(jù)僅包含了每組樹(shù)木的平均值,但一個(gè)幸運(yùn)的電話表明,關(guān)于每棵樹(shù)測(cè)量數(shù)據(jù)的紙質(zhì)記錄被保存下來(lái)。為此,他驅(qū)車(chē)好幾個(gè)小時(shí),去會(huì)見(jiàn)創(chuàng)造這些原始數(shù)據(jù)的科學(xué)家并且收集了數(shù)據(jù)表。



評(píng)論


相關(guān)推薦

技術(shù)專(zhuān)區(qū)

關(guān)閉