網站時光機(英語:Wayback Machine)是萬維網的數碼檔案館,由位於美國加利福尼亞州舊金山的非營利組織互聯網檔案館創建,亦為該組織最重要的服務之一。它允許用戶「回到過去」,查看過去的網站的樣子。其創始人布魯斯特·卡利和Bruce Gilliat開發了網站時光機,旨在通過保存已失效網頁的存檔副本,以「普及所有知識」(universal access to all knowledge)。自2001年推出以來,截至2024年1月3日,網站時光機已存檔超過 8600 億個網頁和超過 99 PB 的數據。[4][5]
此條目可參照英語維基百科相應條目來擴充。 (2018年5月3日) |
歷史
網站時光機由互聯網檔案館的創始人布魯斯特·卡利和Bruce Gilliat於2001年公開推出,以解決網站在維護或關閉時無法查看內容的問題[6],此外還能查看網頁的歷史存檔版本,創始人Kahle和Gilliat希望以此能為整個互聯網「普及所有知識」(universal access to all knowledge)[7]。
Wayback Machine這個名稱源於動畫片The Rocky and Bullwinkle Show中的「WABAC機器」(發音為Way-back),這是一個時間旅行裝置[8][9]。在動畫片的皮博迪的不可能的歷史一集中,角色使用這一機器來見證、參與甚至改變歷史上的著名事件[10]。
網站時光機於1996年開始存檔緩存網頁,目標是在五年後將服務公之於眾[11]。從1996年到2001年,這些信息保存在數字磁帶上,Kahle偶爾允許研究人員和科學家使用數據庫[12]。2001年,互聯網檔案館成立五周年時,加州大學伯克利分校舉行了網站時光機的公布儀式[13]。當網站時光機推出時,它已經存檔了超過100億個頁面[14]。
如今,數據存儲在互聯網檔案館的大型Linux節點群集上[7]。有時會重新訪問並存檔網站的新版本(參見下文技術細節)[15]。如果網站允許網絡時光機「爬蟲索引」網站並保存數據,則也可以通過在搜索框中輸入網站的URL手動捕獲網站[11]。
技術細節
網絡時光機已經開發了軟件用於「爬蟲索引」並下載所有可公開訪問的萬維網頁面、Gopher層次結構、Usenet公告板系統和可下載軟件[16]。這些「爬蟲」收集的信息並不能包括互聯網上所有可用的信息,因為許多數據受發布者限制或存儲在不可訪問的數據庫中。為了克服部分緩存網站的不一致性,2005年,互聯網檔案館開發了Archive-It.org,使得機構和內容創作者可以自願收集和保存數字內容,並創建數字檔案館[17]。
爬蟲索引來自各種來源,其中一些是從第三方導入的,而另一些是由存檔內部生成的[15]。自2010年以來,「Worldwide Web Crawls」一直在運行,並捕獲全球網站[15][18]。
快照捕獲的頻率因網站而異[15]。「Worldwide Web Crawls」中的網站包含在「爬網列表」(crawl list)中,每次爬網都會將網站存檔一次[15]。爬網可能需要數月甚至數年才能完成,具體取決於其大小[15]。例如,"Wide Crawl Number 13"從2015年1月9日開始,於2016年7月11日完成[19]。但是,一次可能有多個爬網正在進行,並且一個站點可能包含在多個爬網列表中,因此,對站點進行爬網的頻率有很大的不同。[15]
隨着多年來技術的發展,網站時光機的存儲容量不斷增加。2003年,僅經過兩年的公開訪問,網站時光機便以每月12太字節(TB)的速度增長。數據存儲在由互聯網檔案館的工作人員定製設計的PetaBox機架系統上。第一個100太字節(TB)的機架於2004年6月全面投入使用,不過很快就發現,這些存儲空間遠遠不夠[20][21]。
互聯網檔案館在2009年其定製的存儲體系結構遷移到Sun開放式儲存,並在Sun系統的加利福尼亞園區的Sun模塊化數據中心中託管了一個新的數據中心[22]。截至2009年[update],網站時光機包含大約3拍字節(PB)的數據,並以每月100太字節(TB)的速度增長[23]。
2013年1月,該公司宣布了2400億個URL的突破性里程碑[24]。2013年10月,該公司宣布了「保存頁面」(Save a Page)功能[25],允許任何互聯網用戶存檔URL的內容。這成為了託管惡意二進制文件的服務濫用威脅[26][27]。
截至2014年12月[update],網站時光機存有4350億個網頁,將近9拍字節(PB)的數據,並且每周增長約20太字節(TB)[14][28][29]。
2013年10月至2015年3月,該網站的全球Alexa排名從163[33]變為208[34]。2019年3月,該排名為244[35].
歷年來,網站時光機一直尊重機器人排除標準(robots.txt)以決定一個網站是否會受爬網;或者如果已經爬網了,它的存檔是否可以公開查看。通過使用robots.txt,網站所有者可以選擇退出網站時光機。如果站點阻止了網頁存檔,則域中以前存檔的任何頁面也將立即顯示為不可用。此外,互聯網檔案館表示,「有時網站所有者會直接聯繫我們,要求我們停止對網站進行爬網或存檔。我們會遵守這些請求。」[38][39]
2017年4月17日,有報道稱,一些網站已經倒閉,成為暫停的域(Domain parking)。它們通過使用robots.txt把自己排除在搜索引擎之外,這使得時光機無意中排除了這些網站[40]。
網站時光機的網站排除方針(Website exclusion policy)部分基於2002年加利福尼亞大學伯克利分校信息管理和系統學院發布的《管理刪除請求和維護檔案完整性的建議》(英語:Recommendations for Managing Removal Requests and Preserving Archival Integrity),此建議賦予網站所有者阻止訪問網站存檔的權利[41]。網站時光機遵守了這一政策,以避免昂貴的訴訟[42]。
網站排除方針於2017年開始放寬,當時它停止遵循robots.txt,並對美國政府和軍方的網站進行爬網和顯示網頁。截至2017年4月,網站時光機更廣泛地忽略了robots.txt,而不僅對於美國政府網站[43][44][45][46]。
用途
自2001年網站時光機公開發布以來,學者們一直在研究它的存儲和收集數據的方式,以及其存檔中實際包含的頁面。截至2013年,學者們已經在網站時光機上撰寫了大約350篇文章,其中大部分來自信息技術、圖書館學和社會科學領域。社會科學學者們使用網站時光機分析了從90年代中期至今網站的發展對公司的成長的影響[14]。
當網站時光機存檔一個頁面時,它通常會包含大多數超鏈接,以使這些鏈接遭互聯網的不穩定性輕易破壞時,能夠仍然保持活動狀態。印度的研究人員研究了網站時光機保存在線學術出版物中的超鏈接的能力的有效性,發現它保存了略多於一半的超鏈接。[47]
有記者使用網站時光機查看失效的網站、過時的新聞報道以及被更改的網站內容。其內容已用於追究政治家的責任,揭穿爭論場合上的謊言[48]。2014年,烏克蘭東部分裂地區叛軍頓涅茨克人民軍領導人伊戈爾·斯特列爾科夫的社交媒體的存檔頁面顯示,他吹噓自己的部隊擊落了一架疑似烏克蘭軍用飛機,後來才知道這架飛機實際上是一架馬航民航客機(馬來西亞航空17號班機),之後,他刪除了發布的這篇文章,並指責烏克蘭軍方擊落了這架飛機[48][49]。2017年,在社交網站Reddit的討論中,有人表示訪問過archive.org 並發現白宮網站刪除了所有提及氣候變化的內容,對此,一位用戶評論道:「科學家有必要在華盛頓舉行一次遊行」,此事成為了為科學遊行(March for Science)舉行的原因[50][51][52]。
2014年,從抓取網站到它可以在網站時光機上查看之間存在6個月的延遲時間[53]。目前,該延遲時間為3-10小時[54]。網站時光機僅提供有限的搜索功能,它的「站點搜索」(Site Search)功能允許用戶根據描述站點的詞彙來查找站點,而非網頁本身的詞彙[55]。
由於網絡爬蟲的限制,網站時光機無法完全存檔互動式網頁,例如Flash平台和使用JavaScript和漸進式網絡應用程序編寫的表單,因為這些功能需要與宿主網站交互。網站時光機的網絡爬蟲很難提取任何未使用HTML或其變形編碼的內容,這通常會導致超鏈接損壞和圖像丟失。因此,網絡爬蟲無法存檔不包含指向其他頁面的鏈接的「孤立頁面」(Orphan page)[55][54]。由於其爬蟲程序僅能根據其預設的深度限制追蹤有限數量的超鏈接,因此它無法存檔每個頁面中的每個超鏈接[18]。
在2009年的「Netbula, LLC v. Chordiant Software Inc.」一案中,被告Chordiant提出動議,要求Netbula禁用其網站上的robots.txt文件,因為該文件導致網站時光機追溯性地撤銷了對Netbula網站先前版本的存檔的訪問權限,Chordiant相信這些頁面中存在有利於訴訟的材料[56]。
Netbula反對該動議,理由是被告要求更改Netbula的網站,他們應該直接為這些頁面直接傳喚互聯網檔案館[57]。然而,互聯網檔案館的一名雇員發表了宣誓聲明,支持Chordiant的動議,表示在「不對其運營造成大量負擔,費用和干擾」的情況下,無法通過任何其他方式訪問網頁[56]。
美國加利福尼亞北區聯邦地區法院聖何塞分部的地方法官霍華德·勞埃德(Howard Lloyd)駁回了Netbula的論點,並命令他們暫時禁用robots.txt阻止程序,以使Chordiant可以檢索他們想要的存檔頁面[56]。
在2004年10月的「 Telewizja Polska USA, Inc. v. Echostar Satellite」No. 02 C 3293, 65 Fed. R. Evid. Serv. 673 (N.D. Ill. October 15, 2004)一案中,一名訴訟當事人試圖使用網站時光機的檔案作為有效證據的來源,此舉可能屬於首次。波蘭電視台是TVP Polonia的供應商,EchoStar運營Dish Network。在審判程序之前,EchoStar表示,它打算提供網站時光機快照,作為波蘭電視台網站過去內容的證據。
參閲
- 網絡存檔網站列表
- 公共領域音樂
- 網頁存檔
- 數位圖書館
外部連結
- 官方網站
- 互联网档案馆的使用条款,隐私政策和版权政策. archive.org. 2014-12-31 [2020年6月20日]. (原始內容存檔於2020年6月6日).
- 搜索或保存网页的基本用户操作指南. WikiHow.com. [2020-06-20]. (原始內容存檔於2020-03-15) (英語、德語、西班牙語、法語及意大利語).
- Internet history is fragile. This archive is making sure it doesn't disappear [互聯網歷史是脆弱的。這個檔案正在確保它不會消失]. San Francisco: PBS Newshour. [2020-06-20]. (原始內容存檔於2021-04-08).
- 网站时光机的官方镜像网站. 新亞歷山大圖書館. [2020-06-20]. (原始內容存檔於2012-11-28). 1996-2007年 (截至2019年[update]).
- Wayback. SourceForge.net. [2020-06-20]. (原始內容存檔於2011-09-16).
- 从网站时光机检索备份的工具. github.com. [2018-05-03]. (原始內容存檔於2021-05-03).
- 网站时光机在线下载器. [2018-03-20]. (原始內容存檔於2018-03-21) (英語及波蘭語).
參考文獻
Wikiwand in your browser!
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.