網站時光機(英語:Wayback Machine)是萬維網數碼檔案館,由位於美國加利福尼亞州三藩市非營利組織互聯網檔案館建立,亦為該組織最重要的服務之一。它允許用戶「回到過去」,檢視過去的網站的樣子。其創始人布魯斯特·卡利Bruce Gilliat英語Bruce Gilliat開發了網站時光機,旨在通過儲存已失效網頁的存檔副本,以「普及所有知識」(universal access to all knowledge)。自2001年推出以來,截至2024年1月3日,網站時光機已存檔超過 8600 億個網頁和超過 99 PB 的數據。[4][5]

Quick Facts 網站類型, 成立 ...
網站時光機
Wayback Machine
截圖
2021年10月的網站時光機首頁
網站類型
存檔
成立1996年5月10日,​28年前​(1996-05-10
持有者互聯網檔案館
網址web.archive.org 編輯維基數據連結
註冊可選
推出時間2001年10月24日,​23年前​(2001-10-24[1][2]
現狀活躍
程式語言JavaPython
Close

歷史

網站時光機由互聯網檔案館的創始人布魯斯特·卡利和Bruce Gilliat英語Bruce Gilliat於2001年公開推出,以解決網站在維護或關閉時無法檢視內容的問題[6],此外還能檢視網頁的歷史存檔版本,創始人Kahle和Gilliat希望以此能為整個互聯網「普及所有知識」(universal access to all knowledge)[7]

Wayback Machine這個名稱源於動畫片The Rocky and Bullwinkle Show英語The Rocky and Bullwinkle Show中的「WABAC機器英語WABAC machine」(發音為Way-back),這是一個時間旅行裝置[8][9]。在動畫片的皮博迪的不可能的歷史一集中,角色使用這一機器來見證、參與甚至改變歷史上的著名事件[10]

網站時光機於1996年開始存檔快取網頁,目標是在五年後將服務公之於眾[11]。從1996年到2001年,這些資訊儲存在數碼磁帶上,Kahle偶爾允許研究人員和科學家使用資料庫[12]。2001年,互聯網檔案館成立五周年時,加州大學伯克利分校舉行了網站時光機的公佈儀式[13]。當網站時光機推出時,它已經存檔了超過100億個頁面[14]

如今,數據儲存在互聯網檔案館的大型Linux節點群集上[7]。有時會重新訪問並存檔網站的新版本(參見下文技術細節)[15]。如果網站允許網絡時光機「爬蟲索引」網站並儲存數據,則也可以通過在搜尋方塊中輸入網站的URL手動擷取網站[11]

2024年9月至10月間,時光機遭到攻擊,資料外洩。[16][17] 2024年10月9日,時光機遭到阻斷服務攻擊[18] 2024年10月14日,時光機恢復運作,但存檔功能(英語:Save Page Now)停擺至11月6日[19]

技術細節

網絡時光機已經開發了軟件用於「爬蟲索引」並下載所有可公開訪問的萬維網頁面、Gopher階層、Usenet公告板系統和可下載軟件[20]。這些「爬蟲」收集的資訊並不能包括互聯網上所有可用的資訊,因為許多數據受發佈者限制或儲存在不可訪問的資料庫中。為了克服部分快取網站的不一致性,2005年,互聯網檔案館開發了Archive-It.org,使得機構和內容創作者可以自願收集和儲存數碼內容,並建立數碼檔案館[21]

爬蟲索引來自各種來源,其中一些是從第三方匯入的,而另一些是由存檔內部生成的[15]。自2010年以來,「Worldwide Web Crawls」一直在執行,並擷取全球網站[15][22]

快照擷取的頻率因網站而異[15]。「Worldwide Web Crawls」中的網站包含在「爬網列表」(crawl list)中,每次爬網都會將網站存檔一次[15]。爬網可能需要數月甚至數年才能完成,具體取決於其大小[15]。例如,"Wide Crawl Number 13"從2015年1月9日開始,於2016年7月11日完成[23]。但是,一次可能有多個爬網正在進行,並且一個站點可能包含在多個爬網列表中,因此,對站點進行爬網的頻率有很大的不同。[15]

儲存容量的增加

隨着多年來技術的發展,網站時光機的儲存容量不斷增加。2003年,僅經過兩年的公開訪問,網站時光機便以每月12兆位元組(TB)的速度增長。數據儲存在由互聯網檔案館的工作人員客製化設計的PetaBox英語PetaBox機架系統上。第一個100兆位元組(TB)的機架於2004年6月全面投入使用,不過很快就發現,這些儲存空間遠遠不夠[24][25]

互聯網檔案館在2009年其客製化的儲存體系結構遷移到Sun開放式儲存英語Sun Open Storage,並在Sun系統加利福尼亞園區的Sun模組化數據中心英語Sun Modular Datacenter中寄存了一個新的數據中心[26]。截至2009年 (2009-Missing required parameter 1=month!),網站時光機包含大約3拍位元組(PB)的數據,並以每月100兆位元組(TB)的速度增長[27]

2013年1月,該公司宣佈了2400億個URL的突破性里程碑[28]。2013年10月,該公司宣佈了「儲存頁面」(Save a Page)功能[29],允許任何互聯網用戶存檔URL的內容。這成為了寄存惡意二進制檔案的服務濫用威脅[30][31]

截至2014年12月 (2014-12),網站時光機存有4350億個網頁,將近9拍位元組(PB)的數據,並且每周增長約20兆位元組(TB)[14][32][33]

據報道,截至2016年7月 (2016-07),網站時光機存有約15拍位元組(PB)的數據[34]

截至2018年9月 (2018-09),網站時光機存有超過25拍位元組(PB)的數據[35][36]

成長

2013年10月至2015年3月,該網站的全球Alexa排名從163[37]變為208[38]。2019年3月,該排名為244[39].

More information 年份, 已存檔的頁面數(單位:億) ...
網站時光機的成長 [40] [41]
年份 已存檔的頁面數(單位:億)
2005
400
2008
850
2012
1,500
2013
3,730
2014
4,000
2015
4,520
2016
4,590
2017
2,790
2018
3,100
2019
3,450
2020
4,050
2021
5,140
2022
6,400
2024
8,660
Close

網站排除方針

歷年來,網站時光機一直尊重機械人排除標準(robots.txt)以決定一個網站是否會受爬網;或者如果已經爬網了,它的存檔是否可以公開檢視。通過使用robots.txt,網站所有者可以選擇退出網站時光機。如果站點阻止了網頁存檔,則域中以前存檔的任何頁面也將立即顯示為不可用。此外,互聯網檔案館表示,「有時網站所有者會直接聯絡我們,要求我們停止對網站進行爬網或存檔。我們會遵守這些請求。」[42][43]

2017年4月17日,有報道稱,一些網站已經倒閉,成為暫停的域英語Domain parking(Domain parking)。它們通過使用robots.txt把自己排除在搜尋引擎之外,這使得時光機無意中排除了這些網站[44]

網站時光機的網站排除方針(Website exclusion policy)部分基於2002年加利福尼亞大學伯克利分校資訊管理和系統學院發佈的《管理刪除請求和維護檔案完整性的建議》(英語:Recommendations for Managing Removal Requests and Preserving Archival Integrity),此建議賦予網站所有者阻止訪問網站存檔的權利[45]。網站時光機遵守了這一政策,以避免昂貴的訴訟[46]

網站排除方針於2017年開始放寬,當時它停止遵循robots.txt,並對美國政府和軍方的網站進行爬網和顯示網頁。截至2017年4月,網站時光機更廣泛地忽略了robots.txt,而不僅對於美國政府網站[47][48][49][50]

用途

自2001年網站時光機公開發布以來,學者們一直在研究它的儲存和收集數據的方式,以及其存檔中實際包含的頁面。截至2013年,學者們已經在網站時光機上撰寫了大約350篇文章,其中大部分來自資訊科技圖書館學社會科學領域。社會科學學者們使用網站時光機分析了從90年代中期至今網站的發展對公司的成長的影響[14]

當網站時光機存檔一個頁面時,它通常會包含大多數超連結,以使這些連結遭互聯網的不穩定性輕易破壞時,能夠仍然保持活動狀態。印度的研究人員研究了網站時光機儲存線上學術出版物中的超連結的能力的有效性,發現它儲存了略多於一半的超連結。[51]

有記者使用網站時光機檢視失效的網站、過時的新聞報道以及被更改的網站內容。其內容已用於追究政治家的責任,揭穿爭論場合上的謊言[52]。2014年,烏克蘭東部分裂地區叛軍頓涅茨克人民軍領導人伊戈爾·斯特列爾科夫的社交媒體的存檔頁面顯示,他吹噓自己的部隊擊落了一架疑似烏克蘭軍用飛機,後來才知道這架飛機實際上是一架馬航民航客機(馬來西亞航空17號班機),之後,他刪除了發佈的這篇文章,並指責烏克蘭軍方擊落了這架飛機[52][53]。2017年,在社交網站Reddit的討論中,有人表示訪問過archive.org 並發現白宮網站刪除了所有提及氣候變化的內容,對此,一位用戶評論道:「科學家有必要在華盛頓舉行一次遊行」,此事成為了為科學遊行(March for Science)舉行的原因[54][55][56]

存在局限

2014年,從抓取網站到它可以在網站時光機上檢視之間存在6個月的延遲時間[57]。目前,該延遲時間為3-10小時[58]。網站時光機僅提供有限的搜尋功能,它的「站點搜尋」(Site Search)功能允許用戶根據描述站點的詞彙來尋找站點,而非網頁本身的詞彙[59]

由於網絡爬蟲的限制,網站時光機無法完全存檔互動式網頁,例如Flash平台和使用JavaScript漸進式網絡應用程式編寫的表單,因為這些功能需要與宿主網站互動。網站時光機的網絡爬蟲很難提取任何未使用HTML或其變形編碼的內容,這通常會導致超連結損壞和圖像遺失。因此,網絡爬蟲無法存檔不包含指向其他頁面的連結的「孤立頁面」(Orphan page)[59][58]。由於其爬蟲程式僅能根據其預設的深度限制追蹤有限數量的超連結,因此它無法存檔每個頁面中的每個超連結[22]

法律證據

民事訴訟

Netbula LLC v. Chordiant Software Inc.

在2009年的「Netbula, LLC v. Chordiant Software Inc.」一案中,被告Chordiant提出動議,要求Netbula禁用其網站上的robots.txt檔案,因為該檔案導致網站時光機追溯性地復原了對Netbula網站先前版本的存檔的訪問權限,Chordiant相信這些頁面中存在有利於訴訟的材料[60]

Netbula反對該動議,理由是被告要求更改Netbula的網站,他們應該直接為這些頁面直接傳喚互聯網檔案館[61]。然而,互聯網檔案館的一名僱員發表了宣誓聲明,支援Chordiant的動議,表示在「不對其運營造成大量負擔,費用和干擾」的情況下,無法通過任何其他方式訪問網頁[60]

美國加利福尼亞北區聯邦地區法院聖何塞分部的地方法官霍華德·勞埃德(Howard Lloyd)駁回了Netbula的論點,並命令他們暫時禁用robots.txt阻止程式,以使Chordiant可以檢索他們想要的存檔頁面[60]

波蘭電視台

在2004年10月的「 Telewizja Polska USA, Inc. v. Echostar Satellite」No. 02 C 3293, 65 Fed. R. Evid. Serv. 673 (N.D. Ill. October 15, 2004)一案中,一名訴訟當事人試圖使用網站時光機的檔案作為有效證據的來源,此舉可能屬於首次。波蘭電視台是TVP Polonia英語TVP Polonia的供應商,EchoStar英語EchoStar運營Dish Network。在審判程序之前,EchoStar表示,它打算提供網站時光機快照,作為波蘭電視台網站過去內容的證據。

參閲

外部連結

鏡像網站

實用程式

參考文獻

Wikiwand in your browser!

Seamless Wikipedia browsing. On steroids.

Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.

Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.