

座標37°48′0″N 122°27′37″W / 37.80000°N 122.46028°W / 37.80000; -122.46028
Internet Archive
37°48′0″N 122°27′37″W / 37.80000°N 122.46028°W / 37.80000; -122.46028
服務存檔、開放圖書館、互聯網檔案館(2001年起)、網絡標籤、NASA圖片、普林格檔案英語Prelinger Archives
Tor network (如何訪問)[3]
推出時間1996年 (1996)
舊「互聯網檔案館」總部(1996年 - 2009年11月)
新「互聯網檔案館」總部(2009年11月 - )

互聯網檔案館(英語:Internet Archive)是美國的一個非營利性的、提供互聯網多媒體資料檔案閱覽服務數位圖書館。互聯網檔案館由Alexa創始人布魯斯特·卡利於1996年創辦,總部位於加利福尼亞州舊金山的列治文區,其使命是「普及所有知識」(universal access to all knowledge[5][6]。該網站提供的數字資料有如網站、網頁、圖形材料音樂、視頻、音頻、軟件、動態圖像和數百萬書籍等的永久性免費儲存及獲取的副本。 迄至2021年2月,該網站儲存了7280 億個網頁、3800萬本書和文本、1400 萬個錄音(包括 240,000 場現場音樂會)、700 萬個視頻(包括 200 萬個電視新聞節目)、400 萬張圖片、790,000 個軟件程序。[7]除此之外,互聯網檔案館也是網絡開放與自由化的倡議者之一。




互聯網檔案館是一家在美國運營的501(c)(3)非營利組織,其年度預算約為1000萬美元,來源則是其網頁爬蟲服務、合作關係、贊助以及卡利-奧斯丁基金會[10]。該檔案館的總部位於加利福尼亞州舊金山。從1996年到2009年,其總部設在舊金山要塞,那裡曾是美國的一個軍事基地。自2009年以來,其總部一直設在舊金山芬斯頓大道300號,這裡以前是一個基督教科學教堂。公司大部分員工曾一度在其圖書掃描中心工作;截至2019年,全球有100家付費運營商進行了掃描。[11] 互聯網檔案館也在加州的三個城市設有資料中心,分別為舊金山、紅木城列治文。為減少數據丟失的風險,該檔案館在包括埃及新亞歷山大圖書館[12][13]阿姆斯特丹[14]等更遙遠的地方儲存了一些存檔副本。 互聯網檔案館參與了國際互聯網保存聯盟[15] 並於2007年被加利福尼亞州指定為圖書館。[16][17]


檔案館的資料庫是國際網際網路保留協會英語International Internet Preservation Consortium成員[18],2007年被加利福尼亞州選為官方指定圖書館[19]。檔案館收集的數據是各種各樣的。截止2015年年初,互聯網檔案館共收錄了2400款MS-DOS遊戲[20]


1996年,卡利(Brewster Kahle)在創立盈利性的Alexa Internet的同時也創立了互聯網檔案館;同年10月開始收集儲存資料[21][22]。而檔案館亦曾於1996年5月10日下午2:42保存了已知最早的頁面。[23][24][25][26] 不過,直到2001年開發了「時光機」前,這些資料都無法存取。1999年末擴展收集範圍[27]


2013年11月6日,檔案館在里奇蒙德區的總部失火,損壞了許多設備和一些附近的公寓[32][33],預計損失達到60萬美元[34]。 2014年11月,互聯網發布測試版,2016年3月,移除舊布局。[35][36]

2016年11月,卡利宣布互聯網檔案館正在建立加拿大分站,總部將設在加拿大,但具體地點沒有公布。[37][38][39] 媒體報道中,卡利表示 :



2018年以來,互聯網檔案館退出視覺藝術入駐項目,將藝術家與檔案館超過48pb的[41] 數字化材料聯繫起來。在為期一年的項目中,視覺藝術家創作了大量作品,頂峰時期還舉行了展覽。其期望是將數字歷史與藝術聯繫起來並為後代創造一些能在線上或線下欣賞的東西。[42] 2019年,互聯網檔案館位於舊金山的總部收到炸彈威脅,迫使該大樓暫時被騰空。[43]

互聯網檔案館的大部分材料來自捐贈,[44] 例如2017年波士頓公共圖書館提供的大量78轉/分鐘的光盤,[45]2018年特倫特大學捐贈的25萬本圖書,[46] 以及馬里格魯夫學院圖書館在2020年關閉後的全部藏品。[47]其後所有材料經過數字化後進行數字存儲,而數字副本返回原始持有者以及在互聯網檔案進行複製,如果不是公共領域中的內容,可在遵循首次銷售原則的受控數字借閱(CDL)理論的前提下,每次借給世界各地的一個顧客。[48]





網站時光機是互聯網檔案館最重要的服務之一,其名稱取自一部名為The Rocky and Bullwinkle Show英語The Rocky and Bullwinkle Show的美國卡通片。時光機允許人們去搜索和訪問其網頁存檔。[52] 在一些國家和地區,時光機這個術語的使用已經非常普遍,「時光機」和「互聯網檔案館」甚至開始被當做同義詞使用。


一個名爲「Save Page Now」(即刻保存頁面)的功能於2013年10月推出,該功能可從網站時光機主頁的右下角訪問,[54] 輸入目標網站的URL並點擊保存,該網頁就會成為時光機的一部分。[55] 2016年10月,互聯網檔案館宣布將改變網頁的計數方式,使所顯示的存檔頁面數量減少。嵌入對象如圖片、視頻、樣式表JavaScript將不再被視為「網頁」,而HTML、PDF和純文本文檔則仍被視為網頁。[56]

年份 存檔頁面的數量(億)
2005 40[57]
2006 85[58]
2007 85[59]
2008 85[60]
2009 150[61]
2010 150[62]
2011 150[63]
2012 150[64]
2013 373[65]
2014 430[66]
2015 479[67]
2016 510[A][68]


2017 286[70]
2018 344[71]
A 使用了2016年10月以前的舊版計數系統
B 使用了2016年10月以後的新版計數系統

2020年9月,互聯網檔案館宣布與Cloudflare合作,自動索引通過其「Always Online」服務提供服務的網站。[72]



Archive-it是一款幫助機構和個人建立存檔的工具。Archive-It允許用戶自定義輸入或排除他們因為文化遺產的原因而保存的網絡內容。通過一個web應用程序,Archive-It合作夥伴可以收集、編目、管理、瀏覽、搜索和查看自己的已存檔內容。 [73]

在可訪問性方面,存檔的網站全文可在捕獲後7天內搜索到。[74] 通過Archive-It收集的內容被捕獲並存儲為一個WARC文件,並有一個主副本和備份副本被存儲在互聯網檔案館的數據中心。WARC文件的副本可以提供給訂閱合作夥伴機構,以最大地達到其地理冗餘存儲的目的[75] 通過Archive-It捕獲的數據會被定期索引到互聯網檔案館的一般檔案中。

Archive-It的合作夥伴有大學和學院的圖書館、州檔案館、聯邦機構、博物館、法律圖書館和文化組織,包括電子文獻組織、北卡羅萊納州州檔案館和圖書館、斯坦福大學哥倫比亞大學開羅美國大學、喬治敦法律圖書館和許多其他大學。截至2014年3月 (2014-03)Archive-it在美國的46個州和其他16個國家共有超過275個機構是其合作夥伴,共有超過74億個網頁的在線存檔。








互聯網檔案館收集了世界各地的數字化圖書以及各大圖書館和文化遺產機構的特殊藏品。互聯網檔案館在5個國家經營着33個圖書掃描中心,其活動受圖書館和基金會的財政支持。[56][81]截至2013年7月 (2013-07),檔案館共收集了440萬本書,每月的下載量超過1500萬次。[56]截至2008年11月 (2008-11),檔案館共有100萬個網絡文本,總大小高達0.5PB,涵蓋了原始照相圖像、裁剪和歪斜的圖像、PDF文件和原始OCR數據。[82]

大約在2006年到2008年之間,微軟通過其實時搜索圖書項目與互聯網檔案文本建立特殊的關係,掃描了超過30萬本捐贈的圖書,微軟並提供財政支持和掃描設備。2008年5月23日,微軟宣布將結束在線圖書搜索項目,不再掃描圖書。[83] 微軟在不受合同限制的情況下公開了掃描書籍,並將其掃描設備捐贈給了其前合作夥伴。[83]

2007年10月,檔案館用戶開始上傳來自Google圖書公有領域的書籍。[84] 截至2013年11月,該檔案館收藏的圖書有90多萬本來自Google的數字化圖書;[85] 這些圖書除沒有Google的水印,並且可以不受限制地使用和下載外,與Google上的圖書完全相同。[86] 布魯斯特·卡利在2013年透露,這項工作由亞倫·斯沃茨協調完成,斯沃茨和「一些朋友」在遵守Google的限制條件的情況下從Google下載公共領域的書籍。這樣做是為了確保公眾能夠進入公共領域。檔案館亦確保這些內容被歸屬並鏈接到Google,谷歌也沒有提出異議,而圖書館則發出了「抱怨」。根據卡利的說法,這個例子證明了斯沃茨的「天才」,他致力於為數百萬人提供最大的公共利益。[87] 除圖書外,檔案館還提供免費和匿名的公眾訪問渠道使公眾可以訪問超過400萬份法庭意見、法律摘要或美國聯邦司法機構上傳的展品。這些文件一直保存在聯邦法院的收費牆後。到2013年,已有超過600萬人通過互聯網檔案館訪問這些文件。[87]

互聯網檔案館中的圖書閱讀器網絡應用程序[88]內置於其網站中,具有單頁、雙頁和縮略圖模式;全屏模式;保持圖像高分辨率的頁面快速移動和翻頁動畫等功能。 [88][89]


1 語言 英語 法語 德語 西班牙語 漢語 阿拉伯語
文本數(2015年11月27日) 6,553,945[90] 358,721[91] 344,810[92] 134,170[93] 84,147[94] 66,786[95]
2 語言 荷蘭語 葡萄牙語 俄語 烏爾都語 日語 合計(2016年10月30日)
文本數(2015年11月27日) 30,237[96] 25,938[97] 22,731[98] 14,978[99] 14,795[100] 10,612,003[101]


1 年代 1800年代 1810年代 1820年代 1830年代 1840年代 1850年代


39,842[102] 51,151[103] 79,476[104] 105,021[105] 127,649[106] 180,950[107]
2 年代 1860年代 1870年代 1880年代 1890年代 1900年代 1910年代


210,574[108] 214,505[109] 285,984[110] 370,726[111] 504,000[112] 455,539[113]
3 年代 1920年代 1930年代 1940年代 1950年代 1960年代 1970年代


185,876[114] 70,190[115] 85,062[116] 81,192[117] 125,977[118] 206,870[119]
4 年代 1980年代 1990年代 2000年代 2010年代


181,129[120] 272,848[121] 579,905[122] 855,253[123]

Open Library

開放圖書館是互聯網檔案館的另一個項目。該項目旨在為出版的每一本書提供一個網頁,擁有2500萬冊版本目錄記錄。該項目還致力於成為一個可在線訪問的公共圖書館,從500多萬份所收集文本中全文收錄大約160萬本公共領域以及印刷中和擁有版權的書籍,[124] 其中許多可任意閱讀與下載[125][126] 以及全文檢索;[127]該項目與來自6個國家的1000多家圖書館建立了合作關係,為非公共領域的647,784本圖書提供為期兩周的電子書借閱服務 [128][129] 惟需先在網站上免費註冊。開放圖書館是一個自由及開放源代碼軟件,其源代碼可以在GitHub上免費獲得。

開放圖書館也面臨一些作者和作家協會的反對,他們認為該項目是在未經授權地分發圖書,因此違反了版權法,[130] 2020年6月,四家主要出版商對互聯網檔案館提起版權侵權訴訟,旨在停止開放圖書館項目。[131]


許多大型機構贊助商已經為互聯網檔案館提供了數百萬份掃描出版物(文本項目)。[132] 一些已經將大量文本數字化的贊助商,包括多倫多大學的羅柏斯圖書館、阿爾伯塔大學圖書館、渥太華大學圖書館、國會圖書館、波士頓圖書館聯盟成員圖書館、波士頓公共圖書館、普林斯頓神學院圖書館和許多其他圖書館。[133]

2017年,麻省理工學院出版社授權互聯網檔案將圖書數字化,並可從該出版社的存書目錄中借用圖書,[134] 由阿卡迪亞基金提供財政支持。[135][136]次年,互聯網檔案館進一步從阿卡迪亞基金獲得資金,邀請其他一些大學出版社與互聯網檔案館合作,將圖書數字化,並將該項目命名為「解鎖大學出版社圖書(Unlocking University Press Books)」。 [137][138]

國會圖書館創建了許多處理系統標識符,指向互聯網檔案中的免費數字化書籍。[139] 互聯網檔案館和開放圖書館也被國會圖書館網站列為電子書來源。[140]



除了上述內容之外,互聯網檔案庫還收集了大量的數字媒體,這些數字媒體均符合美國公共領域CC授權協議。這些媒體文件均會根據媒體類型(moving images、audio、text、etc.)被組織成集合,並根據各項標準被分入子集合。例如大都會藝術博物館提供的相關資料就會被分入一個子集,目前該集合相關資料的數量已經超過了140,000個[141]。每個主集合都含有一個「社區」子集合(以前被稱為「開源」)用於存儲公眾的貢獻。



Live Music Archive子集包括來自獨立音樂家的超過170,000個音樂會錄音,以及更為成熟的藝術家和音樂合奏,以及關於錄製他們的音樂會的寬鬆規則,例如感恩至死,以及最近的碎南瓜。此外,Jordan Zevon英語Jordan Zevon還允許互聯網檔案館收藏他父親華倫·澤馮英語Warren Zevon的音樂會錄音。澤馮系列從1976年至2001年不等,包含126場音樂會,包括1,137首歌曲。[144]







互聯網檔案擁有「世界上最大的在線歷史軟件集合」,跨越50年計算機歷史,包含數以萬億計字節的計算機雜誌和期刊、書籍、共享軟件光盤、FTP網站、視頻遊戲等。互聯網檔案館創建了一個它檔案庫以保存它們。[147]該項目主張獲得美國數字千年版權法的豁免權,以允許他們繞過美國著作權局於2003年批准的為期三年的版權保護[148] 檔案館不提供軟件以供下載,因為豁免僅僅是為了保存或複製圖書館或檔案館出版的數字作品。[149] 國會圖書館於2006年延長豁免,又於2009年無限期延長,等待進一步的規則制定。 [150]圖書館重申,豁免是「最終規則」,而2010年豁免尚未到期。 [151]2013年,互聯網檔案館開始提供可以MESS方式遊玩的老軟件視頻遊戲,例如雅達利2600的遊戲E.T.外星人[152] 自2014年12月23日起,互聯網檔案館通過基於瀏覽器的DOSBox模擬,推出數千款DOS/PC遊戲[153][154][155][156]且僅用於學術和研究目的。[157][158][159] 2020年11月,檔案館為Adobe Flash推出了一種新的模擬器Ruffle,並開始致力於在2020年12月31日Flash插件的壽命結束前存檔Flash動畫和遊戲。[160]


互聯網開發了一種實現內容數字化的組合軟硬件系統,稱為台式抄寫系統(Table Top Scribe System)。[161][162]




2019年開始,[165] 互聯網檔案館組織了一個名為去中心化網絡營地(Decentralized Web Camp)的組織。該組織一年組織一次活動,在自然環境中匯集全球各地不同的貢獻者社區,旨在解決網絡世界面臨的現實世界挑戰,並為發展中的互聯網共同創造一個去中心化技術,促進合作、學習和樂趣,同時促進形成信任、人為代理、相互尊重和生態認識的準則。[166]





2005年11月,感恩至死音樂會在互聯網檔案館可免費下載。紐約時報報道,約翰·佩里·巴洛認為鮑勃·威爾、米奇·哈特和比爾·克魯茲曼是這一變化的發起者。[168] 菲爾·萊什在其個人網站上對此事發表評論稱注意到所有感恩至死的表演都在感恩節前從archive.org刪除,他沒有參與這個決策過程,也沒有被告知這些節目將被取消。而他本人覺得音樂是感恩至死的遺產,希望以各種方式將其音樂提供給想要的人。[169]









互聯網檔案館是開放圖書聯盟英語Open Book Alliance的成員,該聯盟一直是Google圖書和解協議最激烈的批評者之一。檔案館提倡應該開發另一種數字圖書館項目。[175]




2017年8月,根據馬德拉斯高等法院英語Madras High Court發布的兩項法院命令,印度政府的電信部門英語Department of Telecommunications封鎖了互聯網檔案館和其他文件共享網站,[177] 理由是兩部寶萊塢電影的複製品據稱通過該服務被分享,而這可能帶來對盜版問題的擔憂。[178] 但只有HTTP版本被阻止,使用HTTPS協議仍然可以訪問。[177]




2018年5月,網絡安全公司Flashpoint發布的一份報告稱,伊斯蘭國正在利用互聯網檔案館來分享其宣傳內容。[181] 來自互聯網檔案館的克里斯·巴特勒回應,他們會定期與美國和歐盟政府就分享恐怖主義信息問題進行交談。[181]

2019年4月,歐洲刑警組織轉述法國警方的要求,要求互聯網檔案館關閉550個「恐怖主義宣傳」站點。[182] 互聯網檔案館拒絕了這一要求,稱這些報告對他們所指出的內容的指控是錯誤的,或者內容過於寬泛,該網站無法同意這一要求。[182]

2022年1月,一位前加利福尼亞大學洛杉磯分校的講師上傳了一份800頁的宣言,其中包含種族主義的想法和對加州大學洛杉磯分校工作人員的威脅。[183] 一周後,互聯網檔案館進行了關於檔案管理員是否應該保存這些文件的討論,最終將該宣言移除。[183]


2019冠狀病毒病疫情期間,許多學校、大學和圖書館被關閉,互聯網檔案館於2020年3月24日宣布,其正在創建國家緊急圖書館,具體方法為取消開放圖書館對140萬本數字化圖書的借閱貸款限制,改為限制用戶可以借閱的圖書數量和強制歸還;通常情況下,該網站只允許他們擁有的每本書的實體副本使用一個加密文件進行一次數字借閱,該文件在借閱期結束後將無法使用。項目將至少持續到2020年6月30日,或者直到美國國家緊急狀態結束,以較晚者為準。[184] 該項目啟動時,互聯網檔案館允許作者和版權所有者提交退出申請,讓他們的作品從國家應急圖書館中刪除。[185][186][187]


但檔案館之前的借閱方式已經受到作者和出版商的批評,在國家應急圖書館宣布啟動後,作者、出版商和代表雙方的團體進一步提出質疑,將此舉等同於版權侵犯和數字盜版,並將新冠肺炎疫情作為推動版權邊界的理由。[190][191][192][193] 在其中一些作者的作品遭到嘲笑後,互聯網檔案館的傑森·斯科特要求國家應急圖書館的支持者不要詆毀任何人的書,表示意識到其中有很大爭論和分歧,但書能賦予生命和改變生命,而「這些書正是由這些作家創作」。[194]


國家應急圖書館的運作是四大圖書出版商阿歇特哈珀·柯林斯約翰·威利父子企鵝蘭登書屋於2020年6月對互聯網檔案館提起的訴訟的一部分,該訴訟質疑受控數字借閱計劃的版權有效性。[131][195]作為對訴訟的回應,互聯網檔案館於2020年6月16日提前關閉了國家應急圖書館項目。 [196][197] 在版權聯盟的支持下[198],原告在訴訟中聲稱,互聯網檔案館的行為構成了「故意的大規模版權侵權」。 [199] 2020年8月,該訴訟的審判暫定於2021年11月開始。[200] 到2022年6月,該案雙方都要求對該案作出簡易判決,各自支持各自的一方,法官約翰·科爾特爾英語John G. Koeltl批准在2022年晚些時候舉行簡易判決聽證會。[201] 最終沒有發布簡易判決,而是在2023年3月20日舉行了第一次聽證會。[202] 聽證會舉行期間,約翰·科爾特爾被指對IA的合理使用主張無動於衷,也不相信出版商的圖書館電子書市場沒有受到他們做法的影響。[203]


作為對出版商訴訟的部分回應,2020年末,檔案館發起了一項名為「授權圖書館」的運動(標籤#Empowering Libraries),稱這起訴訟為對所有圖書館的威脅。[204]

在2021年的一篇預印本文章中,作者Argyri Panezi認為,該案「提出了兩個重要但獨立的問題,這兩個問題都與圖書館作品的電子訪問有關;第一,它提出了關於數字借閱的法律實踐的問題,第二,它提出了緊急使用受版權保護的材料是否是合理使用的問題」,並認為圖書館在公共服務中的作用是「確保子孫後代有平等的訪問渠道或機會的一系列原始來源」。[205]



Wayforward Machine

2021年9月30日,作為其25周年慶典的一部分,互聯網檔案館推出了「Wayforward Machine」,這是一個諷刺性的小說網站,網站內有詢問個人信息的彈出窗口。該網站描繪了一個虛構的反烏托邦時間線,講述促使這樣一個未來的形成的現實世界中的事件,例如2022年廢除美國法典第230條和2041年引入廣告植入。[209][210]


2023年,互聯網檔案館成為印度人觀看BBC紀錄片《印度:莫迪問題》第一集的熱門網站。[211] 據報道,該視頻於1月23日被檔案館下架。[211] 互聯網檔案館隨後於1月27日表示,他們是根據英國廣播公司根據數字千年版權法的要求才下架該視頻。[212]


互聯網檔案館的大房間收藏了100多個代表互聯網檔案館員工的陶瓷人像,其中第100尊是亞倫·斯沃茨的雕像。該系列人像的靈感來自中國秦始皇兵馬俑,由布魯斯特·卡利委託,努拉·克里德英語Nuala Creed雕刻。[213]


由Amir Saber Esfahani組織的互聯網檔案館視覺藝術家入駐活動[214] 旨在將新興和在職藝術家與檔案館的數百萬藏品聯繫起來,並展示當開放信息獲取與藝術發生交叉時可能發生的事情。在為期一年的入駐活動期間,選定的藝術家創作了一批作品,以響應檔案館的藏品並在自己的實踐中加以利用。[215]


