新聞中心
維護您的網(wǎng)站涉及擁有專門的備份策略。雖然備份是必不可少的,但它們并不是保護站點的唯一方法。備份的自然延伸是對網(wǎng)站進行歸檔——盡管它們是互補的過程。

隆林網(wǎng)站制作公司哪家好,找創(chuàng)新互聯(lián)公司!從網(wǎng)頁設計、網(wǎng)站建設、微信開發(fā)、APP開發(fā)、響應式網(wǎng)站開發(fā)等網(wǎng)站項目制作,到程序開發(fā),運營維護。創(chuàng)新互聯(lián)公司2013年至今到現(xiàn)在10年的時間,我們擁有了豐富的建站經(jīng)驗和運維經(jīng)驗,來保證我們的工作的順利進行。專注于網(wǎng)站建設就選創(chuàng)新互聯(lián)公司。
有幾種靈活的方法可以歸檔網(wǎng)站。好消息是它們都易于使用且易于訪問。您只需為您的需要和要求選擇正確的解決方案。
在這篇文章中,我們將看看如何歸檔網(wǎng)站。我們還將探索您會遇到的不同歸檔類型,匯總一些最突出的站點歸檔工具,并討論一些有關歸檔站點的技巧。
網(wǎng)站歸檔簡介
歸檔網(wǎng)站意味著保留內容、數(shù)據(jù)和媒體以供將來參考。使用諸如Wayback Machine之類的專用服務(盡管我們稍后會介紹其他解決方案),您可以查看網(wǎng)站的舊版本。
閃電博網(wǎng)站在2016年的樣子
在技術層面上,爬蟲會拍攝網(wǎng)站的快照,該網(wǎng)站構成了檔案本身。如果您愿意,您可以使用簡單的日歷訪問它并以時間線格式查看每個迭代。
閃電博網(wǎng)站的Wayback Machine日歷存檔
至于為什么會有Wayback Machine這樣的解決方案,我們得追溯到2000年代初。互聯(lián)網(wǎng)泡沫幾乎破滅了;許多企業(yè)正在倒閉。一些受歡迎的網(wǎng)站被關閉或放棄,留下的記憶很少。
與互聯(lián)網(wǎng)出現(xiàn)之前的其他媒體格式(例如音樂和電視)非常相似,這些網(wǎng)站具有歷史和懷舊價值。拯救它們意味著讓未來的互聯(lián)網(wǎng)用戶一瞥我們與早期技術的差距。
在互聯(lián)網(wǎng)檔案館推出Wayback機器來幫助維護網(wǎng)站。如果網(wǎng)站已在那里存檔,您可以看到該網(wǎng)站多年來的發(fā)展情況。
歸檔網(wǎng)站需要許多爬蟲,包括可能需要數(shù)年才能完成的巨大的個人爬蟲。執(zhí)行爬行“探險”和存儲結果快照所需的咕嚕聲是巨大的。
例如,Wayback Machine的第一臺100TB服務器于2004年投入使用。到2020年底,Wayback Machine已存儲超過70PB的數(shù)據(jù)。這超過70,000TB。
然而,并不是每個人都對Internet Archive所做的工作感到滿意?;诰W(wǎng)站存檔是否破壞現(xiàn)有版權問題,已經(jīng)有多次討論和法律挑戰(zhàn)。
盡管如此,鑒于存儲的檔案數(shù)量的顯著增長,人們顯然希望保留網(wǎng)站。
為什么要存檔網(wǎng)站
想要存檔網(wǎng)站的原因有很多,而不僅僅是出于懷舊的原因。對于現(xiàn)實世界的類比,請查看GitHub。
GitHub的基礎設施很像互聯(lián)網(wǎng)檔案
Github存儲項目的存儲庫,以及所做的每個“提交”。將此與互聯(lián)網(wǎng)存檔進行比較,存儲庫代表整個存檔,而提交則是快照。
就像Git存儲庫很有價值一樣,存檔也很有價值。例如,您可以查看網(wǎng)站以前的迭代(甚至是多年前的)以影響您當前的設計選擇。
此外,您可能有法律義務對您的網(wǎng)站進行存檔,尤其是在金融或法律行業(yè)。
最后,如果您不幸卷入了圍繞您網(wǎng)站的訴訟,您的檔案將成為寶貴的證據(jù)。如果您能提供清晰完整的網(wǎng)站檔案,您甚至可以在法院介入之前解決糾紛。
備份和歸檔的區(qū)別
在我們討論可用的不同類型的Web歸檔之前,有必要回到我們之前提到的主題。在紙面上,站點備份和網(wǎng)站存檔看起來很相似。然而,他們執(zhí)行不同的工作,相互補充。簡而言之:
- 備份是基于數(shù)據(jù)的。他們更關心保留您網(wǎng)站的數(shù)據(jù)。鑒于如果您需要恢復站點,備份至關重要,因此對數(shù)據(jù)進行完整備份至關重要。
- 檔案保存數(shù)據(jù)的上下文。如果您瀏覽您最喜歡的網(wǎng)站的存檔,您會注意到該功能通常是不完整的。但是,站點的設計和靜態(tài)內容通常是完整的。
值得注意的是,歸檔并不打算完全避免數(shù)據(jù)保存工作。事實上,其中一項好處是讓用戶可以像在現(xiàn)場一樣瀏覽您的網(wǎng)站。即便如此,考慮到諸如Wayback Machine之類的網(wǎng)站作為虛擬“記憶通道”存在,保持視覺效果完整比保留后端功能具有更高的優(yōu)先級。
簡而言之,您需要為您的站點同時使用備份和存檔——前者作為日常保護以防最壞的情況發(fā)生,而后者作為幫助記錄站點演變的附加方式。
您將遇到的不同類型的Web歸檔
網(wǎng)絡歸檔不僅僅是一種風格。您會遇到幾種不同的類型。以下是每個的細分:
- 客戶端:它涉及最終用戶保存相關網(wǎng)站的版本。它簡單、可擴展,可讓您輕松歸檔網(wǎng)站。
- 服務器端: Wayback Machine和其他方法被歸類為服務器端歸檔。它使用爬蟲和其他技術來存檔網(wǎng)站,但它也需要客戶端存檔中沒有的一定程度的同意。
- 基于事務:雖然這仍然基于服務器端歸檔,但它更復雜,需要站點所有者的明確同意。本質上,它歸檔了最終用戶和服務器之間的站點事務。
對于具有靜態(tài)數(shù)據(jù)的簡單網(wǎng)站,再加上有組織的歸檔策略,客戶端歸檔應該符合要求。然而,大多數(shù)其他站點更喜歡服務器端歸檔——大多數(shù)網(wǎng)站不需要基于事務的歸檔。
最后——我們將在整篇文章中更詳細地討論這一點——您還需要考慮存檔的存儲位置和方式。例如,本地存檔并不是一個糟糕的選擇,但如果您的計算機出現(xiàn)故障,您可能會看到它消失了。另一方面,如果您選擇第三方解決方案,您對存檔內容的控制就會減少。
正如您所期望的,這里的答案是使用多方面的方法來存檔網(wǎng)站。我們建議將存檔視為備份:將三個不同的副本保存在不同的位置并以某種方式同步。
您可能還希望使其中一個存檔生效,以便您可以利用站點上的任何服務器端功能。結果是一個具有強大備份和存檔策略的網(wǎng)站,對其他人仍然有用。
Internet存檔工具和站點的初學者指南
有很多解決方案可用于歸檔網(wǎng)站。我們將介紹一些較受歡迎的,以及我們對它如何適合您的看法。
1. Wayback Machine
Wayback Machine
首先,讓我們討論Wayback Machine。它是同類產品中的第一個,因此為其他歸檔工具設定了基準。
因此,在尋找存檔網(wǎng)站時,它可能會成為第一個負責人。它有很多方法來創(chuàng)建和上傳檔案,甚至還有一個專門的API來連接到它的功能。值得注意的是,它也是一個服務器端歸檔解決方案。
也就是說,由于它抓取和歸檔網(wǎng)站的方式,Wayback Machine可能無法保留您網(wǎng)站的所有功能。盡管如此,它被認為是網(wǎng)絡檔案管理員的行業(yè)標準,并且完全可以免費啟動。在本文后面,我們將向您展示如何使用Wayback Machine更詳細地存檔網(wǎng)站。
2. Archive.today
Archive.today網(wǎng)站
接下來是Archive.today。它在很多方面都與Wayback Machine相似——甚至是網(wǎng)站幾乎“復古”的設計。它的數(shù)據(jù)服務器位于歐洲,但它的歸檔方式與Wayback Machine不同。
首先,Archive.today不是基于在網(wǎng)絡上運行的爬蟲。相反,您提交您的URL并同意將其包含在存檔中。此外,它的功能列表比其他解決方案更簡單。例如,沒有強大的刪除策略,并且存檔過程排除了某些媒體和文件類型。
盡管如此,如果您想要一個免費的地方來存儲檔案,它仍然是免費且合適的。該站點甚至具有查找以前存檔站點的搜索功能。
3. Heritrix
Heritrix網(wǎng)站
到目前為止,我們在這篇文章中幾乎可以互換地提到Internet Archive和Wayback Machine。不過,Wayback Machine只是一項服務,除此之外,Internet Archive還提供其他一些存檔產品。Heritrix是一個免費的開源工具,誕生于Internet Archive和北歐圖書館之間的合作。
它本質上是一個網(wǎng)絡爬蟲,而不是一個功能齊全的歸檔工具。但是,您可以將所有爬取的結果打包在一起。雖然過去并非如此,但Wayback Machine現(xiàn)在使用Heritrix來抓取站點以包含在其自己的站點中。更重要的是,大量圖書館和機構使用Heritrix來建立檔案。
盡管具有令人印象深刻的功能,但安裝Heritrix需要一些技術知識。沒有用戶友好的界面來為您安裝它,因此您需要了解Git、GitHub和命令行。
與其他類似解決方案一樣,Heritrix完全免費使用,因此適合作為經(jīng)濟高效的自存檔解決方案。
4. Web歸檔集成層 (WAIL)
Web歸檔集成層 (WAIL) 網(wǎng)站
如果您正在考慮使用Heritrix對網(wǎng)站進行存檔,但對簡單安裝軟件所需的技術知識感到厭煩,那么這里有一個潛在的解決方案適合您。網(wǎng)頁存檔集成層(WAIL)是一個免費和開源的跨平臺的桌面應用程序,讓你一個功能的圖形用戶界面(GUI)來使用,使用安裝程序一起。
好消息是Heritrix是WAIL的爬行引擎。這意味著您可以利用Heritrix的強大功能,而不必遍歷GitHub和命令行。此外,WAIL使用OpenWayback引擎來“重放”網(wǎng)絡檔案。
因此,您已準備好在您的機器上使用功能齊全的Web歸檔工具。我們還將在本文后面準確地向您展示W(wǎng)AIL的工作原理。
5. Stillio
Stillio網(wǎng)站
我們的倒數(shù)第二個歸檔工具被稱為自動解決方案,可以按設定的時間間隔拍攝快照。Stillio是一項高級服務,在外觀和感覺上都與其他歸檔解決方案不同。
該網(wǎng)站看起來很漂亮,并為您提供了無數(shù)選項來創(chuàng)建滿足您確切要求的檔案。例如,您可以向URL添加標簽和自定義標題。
此外,您可以選擇將檔案存儲到Dropbox、Google Drive和其他第三方服務。
然而, Stillio有一個巨大的缺點:它不支持后端歸檔。您只能使用網(wǎng)站的屏幕截圖,而不是完整的數(shù)據(jù)存檔。對于許多應用程序,這還不夠。
但是, Stillio在某些情況下可能很有用,例如用作品牌管理和跟蹤工具。例如,您可以截取競爭對手網(wǎng)站或搜索引擎結果的屏幕截圖。它也非常適合內容驗證。
Stillio的起價為每月29美元,并通過四個等級上升至每月299美元。這是一個很大的問題,尤其是當有具有更強大功能的免費替代品時。但如果它完全適合您的用例,那么值得一看!
6. Pagefreezer
Pagefreezer網(wǎng)站
我們的最終解決方案是另一個自動化工具。Pagefreezer提供許多與Stillio相同的好處,但它還可以存檔社交媒體內容、文本消息、完整站點和企業(yè)級協(xié)作平臺。
從表面上看,Pagefreezer似乎是比Stillio更強大的解決方案,并且在各種用例中具有更大的價值。
例如,如果法律要求您完全歸檔站點,Pagefreezer就可以滿足要求。它允許您自動化快照數(shù)量并使用站點存檔瀏覽器和比較工具查看它們。
總體而言,Pagefreezer是一款出色的企業(yè)級工作場所歸檔解決方案。使用Yammer或Salesforce的Chatter的公司會被這種類型的解決方案所吸引,Workplace用戶也會如此。
什么是Web存檔 (WARC) 文件格式?
如果您正在研究如何歸檔網(wǎng)站,您會遇到Web歸檔 (WARC)格式。它是您站點存檔的各種文件的打包組合,因此具有便攜性和自包含性。
互聯(lián)網(wǎng)檔案館創(chuàng)建了WARC來長期保存網(wǎng)絡數(shù)據(jù)。國際互聯(lián)網(wǎng)保護聯(lián)盟 (IIPC) 已發(fā)布文件格式的完整規(guī)范。它將存儲圖像、元數(shù)據(jù)以及您的站點獨立運行所需的幾乎所有內容。
雖然它最初只是一種方便的文件格式,但WARC現(xiàn)在是數(shù)字檔案的國際ISO標準。因此,它已被政府和其他官方機構采用。事實上,有幾個用例WARC文件至關重要:
- E-discovery:這是訴訟期間的過程,在該過程中,數(shù)字記錄被研究并呈現(xiàn)以納入審判。對于社交媒體記錄,WARC文件符合E-discovery法律標準。
- 信息自由(FOI): 有許多國家的政府和使用該FOI官方機構和打開記錄的作用是提供一個“知情權”(RTK)服務狀態(tài)成分。WARC格式在涉及數(shù)字記錄的情況下是理想的。
許多不同的歸檔解決方案和爬蟲都使用WARC,例如StormCrawler和Apache Nutch。您還可以調整命令行工具(例如Wget)的設置,以將請求提取并打包為WARC文件。我們很快就會更詳細地討論這個問題。
還有很多其他工具也可以輸出到WARC文件。比如開源網(wǎng)頁保存工具wallabag就可以做到這一點。
作為替代方案,grab-site是一個基于Web的應用程序,可幫助將檔案抓取為WARC文件。
打開WARC文件取決于您使用的工具。無論您喜歡哪種解決方案,請記住,其中一些工具已經(jīng)有一段時間沒有更新了。
因此,您需要確保您選擇的解決方案適用于您當前的系統(tǒng),并且將來可以使用。如果您在歸檔項目的過程中避免使用可能會終止或放棄的工具,您將省去很多麻煩。
管理離線檔案的技巧
在我們討論如何歸檔網(wǎng)站之前,讓我們花幾分鐘時間來幫助您整理現(xiàn)有的檔案。我們已經(jīng)談到了這個主題,但采用可靠的方法將使您的檔案更易于管理。您網(wǎng)站的用戶也將從組織良好的檔案中得到更多的利用。
您必須牢記三個關鍵要素:
- 頻率: 決定您想要多久歸檔一個站點。幾乎每天都在變化的龐大、動態(tài)、復雜的站點將需要比靜態(tài)站點更頻繁的快照。
- 位置:就像備份一樣,您應該將檔案保存在多個不同的位置,包括云。遵循3-2-1 規(guī)則以獲得額外保證。如果您想捕捉網(wǎng)站的全部深度,我們還建議您提供更多信息。
- 結構:就像您的計算機目錄一樣,您應該使用明確的文件夾,細分為站點存檔的名稱和特定站點的存檔日期。
雖然您可以進一步擴展您的歸檔管理,但這三個技巧將開始您的歸檔工作。
歸檔網(wǎng)站的4種方法
下面,我們將建議五種不同的網(wǎng)站存檔方式。我們已經(jīng)根據(jù)它們的相對難度對解決方案進行了排序。但是,如果您發(fā)現(xiàn)一個您認為可以滿足您當前需求的解決方案,請隨時深入了解并找到更多。
1. 將單個頁面保存到本地計算機
讓我們討論最直接的解決方案。如果您需要存檔單個頁面,那就太好了,甚至更好的是,幾乎每個瀏覽器都已經(jīng)具備該功能。
首先,打開您最喜歡的瀏覽器并前往您要存檔的網(wǎng)站。頁面加載后,導航到瀏覽器的文件菜單并找到頁面另存為選項:
Firefox的文件菜單包含保存單個網(wǎng)頁所需的功能。
接下來,單擊保存頁面的選項,此時瀏覽器將顯示一個對話框。
在這里,為您的頁面選擇一個名稱(盡管默認值很好)。此外,請確保您保存的是整個頁面,而不僅僅是HTML。它將以盡可能多的功能保留站點。
2. 使用在線存檔(例如Wayback Machine)
如果不向您展示W(wǎng)ayback Machine的工作原理,任何教程都是不完整的。幸運的是,這個過程很簡單。也就是說,請注意,此方法僅允許您存檔單個頁面(盡管訂閱Archive-It服務確實允許您存檔完整站點)。
對于這種方法,請前往Wayback Machine主頁并查看“Save Page Now”表單:
Wayback Machine網(wǎng)站上的“Save Page Now”表單
要存檔頁面,只需將您希望保存的URL添加到此表單,然后點擊Save Page。根據(jù)頁面的大小或復雜程度,您可能需要等待幾分鐘,讓爬蟲和引擎完成它們的工作??赡苁琼撁婵雌饋砗孟癖罎⒘恕N覀冊跍y試中遇到了一段時間的死亡白屏 (WSoD)。
但是,一旦頁面被歸檔,Wayback Machine會將您重定向到新的專用頁面。
存檔在Wayback Machine上的頁面
請注意,您也可以使用書簽和瀏覽器擴展程序來存檔網(wǎng)站。事實上,當前的大多數(shù)瀏覽器都具有這些開箱即用的選項,包括Google Chrome、Firefox和Safari。
4. 安裝Web歸檔集成層 (WAIL)
使用這種方法的第一步是下載WAIL本身并安裝它。幸運的是,該工具有一個專用的安裝程序(盡管因為該程序是用Python編寫的,所以它使用了PyInstaller模塊)。
安裝過程輕而易舉。無論您使用何種操作系統(tǒng) (OS),您都可以執(zhí)行以下操作:
- 導航到WAIL網(wǎng)站并下載適合您操作系統(tǒng)的安裝程序。
- 對于Windows版本解壓縮文件,或者為macOS安裝DMG映像。
- 在macOS的結果對話框屏幕上,將應用程序圖標拖到您的應用程序文件夾中。對于Windows用戶,只需將解壓縮的文件夾拖到根C:\驅動器即可。
- 啟動WAIL.app或WAIL.exe(取決于您的操作系統(tǒng))。
WAIL打開后,您將看到它的最小界面:
WAIL界面為您提供了三個選項
您現(xiàn)在可以選擇三個選項:查看存檔、檢查其狀態(tài)或存檔網(wǎng)站。按鈕有點令人困惑,因為您的自然傾向可能是從左到右閱讀。但是,在首次發(fā)布時,您的檔案中將一無所有。
相反,輸入要存檔的站點的URL,然后單擊Archive Now!您會看到WAIL開始抓取網(wǎng)站。您可以在Advanced > Heritrix選項卡上檢查您的抓取狀態(tài):
WAIL顯示抓取作業(yè)的當前狀態(tài)
完成后,它會向您顯示“成功”消息。此時,您可以單擊“Basic”選項卡上的“View Archive”按鈕。這將在瀏覽器中打開您的存檔站點,供您查看。
5. 如果您習慣使用命令行,請使用Wget
對于我們歸檔網(wǎng)站的最終方法,在開始之前您需要做一些事情:
- 命令行訪問您的計算機
- 合適的命令行工具,例如Windows命令提示符或macOS和Linux上的終端
- Wget安裝在您的計算機上
您可能已經(jīng)擁有前兩個。
在macOS上,您可以使用命令brew install wget通過Homebrew安裝Wget。請注意,您還需要安裝Homebrew,但只需幾秒鐘。在Linux上,大多數(shù)主要發(fā)行版都預裝了Wget。
如果您是Windows用戶,則在您的計算機上安裝Wget可能會更加困難。雖然網(wǎng)絡上有可用的教程,但它們的指導在機器之間似乎不一致。相反,我們建議您前往官方Wget網(wǎng)站并查看一些可用的Windows二進制文件,因為它們更有可能適合您。
不管怎樣,一旦你安裝了Wget,使用它就很簡單了。首先,導航到新終端窗口中的目錄。在這里,我們也在創(chuàng)建目錄,但此步驟是可選的:
cd documents && mkdir archive && cd archive
請注意,Wget會將所有下載內容拉入任何工作目錄中。在這種情況下,我們?yōu)槲覀兊奈募付艘粋€文件夾。
接下來,您需要抓取站點并提取文件。使用wget命令調用每個操作,您需要使用以下格式:
wget "https://www.wbolt.com/" --warc-file="kins"
按Enter鍵將開始將www.wbolt.com下載到index.html文件并創(chuàng)建一個名為kins-00000.warc.gz的WARC文件。
存檔為WARC文件的站點
Wget功能強大,您可以使用許多命令和選項。例如,您可以使用該--mirror命令創(chuàng)建一個包含站點完整鏡像的WARC 文件。您也可以使用該--no-warc-compression命令來寫入未壓縮的文件,盡管這顯然會在每次下載時占用更多空間。使用內置壓縮機是最佳方法。
小結
Web歸檔源于對快速變化的互聯(lián)網(wǎng)形態(tài)進行記錄的需求。它現(xiàn)在有多個有效的應用程序——例如,在法律文件和要求的情況下。無論您需要什么,擁有結構良好且組織良好的存檔都可以補充您的整體備份策略。
幸運的是,有很多解決方案可以提供幫助。大多數(shù)瀏覽器都提供在您的計算機上保存網(wǎng)頁的功能。然而,諸如Wayback Machine、Heritrix、WAIL和Wget等專用歸檔工具都是特別強大的解決方案,并提供標準化的文件格式。
文章標題:如何存檔網(wǎng)站:多種方式建立Web檔案的指南
轉載來于:http://www.5511xx.com/article/djsoege.html


咨詢
建站咨詢
