日韩无码专区无码一级三级片|91人人爱网站中日韩无码电影|厨房大战丰满熟妇|AV高清无码在线免费观看|另类AV日韩少妇熟女|中文日本大黄一级黄色片|色情在线视频免费|亚洲成人特黄a片|黄片wwwav色图欧美|欧亚乱色一区二区三区

RELATEED CONSULTING
相關(guān)咨詢
選擇下列產(chǎn)品馬上在線溝通
服務(wù)時(shí)間:8:30-17:00
你可能遇到了下面的問題
關(guān)閉右側(cè)工具欄

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營銷解決方案
如何存檔網(wǎng)站:多種方式建立Web檔案的指南

維護(hù)您的網(wǎng)站涉及擁有專門的備份策略。雖然備份是必不可少的,但它們并不是保護(hù)站點(diǎn)的唯一方法。備份的自然延伸是對(duì)網(wǎng)站進(jìn)行歸檔——盡管它們是互補(bǔ)的過程。

隆林網(wǎng)站制作公司哪家好,找創(chuàng)新互聯(lián)公司!從網(wǎng)頁設(shè)計(jì)、網(wǎng)站建設(shè)、微信開發(fā)、APP開發(fā)、響應(yīng)式網(wǎng)站開發(fā)等網(wǎng)站項(xiàng)目制作,到程序開發(fā),運(yùn)營維護(hù)。創(chuàng)新互聯(lián)公司2013年至今到現(xiàn)在10年的時(shí)間,我們擁有了豐富的建站經(jīng)驗(yàn)和運(yùn)維經(jīng)驗(yàn),來保證我們的工作的順利進(jìn)行。專注于網(wǎng)站建設(shè)就選創(chuàng)新互聯(lián)公司。

有幾種靈活的方法可以歸檔網(wǎng)站。好消息是它們都易于使用且易于訪問。您只需為您的需要和要求選擇正確的解決方案。

在這篇文章中,我們將看看如何歸檔網(wǎng)站。我們還將探索您會(huì)遇到的不同歸檔類型,匯總一些最突出的站點(diǎn)歸檔工具,并討論一些有關(guān)歸檔站點(diǎn)的技巧。

網(wǎng)站歸檔簡介

歸檔網(wǎng)站意味著保留內(nèi)容、數(shù)據(jù)和媒體以供將來參考。使用諸如Wayback Machine之類的專用服務(wù)(盡管我們稍后會(huì)介紹其他解決方案),您可以查看網(wǎng)站的舊版本。

閃電博網(wǎng)站在2016年的樣子

在技術(shù)層面上,爬蟲會(huì)拍攝網(wǎng)站的快照,該網(wǎng)站構(gòu)成了檔案本身。如果您愿意,您可以使用簡單的日歷訪問它并以時(shí)間線格式查看每個(gè)迭代。

閃電博網(wǎng)站的Wayback Machine日歷存檔

至于為什么會(huì)有Wayback Machine這樣的解決方案,我們得追溯到2000年代初?;ヂ?lián)網(wǎng)泡沫幾乎破滅了;許多企業(yè)正在倒閉。一些受歡迎的網(wǎng)站被關(guān)閉或放棄,留下的記憶很少。

與互聯(lián)網(wǎng)出現(xiàn)之前的其他媒體格式(例如音樂和電視)非常相似,這些網(wǎng)站具有歷史和懷舊價(jià)值。拯救它們意味著讓未來的互聯(lián)網(wǎng)用戶一瞥我們與早期技術(shù)的差距。

在互聯(lián)網(wǎng)檔案館推出Wayback機(jī)器來幫助維護(hù)網(wǎng)站。如果網(wǎng)站已在那里存檔,您可以看到該網(wǎng)站多年來的發(fā)展情況。

歸檔網(wǎng)站需要許多爬蟲,包括可能需要數(shù)年才能完成的巨大的個(gè)人爬蟲。執(zhí)行爬行“探險(xiǎn)”和存儲(chǔ)結(jié)果快照所需的咕嚕聲是巨大的。

例如,Wayback Machine的第一臺(tái)100TB服務(wù)器于2004年投入使用。到2020年底,Wayback Machine已存儲(chǔ)超過70PB的數(shù)據(jù)。這超過70,000TB。

然而,并不是每個(gè)人都對(duì)Internet Archive所做的工作感到滿意。基于網(wǎng)站存檔是否破壞現(xiàn)有版權(quán)問題,已經(jīng)有多次討論和法律挑戰(zhàn)。

盡管如此,鑒于存儲(chǔ)的檔案數(shù)量的顯著增長,人們顯然希望保留網(wǎng)站。

為什么要存檔網(wǎng)站

想要存檔網(wǎng)站的原因有很多,而不僅僅是出于懷舊的原因。對(duì)于現(xiàn)實(shí)世界的類比,請(qǐng)查看GitHub。

GitHub的基礎(chǔ)設(shè)施很像互聯(lián)網(wǎng)檔案

Github存儲(chǔ)項(xiàng)目的存儲(chǔ)庫,以及所做的每個(gè)“提交”。將此與互聯(lián)網(wǎng)存檔進(jìn)行比較,存儲(chǔ)庫代表整個(gè)存檔,而提交則是快照。

就像Git存儲(chǔ)庫很有價(jià)值一樣,存檔也很有價(jià)值。例如,您可以查看網(wǎng)站以前的迭代(甚至是多年前的)以影響您當(dāng)前的設(shè)計(jì)選擇。

此外,您可能有法律義務(wù)對(duì)您的網(wǎng)站進(jìn)行存檔,尤其是在金融或法律行業(yè)。

最后,如果您不幸卷入了圍繞您網(wǎng)站的訴訟,您的檔案將成為寶貴的證據(jù)。如果您能提供清晰完整的網(wǎng)站檔案,您甚至可以在法院介入之前解決糾紛。

備份和歸檔的區(qū)別

在我們討論可用的不同類型的Web歸檔之前,有必要回到我們之前提到的主題。在紙面上,站點(diǎn)備份和網(wǎng)站存檔看起來很相似。然而,他們執(zhí)行不同的工作,相互補(bǔ)充。簡而言之:

  • 備份是基于數(shù)據(jù)的。他們更關(guān)心保留您網(wǎng)站的數(shù)據(jù)。鑒于如果您需要恢復(fù)站點(diǎn),備份至關(guān)重要,因此對(duì)數(shù)據(jù)進(jìn)行完整備份至關(guān)重要。
  • 檔案保存數(shù)據(jù)的上下文。如果您瀏覽您最喜歡的網(wǎng)站的存檔,您會(huì)注意到該功能通常是不完整的。但是,站點(diǎn)的設(shè)計(jì)和靜態(tài)內(nèi)容通常是完整的。

值得注意的是,歸檔并不打算完全避免數(shù)據(jù)保存工作。事實(shí)上,其中一項(xiàng)好處是讓用戶可以像在現(xiàn)場(chǎng)一樣瀏覽您的網(wǎng)站。即便如此,考慮到諸如Wayback Machine之類的網(wǎng)站作為虛擬“記憶通道”存在,保持視覺效果完整比保留后端功能具有更高的優(yōu)先級(jí)。

簡而言之,您需要為您的站點(diǎn)同時(shí)使用備份和存檔——前者作為日常保護(hù)以防最壞的情況發(fā)生,而后者作為幫助記錄站點(diǎn)演變的附加方式。

您將遇到的不同類型的Web歸檔

網(wǎng)絡(luò)歸檔不僅僅是一種風(fēng)格。您會(huì)遇到幾種不同的類型。以下是每個(gè)的細(xì)分:

  • 客戶端:它涉及最終用戶保存相關(guān)網(wǎng)站的版本。它簡單、可擴(kuò)展,可讓您輕松歸檔網(wǎng)站。
  • 服務(wù)器端: Wayback Machine和其他方法被歸類為服務(wù)器端歸檔。它使用爬蟲和其他技術(shù)來存檔網(wǎng)站,但它也需要客戶端存檔中沒有的一定程度的同意。
  • 基于事務(wù):雖然這仍然基于服務(wù)器端歸檔,但它更復(fù)雜,需要站點(diǎn)所有者的明確同意。本質(zhì)上,它歸檔了最終用戶和服務(wù)器之間的站點(diǎn)事務(wù)。

對(duì)于具有靜態(tài)數(shù)據(jù)的簡單網(wǎng)站,再加上有組織的歸檔策略,客戶端歸檔應(yīng)該符合要求。然而,大多數(shù)其他站點(diǎn)更喜歡服務(wù)器端歸檔——大多數(shù)網(wǎng)站不需要基于事務(wù)的歸檔。

最后——我們將在整篇文章中更詳細(xì)地討論這一點(diǎn)——您還需要考慮存檔的存儲(chǔ)位置和方式。例如,本地存檔并不是一個(gè)糟糕的選擇,但如果您的計(jì)算機(jī)出現(xiàn)故障,您可能會(huì)看到它消失了。另一方面,如果您選擇第三方解決方案,您對(duì)存檔內(nèi)容的控制就會(huì)減少。

正如您所期望的,這里的答案是使用多方面的方法來存檔網(wǎng)站。我們建議將存檔視為備份:將三個(gè)不同的副本保存在不同的位置并以某種方式同步。

您可能還希望使其中一個(gè)存檔生效,以便您可以利用站點(diǎn)上的任何服務(wù)器端功能。結(jié)果是一個(gè)具有強(qiáng)大備份和存檔策略的網(wǎng)站,對(duì)其他人仍然有用。

Internet存檔工具和站點(diǎn)的初學(xué)者指南

有很多解決方案可用于歸檔網(wǎng)站。我們將介紹一些較受歡迎的,以及我們對(duì)它如何適合您的看法。

1. Wayback Machine

Wayback Machine

首先,讓我們討論Wayback Machine。它是同類產(chǎn)品中的第一個(gè),因此為其他歸檔工具設(shè)定了基準(zhǔn)。

因此,在尋找存檔網(wǎng)站時(shí),它可能會(huì)成為第一個(gè)負(fù)責(zé)人。它有很多方法來創(chuàng)建和上傳檔案,甚至還有一個(gè)專門的API來連接到它的功能。值得注意的是,它也是一個(gè)服務(wù)器端歸檔解決方案。

也就是說,由于它抓取和歸檔網(wǎng)站的方式,Wayback Machine可能無法保留您網(wǎng)站的所有功能。盡管如此,它被認(rèn)為是網(wǎng)絡(luò)檔案管理員的行業(yè)標(biāo)準(zhǔn),并且完全可以免費(fèi)啟動(dòng)。在本文后面,我們將向您展示如何使用Wayback Machine更詳細(xì)地存檔網(wǎng)站。

2. Archive.today

Archive.today網(wǎng)站

接下來是Archive.today。它在很多方面都與Wayback Machine相似——甚至是網(wǎng)站幾乎“復(fù)古”的設(shè)計(jì)。它的數(shù)據(jù)服務(wù)器位于歐洲,但它的歸檔方式與Wayback Machine不同。

首先,Archive.today不是基于在網(wǎng)絡(luò)上運(yùn)行的爬蟲。相反,您提交您的URL并同意將其包含在存檔中。此外,它的功能列表比其他解決方案更簡單。例如,沒有強(qiáng)大的刪除策略,并且存檔過程排除了某些媒體和文件類型。

盡管如此,如果您想要一個(gè)免費(fèi)的地方來存儲(chǔ)檔案,它仍然是免費(fèi)且合適的。該站點(diǎn)甚至具有查找以前存檔站點(diǎn)的搜索功能。

3. Heritrix

Heritrix網(wǎng)站

到目前為止,我們?cè)谶@篇文章中幾乎可以互換地提到Internet Archive和Wayback Machine。不過,Wayback Machine只是一項(xiàng)服務(wù),除此之外,Internet Archive還提供其他一些存檔產(chǎn)品。Heritrix是一個(gè)免費(fèi)的開源工具,誕生于Internet Archive和北歐圖書館之間的合作。

它本質(zhì)上是一個(gè)網(wǎng)絡(luò)爬蟲,而不是一個(gè)功能齊全的歸檔工具。但是,您可以將所有爬取的結(jié)果打包在一起。雖然過去并非如此,但Wayback Machine現(xiàn)在使用Heritrix來抓取站點(diǎn)以包含在其自己的站點(diǎn)中。更重要的是,大量圖書館和機(jī)構(gòu)使用Heritrix來建立檔案。

盡管具有令人印象深刻的功能,但安裝Heritrix需要一些技術(shù)知識(shí)。沒有用戶友好的界面來為您安裝它,因此您需要了解Git、GitHub和命令行。

與其他類似解決方案一樣,Heritrix完全免費(fèi)使用,因此適合作為經(jīng)濟(jì)高效的自存檔解決方案。

4. Web歸檔集成層 (WAIL)

Web歸檔集成層 (WAIL) 網(wǎng)站

如果您正在考慮使用Heritrix對(duì)網(wǎng)站進(jìn)行存檔,但對(duì)簡單安裝軟件所需的技術(shù)知識(shí)感到厭煩,那么這里有一個(gè)潛在的解決方案適合您。網(wǎng)頁存檔集成層(WAIL)是一個(gè)免費(fèi)和開源的跨平臺(tái)的桌面應(yīng)用程序,讓你一個(gè)功能的圖形用戶界面(GUI)來使用,使用安裝程序一起。

好消息是Heritrix是WAIL的爬行引擎。這意味著您可以利用Heritrix的強(qiáng)大功能,而不必遍歷GitHub和命令行。此外,WAIL使用OpenWayback引擎來“重放”網(wǎng)絡(luò)檔案。

因此,您已準(zhǔn)備好在您的機(jī)器上使用功能齊全的Web歸檔工具。我們還將在本文后面準(zhǔn)確地向您展示W(wǎng)AIL的工作原理。

5. Stillio

Stillio網(wǎng)站

我們的倒數(shù)第二個(gè)歸檔工具被稱為自動(dòng)解決方案,可以按設(shè)定的時(shí)間間隔拍攝快照。Stillio是一項(xiàng)高級(jí)服務(wù),在外觀和感覺上都與其他歸檔解決方案不同。

該網(wǎng)站看起來很漂亮,并為您提供了無數(shù)選項(xiàng)來創(chuàng)建滿足您確切要求的檔案。例如,您可以向URL添加標(biāo)簽和自定義標(biāo)題。

此外,您可以選擇將檔案存儲(chǔ)到Dropbox、Google Drive和其他第三方服務(wù)。

然而, Stillio有一個(gè)巨大的缺點(diǎn):它不支持后端歸檔。您只能使用網(wǎng)站的屏幕截圖,而不是完整的數(shù)據(jù)存檔。對(duì)于許多應(yīng)用程序,這還不夠。

但是, Stillio在某些情況下可能很有用,例如用作品牌管理和跟蹤工具。例如,您可以截取競爭對(duì)手網(wǎng)站或搜索引擎結(jié)果的屏幕截圖。它也非常適合內(nèi)容驗(yàn)證。

Stillio的起價(jià)為每月29美元,并通過四個(gè)等級(jí)上升至每月299美元。這是一個(gè)很大的問題,尤其是當(dāng)有具有更強(qiáng)大功能的免費(fèi)替代品時(shí)。但如果它完全適合您的用例,那么值得一看!

6. Pagefreezer

Pagefreezer網(wǎng)站

我們的最終解決方案是另一個(gè)自動(dòng)化工具。Pagefreezer提供許多與Stillio相同的好處,但它還可以存檔社交媒體內(nèi)容、文本消息、完整站點(diǎn)和企業(yè)級(jí)協(xié)作平臺(tái)。

從表面上看,Pagefreezer似乎是比Stillio更強(qiáng)大的解決方案,并且在各種用例中具有更大的價(jià)值。

例如,如果法律要求您完全歸檔站點(diǎn),Pagefreezer就可以滿足要求。它允許您自動(dòng)化快照數(shù)量并使用站點(diǎn)存檔瀏覽器和比較工具查看它們。

總體而言,Pagefreezer是一款出色的企業(yè)級(jí)工作場(chǎng)所歸檔解決方案。使用Yammer或Salesforce的Chatter的公司會(huì)被這種類型的解決方案所吸引,Workplace用戶也會(huì)如此。

什么是Web存檔 (WARC) 文件格式?

如果您正在研究如何歸檔網(wǎng)站,您會(huì)遇到Web歸檔 (WARC)格式。它是您站點(diǎn)存檔的各種文件的打包組合,因此具有便攜性和自包含性。

互聯(lián)網(wǎng)檔案館創(chuàng)建了WARC來長期保存網(wǎng)絡(luò)數(shù)據(jù)。國際互聯(lián)網(wǎng)保護(hù)聯(lián)盟 (IIPC) 已發(fā)布文件格式的完整規(guī)范。它將存儲(chǔ)圖像、元數(shù)據(jù)以及您的站點(diǎn)獨(dú)立運(yùn)行所需的幾乎所有內(nèi)容。

雖然它最初只是一種方便的文件格式,但WARC現(xiàn)在是數(shù)字檔案的國際ISO標(biāo)準(zhǔn)。因此,它已被政府和其他官方機(jī)構(gòu)采用。事實(shí)上,有幾個(gè)用例WARC文件至關(guān)重要:

  • E-discovery:這是訴訟期間的過程,在該過程中,數(shù)字記錄被研究并呈現(xiàn)以納入審判。對(duì)于社交媒體記錄,WARC文件符合E-discovery法律標(biāo)準(zhǔn)。
  • 信息自由(FOI): 有許多國家的政府和使用該FOI官方機(jī)構(gòu)和打開記錄的作用是提供一個(gè)“知情權(quán)”(RTK)服務(wù)狀態(tài)成分。WARC格式在涉及數(shù)字記錄的情況下是理想的。

許多不同的歸檔解決方案和爬蟲都使用WARC,例如StormCrawler和Apache Nutch。您還可以調(diào)整命令行工具(例如Wget)的設(shè)置,以將請(qǐng)求提取并打包為WARC文件。我們很快就會(huì)更詳細(xì)地討論這個(gè)問題。

還有很多其他工具也可以輸出到WARC文件。比如開源網(wǎng)頁保存工具wallabag就可以做到這一點(diǎn)。

作為替代方案,grab-site是一個(gè)基于Web的應(yīng)用程序,可幫助將檔案抓取為WARC文件。

打開WARC文件取決于您使用的工具。無論您喜歡哪種解決方案,請(qǐng)記住,其中一些工具已經(jīng)有一段時(shí)間沒有更新了。

因此,您需要確保您選擇的解決方案適用于您當(dāng)前的系統(tǒng),并且將來可以使用。如果您在歸檔項(xiàng)目的過程中避免使用可能會(huì)終止或放棄的工具,您將省去很多麻煩。

管理離線檔案的技巧

在我們討論如何歸檔網(wǎng)站之前,讓我們花幾分鐘時(shí)間來幫助您整理現(xiàn)有的檔案。我們已經(jīng)談到了這個(gè)主題,但采用可靠的方法將使您的檔案更易于管理。您網(wǎng)站的用戶也將從組織良好的檔案中得到更多的利用。

您必須牢記三個(gè)關(guān)鍵要素:

  • 頻率: 決定您想要多久歸檔一個(gè)站點(diǎn)。幾乎每天都在變化的龐大、動(dòng)態(tài)、復(fù)雜的站點(diǎn)將需要比靜態(tài)站點(diǎn)更頻繁的快照。
  • 位置:就像備份一樣,您應(yīng)該將檔案保存在多個(gè)不同的位置,包括云。遵循3-2-1 規(guī)則以獲得額外保證。如果您想捕捉網(wǎng)站的全部深度,我們還建議您提供更多信息。
  • 結(jié)構(gòu):就像您的計(jì)算機(jī)目錄一樣,您應(yīng)該使用明確的文件夾,細(xì)分為站點(diǎn)存檔的名稱和特定站點(diǎn)的存檔日期。

雖然您可以進(jìn)一步擴(kuò)展您的歸檔管理,但這三個(gè)技巧將開始您的歸檔工作。

歸檔網(wǎng)站的4種方法

下面,我們將建議五種不同的網(wǎng)站存檔方式。我們已經(jīng)根據(jù)它們的相對(duì)難度對(duì)解決方案進(jìn)行了排序。但是,如果您發(fā)現(xiàn)一個(gè)您認(rèn)為可以滿足您當(dāng)前需求的解決方案,請(qǐng)隨時(shí)深入了解并找到更多。

1. 將單個(gè)頁面保存到本地計(jì)算機(jī)

讓我們討論最直接的解決方案。如果您需要存檔單個(gè)頁面,那就太好了,甚至更好的是,幾乎每個(gè)瀏覽器都已經(jīng)具備該功能。

首先,打開您最喜歡的瀏覽器并前往您要存檔的網(wǎng)站。頁面加載后,導(dǎo)航到瀏覽器的文件菜單并找到頁面另存為選項(xiàng):

Firefox的文件菜單包含保存單個(gè)網(wǎng)頁所需的功能。

接下來,單擊保存頁面的選項(xiàng),此時(shí)瀏覽器將顯示一個(gè)對(duì)話框。

在這里,為您的頁面選擇一個(gè)名稱(盡管默認(rèn)值很好)。此外,請(qǐng)確保您保存的是整個(gè)頁面,而不僅僅是HTML。它將以盡可能多的功能保留站點(diǎn)。

2. 使用在線存檔(例如Wayback Machine)

如果不向您展示W(wǎng)ayback Machine的工作原理,任何教程都是不完整的。幸運(yùn)的是,這個(gè)過程很簡單。也就是說,請(qǐng)注意,此方法僅允許您存檔單個(gè)頁面(盡管訂閱Archive-It服務(wù)確實(shí)允許您存檔完整站點(diǎn))。

對(duì)于這種方法,請(qǐng)前往Wayback Machine主頁并查看“Save Page Now表單:

Wayback Machine網(wǎng)站上的“Save Page Now”表單

要存檔頁面,只需將您希望保存的URL添加到此表單,然后點(diǎn)擊Save Page。根據(jù)頁面的大小或復(fù)雜程度,您可能需要等待幾分鐘,讓爬蟲和引擎完成它們的工作??赡苁琼撁婵雌饋砗孟癖罎⒘?。我們?cè)跍y(cè)試中遇到了一段時(shí)間的死亡白屏 (WSoD)。

但是,一旦頁面被歸檔,Wayback Machine會(huì)將您重定向到新的專用頁面。

存檔在Wayback Machine上的頁面

請(qǐng)注意,您也可以使用書簽和瀏覽器擴(kuò)展程序來存檔網(wǎng)站。事實(shí)上,當(dāng)前的大多數(shù)瀏覽器都具有這些開箱即用的選項(xiàng),包括Google Chrome、Firefox和Safari。

4. 安裝Web歸檔集成層 (WAIL)

使用這種方法的第一步是下載WAIL本身并安裝它。幸運(yùn)的是,該工具有一個(gè)專用的安裝程序(盡管因?yàn)樵摮绦蚴怯肞ython編寫的,所以它使用了PyInstaller模塊)。

安裝過程輕而易舉。無論您使用何種操作系統(tǒng) (OS),您都可以執(zhí)行以下操作:

  • 導(dǎo)航到WAIL網(wǎng)站并下載適合您操作系統(tǒng)的安裝程序。
  • 對(duì)于Windows版本解壓縮文件,或者為macOS安裝DMG映像。
  • 在macOS的結(jié)果對(duì)話框屏幕上,將應(yīng)用程序圖標(biāo)拖到您的應(yīng)用程序文件夾中。對(duì)于Windows用戶,只需將解壓縮的文件夾拖到根C:\驅(qū)動(dòng)器即可。
  • 啟動(dòng)WAIL.appWAIL.exe(取決于您的操作系統(tǒng))。

WAIL打開后,您將看到它的最小界面:

WAIL界面為您提供了三個(gè)選項(xiàng)

您現(xiàn)在可以選擇三個(gè)選項(xiàng):查看存檔、檢查其狀態(tài)或存檔網(wǎng)站。按鈕有點(diǎn)令人困惑,因?yàn)槟淖匀粌A向可能是從左到右閱讀。但是,在首次發(fā)布時(shí),您的檔案中將一無所有。

相反,輸入要存檔的站點(diǎn)的URL,然后單擊Archive Now!您會(huì)看到WAIL開始抓取網(wǎng)站。您可以在Advanced > Heritrix選項(xiàng)卡上檢查您的抓取狀態(tài):

WAIL顯示抓取作業(yè)的當(dāng)前狀態(tài)

完成后,它會(huì)向您顯示“成功”消息。此時(shí),您可以單擊“Basic選項(xiàng)卡上的“View Archive按鈕。這將在瀏覽器中打開您的存檔站點(diǎn),供您查看。

5. 如果您習(xí)慣使用命令行,請(qǐng)使用Wget

對(duì)于我們歸檔網(wǎng)站的最終方法,在開始之前您需要做一些事情:

  • 命令行訪問您的計(jì)算機(jī)
  • 合適的命令行工具,例如Windows命令提示符或macOS和Linux上的終端
  • Wget安裝在您的計(jì)算機(jī)上

您可能已經(jīng)擁有前兩個(gè)。

在macOS上,您可以使用命令brew install wget通過Homebrew安裝Wget。請(qǐng)注意,您還需要安裝Homebrew,但只需幾秒鐘。在Linux上,大多數(shù)主要發(fā)行版都預(yù)裝了Wget。

如果您是Windows用戶,則在您的計(jì)算機(jī)上安裝Wget可能會(huì)更加困難。雖然網(wǎng)絡(luò)上有可用的教程,但它們的指導(dǎo)在機(jī)器之間似乎不一致。相反,我們建議您前往官方Wget網(wǎng)站并查看一些可用的Windows二進(jìn)制文件,因?yàn)樗鼈兏锌赡苓m合您。

不管怎樣,一旦你安裝了Wget,使用它就很簡單了。首先,導(dǎo)航到新終端窗口中的目錄。在這里,我們也在創(chuàng)建目錄,但此步驟是可選的:

cd documents && mkdir archive && cd archive

請(qǐng)注意,Wget會(huì)將所有下載內(nèi)容拉入任何工作目錄中。在這種情況下,我們?yōu)槲覀兊奈募付艘粋€(gè)文件夾。

接下來,您需要抓取站點(diǎn)并提取文件。使用wget命令調(diào)用每個(gè)操作,您需要使用以下格式:

wget "https://www.wbolt.com/" --warc-file="kins"

Enter鍵將開始將www.wbolt.com下載到index.html文件并創(chuàng)建一個(gè)名為kins-00000.warc.gz的WARC文件。

存檔為WARC文件的站點(diǎn)

Wget功能強(qiáng)大,您可以使用許多命令和選項(xiàng)。例如,您可以使用該--mirror命令創(chuàng)建一個(gè)包含站點(diǎn)完整鏡像的WARC 文件。您也可以使用該--no-warc-compression命令來寫入未壓縮的文件,盡管這顯然會(huì)在每次下載時(shí)占用更多空間。使用內(nèi)置壓縮機(jī)是最佳方法。

小結(jié)

Web歸檔源于對(duì)快速變化的互聯(lián)網(wǎng)形態(tài)進(jìn)行記錄的需求。它現(xiàn)在有多個(gè)有效的應(yīng)用程序——例如,在法律文件和要求的情況下。無論您需要什么,擁有結(jié)構(gòu)良好且組織良好的存檔都可以補(bǔ)充您的整體備份策略。

幸運(yùn)的是,有很多解決方案可以提供幫助。大多數(shù)瀏覽器都提供在您的計(jì)算機(jī)上保存網(wǎng)頁的功能。然而,諸如Wayback Machine、Heritrix、WAIL和Wget等專用歸檔工具都是特別強(qiáng)大的解決方案,并提供標(biāo)準(zhǔn)化的文件格式。


本文名稱:如何存檔網(wǎng)站:多種方式建立Web檔案的指南
轉(zhuǎn)載來于:http://www.5511xx.com/article/djsoege.html