Heritrix是一個(gè)開(kāi)源的網(wǎng)絡(luò)爬蟲(chóng),主要用于在互聯(lián)網(wǎng)上抓取和歸檔網(wǎng)頁(yè)內(nèi)容。它是由Internet Archive(互聯(lián)網(wǎng)檔案館)開(kāi)發(fā)的,旨在幫助機(jī)構(gòu)和個(gè)人建立自己的網(wǎng)絡(luò)內(nèi)容歸檔。
Heritrix的設(shè)計(jì)目標(biāo)是支持大規(guī)模的、可持續(xù)的網(wǎng)頁(yè)抓取,并且具有高度的可配置性和靈活性。它使用模塊化的架構(gòu)和可擴(kuò)展的插件系統(tǒng),可以根據(jù)用戶(hù)的需求進(jìn)行定制和擴(kuò)展。
Heritrix被廣泛應(yīng)用于數(shù)字圖書(shū)館、檔案館、新聞機(jī)構(gòu)等領(lǐng)域,用于創(chuàng)建和維護(hù)大規(guī)模的網(wǎng)絡(luò)內(nèi)容歸檔,以便長(zhǎng)期保存和檢索互聯(lián)網(wǎng)上的信息資源。
不過(guò)對(duì)于國(guó)內(nèi)網(wǎng)站來(lái)說(shuō)不會(huì)帶來(lái)什么流量,可以選擇robots.txt協(xié)議禁止。
User-agent: heritrix
Disallow: /
如果還是禁止不了,可以選擇nginx規(guī)則禁止訪(fǎng)問(wèn),如下:
if ($http_user_agent ~* "heritrix") {
return 403;
}