1. 抓取網(wǎng)頁
每個獨立的搜索引擎都有自己的網(wǎng)頁抓取程序爬蟲(Spider)。爬蟲順著網(wǎng)頁中的超鏈接,從這個網(wǎng)站爬到另一個網(wǎng)站,通過超鏈接分析連續(xù)訪問抓取更多網(wǎng)頁。被抓取的網(wǎng)頁被稱之為網(wǎng)頁快照。由于互聯(lián)網(wǎng)中超鏈接的應用很普遍,理論上,從一定范圍的網(wǎng)頁出發(fā),就能搜集到絕大多數(shù)的網(wǎng)頁。
每個獨立的搜索引擎都有自己的網(wǎng)頁抓取程序爬蟲(Spider)。爬蟲順著網(wǎng)頁中的超鏈接,從這個網(wǎng)站爬到另一個網(wǎng)站,通過超鏈接分析連續(xù)訪問抓取更多網(wǎng)頁。被抓取的網(wǎng)頁被稱之為網(wǎng)頁快照。由于互聯(lián)網(wǎng)中超鏈接的應用很普遍,理論上,從一定范圍的網(wǎng)頁出發(fā),就能搜集到絕大多數(shù)的網(wǎng)頁。
百度蜘蛛
必應蜘蛛
一淘蜘蛛
英國MJ12蜘蛛
亞馬遜蜘蛛
Ads蜘蛛
Aray蜘蛛
搜狗蜘蛛
Ask蜘蛛
sp蜘蛛
Mail.RU蜘蛛
俄羅斯蜘蛛