蜘蛛通過網站提交的Sitemap (網頁地圖)或者在互聯(lián)網其他地方留下的頁面URL信息,爬行到網站對應頁面,然后沿著網站頁面其他鏈接一層層往下爬行,發(fā)現(xiàn)更多的頁面。
蜘蛛抓取網頁是收錄頁面工作的上游,通過蜘蛛對網頁的抓取,發(fā)現(xiàn)更多頁面,同時知道哪些頁面已經有了更新,從而實現(xiàn)對互聯(lián)網頁面的抓取和持續(xù)更新。
關于蜘蛛抓取系統(tǒng)的工作原理,可以參考百度蜘蛛抓取的說明。
簡而言之,蜘蛛抓取系統(tǒng)包括鏈接存儲系統(tǒng)、鏈接選取系統(tǒng)、DNS解析服務系統(tǒng)、抓取調度系統(tǒng)、網頁分析系統(tǒng)、鏈接提取系統(tǒng)、鏈接分析系統(tǒng)、網頁存儲系統(tǒng)。Baiduspider 通過這種系統(tǒng)的通力合作完成對互聯(lián)網頁面的抓取工作。
- 上一篇:應對蜘蛛抓取基本策略
- 下一篇: EO優(yōu)化與關鍵詞的聯(lián)系