搜索引擎工作的流程是非常復雜的,今天桂林眾騰網絡介紹在蜘蛛在對網頁進行爬行和抓取過程中,對我們網站優化有重要影響的幾個部分。
當搜索引擎蜘蛛準備爬行某個網頁的時候,會對服務器發出訪問申請,申請通過后,搜索引擎會先去爬行網站的robots.txt文件,針對robots.txt文件中所禁止搜索引擎抓取的部分,搜索引擎將不會去抓取。接著服務器就會給搜索引擎返回當前頁面的html代碼,現在有很多的站長工具中都會有模仿蜘蛛抓取網頁代碼的功能,大家有興趣可以去查詢,這里值得注意的就是頁面代碼中漢字所占的比例,因為搜索引擎在預處理階段會把漢字部分篩選出來分析網頁的內容和關鍵詞,漢字所占比例越多說明網頁返回的有效信息越多,越有利于搜索引擎對頁面的分析。這也就是為什么大家在編寫網站代碼的時候,會對CSS和Javascript代碼進行外部調用,對圖片要添加alt屬性,對鏈接要添加title屬性的緣故,都是為了降低頁面代碼所占的比例,提高文字所占比例,當然相關性也是一方面。
搜索引擎爬行網頁都是沿著鏈接進行爬行的,在爬行網頁的時候并不是一個蜘蛛在爬行,一般都是由多個蜘蛛進行爬行,爬行的方式有兩種,一種是深度爬行,一種是廣度爬行,兩種方式都可以爬遍一個網站的所有鏈接,通常都是兩種方式并行的,但實際上由于資源的限制,搜索引擎并不會爬遍一個網站的所有鏈接。
既然搜索引擎不可能爬遍整個網站的所有鏈接,那么我們seoer接下來的工作就是要吸引蜘蛛盡可能多的去爬行網站鏈接,為蜘蛛的爬行創造輕松便利的環境,尤其是針對一些重要的鏈接。
如何去吸引蜘蛛呢?影響蜘蛛爬行的因素有哪些呢?
1.網站的權重。一個權重高的網站,蜘蛛往往會爬行的很深,關于如何提高網站的權重,大家可以去參考狄吉堂網站seo博客中的影響網站權重計算的因素有哪些和如何提高網站權重的五種方式兩篇文章。
2.頁面是否經常更新。這是一個老生常談的問題了,雖然網站的更新和維護工作異常的辛苦,但是沒辦法,人家搜索引擎就喜歡新鮮的血液,如果網站的更新比較勤快的話,搜索引擎自然來的也勤快,來的多了,新鏈接被抓取的幾率當然也就大了。
3.高質量導入鏈接。一個頁面的導入鏈接相當于頁面的入口,原理很簡單,導入鏈接多了,搜索引擎進入你網頁的渠道也就多了,如果是一條高質量的導入鏈接,那么搜索引擎對網頁鏈接爬行的深度也會增加。
4.與首頁距離越近的鏈接,被爬行的幾率越大。一個網站的首頁是權重最高的,那么距離它越近的頁面,被賦予的權重也會越高,被蜘蛛爬行的幾率當然越大,這是網站seo優化中常用到的一個就近原理,可以應用到很多方面,比如網站的主導航中第一個欄目比最后一個欄目的權重高,距離錨文本越近的文字是搜索引擎重點照顧的地方等等。
當搜索引擎對頁面進行抓取之后,會將頁面中的鏈接解析出來,通過與地址庫中的鏈接進行匹配對比分析,將沒有進行爬行的新鏈接放入到待訪問地址庫,然后派出蜘蛛對新鏈接進行爬行。
在搜索引擎對網頁進行爬行和抓取的時候,并不是進行簡單的爬行和抓取工作,而是同時并發有大量的其他操作,其中很重的一項工作就是對網頁內容進行檢測,通過截取網頁上的內容與數據庫中的信息做對比,如果是一些權重比較低的網站出現大量轉載或者偽原創,可能蜘蛛爬行到一半就會離開,這也就是為什么通過網站日志看到有蜘蛛來,但是頁面沒被收錄的原因。所以說,即使是進行偽原創,也是需要一定的技巧的,除非你的網站權重特別高。