在談如何加快Google和百度對網站頁面的收錄之前,我想先解釋一下為什么要加快收錄速度。所有的站長都希望自己的網站能夠有比較好的搜索引擎表現。那么影響自己搜索引擎表現力的其中一項就是網站被收錄的頁面。雖然不是絕對,但是普遍來說,頁面收錄量大一些,網站的整體搜索引擎表現就會好一些。同時,網站的搜索引擎推廣絕非是幾個關鍵詞的優化,而是一群關鍵詞都得到較好的排名,利用長尾理論,每個詞貢獻幾個訪問量來源,最終匯集成為一個巨大的搜索引擎訪問量來源。同時,還能更加廣泛地抓住潛在客戶。要做到這點,網站的頁面要盡可能被搜索引擎收錄,不然就無法做到一群關鍵詞都獲得很好的排名。所以,盡可能地讓自己的網站頁面都被收錄,這是所有站長都應該做的。
要做好搜索引擎的收錄,其中最重要的還是網站的結構。要說明這個問題,請允許我介紹一下搜索引擎爬蟲的工作原理。搜索引擎爬蟲來收錄網站并非一次性就將整個網站就走一遍的,甚至很多時候爬蟲只是檢索了幾個頁面就會離開了。同時,爬蟲的工作分成兩個,一個是建立網址檢索任務,第二個是對任務表當中的網址進行檢索,并存入搜索數據庫。只要網站的所有頁面被放進了檢索任務表,那么爬蟲就一定會來進行那些網頁的收錄工作。
那么網址檢索任務又是如何建立的呢?當爬蟲在檢索某一個頁面的時候,它會將這個頁面所包含的站內網址放入檢索任務表。但是,并不是一定會將所有的網址都放進去的。爬蟲會選擇什么網址?多少網址?其實并沒有什么規律。不過似乎越靠前的網址是越被重視。而且似乎遇到了站外鏈接、網址數量過多、重復的網址出現在任務表中的時候,就會停止收錄網址。而一旦停止,那么只有等待爬蟲在下一次來訪網站的時候才會更新網址任務表,那很可能就是幾天之后了。根據這個情況,如果想要讓網站更好地被收錄,要做到以下幾點:
1. 網站的內容要層層遞進,通過一個清晰的網站鏈接結構,幫助爬蟲在幾次來訪網站后就可以把主要的網站頁面全部收錄。清晰的結構通常是一個樹狀的,而且層級最好不要超過4層。網站結構主要體現在導航條的部分,通過首頁的導航和每個欄目頁的二級導航進入到內容列表頁,最后指向文章頁。
2. 首頁的導航和欄目頁的導航一定要在代碼位置靠前,避免爬蟲在抓取到導航鏈接前就離開網站了。
3. 列表頁要巧妙使用翻頁機制,同一個頁面當中列表的條數不要超過50條。數量太大,爬蟲會離開。翻頁空間也要做成第1.2.3.4.5.6.7.8.9頁這樣的模式,把后面的翻頁列表也讓爬蟲抓入任務列表庫。
4. 文章頁內是鏈接最少的頁面,要充分利用這個特點,讓爬蟲在文章頁抓取的時候也能夠收錄到網站內其它的頁面。這就需要文章內容頁要有相關文章和推薦文章的鏈接。讓爬蟲在文章頁進行網站結構的橫向抓取。
5. 一個小技巧是做好Google Sitemap并且進行準確的提交到網站管理工具當中去。這對Google的抓取很有幫助,是一種主動為google提供抓取任務表的方式。另一個竅門是sitemap可以不止一個,而是每個欄目一個,這樣可以做到同步提交,加快收錄速度。
6. 讓最新的文章盡快的被收錄也是能夠讓收錄量不斷上升的方式。所以我們可以通過在首頁把最新的文章進行展示,即可以保持網站的更新頻率,又讓最新的文章盡快被收錄。
7. 網站的內容是一個持續的增長。有的網站通過信息抓取工具,從其它網站抓取大量文章,一次性導入到自己的網站當中來,其實是很不健康的。搜索引擎對于這種短時間內的突變非常敏感,甚至可能會進行懲罰。所以,文章的增加一定要穩定、持續。例如每日20-30篇的數量。
8. 最后,別忘記了在搜索引擎網站提交入口做一次提交。通常Google提交的一周左右開始進行收錄,百度要2-3周才會開始收錄。(百度開始收錄后,只有首頁顯示被收錄,剩下的頁面通常要等一個月甚至更長的時間才會顯示。)
9. 多做一些外鏈,這樣可以增加爬蟲從其它網站來訪的幾率,從而讓爬蟲來訪的次數增加,自然增加收錄速度。
最后,以我的經驗來看,對于企業網站,Google收錄數在1000以上的時候,整體網站的各個頁面的搜索引擎表現力會有比較明顯的提升。收錄數對百度的影響較不如google的明顯,但是也是非常有用的。由于google的收錄比較有規律,也比較及時,所以大家可以以Google的收錄作為標準,然后等待百度的收錄慢慢提升上來吧。