【SEO優化】如何應對解決搜索引擎蜘蛛抓取頁面異常的問題

              作 者:知了網絡   發表時間:2022-05-02 19:24:17   瀏覽量:3839

              導  讀:  搜索引擎在抓取網頁的時候,可能會遇到各種情況,有的頁面抓取成功,有的抓取失敗。怎么顯示一個頁面的實際抓取結果呢?主要是通過返回碼進行示意,代表抓取成功與否和遇到的問題。比如我們常見的,有時候打開一

                搜索引擎在抓取網頁的時候,可能會遇到各種情況,有的頁面抓取成功,有的抓取失敗。怎么顯示一個頁面的實際抓取結果呢?主要是通過返回碼進行示意,代表抓取成功與否和遇到的問題。比如我們常見的,有時候打開一個頁面,頁面一片空白, 上面只顯示404。這里的404就是一種返回碼,代表當前抓取的頁面已經失效,遇到顯示404的頁面,如果短期內搜索,蜘蛛再發現這個URL,也不會對其進行抓取?!?b>SEO優化

                有時候,會返回503,503 返回碼代表網站臨時無法訪問,可能是網站服務器關閉或者其他臨時措施造成的網頁無法訪問,一般來說,蜘蛛還會繼續抓取幾次。如果網站恢復正常,URL仍然被當作正常URL處理,如果服務器一直處于不可訪問狀態,那么搜索引擎就會將這些URL徹底從庫中刪除,這就要求我們必須維護網站的穩定性,盡量避免臨時關閉的情況發生。返回碼403是禁止訪問狀態,一般來說,如同503一樣, 如被多次訪問仍處于禁止訪問狀態,就會被搜索引擎從庫里面刪除。

                在返回碼中,有一類需要格外注意,就是301。301代表永久性移除,當前URL被永久性重定向到另外的URL。一般來說,因為改版等原因,部分URL需要永久被替換為新的URL,就必須使用返回碼301進行處理,這樣能把權重等一 并帶過去,避免網站的流量損失。

                返回碼301的優化寫法如下。

                (1)創建一個htaccess.txt文件。

                (2)在htaccess.txt里寫好返回碼301的跳轉信息。

                假設舊的URL為abc.com,需要重定向到www.abc.com,需在文件里寫如下信息。

                RewriteEngine on

                RewriteCond %{http_ host} ^abc.com [NC]

                RewriteRule ^(.*)$ http://www.abc.com/$1 [L, R=301]

                (3)將htaccess.txt上傳到FTP,然后將htaccess.txt修改為.htaccess。

                需要提醒的是目前htaccess只適用于Linux系統,并需要虛擬主機支持,因此,在考慮.htaccess文件處理返回碼301的時候,需要查看虛擬主機是否完全支持。

                實際上,在重定向的處理上存在多種方式,簡單來說,重定向可以分為http30x重定向、meta refresh重定向和js重定向。另外,大的搜索引擎公司,比如谷歌和百度都確認支持Canonical標簽,可以通過制定一個權威頁面的方式,引導蜘蛛只索引一個權威頁面,從實際效果上來說,也是一種間接的重定向。在實際抓取過程中,蜘蛛會對各種重定向效果進行識別。

                重定向的方法有多種,但是從SEO角度來說,如果是永久跳轉的頁面,盡量采用返回碼301的跳轉方式。另外,從時間結果來看,百度對Canonical的支持并不如谷歌好,采用Canonical 未必能得到如期效果。有些網站通過不同的路徑進入同一頁面,可能會出現多個URL的情況,當面對這種情況時,可能需要一些處理技巧。

                外鏈等因素對搜索的排名是有影響的,那么在抓取環節是否也有影響呢?百度在它的抓取政策上有優先級的說明,即執行包括“深度優先遍歷策略、寬度優先遍歷策略、PR 優先策略、反鏈策略、社會化分享指導策略等”。同時,這也說明每個策略各有優劣,在實際情況中往往是多種策略結合使用才能達到最優的抓取效果。從這段官方說明里面可以看到PR優先策略、反鏈策略、社會化分享等字眼,我們可以認為,百度在實際抓取的時候,其實都考慮了這些因素,只是權重可能有所不同,因此,盡量提高網頁PR,增加更高質量的外鏈,進行高質量的社會化分享,對網站的SEO工作是有積極意義的。

                另外,針對互聯網存在的大量“奮版”“采集”的網頁情況,在抓取的過程中,蜘蛛會通過技術判斷頁面是否已經被抓取過,并對URL不同但是實際內容相同的頁面的URL進行歸一化處理,即視作-一個URL。也就是告訴SEO人員,不要通過大量創建頁面的方式來獲得更多的搜索資源,如果頁面很多,但是每個頁面的內容重復性很高,或者僅是URL中包含無效參數來實現多個頁面,搜索引擎仍然把這些URL當作-一個URL處理,即網站頁面不是越多越好,通過功利的方式拼湊網頁,大量部署長尾,但是頁面質量堪憂,效果會適得其反。如果大量此類頁面被搜索引擎判斷為低質量頁面,可能會影響到整站的SEO效果。

                蜘蛛在抓取的過程實際是依據鏈接不斷往下探索的過程,如果鏈接之間出現短路,蜘蛛就無法往前爬了。在真實的網站運營中,我們可以看到很多網頁實際潛藏在網站后端,蜘蛛是無法抓取到的,比如沒有預留入口鏈接,或者入口鏈接已經失效等,這些無法抓取到的內容和信息,對于蜘蛛來說就是一個個的孤島,對SEO人員來說就是沒有完全發揮內容的引流作用。同時,因為網絡環境或者網站規范等原因也可能導致蜘蛛無法爬行。

                如何解決信息無法被抓取到的問題?幾個可行的辦法如下。

                ●采用搜索引擎平臺提供的開發平臺等數據上傳通道,可以針對數據進行獨立的提交。

                ●采用Sitemap提交方式。 大型網站或者結構比較特殊的網站,沉淀了大量的歷史頁面,這些歷史頁面很多具有SEO的價值,但是蜘蛛無法通過正常的爬行抓取到,針對這些頁面,建立Sitemap文件并提交給百度等搜索引擎是非常必要的。

                蜘蛛在爬行網站的時候,會遵循網站的協議進行抓取,比如哪些網頁可以給搜索引擎抓取,哪些不允許搜索引擎抓取。常見的協議有HTTP協議、HTTPS協議、Robots 協議等。

                HTTP協議規范了客戶端和服務器端請求和應答的標準??蛻舳税闶侵附K端用戶,服務器端指網站。終端用戶通過瀏覽器、蜘蛛等向服務器指定端口發送HT請求。發送HTTP請求會返回對應的HTTP Heder信息,我們可以看到包括是否成功、服務器類型、網頁最近更新時間等內容。

                HTTPS協議是-種加密協議,一般用戶安全數據的傳輸。 HTTPS是在HTTP下增加了SSL層,這類頁面應用比較多的是和支付相關或者內部保密信息相關的網頁。蜘蛛不會自動爬行該類網頁。因此,從SEO角度考慮,在建站的時候,盡量對頁面的性質進行區分,對非保密頁面進行HTTP處理,才能實現網頁的抓取和收錄。

                以上就是《如何應對解決搜索引擎蜘蛛抓取頁面異常的問題》的全部內容,僅供站長朋友們互動交流學習,SEO優化是一個需要堅持的過程,希望大家一起共同進步。


              搶占搜索先機 · 助力營銷獲客 · 讓品牌深入人心

              獲取網絡營銷方案,共贏搜索營銷機遇

              立即咨詢 業務合作 會員登錄

              ? 2013-2021 深圳市知了網絡信息技術有限公司  版權所有!  備案號:粵ICP備17052943號-2   軟著登記號:2021SR1202019 / 2021SR1200265 / 2021SR1200266   技術支持:知了網絡  

              友情鏈接: 黑酷SEO 網站優化 香港服務器 seo 商標注冊 電銷卡 SEO 網絡推廣 鋁材報價 網站建設 商標注冊 商標查詢 深圳網站建設 直播帶貨 成都網絡推廣 網站建設 谷歌SEO

              城市分站站群: 北京 上海 廣州 深圳 東莞 佛山 中山 珠海 成都 重慶 滄州 鄭州 武漢 合肥 長沙 南昌 西安 濟南 煙臺 蘇州 常州 昆明 沈陽 大連 廈門 聊城 杭州
              石家莊 保定 青島 天津 邢臺 淄博 濟寧 邯鄲 江門 濰坊 惠州 南京 泉州 福州 溫州 寧波 無錫 徐州 鹽城 安慶 菏澤 滁州 洛陽 蘭州 南寧 嘉興 更多分站 >>

              咨詢熱線
              咨詢熱線 咨詢熱線  4008 799 335
              業務直線
              業務直線 業務直線  135 1048 0364
              工具條

              掃一掃,加微信

              返回頂部
              返回頂部 返回頂部