百度的網絡蜘蛛百度正在不斷抓取網站并將其添加到百度的索引中。爬網您的網站時,它會注冊有關您的網站工作方式的大量信息。
看到百度看到的內容有用嗎?畢竟,作為SEO的目標之一就是遵循百度設定的準則,如果您可以從幕后了解它如何理解您的網站,則可以相應地調整策略。
許多SEO不會進行日志文件分析,這限制了他們從無法通過常規站點爬網獲得的有價值的見解中進行限制。
在本文中,我將向您展示如何分析服務器日志文件以收集這些重要的見解并提高搜索性能。首先,讓我們介紹基礎知識...
什么是日志文件分析?
服務器日志文件是從Web服務器輸出的文件,其中包含“命中”或服務器已收到的所有請求的記錄。從本質上講,日志文件分析是您工具欄中的一種潛在工具,可讓您深入了解百度正在爬網網站上的哪些頁面/內容。
日志文件中包含的信息包括:
1) 時間和日期
2) 請求IP地址
3) 回應碼
4) 推薦人
5) 用戶代理
6) 爬取的檔案
以下是服務器日志文件的外觀示例(使用虛擬信息):
127.0.0.1用戶標識符坦率[10 / Oct / 2000:13:55:36 -0700]“ GET / apache _pb.gif HTTP / 1.0” 200 2326
由于服務器日志文件是來自百度(和其他搜索引擎抓取工具)的真實信息,因此對日志文件的分析將回答以下問題:
7) 我的抓取預算是否有效支出?
8) 搜尋期間遇到了哪些可訪問性錯誤?
9) 爬行不足的地方在哪里?
10) 我最活躍的頁面是哪些?
11) 百度不知道哪些頁面?
這些只是您可以通過日志文件分析發現的見解的幾個示例。
盡管可以通過多種方式向百度發出信號,告知他們應該如何抓取網站(例如XML網站地圖,robot.txts等),但是找到這些問題的答案可能會極大地有益于調整策略,使百度bot警惕您最重要的頁面。
注意:當百度bot抓取您的網站時,它只會查看HTML,而不是javascript。
日志文件分析的挑戰
日志分析可能存在一些固有的障礙。首先,很難獲得機器人日志文件,如果您是一家企業公司,則很可能在您的站點上有成千上萬的頁面。收集和消化的信息很多。
由于日志文件分析通常與SEO報告分開進行,因此您必須手動連接各個點。盡管可以這樣做,但是沒有理由您應該這樣做。數據太多了。如果要在Excel中手動執行此操作,則只會看到一天的日志文件數據,而不是整個趨勢。更不用說浪費時間嘗試篩選,分割和組織數據了。
您需要一個平臺來將這些數據匯總在一起,因為實際上,必須對其進行匯總才能使其有意義。
讓我用一個例子來說明。如果一個網站每天有5,000個訪問者,每個訪問者訪問10頁,則服務器將創建一個50,000條記錄的日志文件條目。手動瀏覽該數據將是一個非常繁瑣的過程。
通過將bot日志文件與其他SEO報告一起使用相同的工具,您可以開始更輕松地連接各個點并找出此信息在告訴您什么。那么,這個過程是什么樣的呢?
日志文件分析的其他見解
日志數據可以在各種用例中使用。通過分析漫游器日志文件,您可以查看搜索引擎如何查看您的網站,這意味著您可以找出潛在的錯誤,并在下次漫游器出現時通過網站更新來修復它們。
仿冒機器人活動
欺騙活動是指來自宣稱自己為主要搜索引擎但其IP與搜索引擎IP不匹配的漫游器的任何爬網請求。我們的工具可以輕松地標記冒充百度bot且正在抓取您的網站并消耗寶貴資源的抓取工具。如果找到垃圾郵件機器人,則可以對其進行清理,以優化爬網預算并更快地加載網站。
響應碼
還要檢查您網站的HTTP狀態。了解哪些URL正常運行,哪些響應頁面錯誤。2xx響應代碼表示已正確接收并接受了請求,但是某些響應代碼表示錯誤。
但是應解決3xx,4xx和5xx響應代碼。例如,雖然一個301重定向(指示頁面已永久移動)不是問題,但多個重定向會造成麻煩。
由于某些響應代碼是肯定的,因此您可以過濾結果以指定要查看的響應代碼。在這里,我篩選了結果以顯示3xx和4xx響應代碼。
新內容發現
使用日志文件分析器,您可以通過分段對網站上的新頁面進行分組,并確切地查看何時對這些特定頁面進行了爬網。在幾天之內,您可以百分百確定這一新的戰略內容已被百度發現。
用戶代理過濾器
使用用戶代理過濾器選擇要分析的過濾器,或按名稱搜索它們。根據以下條件過濾特定的用戶代理:是,不是,包含,不包含,開頭,結尾或正則表達式模式。這樣一來,您就可以縮小范圍并發現網站上哪些搜索機器人的活動水平最高。向下過濾到要分析的特定內容還可以使您查看搜索引擎是否與您要對其進行排名的搜索引擎一致。
搜尋最多的網頁
如我們所見,日志文件分析使您可以查看機器人正在爬網的頁面,以及爬網最多的頁面。這使您可以驗證爬網的頁面與站點的最重要頁面是否一致。您不希望將搜尋預算浪費在影響較小的頁面上–確保百度所搜尋的頁面是具有最多產品,為您和您的組織帶來最多銷售額的最高級頁面。
百度IP
最后,找到百度ip用來抓取您的網站的IP地址。分別驗證百度是否可以正確訪問相關頁面和資源。
結論
日志文件在從正確的團隊收集數據方面可以做一些工作,但是一旦將它們傳送到seoClarity中并將其與其他SEO指標進行比較,您就更了解百度以及它如何理解您的網站了。