服務(wù)器日志分析可以對爬網(wǎng)優(yōu)先級提供無與倫比的見解,使搜索引擎優(yōu)化團(tuán)隊能夠微調(diào)爬網(wǎng)預(yù)算管理以獲得更好的排名。
大多數(shù)網(wǎng)站運營商都不知道web服務(wù)器日志的重要性。他們不記錄,更不用說分析他們網(wǎng)站的服務(wù)器日志了。尤其是大型品牌,它們無法利用服務(wù)器日志分析,無法挽回地丟失未記錄的服務(wù)器日志數(shù)據(jù)。
選擇接受服務(wù)器日志分析作為其持續(xù)SEO工作的一部分的組織通常在谷歌搜索中表現(xiàn)出色。如果您的網(wǎng)站包含100000頁或更多頁面,并且您希望了解服務(wù)器日志如何以及為什么會帶來巨大的增長機(jī)會,請繼續(xù)閱讀。
為什么服務(wù)器日志很重要每次機(jī)器人請求web服務(wù)器上托管的URL時,都會自動創(chuàng)建一個日志記錄條目,以反映過程中交換的信息。當(dāng)覆蓋較長的時間段時,服務(wù)器日志將代表接收到的請求和返回的響應(yīng)的歷史記錄。
服務(wù)器日志文件中保留的信息通常包括客戶端IP地址、請求日期和時間、請求的頁面URL、HTTP響應(yīng)代碼、服務(wù)的字節(jié)數(shù)以及用戶代理和引用者。
雖然服務(wù)器日志是在每個請求網(wǎng)頁的實例中創(chuàng)建的,包括用戶瀏覽器請求,但搜索引擎優(yōu)化只關(guān)注bot服務(wù)器日志數(shù)據(jù)的使用。這與涉及GDPR/CCPA/DSGVO等數(shù)據(jù)保護(hù)框架的法律考慮有關(guān)。由于沒有用戶數(shù)據(jù)用于SEO目的,原始的匿名web服務(wù)器日志分析仍然不受其他潛在適用法律法規(guī)的影響。
值得一提的是,在某種程度上,基于谷歌搜索控制臺爬網(wǎng)統(tǒng)計數(shù)據(jù),類似的見解是可能的。然而,這些樣本的數(shù)量和時間跨度有限。與谷歌搜索控制臺(GoogleSearchConsole)不同的是,它的數(shù)據(jù)只反映了過去幾個月的數(shù)據(jù),而只有服務(wù)器日志文件才能提供清晰、宏觀的SEO長期趨勢概述。
服務(wù)器日志中有價值的數(shù)據(jù)每次bot請求服務(wù)器上托管的頁面時,都會創(chuàng)建一個日志實例,記錄多個數(shù)據(jù)點,包括:
請求客戶端的IP地址。
請求的準(zhǔn)確時間,通常基于服務(wù)器的內(nèi)部時鐘。
請求的URL。
HTTP用于請求。
返回的響應(yīng)狀態(tài)代碼(例如,200、301、404、500或其他)。
來自請求實體的用戶代理字符串(例如,搜索引擎bot名稱,如Googlebot/2.1)。
典型的服務(wù)器日志記錄示例可能如下所示:
150.174.193.196--[15/Dec/2021:11:25:14+0100]"GET/index.htmlHTTP/1.0"2001050"-""Googlebot/2.1(+http://www.google.com/bot.html)""www.example.ai"
Inthisexample:
150.174.193.196istheIPoftherequestingentity.
[15/Dec/2021:11:25:14+0100]isthetimezoneaswellasthetimeoftherequest.
"GET/index.htmlHTTP/1.0"istheHTTPmethodused(GET),thefilerequested(index.html)andtheHTTPprotocolversionused.
200istheserverHTTPstatuscoderesponsereturned.
1050isthebytesizeoftheserverresponse.
"Googlebot/2.1(+http://www.google.com/bot.html)"istheuseragentoftherequestingentity.
"www.example.ai"isthereferringURL.
如何使用服務(wù)器日志從SEO的角度來看,web服務(wù)器日志提供無與倫比的洞察力有三個主要原因:
協(xié)助從合法機(jī)器人(如Googlebot、Bingbot或YandexBot)產(chǎn)生的理想搜索引擎機(jī)器人流量中過濾出沒有SEO意義的不良機(jī)器人流量。
為爬網(wǎng)優(yōu)先級提供SEO見解,從而使SEO團(tuán)隊有機(jī)會主動調(diào)整和微調(diào)爬網(wǎng)預(yù)算管理。
允許監(jiān)視并提供發(fā)送到搜索引擎的服務(wù)器響應(yīng)的跟蹤記錄。
假冒的搜索引擎機(jī)器人可能令人討厭,但它們很少影響網(wǎng)站。有許多專門的服務(wù)提供商,如Cloudflare和AWSShield,可以幫助管理不需要的bot流量。在分析web服務(wù)器日志的過程中,假冒的搜索引擎機(jī)器人往往扮演次要角色。
為了準(zhǔn)確地衡量除了主要搜索引擎之外,網(wǎng)站的哪些部分正在被優(yōu)先排序,在執(zhí)行日志分析時,必須對機(jī)器人程序流量進(jìn)行過濾。根據(jù)目標(biāo)市場的不同,重點可能是谷歌、蘋果、必應(yīng)、Yandex等搜索引擎機(jī)器人。
特別是對于內(nèi)容新鮮度至關(guān)重要的網(wǎng)站,這些網(wǎng)站被重新爬網(wǎng)的頻率會嚴(yán)重影響它們對用戶的有用性。換句話說,如果內(nèi)容變化得不夠快,用戶體驗信號和有機(jī)搜索排名就不可能充分發(fā)揮其潛力。
帶有三個搜索引擎徽標(biāo)的圖形,代表各自的網(wǎng)絡(luò)爬蟲。只有通過服務(wù)器日志過濾,才有可能準(zhǔn)確地衡量相關(guān)的搜索引擎bot流量。
雖然谷歌傾向于抓取所有可用信息,并定期重新抓取已知的URL模式,但其抓取資源并非無限。這就是為什么,對于由數(shù)十萬個登錄頁組成的大型網(wǎng)站,重新爬網(wǎng)周期取決于谷歌的爬網(wǎng)優(yōu)先級分配算法。
這種分配可以通過可靠的啟動時間、高度響應(yīng)的web服務(wù)得到積極的刺激,這些服務(wù)專門針對持續(xù)體驗進(jìn)行了優(yōu)化。這些步驟本身就有助于SEO。但是,只有通過分析覆蓋較長時間段的完整服務(wù)器日志,才有可能確定所有可爬網(wǎng)登錄頁的總?cè)萘恐g的重疊程度,通常是較小數(shù)量的相關(guān)登錄頁,優(yōu)化和可索引的SEO登錄頁在站點地圖中有代表性,谷歌在爬行、索引和排名方面經(jīng)常優(yōu)先考慮。
這種日志分析是技術(shù)SEO審計的一個組成部分,也是發(fā)現(xiàn)預(yù)算浪費程度的唯一方法。無論是可爬行過濾、占位符還是精簡內(nèi)容頁、開放的暫存服務(wù)器還是網(wǎng)站的其他過時部分,都會繼續(xù)影響爬行,最終影響排名。在某些情況下,例如有計劃的遷移,通過SEO審計(包括服務(wù)器日志分析)獲得的見解通常決定遷移的成功與失敗。
此外,日志分析為大型網(wǎng)站提供了重要的SEO見解。它可以回答谷歌需要多長時間重新掃描整個網(wǎng)站。如果這個答案恰好是決定性的長-數(shù)月或更長-行動可能是有保證的,以確保索引搜索引擎優(yōu)化登錄頁被抓取。否則,網(wǎng)站的任何SEO改進(jìn)都有可能在發(fā)布后數(shù)月內(nèi)被搜索引擎忽視,這反過來又會導(dǎo)致排名不佳。
一個由三部分組成的維恩圖,顯示了谷歌爬行、XML站點地圖和SEO登錄頁之間的重疊可索引SEO登錄頁和Google定期爬行頁面之間的高度重疊是一個積極的SEOKPI。
服務(wù)器響應(yīng)對于谷歌搜索的可見性至關(guān)重要。雖然谷歌搜索控制臺確實提供了對最近服務(wù)器響應(yīng)的重要一瞥,但谷歌搜索控制臺向網(wǎng)站運營商提供的任何數(shù)據(jù)都必須被視為具有代表性但樣本有限。雖然這對于識別異常問題很有用,但通過服務(wù)器日志分析,可以分析和識別所有HTTP響應(yīng),包括任何可能危及排名的定量相關(guān)非200OK響應(yīng)。如果性能問題(例如,503服務(wù)不可用的計劃停機(jī)時間)過多,則可能的替代響應(yīng)可能表示性能問題。
顯示503和200狀態(tài)代碼的抽象圖形過多的非200OK服務(wù)器響應(yīng)會對有機(jī)搜索可見性產(chǎn)生負(fù)面影響。
從哪里開始盡管服務(wù)器日志分析具有潛力,但大多數(shù)網(wǎng)站運營商并未利用所提供的機(jī)會。服務(wù)器日志要么根本沒有記錄,要么定期被覆蓋或不完整。絕大多數(shù)網(wǎng)站在任何有意義的時間段內(nèi)都不會保留服務(wù)器日志數(shù)據(jù)。這對于任何愿意收集和利用服務(wù)器日志文件進(jìn)行搜索引擎優(yōu)化的運營商來說都是一個好消息。
在計劃服務(wù)器日志數(shù)據(jù)收集時,值得注意的是,為了使數(shù)據(jù)可用,服務(wù)器日志文件中至少必須保留哪些數(shù)據(jù)字段。以下列表可視為指南:
請求實體的遠(yuǎn)程IP地址。
請求實體的用戶代理字符串。
請求方案(例如,是HTTP或https或wss或其他內(nèi)容的HTTP請求)。
請求主機(jī)名(例如,HTTP請求用于哪個子域或域)。
請求路徑,通常是服務(wù)器上作為相對URL的文件路徑。
請求參數(shù),可以是請求路徑的一部分。
請求時間,包括日期、時間和時區(qū)。
請求方法。
響應(yīng)http狀態(tài)代碼。
響應(yīng)時間。
如果請求路徑是相對URL,則服務(wù)器日志文件中經(jīng)常忽略的字段是記錄請求的主機(jī)名和方案。這就是為什么與it部門確認(rèn)請求路徑是否為相對URL非常重要的原因,以便主機(jī)名和方案也記錄在服務(wù)器日志文件中。一個簡單的解決方法是將整個請求URL記錄為一個字段,其中包括一個字符串中的方案、主機(jī)名、路徑和參數(shù)。
收集服務(wù)器日志文件時,還必須包含來自CDN和網(wǎng)站可能使用的其他第三方服務(wù)的日志。請向這些第三方服務(wù)咨詢?nèi)绾味ㄆ谔崛『捅4嫒罩疚募?
克服服務(wù)器日志分析的障礙通常,為了應(yīng)對保留服務(wù)器日志數(shù)據(jù)的迫切需要,會提出兩個主要障礙:成本和法律問題。雖然這兩個因素最終都取決于具體情況,如預(yù)算和法律管轄權(quán),但兩者都不必構(gòu)成嚴(yán)重的障礙。
云存儲可能是一種長期選擇,物理硬件存儲也可能會限制成本。由于大約20TB硬盤的零售價格低于600美元,硬件成本可以忽略不計。考慮到存儲硬件的價格多年來一直在下降,最終存儲成本不太可能對服務(wù)器日志記錄構(gòu)成嚴(yán)重挑戰(zhàn)。
此外,日志分析軟件或提供服務(wù)的SEO審計提供商將產(chǎn)生相關(guān)成本。雖然這些成本必須考慮到預(yù)算中,但考慮到服務(wù)器日志分析提供的優(yōu)勢,再次證明這些成本是合理的。
雖然本文旨在概述SEO服務(wù)器日志分析的固有好處,但不應(yīng)將其視為法律建議。此類法律意見只能由符合法律框架和相關(guān)司法管轄權(quán)的合格律師提供。GDPR/CCPA/DSGVO等一系列法律法規(guī)可適用于此。尤其是在歐盟運營時,隱私是一個主要問題。但是,對于SEO的服務(wù)器日志分析,任何與用戶相關(guān)的數(shù)據(jù)都是無關(guān)的。任何無法根據(jù)IP地址進(jìn)行最終驗證的記錄都將被忽略。
關(guān)于隱私問題,不得使用任何未經(jīng)驗證且不是已確認(rèn)的搜索引擎bot的日志數(shù)據(jù),而是可以根據(jù)相關(guān)法律建議在規(guī)定的時間段后刪除或匿名。一些最大的網(wǎng)站運營商正在定期采用這種久經(jīng)考驗的方法。
什么時候開始剩下的主要問題是何時開始收集服務(wù)器日志數(shù)據(jù)。答案是現(xiàn)在!
服務(wù)器日志數(shù)據(jù)只能以有意義的方式應(yīng)用,并在足夠大的容量下提供可操作的建議。服務(wù)器日志對于搜索引擎優(yōu)化審計的有用性通常在6到36個月之間,這取決于網(wǎng)站的大小及其爬網(wǎng)優(yōu)先級信號。
需要注意的是,未記錄的服務(wù)器日志不能在以后的階段獲取。很有可能,今天開始的任何保留和保存服務(wù)器日志的努力最早將在明年取得成果。因此,收集服務(wù)器日志數(shù)據(jù)必須在盡可能早的時間開始,并在網(wǎng)站運行期間不間斷地繼續(xù)進(jìn)行,以便在有機(jī)搜索中表現(xiàn)良好。