做seo優(yōu)化大家都知道搜索引擎的入口頁(yè)面是由蜘蛛捕捉進(jìn)入的,所以有必要了解搜索引擎的變化。搜索引擎蜘蛛是工程師寫出來的機(jī)器,一定有一些規(guī)則。
一、搜索引擎蜘蛛抓取規(guī)則
1、高質(zhì)網(wǎng)站專設(shè)蜘蛛抓取、及時(shí)抓取、及時(shí)收集、及時(shí)發(fā)布供網(wǎng)民搜索;
2、普通網(wǎng)站,分配一定的蜘蛛抓取資源,爬到一定數(shù)量不抓取;
根據(jù)上述兩種抓取原理,采用了兩種抓取方法:水平抓取和垂直抓取;
網(wǎng)頁(yè)抓取規(guī)則:遵循F-type抓取規(guī)則,從左到右,從上到下。
蜘蛛抓取規(guī)律與外鏈及時(shí)性的探索
一般來說,進(jìn)入一個(gè)新網(wǎng)站需要一段時(shí)間。當(dāng)搜索引擎進(jìn)入網(wǎng)站時(shí),一般都是從主頁(yè)中收錄,然后沿著主頁(yè)進(jìn)入內(nèi)頁(yè)。搜索引擎很“花心”,它不是一個(gè)一次性的站點(diǎn)會(huì)被完全抓取,而是在不同的時(shí)間段進(jìn)行抓取,然后計(jì)算蜘蛛在站點(diǎn)活動(dòng)的時(shí)間和時(shí)間長(zhǎng)度。
即使新站點(diǎn)的頁(yè)面被抓取,也不會(huì)立即發(fā)布。它需要經(jīng)過搜索引擎反復(fù)檢查,承認(rèn)有必要進(jìn)入網(wǎng)站,然后頁(yè)面才會(huì)發(fā)布。一般情況下,新站網(wǎng)站的快照和入口頁(yè)面會(huì)在一周后發(fā)布。
記住以下一句話:當(dāng)搜索引擎蜘蛛抓取網(wǎng)站時(shí),一定不要出現(xiàn)網(wǎng)站無法打開或存在死鏈的情況。如果發(fā)生這種情況,搜索引擎將繼續(xù)搶占網(wǎng)站,不確定何時(shí)會(huì)再次出現(xiàn)。有很多人有一個(gè)壞習(xí)慣,但也有一個(gè)很好的猜測(cè),域名越老,越會(huì)被搜索引擎信任。
有很多人,網(wǎng)站剛完成主頁(yè),馬上就上線了,主頁(yè)上的大部分連接都是死鏈,搜索引擎蜘蛛進(jìn)入,當(dāng)抓取網(wǎng)站的內(nèi)頁(yè)時(shí),它們進(jìn)不去,大大降低了網(wǎng)站的形象,進(jìn)而減少了抓取網(wǎng)站的次數(shù)。假設(shè)您下次訪問時(shí),網(wǎng)站仍然是相同的。如果你來回幾次,搜索引擎蜘蛛會(huì)不友好,認(rèn)為這是一個(gè)低質(zhì)量的網(wǎng)站。畢竟,它將放棄搶占網(wǎng)站。
網(wǎng)站只有在成功開通一段時(shí)間后,才能進(jìn)入穩(wěn)定期。百度和谷歌將給新站一段時(shí)間檢查。檢查期過后,他們認(rèn)為該網(wǎng)站是一個(gè)長(zhǎng)期網(wǎng)站,持續(xù)3-6個(gè)月。在網(wǎng)站穩(wěn)定期內(nèi),搜索引擎蜘蛛會(huì)經(jīng)常出現(xiàn),它們?nèi)匀缓颓捌谝粯樱瑥氖醉?yè)進(jìn)入網(wǎng)站進(jìn)行抓取。
百度和谷歌略有不同。如果百度發(fā)現(xiàn)網(wǎng)站主頁(yè)內(nèi)容沒有變化,將立即停止抓取。谷歌并非如此。即使發(fā)現(xiàn)網(wǎng)站主頁(yè)沒有變化,也會(huì)一如既往地沿著主頁(yè)的鏈接抓取,這也是谷歌比百度擁有更多頁(yè)面的原因之一。
更新網(wǎng)站內(nèi)容時(shí),必須將其顯示在網(wǎng)站主頁(yè)中,否則百度蜘蛛不會(huì)進(jìn)入更新頁(yè)面,因?yàn)橹黜?yè)沒有更改,百度蜘蛛也不會(huì)抓取內(nèi)頁(yè),所以不知道有新的頁(yè)面攻擊。這也是一些公司網(wǎng)站經(jīng)常犯的錯(cuò)誤之一。主頁(yè)的內(nèi)容是死的,不能更改,導(dǎo)致網(wǎng)站的輸入不變。安全期網(wǎng)站快照和輸入頁(yè)面一般在過去兩天發(fā)布。。搜索引擎是一樣的,它對(duì)網(wǎng)站的形象有好處,會(huì)經(jīng)常來,經(jīng)常更新網(wǎng)站的快照,經(jīng)常進(jìn)入網(wǎng)頁(yè);假設(shè)網(wǎng)站的形象不好,所以我們需要先支持站,只有網(wǎng)站有點(diǎn)“打擦邊球”的嫌疑,被封鎖的可能性很大。
二、外鏈是否具有時(shí)效性
有些博客(可能在2016年因?yàn)榱髁窟^大而被刪除)幾年前就被刪除了,但百度仍有快照。今天,我看到了下一個(gè)主頁(yè)的快照,但是文章頁(yè)面仍然存在。看看快照日期,你可以看到2016年,甚至更長(zhǎng)時(shí)間。
也就是說,雖然網(wǎng)頁(yè)已經(jīng)被刪除了5年,但是百度的快照還沒有被刪除,那么你認(rèn)為其中的鏈接蜘蛛會(huì)不會(huì)爬升呢?我想應(yīng)該是的,我有一個(gè)域名鏈接在這個(gè)博客的博客網(wǎng)站上,當(dāng)時(shí),我剛跳轉(zhuǎn)到博客首頁(yè)。后來,當(dāng)我開始作為一個(gè)博客領(lǐng)域a,我很快得到了一個(gè)很好的權(quán)重,文章很容易收集在幾秒鐘。我相信5年前的這個(gè)環(huán)節(jié)起了很大的作用。
如果鏈所在頁(yè)面的搜索引擎沒有快照,則鏈?zhǔn)欠裼行В窟@個(gè)答案可能會(huì)讓很多人感到驚訝,而且鏈所在的頁(yè)面在沒有快照的情況下仍然有效。原因可以在我關(guān)于蜘蛛如何抓取鏈接的文章中看到。蜘蛛抓取頁(yè)面后,會(huì)將內(nèi)容與鏈接分離。鏈接,即URL,將被添加到URL索引庫(kù)中。蜘蛛抓取從這個(gè)URL索引庫(kù)開始。
三、那么外部鏈對(duì)搜索引擎有效嗎?
顯然這應(yīng)該是有時(shí)效性的。然后我猜外部鏈?zhǔn)〉脑颍瑧?yīng)該有兩個(gè)原因:外部鏈被刪除的頁(yè)面或鏈接被刪除。
1、針對(duì)頁(yè)面被刪除的情況,搜索引擎應(yīng)該在一定時(shí)間后繼續(xù)抓取該頁(yè)面上的外鏈直到404,它會(huì)向搜索引擎URL索引庫(kù)發(fā)出刪除外鏈的命令。
2、在頁(yè)面發(fā)生變化的情況下,搜索引擎也應(yīng)該抓取外鏈,直到包含外鏈的快照在搜索引擎中完全刪除,并向URL索引庫(kù)發(fā)出刪除外鏈的命令。因?yàn)閹в型獠挎溄拥捻?yè)面會(huì)根據(jù)情況保存N個(gè)時(shí)段的快照,所以有時(shí)會(huì)搜索不同的單詞,而web頁(yè)面的快照是不同的。