韩国福利视频一区,日韩精品亚洲专区在线观看,国产精品13p,国产一区二区三区中文

企億推信息網(wǎng)
專注網(wǎng)絡(luò)推廣服務(wù)

Robots.txt協(xié)議的寫法及屏蔽文件

  網(wǎng)站的robots.txt文件設(shè)置是不是合理,哪些文件或許目錄需求屏蔽、哪些設(shè)置辦法對網(wǎng)站運(yùn)營有優(yōu)點(diǎn)?有人復(fù)制出相同的內(nèi)容以應(yīng)付不同搜索引擎的排名規(guī)則。然而,一旦搜索引擎發(fā)現(xiàn)站內(nèi)有大量“克隆”的頁面,就會給以懲罰,不收錄這些重復(fù)的頁面。

  另一方面,我們網(wǎng)站的內(nèi)容屬于個人私密文件,不想暴露在搜索引擎中。這時,robot.txt就是為了解決這兩個問題。

  一、什么是robots.txt?

   Robots.txt協(xié)議的寫法及屏蔽文件(圖1)

  robots.txt 是網(wǎng)站和搜索引擎的協(xié)議的純文本文件。當(dāng)一個搜索引擎蜘蛛來訪問站點(diǎn)時,它首先爬行來檢查該站點(diǎn)根目錄下是否存在robots.txt,

  如果存在,根據(jù)文件內(nèi)容來確定訪問范圍,如果沒有,蜘蛛就沿著鏈接抓取。robots.txt 放在項(xiàng)目的根目錄下。

  二、 robots.txt基本語法:

  1) 、允許所有搜索引擎訪問網(wǎng)站的所有部分

  robots.txt寫法如下:

  User-agent: *

  Disallow:

  或者

  User-agent: *

  Allow: /

  注意: 1. ****個英文要大寫,冒號是英文狀態(tài)下,冒號后面有一個空格,這幾點(diǎn)一定不能寫錯。

  2) 、禁止所有搜索引擎訪問網(wǎng)站的所有部分

  robots.txt寫法如下:

  User-agent: *

  Disallow: /

  3) 、只需要禁止蜘蛛訪問某個目錄,比如禁止admin、css、images等目錄被索引

  robots.txt寫法如下:

  User-agent: *

  Disallow: /css/

  Disallow: /admin/

  Disallow: /images/

  注意:路徑后面有斜杠和沒有斜杠的區(qū)別:比如Disallow: /images/ 有斜杠是禁止抓取images整個文件夾,Disallow: /images 沒有斜杠意思是凡是路徑里面有/images關(guān)鍵詞的都會被屏蔽

  4)、屏蔽一個文件夾/templets,但是又能抓取其中一個文件的寫法:/templets/main

  robots.txt寫法如下:

  User-agent: *

  Disallow: /templets

  Allow: /main

  5)、 禁止訪問/html/目錄下的所有以”.php”為后綴的URL(包含子目錄)

  robots.txt寫法如下:

  User-agent: *

  Disallow: /html/*.php

  6)、 僅允許訪問某目錄下某個后綴的文件,則使用“$”

  robots.txt寫法如下:

  User-agent: *

  Allow: .html$

  Disallow: /

  7)、禁止索引網(wǎng)站中所有的動態(tài)頁面

  比如這里限制的是有“?”的域名,例如index.php?id=1

  robots.txt寫法如下:

  User-agent: *

  Disallow: /*?*

  8)、 禁止搜索引擎抓取我們網(wǎng)站上的所有圖片(如果你的網(wǎng)站使用其他后綴的圖片名稱,在這里也可以直接添加)

  有些時候,我們?yōu)榱斯?jié)省服務(wù)器資源,需要禁止各類搜索引擎來索引我們網(wǎng)站上的圖片,這里的辦法除了使用“Disallow: /images/”這樣的直接屏蔽文件夾的方式之外,還 可以采取直接屏蔽圖片后綴名的方式。

  robots.txt寫法如下:

  User-agent: *

  Disallow: .jpg$

  Disallow: .jpeg$

  Disallow: .gif$

  Disallow: .png$

  Disallow: .bmp$

  三、寫robots.txt要注意的地方:

  1)、 ****個英文要大寫,冒號是英文狀態(tài)下,冒號后面有一個空格,這幾點(diǎn)一定不能寫錯。

  2.)、斜杠:/ 代表整個網(wǎng)站

  3)、如果“/”后面多了一個空格,則屏蔽整個網(wǎng)站

  4)、不要禁止正常的內(nèi)容

  5)、生效時間是幾天到兩個月

  四、robots.txt文件對網(wǎng)站優(yōu)化有什么作用?

  1、疾速增加網(wǎng)站權(quán)重和拜訪量;

  2、制止某些文件被查找引擎索引,能夠節(jié)約服務(wù)器帶寬和網(wǎng)站拜訪速度;

  3、為查找引擎供給一個簡潔明了的索引環(huán)境

  五、哪些網(wǎng)站的目錄需求運(yùn)用robots.txt文件制止抓取?

  1)、圖像目錄

  圖像是構(gòu)成網(wǎng)站的首要組成元素。跟著現(xiàn)在建站越來越便利,許多cms的呈現(xiàn),真實(shí)做到了會打字就會建網(wǎng)站,而正是由于如此便利,網(wǎng)上呈現(xiàn)了許多的同質(zhì)化模板網(wǎng)站,被重復(fù)運(yùn)用,這樣的網(wǎng)站查找引擎是必定不喜愛的,就算是你的網(wǎng)站被錄入了,那你的作用也是很差的。若是你非要用這種網(wǎng)站的話,主張你大概在robots.txt文件中進(jìn)行屏蔽,一般的網(wǎng)站圖像目錄是:imags 或許 img;

  2)、網(wǎng)站模板目錄

  cms的強(qiáng)大和靈敏,也致使了許多同質(zhì)化的網(wǎng)站模板的呈現(xiàn)和亂用,高度的重復(fù)性模板在查找引擎中形成了一種冗余,且模板文件常常與生成文件高度類似,相同易形成相同內(nèi)容的呈現(xiàn)。對查找引擎很不友愛,嚴(yán)峻的直接被查找引擎打入冷宮,不得翻身,許多cms有具有獨(dú)立的模板寄存目錄,因而,大概進(jìn)行模板目錄的屏蔽。一般模板目錄的文件目錄是:templets

  3)、css、js目錄的屏蔽

  css目錄文件在查找引擎的抓取中沒有用途,也無法供給有價值的信息。所以強(qiáng)烈主張在robots.txt文件中將其進(jìn)行屏蔽,以進(jìn)步查找引擎的索引質(zhì)量。為查找引擎供給一個簡潔明了的索引環(huán)境更易晉升網(wǎng)站友愛性。css款式的目錄一般情況下是:css 或許 style,

  js文件在查找引擎中無法進(jìn)行辨認(rèn),這里僅僅主張,能夠?qū)ζ溥M(jìn)行屏蔽,這樣做也有一個優(yōu)點(diǎn):為查找引擎供給一個簡潔明了的索引環(huán)境;

  4)、屏蔽雙頁面的內(nèi)容

  這里拿dedecms來舉例吧。dedecms能夠運(yùn)用靜態(tài)和動態(tài)url進(jìn)行同一篇內(nèi)容的拜訪,若是你生成全站靜態(tài)了,那你有必要屏蔽動態(tài)地址的url連接。

  這里有兩個優(yōu)點(diǎn):

  ①、查找引擎對靜態(tài)的url比動態(tài)的url更友愛、更簡單錄入;

  ②、避免靜態(tài)、動態(tài)url能拜訪同一篇文章而被查找引擎判為重復(fù)內(nèi)容。這樣做對查找引擎友愛性來說是有益無害的。

  5)、模板緩存目錄

  許多cms程序都有緩存目錄,這種緩存目錄的優(yōu)點(diǎn)我想不用說我們也明白了吧,能夠十分有用的晉升網(wǎng)站的拜訪速度,削減網(wǎng)站帶寬,對用戶體會也是極好的。不過,這樣的緩存目錄也有必定的缺陷,那就是會讓查找引擎進(jìn)行重復(fù)的抓取,一個網(wǎng)站中內(nèi)容重復(fù)也是大祭,對網(wǎng)站百害而無一利。許多運(yùn)用cms建站的兄弟都沒有注意到,有必要要導(dǎo)致注重。

  6)、被刪去的目錄

  死鏈過多,對查找引擎優(yōu)化來說,是喪命的。不能不導(dǎo)致站長的高度注重,。在網(wǎng)站的開展過程中,目錄的刪去和調(diào)整是不可避免的,若是你的網(wǎng)站當(dāng)時目錄不存在了,那有必要對此目錄進(jìn)行robots屏蔽,并回來正確的404過錯頁面。

  這里有一個爭議性的疑問,關(guān)于網(wǎng)站后臺辦理目錄是不是需求進(jìn)行屏蔽,其實(shí)這個可有可無。在能確保網(wǎng)站安全的情況下,若是你的網(wǎng)站運(yùn)營規(guī)劃較小,就算網(wǎng)站目錄呈現(xiàn)在robots.txt文件中,也沒有多大疑問,這個我也見過許多網(wǎng)站這樣設(shè)置的;但若是你的網(wǎng)站運(yùn)營規(guī)劃較大,對手過多,強(qiáng)烈主張千萬別呈現(xiàn)網(wǎng)站后臺管理目錄的信息,以防被心懷叵測的人使用,危害你的利益;引擎越來越智能,關(guān)于網(wǎng)站的管理目錄仍是能極好的辨認(rèn),并拋棄索引的。別的,我們在做網(wǎng)站后臺的時分,也能夠在頁面元標(biāo)簽中增加:進(jìn)行查找引擎的屏蔽抓取。

 

未經(jīng)允許不得轉(zhuǎn)載:啟新網(wǎng)站SEO優(yōu)化 » Robots.txt協(xié)議的寫法及屏蔽文件
分享到: 更多 (0)
加載中~
主站蜘蛛池模板: 武邑县| 呼伦贝尔市| 石渠县| 榕江县| 通海县| 横山县| 泸溪县| 成都市| 梅河口市| 法库县| 延寿县| 富平县| 辽宁省| 泰州市| 六枝特区| 政和县| 壤塘县| 华宁县| 贡觉县| 固原市| 伽师县| 信阳市| 屏山县| 青神县| 民县| 平乡县| 璧山县| 恩施市| 临西县| 大英县| 清流县| 宜宾市| 邳州市| 永福县| 夏河县| 城市| 呼图壁县| 七台河市| 长泰县| 韩城市| 丹寨县|