作为seo人Robots的写法作为必须了解的内容之一,错误的写法可能给你带来不被搜索引擎收录的恶果。
7 o$ |2 s8 |3 Q: k! i2 L0 q$ S% b+ s8 _; c3 o
Robots文本中,因先写出对什么搜索引擎生效,然后是禁止抓取目录,允许抓取目录。
+ g( r8 `- ?& b* S* _# T: {' mUser-agent: 语句表示对什么搜索引擎的规则,如果内容是“*”,则表示对所有搜索引擎生效。 0 y: b* Q: H- J7 I k
Baiduspider表示百度蜘蛛;
0 X6 _, c+ N+ `, Y8 U# `Googlebot 表示谷歌蜘蛛;
/ b7 U h {' Q) m
: K1 k L, ?' I: t360Spider 表示360蜘蛛; $ |( }+ T; Z1 V& N* R% k
1 r& v" _3 l0 `- Y; A7 E0 {
写了针对的蜘蛛后,就需要写具体的禁止抓取哪些目录,允许哪些目录。
4 ?: B/ ^/ r( g) M6 fDisallow: 表示禁止抓取后面的目录; ' z8 S; p2 F1 P8 Y1 N8 y( o! ~
( B8 q7 X! q! ~9 F+ @) Q( a d
Allow: 表示允许抓取后面的目录。 7 s' F0 s" d6 f! o3 C
: W8 J. Q0 u: z# b2 m, U/ ?* 是个通配符,可以代替任意内容。 , L3 k& Y4 }5 c; {; m, o3 c
$ 字符指定与网址的结束字符进行匹配。
: ~5 |2 R( N/ ?8 w( [% `例如,要拦截以 .asp 结尾的网址,可使用下列条目: % a$ a4 _) w# ^& C& o! M: {1 C$ h
2 @( _! R( W: E# ~* x+ }- i# l& \2 W
* A- Z5 O9 z* \9 l
Disallow:/*.asp$ + @6 p7 Y: f# l; u' l3 ~
9 d! W w3 b: Y' `5 F& P/ b, W例:
! W: g+ @* y$ r# e
7 d& V f0 N7 y& o( q! s* EDisallow:/admin/ 禁止访问/admin/目录的内容。
* q, r/ |% {9 S9 R* H/ ?; R- ]4 p1 u0 g0 e8 h
Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。 & K( b9 z( S" o
2 t% p* j2 v$ e5 wDisallow: /*?* 禁止访问网站中所有包含问号(?) 的网址。 9 F; y+ {, a2 {, q+ `8 L
! i2 u$ T9 I: P; K' Q1 H* n
Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片。 ; {1 `7 {* ]+ O8 p
' r# A$ k0 C/ f& w% L$ o, cAllow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录。 2 m6 W! }) u# _7 c
1 J4 U: M$ ~$ f$ \# o D1 u, i7 T
Allow: .htm$ 仅允许访问以".htm"为后缀的URL。 / M" E# O7 s1 j. n' Y* [: _- a% s
9 `1 n# _" i0 {4 N完整写法: 7 k+ S# _( k% G8 H( f3 @0 I% ]9 P
5 K$ C9 n. K. {9 \% c. E
User-agent:* /**以下内容针对所有搜索引擎
8 o5 F W/ O: W7 l$ P
' v1 ?, _6 Z8 N6 H' T) yDiasllow:/admin/ /**禁止访问/admin/目录的内容 ! J( \5 {5 e5 j3 Y8 W! _
- _; r) B7 C Z$ Q2 R b% L*****
/ [" J4 w9 b0 z( F l0 A
3 F# g* @/ h* b& z( Y/ J- L$ _Allow:/html/ /**允许访问/html/目录的内容 $ A: D+ D8 K% m; |! v
$ E+ }% x- w* W# M5 U6 q- H
9 m. U+ s3 B) g' d2 H: w; R |
- Y4 r0 I! N5 r
" Y: U5 x3 ^5 ?, v! T1 b$ r作为新手对Robots不是很明确的朋友,可以不写Robots.txt文件,以免错误的写发导致内容的不收录。
; j- {1 o5 f1 i. m; M
- H1 n) l( I- {; c1 hRobots最多的用途是屏蔽网站的后台目录,以免被收录后,被heike所利用;以及保护自己的版权资源,以免被搜索引擎收录了以后,展示在搜索结果里。 |