作为seo人Robots的写法作为必须了解的内容之一,错误的写法可能给你带来不被搜索引擎收录的恶果。
2 h! V+ |1 w8 }8 |' F2 @) v8 z& x9 {; Y
Robots文本中,因先写出对什么搜索引擎生效,然后是禁止抓取目录,允许抓取目录。 3 i1 j( w2 k# @5 X2 r7 E
User-agent: 语句表示对什么搜索引擎的规则,如果内容是“*”,则表示对所有搜索引擎生效。 6 B3 z% U; h- z6 O3 ]
Baiduspider表示百度蜘蛛; # }2 i" ~' J7 @6 T
Googlebot 表示谷歌蜘蛛;
: e d; Q/ Q3 J% l
z0 {" U2 @! Q# ]; Q9 E/ B360Spider 表示360蜘蛛; 3 W( B" U* K) z- M! v2 {
' v% {7 ~$ w! X
写了针对的蜘蛛后,就需要写具体的禁止抓取哪些目录,允许哪些目录。
9 n/ C: \+ |6 B: {" j9 n3 @Disallow: 表示禁止抓取后面的目录;
$ P& {* l' j) E* ^) b+ ]
. b* B% ?) q, ]. m9 F. k' j. ?! JAllow: 表示允许抓取后面的目录。 3 G) ^$ Q6 ~6 y! q6 s
/ M) l/ _/ p: V! n0 G
* 是个通配符,可以代替任意内容。 ; U. D4 X& e3 Q& d
$ 字符指定与网址的结束字符进行匹配。
( z! M8 q, i" P9 q例如,要拦截以 .asp 结尾的网址,可使用下列条目:
2 O9 X0 X0 [7 A# I+ V5 `/ y2 q( e }) V @7 Y
( H+ E' Z3 B# J5 Q4 |$ N
2 h9 W D( a( ]
Disallow:/*.asp$
* x* {/ e8 }/ c- Y. D5 V# b
; J! y$ O! T' A8 \4 J例:
: Q$ l- ?; ]* N* g" X- K, u6 \( P7 [( _
Disallow:/admin/ 禁止访问/admin/目录的内容。
" ]5 X0 {$ Y2 {; q' Y) e. \3 \9 ]6 D$ I+ z' J/ S
Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。 : I1 R! j i/ Z/ r- | f9 [5 h
+ n: b) W. T1 k: Q& h( s- m- ~Disallow: /*?* 禁止访问网站中所有包含问号(?) 的网址。
; v+ O" g& Z( M6 Z9 j
0 J; @) A0 T& u' L, w; o2 yDisallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片。 8 i e) ^% P4 F* z: V& v3 n
2 A/ [ G. i F# Y) }% e, Q% QAllow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录。
# ^" v3 T: L+ j# S) M: y- G) m, A
! W# b1 O9 n6 o( m' YAllow: .htm$ 仅允许访问以".htm"为后缀的URL。 , M* d9 _" u+ y$ O
) X6 q5 G7 Y6 s* d' t% Q; O完整写法:
9 C$ ]7 S3 b. f4 n v) w8 I" S
User-agent:* /**以下内容针对所有搜索引擎 ! M( \, Y; H9 l0 i2 M' w/ a
( f8 n& k5 b4 T5 W* B' M7 g% o3 M
Diasllow:/admin/ /**禁止访问/admin/目录的内容
" i( e! U8 ]8 `8 b# Z ]- l/ M7 U5 a% e+ e3 d" r2 v
***** : a; |6 y. h( }: v: c. P4 ]
1 ^6 Y" G3 \5 b
Allow:/html/ /**允许访问/html/目录的内容
6 ~" j/ b2 g" L; i
9 e; g+ ]( m' A) p7 c# o4 n, s% ]: M; r
9 L V J e6 B! |) }# _
7 \; o$ V2 z5 |5 U9 y9 ]作为新手对Robots不是很明确的朋友,可以不写Robots.txt文件,以免错误的写发导致内容的不收录。 * [( \$ K+ z6 @" V
$ M" L# ?7 d1 j; `* t0 |
Robots最多的用途是屏蔽网站的后台目录,以免被收录后,被heike所利用;以及保护自己的版权资源,以免被搜索引擎收录了以后,展示在搜索结果里。 |