作为seo人Robots的写法作为必须了解的内容之一,错误的写法可能给你带来不被搜索引擎收录的恶果。
* }$ b9 C Q3 S5 q8 L9 `
5 x/ E$ L7 q5 s" I8 [( d# `Robots文本中,因先写出对什么搜索引擎生效,然后是禁止抓取目录,允许抓取目录。 ( V3 w4 _- \7 b1 e# C4 y" r j
User-agent: 语句表示对什么搜索引擎的规则,如果内容是“*”,则表示对所有搜索引擎生效。
( {+ [5 \* _" M* TBaiduspider表示百度蜘蛛;
+ ]0 u0 W% G- m+ T8 y9 E: vGooglebot 表示谷歌蜘蛛; ! W- p+ ?: W- y( f
8 I9 I3 d' t! [9 e1 w& s9 Z. d360Spider 表示360蜘蛛;
: T8 k6 f* L8 b7 j, ?8 N! H: z7 \8 ?* j, C2 M6 V
写了针对的蜘蛛后,就需要写具体的禁止抓取哪些目录,允许哪些目录。 , z R1 ^. e& |. P: t, j
Disallow: 表示禁止抓取后面的目录; - X( e, J: B9 h
: F+ ~7 x, U& n" p, n
Allow: 表示允许抓取后面的目录。 + y2 O+ X) f8 L
* ~& j$ e( f# y ]( n! O* 是个通配符,可以代替任意内容。 3 b+ {& q- i) |8 a+ g5 s7 F) I
$ 字符指定与网址的结束字符进行匹配。 * b0 c: Y4 N' [. \
例如,要拦截以 .asp 结尾的网址,可使用下列条目:
t. M1 w8 D0 \( S, `
+ p1 }4 U$ h' n) U- S) Z5 E3 l- j4 K+ m
. n+ q& i; h$ k: l2 RDisallow:/*.asp$
9 W; ^: b* W, F6 m! _1 T
9 c, M) Z. h0 U例: & w" G& G3 U$ K- |! E# Y: _1 C7 t
$ }5 ~" s. g5 R2 g# n7 [3 m1 LDisallow:/admin/ 禁止访问/admin/目录的内容。
+ N8 Y* y8 P) u$ N
$ c' }" {, b5 c, A! q% \& h; e. xDisallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
$ S) F- P( c; J& u5 \# L* I/ y1 K$ y8 ^' r% p1 m3 }
Disallow: /*?* 禁止访问网站中所有包含问号(?) 的网址。 * N& {% R- R; i$ W; i# l0 T
% V e4 d; }7 a* f/ n6 @; w, b# {
Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片。 2 r @& b! f; a$ m8 o
9 U- S. c' T" a6 ]2 d( f, |Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录。
( m8 ~/ S% R% I. }* e4 @+ `7 V: A/ j
Allow: .htm$ 仅允许访问以".htm"为后缀的URL。 4 P" z& V6 E. {: p1 l' @4 A, ^
, `, g7 a1 y5 j完整写法:
# ~6 O! }9 I& f* J( o j1 G% f# ~3 x* C9 m# G$ l5 n6 b
User-agent:* /**以下内容针对所有搜索引擎 E6 r# W9 S# A p' b: i$ j
# W {* H( \8 j1 K: F0 V3 {1 tDiasllow:/admin/ /**禁止访问/admin/目录的内容
, u8 l' k9 F' `) @% z+ |
/ o$ [, W7 v1 B*****
. c. O8 q, g) J* B
! @# b0 e) }9 w% ]/ o% d# BAllow:/html/ /**允许访问/html/目录的内容 ' j2 f5 A* G. y, m0 o4 u
2 @8 T2 [4 r7 {% x) B2 a
6 Z' i0 G) q/ A3 A
) e$ N6 G8 z( _/ _' q, M$ e0 f, N2 q7 B
% Z6 ~4 z4 f* }% m8 e. ^作为新手对Robots不是很明确的朋友,可以不写Robots.txt文件,以免错误的写发导致内容的不收录。 , G3 R, w3 C+ S. q8 Q( d
" w% R' v( s( w/ e$ i5 R& i
Robots最多的用途是屏蔽网站的后台目录,以免被收录后,被heike所利用;以及保护自己的版权资源,以免被搜索引擎收录了以后,展示在搜索结果里。 |