作为seo人Robots的写法作为必须了解的内容之一,错误的写法可能给你带来不被搜索引擎收录的恶果。 * p! N7 Z9 }. R9 A+ b
. l2 N# _4 H" j+ y$ `5 MRobots文本中,因先写出对什么搜索引擎生效,然后是禁止抓取目录,允许抓取目录。 & c* Z: N3 d6 T' m% b o0 Z2 d
User-agent: 语句表示对什么搜索引擎的规则,如果内容是“*”,则表示对所有搜索引擎生效。 3 |7 X: w2 X; P r$ q) |0 s/ M5 c$ ~3 o
Baiduspider表示百度蜘蛛; " f' `; ]3 N4 C7 g* H" y4 f. q, `
Googlebot 表示谷歌蜘蛛; 1 W$ g. H2 `; w8 w$ K$ b
1 b# [7 v' Z2 ~5 b% j
360Spider 表示360蜘蛛; % h* v2 Q0 H2 ~8 |1 a
" |2 C" s: f4 b
写了针对的蜘蛛后,就需要写具体的禁止抓取哪些目录,允许哪些目录。
6 V! ^7 e6 c: @8 SDisallow: 表示禁止抓取后面的目录; + e9 [- X( l& k9 Y$ l9 E0 d
( R* r9 L6 N4 Y
Allow: 表示允许抓取后面的目录。
1 ?) v- l/ y; |
- b4 i: d' g: O, Q- f* 是个通配符,可以代替任意内容。 0 r! i9 u4 A4 @8 }( k
$ 字符指定与网址的结束字符进行匹配。 4 B6 R8 V! a9 H4 H3 v8 u
例如,要拦截以 .asp 结尾的网址,可使用下列条目: ; B. I5 T, E y: L) H
+ ?8 |7 }' }% {4 Q2 T; z/ Y. D& {. O. C5 S9 S* V- |+ K8 G
& a7 d. J, T% L5 vDisallow:/*.asp$ + D* o& V4 N* g3 U$ Y- Y
0 q0 R: j& F2 ^- {0 i
例:
0 y' b, `8 k( f7 S% o8 h% X6 A
3 y0 L+ h3 S9 J9 j3 cDisallow:/admin/ 禁止访问/admin/目录的内容。
- J. o& ?* @' f, v! m! R% c0 S
' h6 { |* }2 s7 u* A4 ]" xDisallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
# [' T& f' g2 ~' p2 E4 S5 ^7 X" A5 q0 e ] f; B2 k# @; Y! }; _' m
Disallow: /*?* 禁止访问网站中所有包含问号(?) 的网址。
0 z3 G9 @4 a( X, l5 i4 g. ]9 n: M u8 e/ `. g
Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片。 8 `) X& b6 |% b$ q- E
. q" z6 s0 m# Q. ?# } ? r8 t% o4 nAllow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录。 X2 j8 [+ J( X
1 Z9 u0 X0 [' R" lAllow: .htm$ 仅允许访问以".htm"为后缀的URL。 % A' v% j F) ?( @, _% ~
+ A$ l7 C" [& @
完整写法:
5 G" z; W8 v! P. g5 V
! N% A; K& D% \+ \User-agent:* /**以下内容针对所有搜索引擎
0 C% b: l- Q+ T! { L' ^2 ~. ^9 c/ E5 E2 A
# ~. I7 D$ D% _3 KDiasllow:/admin/ /**禁止访问/admin/目录的内容
& _3 @, A& d% e d! q& X( Z M
' c% K" S- Z% g- \. e*****
( e9 h. T* \+ z/ n, P: U2 n
q% |' R* t) V. T \, e2 kAllow:/html/ /**允许访问/html/目录的内容 $ z/ K& { V+ e) I1 g. f
/ N' Z% y- f9 v$ f
& m% R) j( Z: S, r7 i& N3 D$ ?
, P$ ~) [3 _, |, P! n* `! j1 l# D
; g D7 a5 V% n) E5 Q$ R作为新手对Robots不是很明确的朋友,可以不写Robots.txt文件,以免错误的写发导致内容的不收录。
8 P" C d+ J! j: Z* i) F4 \5 f5 j: A0 @$ n& _
Robots最多的用途是屏蔽网站的后台目录,以免被收录后,被heike所利用;以及保护自己的版权资源,以免被搜索引擎收录了以后,展示在搜索结果里。 |