作为seo人Robots的写法作为必须了解的内容之一,错误的写法可能给你带来不被搜索引擎收录的恶果。 ( M# O h7 z! j O% T5 m" s
4 \- B$ ]2 q% U7 c
Robots文本中,因先写出对什么搜索引擎生效,然后是禁止抓取目录,允许抓取目录。 / s3 o' S! G+ u1 ^5 j7 g
User-agent: 语句表示对什么搜索引擎的规则,如果内容是“*”,则表示对所有搜索引擎生效。
/ k& R2 a4 p7 \' Q6 jBaiduspider表示百度蜘蛛; 1 h* z9 R9 O4 g$ ^, C3 V* Y2 |
Googlebot 表示谷歌蜘蛛;
" F3 `/ L/ n* m2 |
! T; j8 l; s: z' k' x3 `/ V9 f9 o360Spider 表示360蜘蛛; 3 ^+ v& T/ R+ V4 {# Y6 m# ~
) Q) |& o! m, i, {. J# e
写了针对的蜘蛛后,就需要写具体的禁止抓取哪些目录,允许哪些目录。
. v* H, [- v% k9 p4 G9 G8 l. ZDisallow: 表示禁止抓取后面的目录; 8 v4 G) e. e u% b6 M3 l5 B
- i$ Y4 s5 S9 m9 B t
Allow: 表示允许抓取后面的目录。 0 e+ e s! ?( X, |( O
, w/ m. m. c9 P6 J3 M* 是个通配符,可以代替任意内容。 , J! \9 {- |' U E4 ~" z" O
$ 字符指定与网址的结束字符进行匹配。 $ {, r* b& K% \! I
例如,要拦截以 .asp 结尾的网址,可使用下列条目:
. l! c$ [8 W3 _" J1 r1 Z& t- _" }4 D7 y2 J2 P o
8 s( x4 }! s0 m( Z$ k9 k* \
) h% ~% ^" Q5 xDisallow:/*.asp$ $ @; d' l$ ^" I2 b: n
E! x7 _( d+ L) z: ^. f: \/ Q* ?* \
例: 3 Z6 p# ?: p/ l0 V! p# `
, `* S, i0 C1 ]) i; Z4 \" X
Disallow:/admin/ 禁止访问/admin/目录的内容。 1 m1 h7 p) d7 x0 n# U# ~, @# ~
. \* q7 i: D, k" \8 n5 J8 a& ?
Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。 3 z# @7 Z' F9 ^- f2 t6 e' ~' M
$ h: W3 |5 f3 l; P
Disallow: /*?* 禁止访问网站中所有包含问号(?) 的网址。 9 U4 x4 j8 ^) d& `/ f' b9 B% s" F
. n) H, k7 c$ o7 k; q5 E% b# Q' c
Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片。
; N7 }+ ^5 h8 k/ n) T9 G) b" x% `4 Q; g4 e' c. g
Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录。 - b% y- W+ T+ N& N
5 H9 F$ q M8 V3 W1 u. I3 q. I
Allow: .htm$ 仅允许访问以".htm"为后缀的URL。 7 m* f2 j! g# E% p3 S
+ i4 g" \3 }4 D! W0 X$ u7 t完整写法:
& t' R0 m4 h% z4 o* o# Z3 j: ?( I3 O* d+ m ~1 h
User-agent:* /**以下内容针对所有搜索引擎 ; W9 a2 v& `! G1 ?6 `5 @: [: z
7 C2 r9 G( r" R( o; u4 Z: `2 }Diasllow:/admin/ /**禁止访问/admin/目录的内容
8 l% c/ r9 u% L
* `" ^5 N) W; c+ X( s, Y% r7 T" J% ^+ T***** - a# h) E+ D ?9 S* M) ]
( n* G. b" P* K/ h$ U; n* _1 JAllow:/html/ /**允许访问/html/目录的内容 : B" s* E- E: _ x' f7 ^
8 e& [* b' D* I ~+ u1 C/ t
, ` C g6 b& y0 Q; m$ ?! [' A% @' N8 J, N! L" |$ n" I& `
# u2 H% L1 J$ g" m2 f* F% v作为新手对Robots不是很明确的朋友,可以不写Robots.txt文件,以免错误的写发导致内容的不收录。 % Z& A3 K L: Z6 K" `* H5 }
# m& X! a' j4 f& O
Robots最多的用途是屏蔽网站的后台目录,以免被收录后,被heike所利用;以及保护自己的版权资源,以免被搜索引擎收录了以后,展示在搜索结果里。 |