作为seo人Robots的写法作为必须了解的内容之一,错误的写法可能给你带来不被搜索引擎收录的恶果。 3 M7 [; k# k, w4 S w& i5 a
. g: N6 X& Z1 o% q& [+ y2 J' z1 T; pRobots文本中,因先写出对什么搜索引擎生效,然后是禁止抓取目录,允许抓取目录。 + t% Y) p6 z; I) e
User-agent: 语句表示对什么搜索引擎的规则,如果内容是“*”,则表示对所有搜索引擎生效。
" Z; Q+ _# r! o8 p6 a. fBaiduspider表示百度蜘蛛;
+ [5 Q, l# G' k4 XGooglebot 表示谷歌蜘蛛; 4 ~; A6 S3 B2 G# T
! w' {& i: z) U7 X, D360Spider 表示360蜘蛛; + {5 k0 w# {5 r" t
) L+ d2 z7 q- X. N+ D
写了针对的蜘蛛后,就需要写具体的禁止抓取哪些目录,允许哪些目录。
) _5 |4 ]# Q9 P1 UDisallow: 表示禁止抓取后面的目录; % T8 s- a5 k& F* Q- {2 i
$ B( _3 m/ h" g+ q" DAllow: 表示允许抓取后面的目录。
8 ^% d; F5 ~ |( v/ f
$ W# E+ n2 l" Y& Z) n* 是个通配符,可以代替任意内容。 0 O5 ]! ~4 q8 d# ?3 Q# |3 h# D9 u" N
$ 字符指定与网址的结束字符进行匹配。 9 B! B# ^) L2 o5 b. f4 z5 _
例如,要拦截以 .asp 结尾的网址,可使用下列条目:
+ {# K- {+ v3 |, a6 t0 _% s- R4 M0 S
! \1 e: r* T1 @# n
/ k8 v: S, Q# r( O, Y$ tDisallow:/*.asp$
. q( R' N+ n2 Q/ m) z: \# g* p8 K& n0 v7 v
例:
% ~/ F0 M4 O9 A! ]% p7 O/ r
3 F3 k3 \; K6 c* g6 @/ S9 EDisallow:/admin/ 禁止访问/admin/目录的内容。
% [1 i3 _+ q( }6 Y4 x
" G$ r7 R4 U8 y0 Y0 H4 XDisallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。 2 S0 J/ X" r3 A% s! j* E8 X
) f% C$ ~% w0 t# b, q7 Z
Disallow: /*?* 禁止访问网站中所有包含问号(?) 的网址。
$ t0 @# \6 ]4 D# N% C6 ~1 B- D& K
Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片。 " ^9 c9 D2 h! [/ ^: I t8 R
+ P6 r# P& w$ U+ Z
Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录。 ( S3 D Y1 y9 a
( n% c# ^/ Q3 A! pAllow: .htm$ 仅允许访问以".htm"为后缀的URL。
" u8 G7 f% i: s6 U# X8 z! k3 [: N( S0 e
+ q& M, V" {& P. r完整写法: 5 X8 n# h7 p$ T+ r% m/ b) R& b1 Q
( E4 ]# w, L! t9 h
User-agent:* /**以下内容针对所有搜索引擎 7 o9 Z+ ?9 Y1 i/ b. P5 k5 x* }
& }0 X" O/ Y" |- _! k- e+ j. y" b+ `
Diasllow:/admin/ /**禁止访问/admin/目录的内容 ) d: S$ L9 ?; B8 Q! a" h
# F" e- @/ Q$ B$ r; ~* P***** % y% P t4 U! `3 j. x* z: |9 a
\, a' `# Q6 t+ l% \; q6 UAllow:/html/ /**允许访问/html/目录的内容
: ~/ z, Q. M% ^1 a: |( w. V# Q% ^
0 P& f0 l) p6 C2 x; ], |7 A
1 v6 ^% N9 e- p$ p2 ^" Q! E( ^1 R4 k7 G* c+ i9 X: ~& X
7 M0 L0 y5 ~2 L) s9 P1 z
作为新手对Robots不是很明确的朋友,可以不写Robots.txt文件,以免错误的写发导致内容的不收录。 ) V3 x2 ]; d" ^ D: o2 Q
4 p9 M) E U! X0 J+ I: _* S6 GRobots最多的用途是屏蔽网站的后台目录,以免被收录后,被heike所利用;以及保护自己的版权资源,以免被搜索引擎收录了以后,展示在搜索结果里。 |