作为seo人Robots的写法作为必须了解的内容之一,错误的写法可能给你带来不被搜索引擎收录的恶果。
# h! s9 y) S p6 c; ?; @. q; t$ z. [, n2 y' b
Robots文本中,因先写出对什么搜索引擎生效,然后是禁止抓取目录,允许抓取目录。
$ G' M, Y/ d' |User-agent: 语句表示对什么搜索引擎的规则,如果内容是“*”,则表示对所有搜索引擎生效。
8 d$ s z2 r+ g' hBaiduspider表示百度蜘蛛;
" G/ | E5 y, T2 V: SGooglebot 表示谷歌蜘蛛; % f: U7 x, @- y3 t$ Q. S
A# X6 Z$ s' r. k& k- [' o
360Spider 表示360蜘蛛; * w+ I! X* I( M3 X ?
$ `6 u5 t i7 J2 [# ^
写了针对的蜘蛛后,就需要写具体的禁止抓取哪些目录,允许哪些目录。
. \5 r; r8 o5 }& W: V3 WDisallow: 表示禁止抓取后面的目录; : F, ^! E, `1 V/ e: e2 x0 H
0 d, m* ~8 {9 |
Allow: 表示允许抓取后面的目录。
$ z9 r9 C; \) |2 k/ f; o7 p" K- J' B: }: s6 u. g3 W4 N$ b1 ?3 Y
* 是个通配符,可以代替任意内容。
; }9 c$ h) z) a5 ]2 v$ 字符指定与网址的结束字符进行匹配。 4 H7 e& N/ e# n5 s" l6 Y, B* A
例如,要拦截以 .asp 结尾的网址,可使用下列条目:
) |! h, a6 b+ l. g/ p9 p9 h1 c8 u6 H+ }# }
- q- f8 ` y, p: M# `$ t- [
8 k0 i% z7 ~9 p+ ~ qDisallow:/*.asp$
$ l& \; B# F7 x
+ b/ R) d! C- I. a2 E6 f例: 2 u0 P! G/ ?1 V' g, ~& A
1 ?6 a: j5 ~8 _/ k4 L$ Q
Disallow:/admin/ 禁止访问/admin/目录的内容。 # X% V& i( z. X8 x
; [, \$ s, b3 y% zDisallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。 % U( V, E! X+ _. e1 K
$ q* w6 V: s, l6 J/ A
Disallow: /*?* 禁止访问网站中所有包含问号(?) 的网址。 : F/ n6 T# D! ^0 G: y/ q
" t" O e: i/ z$ t: L* X3 L0 x& [Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片。 ! N' ^% `2 Q- l+ s' H) g5 z
: S9 J) m- ~4 e) q4 y
Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录。
% h8 N& r' ^' s
8 k7 O7 r9 D- U% _/ M/ r; ^Allow: .htm$ 仅允许访问以".htm"为后缀的URL。
# `5 p: U; J- M# h u Z
9 W+ p. ~7 j# I' m% B完整写法:
' U) }& f- p* o' z7 [* e' b
/ g4 G. b+ D" `1 I- j( \: b4 ?User-agent:* /**以下内容针对所有搜索引擎 8 f5 Z, b, _# g4 j/ [( B
8 c0 R" {5 w1 }
Diasllow:/admin/ /**禁止访问/admin/目录的内容
. M/ m+ r' G5 W- d. Z$ r3 d* b7 _# L; ? y# J
***** 0 ]! O" q/ r' u, ? l$ T. @
* l0 j/ U9 M3 g) ~* Z
Allow:/html/ /**允许访问/html/目录的内容 2 M7 `7 A2 d. N3 B3 \
! i; v6 l+ X8 n6 U% w
2 a! v/ K7 }9 T& c
' I) I; S8 E9 q1 A8 b2 z }0 v" q3 a+ L% F. b
作为新手对Robots不是很明确的朋友,可以不写Robots.txt文件,以免错误的写发导致内容的不收录。 ; h8 Y/ p0 m, p* w; z! t# H
) Q: R$ }/ `; I4 iRobots最多的用途是屏蔽网站的后台目录,以免被收录后,被heike所利用;以及保护自己的版权资源,以免被搜索引擎收录了以后,展示在搜索结果里。 |