作为seo人Robots的写法作为必须了解的内容之一,错误的写法可能给你带来不被搜索引擎收录的恶果。
7 ?. k8 ^/ p# s; j) w" I! m5 I6 j8 f: v
Robots文本中,因先写出对什么搜索引擎生效,然后是禁止抓取目录,允许抓取目录。
7 T$ m' ]) d3 L6 eUser-agent: 语句表示对什么搜索引擎的规则,如果内容是“*”,则表示对所有搜索引擎生效。 $ T$ P1 x' o0 V
Baiduspider表示百度蜘蛛; * s( H/ C9 _& G# S! h+ \& Y
Googlebot 表示谷歌蜘蛛; : N4 L- r& M. e6 p! d, V6 v
, E3 K0 ?: H6 Y1 v3 [0 K
360Spider 表示360蜘蛛;
9 G8 y$ D: G+ n+ s% I- e
" Z, L1 s2 s7 z2 E! T) R写了针对的蜘蛛后,就需要写具体的禁止抓取哪些目录,允许哪些目录。 * y4 O- T; J5 M" A' K5 r/ W* N$ x
Disallow: 表示禁止抓取后面的目录; 1 h$ X) B$ |' U c/ n8 F
( c' f7 J$ l* q& w/ \1 W# B" jAllow: 表示允许抓取后面的目录。 5 r1 N J0 h8 Q; L
+ R+ s" i {, m6 s
* 是个通配符,可以代替任意内容。
4 \' U( }7 {1 m$ 字符指定与网址的结束字符进行匹配。 2 t% F. p2 q; X" J
例如,要拦截以 .asp 结尾的网址,可使用下列条目:
6 U" Y1 r3 x* Q0 I- e; p g, x: s7 {/ x3 H/ X4 T" R$ X; q
4 B& v7 f! E$ F) q
8 h M. n8 V( ?: D5 xDisallow:/*.asp$ 5 U1 _; ^- Q) P1 R0 d! q
' T6 n+ q. V* Z+ J# _ v! b7 w
例: $ J3 p: D5 [4 F: A1 E I: d, e( h
5 Y4 x8 A& ~" F5 Z$ c( z' SDisallow:/admin/ 禁止访问/admin/目录的内容。 ( o) p% F1 k/ y& g
0 |0 ?) l3 {# k VDisallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。 ) E6 v$ K) x5 Q1 j0 W' J$ F2 v) ^9 R; N
2 R1 h" V2 K: J3 Q
Disallow: /*?* 禁止访问网站中所有包含问号(?) 的网址。
" H: f" \3 r' w% S5 k
4 x( i- w F- o; y/ @Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片。 : d$ m M6 k9 R2 {- `! l5 q2 @: G0 `
* t. Q9 h$ l' W: ?
Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录。
* Z# j/ @8 [5 M/ D2 y e- w0 O5 h$ _% ?' s6 p8 E+ Q! {
Allow: .htm$ 仅允许访问以".htm"为后缀的URL。
- K( N" |0 K }9 n& H
+ R! `8 v2 n- }3 d# x4 T完整写法: 5 x# r* x/ g; [7 U9 U6 `( I
* O' K; H! P& N7 t8 m' a
User-agent:* /**以下内容针对所有搜索引擎
, p; U: U) A# p8 V4 c1 r& p( L& r4 `
% H' C1 d: Q8 K# f2 zDiasllow:/admin/ /**禁止访问/admin/目录的内容
5 q; K" F# o M# s9 N1 _1 C( C7 [6 B. @- n4 h
***** & F8 r4 C- b u* Z- c
' E( g7 `" d9 h( ]; \" r) ~
Allow:/html/ /**允许访问/html/目录的内容 ; m# p, Z3 D. t
3 [' d% I+ w1 O
, s* K, [* k7 m+ I, W7 C$ x) f( q9 B9 u& L P9 |
5 S! G3 G& X- E
作为新手对Robots不是很明确的朋友,可以不写Robots.txt文件,以免错误的写发导致内容的不收录。
9 ? i8 F7 O! m9 |; w" d: X
6 r2 Q( x+ x5 q% z$ N. t, Z3 nRobots最多的用途是屏蔽网站的后台目录,以免被收录后,被heike所利用;以及保护自己的版权资源,以免被搜索引擎收录了以后,展示在搜索结果里。 |