作为seo人Robots的写法作为必须了解的内容之一,错误的写法可能给你带来不被搜索引擎收录的恶果。
9 }+ ^/ H, I) Z9 c/ M; G/ K/ a2 t* c- ~' l
Robots文本中,因先写出对什么搜索引擎生效,然后是禁止抓取目录,允许抓取目录。 5 N5 }+ } p0 y
User-agent: 语句表示对什么搜索引擎的规则,如果内容是“*”,则表示对所有搜索引擎生效。 ! t3 F* m- ~. W4 W2 ^, W J
Baiduspider表示百度蜘蛛; ) a2 h! Z9 x0 t0 U4 [; U) z
Googlebot 表示谷歌蜘蛛;
4 r. \; c5 a2 F& j; ?3 R& N, O& F# o# U
360Spider 表示360蜘蛛; : [. B" ?# l w' S
% ]- M- ]8 Z7 i! }
写了针对的蜘蛛后,就需要写具体的禁止抓取哪些目录,允许哪些目录。
9 s8 m1 I7 y; x% ADisallow: 表示禁止抓取后面的目录;
; i- A% C- A9 O% h1 c* M% O" Q
0 b9 b) v/ t' E( w' D, [Allow: 表示允许抓取后面的目录。
. ^) _; `- t, N/ [- C# r: _
3 S; [$ B& r4 S+ u2 S" z! ]: L* 是个通配符,可以代替任意内容。
2 u4 z. T- j; v) H8 M$ 字符指定与网址的结束字符进行匹配。 9 x7 `$ d1 X5 H
例如,要拦截以 .asp 结尾的网址,可使用下列条目:
. N1 ?, Y: l9 _7 G# ~) G" O ]% M/ c% Z$ l$ U" D( l, S0 o
8 d! E N( s+ t- R$ u) U0 `5 i- Z/ V: A9 l E2 a+ P
Disallow:/*.asp$
7 y& A/ {& s' R9 s( N, i& N; C. V2 p6 x. C
例:
. N) e, o; r9 s5 p
3 ^+ D1 ?( j, o: w a L( vDisallow:/admin/ 禁止访问/admin/目录的内容。
# X' b% ^$ I3 t7 Y g" ~
+ ^0 _: c) b9 P1 ^2 hDisallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
7 C+ D, r- a' Z/ [9 P9 N! x) T6 p* I. H7 G4 u
Disallow: /*?* 禁止访问网站中所有包含问号(?) 的网址。
1 m9 U) q: x+ B3 i% v
, Q9 v! k, m' v2 j0 M& D: NDisallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片。
0 o, v1 U" t' j' l" l8 C. }
' }) A5 i7 o9 V, k2 KAllow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录。
5 c1 f# ?6 p5 g2 H" Q, ?1 K/ \' M: O
Allow: .htm$ 仅允许访问以".htm"为后缀的URL。
2 d# P# G0 P, `: B/ A
* |/ w9 s5 }& r完整写法: ) O3 b1 }+ n I# e, `' X2 D4 U
! \5 p9 e2 I4 i7 J
User-agent:* /**以下内容针对所有搜索引擎
: f: g1 z! g8 [* `
5 m! s% n% }, l* k* rDiasllow:/admin/ /**禁止访问/admin/目录的内容
, J, x; a8 Q4 [6 n7 P# I
- ?1 y, u! j: Q' V$ N' G7 i***** 9 o/ e; V ~; c. G3 L s" `9 H
7 m4 N( i; ?- m4 Q' f3 {& dAllow:/html/ /**允许访问/html/目录的内容
3 t7 |7 Y. r* M% \
1 s; M' B+ V+ k7 |6 s
/ @* j! s5 ]! k9 s$ a' V
' [- ^7 s9 _1 Z3 O
- R4 F5 r4 k; i作为新手对Robots不是很明确的朋友,可以不写Robots.txt文件,以免错误的写发导致内容的不收录。
/ P/ B3 w# {, f# x1 _' f9 s! Q0 C6 m
Robots最多的用途是屏蔽网站的后台目录,以免被收录后,被heike所利用;以及保护自己的版权资源,以免被搜索引擎收录了以后,展示在搜索结果里。 |