作为seo人Robots的写法作为必须了解的内容之一,错误的写法可能给你带来不被搜索引擎收录的恶果。
+ X# C2 C; t9 w3 B; N+ c7 C% g+ }+ i% E2 U5 Q+ m0 | q: y
Robots文本中,因先写出对什么搜索引擎生效,然后是禁止抓取目录,允许抓取目录。 ) q+ c: {- ^1 G; `( y* I
User-agent: 语句表示对什么搜索引擎的规则,如果内容是“*”,则表示对所有搜索引擎生效。 1 ^$ d: n1 Y5 I7 m/ G Z& s9 |/ z
Baiduspider表示百度蜘蛛;
8 U. x# p7 R) C, ?Googlebot 表示谷歌蜘蛛;
" ~ k3 Q5 Q' R" N; T8 i& e
: U9 x- E; \! {360Spider 表示360蜘蛛; 5 K* o- }6 Y& E$ Y
2 K+ m9 d) s. y) K: u. H8 D写了针对的蜘蛛后,就需要写具体的禁止抓取哪些目录,允许哪些目录。 2 Y" D3 K0 g. ?+ D: u! e
Disallow: 表示禁止抓取后面的目录;
5 f0 e* X- n+ S8 f; ~' v0 `% H6 k: B4 d; @- q% b3 a% }
Allow: 表示允许抓取后面的目录。 # `9 O2 |/ e( j
4 G3 N! b+ J3 c# e9 q4 m; X3 E2 V* 是个通配符,可以代替任意内容。
J- R# K9 g$ A( M5 C8 v5 ^/ \! B$ 字符指定与网址的结束字符进行匹配。
' F% L6 x; E( R* w$ C2 Z1 J例如,要拦截以 .asp 结尾的网址,可使用下列条目:
8 G5 N# h# y8 Q5 `% t2 h1 ?( O Y2 \' _7 W! g3 M( |4 ]& ]
- S* j& G2 L( r4 Q2 l+ M
k) N; }5 u2 ^6 {, @Disallow:/*.asp$
/ u) ]# F" d3 f# Q$ {6 F- n$ M$ k. o0 S' c
例:
' S& r! Y# P# `; R. q( y( h
* L: L; X W/ [! P6 z6 v" p! a7 _! ~Disallow:/admin/ 禁止访问/admin/目录的内容。
, k8 D4 ~6 H+ d2 N' _8 T1 H* z& l
Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
& e+ u+ L0 C# O: N+ @& F5 X l z* ~* ?, {
Disallow: /*?* 禁止访问网站中所有包含问号(?) 的网址。 6 R9 Y- L: R. C! z0 D2 v0 t. g
1 e" @+ t: ]' f& p2 S
Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片。 1 D4 D8 x+ M2 T: P
- {; F' I M2 Z0 |Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录。
6 z, k% _8 t9 P# @
; \( s" y c; q# ~4 O% vAllow: .htm$ 仅允许访问以".htm"为后缀的URL。 3 } N2 Z2 d) q1 y1 x
& U# q; s, M5 u% A4 l完整写法:
9 ?* q! y! p/ p; P" A
$ P$ J; \) x0 zUser-agent:* /**以下内容针对所有搜索引擎
g, h2 j* N: m7 v
4 n, c) Q: h$ LDiasllow:/admin/ /**禁止访问/admin/目录的内容
1 D1 Q' j4 n" ^5 R, n- w+ ^: S3 a3 ]5 g' l9 ^7 h H& Q* `* \
***** - K+ E& O) f. Q& q0 S+ t+ ~
- l3 l) |/ O# w8 ]+ L r" YAllow:/html/ /**允许访问/html/目录的内容 # Q" A3 L& ?- E, {# L- |9 q
4 @' Z" F$ ^6 G8 q. z3 f
1 L' N; S l8 o7 w) O) O5 [5 [5 s5 F2 ~ o$ M: y' B& j( ]. h' _
6 f* ^$ S/ ^$ a
作为新手对Robots不是很明确的朋友,可以不写Robots.txt文件,以免错误的写发导致内容的不收录。
9 G6 K& X2 U1 G2 E5 r) o# A4 i6 b
% Q( t3 r4 w- e' ?, ]$ jRobots最多的用途是屏蔽网站的后台目录,以免被收录后,被heike所利用;以及保护自己的版权资源,以免被搜索引擎收录了以后,展示在搜索结果里。 |