作为seo人Robots的写法作为必须了解的内容之一,错误的写法可能给你带来不被搜索引擎收录的恶果。 4 j6 K6 Q* T: d) ]
9 ?. b$ U6 z+ C/ |6 y4 w* r- SRobots文本中,因先写出对什么搜索引擎生效,然后是禁止抓取目录,允许抓取目录。
i/ W9 F8 z0 x& {, FUser-agent: 语句表示对什么搜索引擎的规则,如果内容是“*”,则表示对所有搜索引擎生效。 # j" r- f7 l8 K- e$ c! ~$ [
Baiduspider表示百度蜘蛛;
B$ v% N1 @* X# N1 zGooglebot 表示谷歌蜘蛛; 8 I- w5 E. b8 J5 h2 x( C% f
" e1 b) ]! y8 H/ s) G. |9 G/ ~3 H
360Spider 表示360蜘蛛; ( r3 F9 R# @+ n0 ]2 ~
& A0 @: F4 Z* l+ n写了针对的蜘蛛后,就需要写具体的禁止抓取哪些目录,允许哪些目录。
5 R+ i2 I: Q* Y! u- C% {0 TDisallow: 表示禁止抓取后面的目录; i5 S, X. {5 K3 I3 {
# c/ v% R! U4 ^2 j' y3 B
Allow: 表示允许抓取后面的目录。 # t$ r4 I' W& v
! a) i M. H: p+ X. E8 N9 b* 是个通配符,可以代替任意内容。 $ U( z# f4 O, T: \: q, @" n' a
$ 字符指定与网址的结束字符进行匹配。 ) ~; w) M4 ]/ [/ x8 W
例如,要拦截以 .asp 结尾的网址,可使用下列条目:
" P+ R) b: j/ I1 h' M) E0 z8 x. _) b: S1 {
( m( D2 i. o6 v& R7 d
g2 t3 m( b, F7 ?3 |Disallow:/*.asp$ * a: C! T0 w' f
/ D( g& q; b+ I5 a2 n8 C, ?0 U% I. Y
例:
3 F2 b) ?) d' a2 Z& |& U
6 v+ Q1 O' [2 J. I* {/ ADisallow:/admin/ 禁止访问/admin/目录的内容。 2 j' Q4 S) y% H5 [
( k' ~3 W8 _: L$ x3 C) l, v1 c |" @
Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。 % i. l* [' V6 Y
" R8 I! v$ l; j1 ?! [
Disallow: /*?* 禁止访问网站中所有包含问号(?) 的网址。 8 S3 _' D( K8 ^% c; c5 w+ R; ]/ T( b
! n N1 J4 w: x- o; m, q3 VDisallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片。
: r* r# n u- N$ {; ]6 v
+ q, t z! h( P% Y0 bAllow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录。
* e% b; t8 Q( U: s: K2 x5 K R9 }) d" E5 T. K0 `8 f; v0 o
Allow: .htm$ 仅允许访问以".htm"为后缀的URL。
0 B' s# i3 a* ]3 z6 J$ @
5 j. L( q8 m* j6 G% y) r- \完整写法:
! y; D: L0 d; Y$ Y3 K+ p) D# b' d$ B" U
User-agent:* /**以下内容针对所有搜索引擎 / R4 o0 @5 y* _
9 R k5 w% |, t
Diasllow:/admin/ /**禁止访问/admin/目录的内容 : P# r9 I6 b3 j5 L
6 d. W4 H2 t+ \% f( u% r
***** ' q; r5 o9 P- M8 g9 @) L) p2 J
( u. I: M& g: x8 J8 ^Allow:/html/ /**允许访问/html/目录的内容 7 t2 a. j4 i1 J- P/ n
% s0 L0 e# P- x! ^& Q' N# Q. R
) ~/ p# c. a8 ^! q% b! n' p
# L$ g9 ^9 C3 N! k" V+ q
8 Z Q! L$ E# p! G作为新手对Robots不是很明确的朋友,可以不写Robots.txt文件,以免错误的写发导致内容的不收录。
4 ]( G8 f0 w1 L( h: F/ {( g- B
* O8 U l/ g' t' Y1 Z$ a/ LRobots最多的用途是屏蔽网站的后台目录,以免被收录后,被heike所利用;以及保护自己的版权资源,以免被搜索引擎收录了以后,展示在搜索结果里。 |