作为seo人Robots的写法作为必须了解的内容之一,错误的写法可能给你带来不被搜索引擎收录的恶果。 - @8 H C! d2 ` J" n
2 }: M3 E. }, v" d& `9 \9 O5 [+ g$ |
Robots文本中,因先写出对什么搜索引擎生效,然后是禁止抓取目录,允许抓取目录。 / T, `$ q( c; i
User-agent: 语句表示对什么搜索引擎的规则,如果内容是“*”,则表示对所有搜索引擎生效。
& {6 x" J! ~4 U/ s% Y. fBaiduspider表示百度蜘蛛; * S3 u' Q1 D$ o: m7 u% d9 j
Googlebot 表示谷歌蜘蛛;
0 T) n0 {# S7 m3 \3 L, i
5 u" b; ~- J* s- i360Spider 表示360蜘蛛; $ K, W1 \$ o8 I% p8 _% w4 x% ] _
! i& `! ^% f- q5 k* {7 R
写了针对的蜘蛛后,就需要写具体的禁止抓取哪些目录,允许哪些目录。
( E& P2 N5 k4 M+ M% UDisallow: 表示禁止抓取后面的目录;
5 B! U0 O6 a; `$ a l7 c0 t5 e( ~+ y- |3 W' h+ n
Allow: 表示允许抓取后面的目录。
1 i0 ]/ y4 ]+ G4 ]4 X( ^! |2 F" g( V. ^- Y0 D3 m
* 是个通配符,可以代替任意内容。 0 o; U2 [; Y |1 z
$ 字符指定与网址的结束字符进行匹配。
1 W! H: o& o! P. ]0 b) o4 v5 T" x例如,要拦截以 .asp 结尾的网址,可使用下列条目: ( U6 n5 a# ^) q' o" z
4 _" i# P$ [1 Q) g) j) M8 A
: D, |2 A1 l1 L4 X7 S
# ]' }4 P# a/ aDisallow:/*.asp$ & K/ ~3 Y& }! P7 C; x1 ?3 r
$ F5 S/ V6 y# W3 m
例: 1 s# s: a* [/ e# f
. i6 N$ D% O. B9 `4 @: w/ oDisallow:/admin/ 禁止访问/admin/目录的内容。 2 W! }- O3 s- r y$ J5 v
7 D, A! d# n$ yDisallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
' Y9 z, X; O3 Y# F6 t( G
5 K3 W- L2 U8 B( {1 D/ zDisallow: /*?* 禁止访问网站中所有包含问号(?) 的网址。 5 E5 F* J+ h$ R/ F* h0 }
0 I$ _+ |, N v! d. BDisallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片。 . m# C& R5 f$ r/ K2 K8 ~
* k$ k$ R: _+ t+ V- h+ k* O' h9 NAllow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录。 # L. b" @: X9 [" E# Z4 O5 a
! t( M' Y3 N1 d# u; H2 c& lAllow: .htm$ 仅允许访问以".htm"为后缀的URL。
2 U* X! ^: L( C) P* e9 W/ q
( u, o2 V% r* `5 N6 _/ y& f, S完整写法:
! w$ m+ d0 t9 t9 _5 T/ L3 M, R, _
User-agent:* /**以下内容针对所有搜索引擎
" H/ z1 R9 U3 e/ H6 e/ ]- Z7 S3 e. k& G1 n- D
Diasllow:/admin/ /**禁止访问/admin/目录的内容
3 l9 H( {3 w$ N* {% ]6 m
! e. H* D# b2 `" i0 I$ Y***** 0 u U- Z7 X* r& ~3 f/ L1 g3 n
+ w( R7 W5 M9 w' y0 R
Allow:/html/ /**允许访问/html/目录的内容
6 S i- T4 c' |+ L6 t
* t0 p) {% }9 v7 ?+ [8 w* c8 |
/ w) a1 K7 ?. t- g' [
# Q7 @( z+ y3 d) j6 H* U$ K$ R. ]" A# V3 j; V4 R c" f- l
作为新手对Robots不是很明确的朋友,可以不写Robots.txt文件,以免错误的写发导致内容的不收录。
5 R( h6 u+ u7 J% y. I" u3 @( b" V
1 p* K$ ` E& X" F2 TRobots最多的用途是屏蔽网站的后台目录,以免被收录后,被heike所利用;以及保护自己的版权资源,以免被搜索引擎收录了以后,展示在搜索结果里。 |