作为seo人Robots的写法作为必须了解的内容之一,错误的写法可能给你带来不被搜索引擎收录的恶果。
. t K$ _* G0 _" Q& m3 p
2 F2 Z0 L+ _& S! ^Robots文本中,因先写出对什么搜索引擎生效,然后是禁止抓取目录,允许抓取目录。 V8 ~$ U( ~; x! m/ o6 O& r
User-agent: 语句表示对什么搜索引擎的规则,如果内容是“*”,则表示对所有搜索引擎生效。 5 Y4 t+ b5 K0 B, L; _
Baiduspider表示百度蜘蛛; ) r6 a; X+ s+ e
Googlebot 表示谷歌蜘蛛;
0 k/ q# u% S; E8 [/ w/ M
0 o* l/ \6 i; i360Spider 表示360蜘蛛;
2 G- k) A p# d( u+ V9 W: U. F
) D# C* c- w: W+ @' F( q写了针对的蜘蛛后,就需要写具体的禁止抓取哪些目录,允许哪些目录。
. _1 g6 Y7 u% ODisallow: 表示禁止抓取后面的目录;
+ A6 A. L/ h( q9 o. T4 Z; x
: _ F7 y4 n5 j0 L4 c& HAllow: 表示允许抓取后面的目录。
9 @- w+ p# k3 B9 T5 j( [, S6 S: |1 `: I( }8 M. b9 e% \2 h3 [
* 是个通配符,可以代替任意内容。
+ [4 {( Z0 H% X3 D$ K) y$ 字符指定与网址的结束字符进行匹配。
@+ n A4 v0 N, ?例如,要拦截以 .asp 结尾的网址,可使用下列条目:
& e. x" s- N. ]! T& r& m" ]
; H5 f! V5 _& I; n0 Q3 I4 O
6 K1 ?3 T! G- u/ n& t5 _ `2 ?- l: z- C) ^9 M% ^
Disallow:/*.asp$
- J7 B% ]3 M: a* p5 q) c" L# i# s% G/ p4 |9 I+ h! v
例:
5 D& z R0 J% O6 j g- q7 f0 Z3 U* \6 t
Disallow:/admin/ 禁止访问/admin/目录的内容。 * q7 R, d6 U0 t5 l
7 q5 i G% D0 f: S" W$ eDisallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。 " ~8 k( l+ I4 X
- c9 \* o) p8 L9 g1 z
Disallow: /*?* 禁止访问网站中所有包含问号(?) 的网址。
( c7 M3 u' p8 B" F" v2 ~5 S- [. @, Y. g9 u& \7 \0 J k/ ?( m
Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片。
: ^2 k* O3 F4 C. d) k4 P( W; T+ u6 _5 G9 V
Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录。
: z! C+ G: }- K$ {5 t4 X3 N( D% P+ r8 C; b& T) C( ]
Allow: .htm$ 仅允许访问以".htm"为后缀的URL。
' }2 a4 A1 T1 L8 C. N
1 e* f0 g& I. L* x) X, t完整写法: 7 R. i# R) v8 X( q2 q! n
; m: S$ W, R7 e5 {' oUser-agent:* /**以下内容针对所有搜索引擎 - Y. Z3 X( K% j' {: R
! g" g! n* H9 W, M& u7 fDiasllow:/admin/ /**禁止访问/admin/目录的内容 v9 J: m# e- M% a: t" b* I
- Q. D$ i/ S$ l" n
*****
' a: j9 v! I0 L) u: l: Z* }* V$ z: r+ G* ~- v5 M0 s
Allow:/html/ /**允许访问/html/目录的内容 + p) [& w3 I- k. ]2 M4 o) l. Q
9 V9 t" w8 j* i% A3 e6 |& i: m
* R$ o6 t! X" x$ N ^; B) ]& x- A
, n" }' ~# A$ n4 q, ]4 f/ [" \" o
. M8 S6 ]# Q: J5 @作为新手对Robots不是很明确的朋友,可以不写Robots.txt文件,以免错误的写发导致内容的不收录。 + F! p% f3 B- P* m9 ^( N5 m1 T
1 v: |( C1 F# @. M0 {9 m5 eRobots最多的用途是屏蔽网站的后台目录,以免被收录后,被heike所利用;以及保护自己的版权资源,以免被搜索引擎收录了以后,展示在搜索结果里。 |