作为seo人Robots的写法作为必须了解的内容之一,错误的写法可能给你带来不被搜索引擎收录的恶果。 # F' b" S' b# X# ?, ?) I
1 z. R3 C( x& n: p& g' [( [6 @
Robots文本中,因先写出对什么搜索引擎生效,然后是禁止抓取目录,允许抓取目录。
: x X$ V/ Y$ E7 T) DUser-agent: 语句表示对什么搜索引擎的规则,如果内容是“*”,则表示对所有搜索引擎生效。
7 K U1 G1 [; MBaiduspider表示百度蜘蛛; / ~/ V7 d. Q6 B
Googlebot 表示谷歌蜘蛛; ; b( V. k2 b- y K/ I
2 E! n9 M4 {" A3 V" [# u+ a5 r) N1 c. ^360Spider 表示360蜘蛛;
' H- x9 b5 g. D. ^; l8 Y0 x. Y$ a4 S" X3 N Z1 ^- J
写了针对的蜘蛛后,就需要写具体的禁止抓取哪些目录,允许哪些目录。
& e& L7 d f6 J: \+ A. WDisallow: 表示禁止抓取后面的目录; 5 M* u b" t; s) ^8 M; a
0 z% a! c9 a2 \: r; k! v! e/ F
Allow: 表示允许抓取后面的目录。
& K7 {7 R2 n; w5 T# r9 W( |, h; V3 W e* v
* 是个通配符,可以代替任意内容。
B/ } O% W8 B- H2 Y* H( s8 o$ 字符指定与网址的结束字符进行匹配。
$ D- e [ Z7 h/ L' ]% k例如,要拦截以 .asp 结尾的网址,可使用下列条目:
$ }6 \. f4 i, g9 p* P
s1 z; z" y, H( z5 m
" x+ t' N7 j, Q$ L; O' D8 R L
, h- ~" S9 s$ H$ s# h! \* P; J) O$ LDisallow:/*.asp$
; W. Q; t/ k* X; F0 X: @+ X: \$ P6 m3 Y% S; d$ A$ u
例: 5 I- W7 h8 V. o: Q+ i2 G) r
c8 K, [0 w" c7 i5 BDisallow:/admin/ 禁止访问/admin/目录的内容。 8 G' o" H% R& {2 k
5 C9 i* D4 Q" S# U- J; d" u/ V
Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
% G) K' z P& w q" L3 W; |4 _
$ a; _$ c3 n/ v. Z% k/ w4 kDisallow: /*?* 禁止访问网站中所有包含问号(?) 的网址。 % `$ v2 P" w" T4 G. o
3 G% u* ?1 a6 Q3 Q6 H6 q+ BDisallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片。
# H' x( p' `$ V' X1 g) v# J$ I( T- L! O" j ~# a: E
Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录。
6 r7 l" Q* X q: Z, \! `3 G; p3 y) L6 o% E
Allow: .htm$ 仅允许访问以".htm"为后缀的URL。
% v5 J9 G3 s8 ?( F M8 f9 ?" Z& n* U5 |6 L
完整写法: 0 ?) z$ m, f3 R g2 v; r6 P3 H3 |
* G7 X' F0 o* Q2 K
User-agent:* /**以下内容针对所有搜索引擎
. @; o3 Q! ^# G! K% t
. H1 V; _! P( a1 A$ J1 P5 ?Diasllow:/admin/ /**禁止访问/admin/目录的内容 ( ]; p0 [5 z$ l% h3 z
1 E6 |+ F! ^ U***** / A( `/ @0 f5 g$ g4 h
5 j" q8 C7 O* x J# v9 [
Allow:/html/ /**允许访问/html/目录的内容 + j/ S; ]3 R- ]! i8 n4 m" {7 L9 `! ^
2 k) g7 T' R1 ^" d: v
7 U" p' Q) v) u1 |6 b
d/ Y' O, e$ n$ |: f1 j$ p7 `1 B
' c( X5 u9 @1 q0 C6 T4 s作为新手对Robots不是很明确的朋友,可以不写Robots.txt文件,以免错误的写发导致内容的不收录。 5 J6 U9 _& [0 z
* e) Y) U0 H& [' | |Robots最多的用途是屏蔽网站的后台目录,以免被收录后,被heike所利用;以及保护自己的版权资源,以免被搜索引擎收录了以后,展示在搜索结果里。 |