什么是robots协定?- A6 j# g- N2 D6 Z
! j* z. }& G6 J+ |8 g
robots协定就是搜刮引擎的爬虫协定,它的呈现就是为了告知搜刮引擎该网站中哪些页面不成以爬取而天生的协定.robots协定是可以用任何文本编纂器编纂的协定.
' ~% @% I! _- E9 _; T! y / O [5 T, O. S k7 E
0 Q H- I8 z9 J0 _" Z, e- P1 Y" E' T! u8 Q$ g2 G
( N7 K; D& I3 N 协定的写法:; ^4 n J& h9 d$ G) F4 k/ D: Z- E
4 Q' l% ]- ~ @) b* S2 W! m User-agent: * 这里的*代表的所有的搜刮引擎种类,*是一个通配符
4 |' d- r+ p) }# D, `+ g5 c+ y8 }$ G
Disallow: /admin/ 这里界说是制止爬寻admin目次下面的目次
5 {! D; i4 m# @7 Z/ g+ |
9 F) p I) Y0 q$ O Disallow: /require/ 这里界说是制止爬寻require目次下面的目次5 m$ f! E- h5 p& @) L# h
4 J& l2 W. P0 c/ B3 |6 Z) k9 ~
Disallow: /ABC/ 这里界说是制止爬寻ABC目次下面的目次: b3 [& R6 [- g
0 }' }1 O1 e$ y Disallow: /cgi-bin/*.htm 制止拜访/cgi-bin/目次下的所有以".htm"为后缀的URL(包括子目次).
, t; w8 _/ s# H' h( q9 K, _! e( w3 u
# j8 o. r1 k0 S( L5 ? Disallow: /*?* 制止拜访网站中所有包括问号 (?) 的网址
+ s" g- i0 L3 ?( i5 u
" L, E5 l4 V5 ~* a7 s0 o Disallow: /.jpg$ 制止抓取网页所有的.jpg格局的图片" W; ~# Z7 k/ Y9 D
6 M0 o6 \9 b: b o5 g- `
Disallow:/ab/adc.html 制止爬取ab文件夹下面的adc.html文件.
9 ?3 f3 }7 \& S7 ?1 [
9 Z; T& Z8 k- z- P9 o. v Allow: /cgi-bin/ 这里界说是答应爬寻cgi-bin目次下面的目次2 b# I) i1 g" C" [9 R
; _8 n" }3 o$ L, ?$ l, N0 v
Allow: /tmp 这里界说是答应爬寻tmp的┞符个目次" h5 Q- A( X5 G* O9 o! z
0 A4 n! p* i7 F2 _; X1 ~1 q+ T Allow: .htm$ 仅答应拜访以".htm"为后缀的URL.
3 U) Z: `5 N, @, q
" Q2 ~' L' [& y+ M5 N& J Allow: .gif$ 答应抓取网页和gif格局图片
" O- s) T, @9 q- p; q" j- V7 s. t0 v- H- s# B
Sitemap: 网站舆图 告知爬虫这个页面是网站舆图
8 z# ^- A" T* R: t9 r
. W2 F( \# r# u1 I+ I. s0 y# H5 H9 m( t$ N1 Q' W6 n, K
|