爬行和抓取是搜索引擎工作的第一步,完成数据收集的任务。
# \% ?# @% V$ R8 `3 U1 y: ?1. 蜘蛛
- l+ J3 k1 K& q W J2 A 搜索引擎用来爬行和访问而面的程序被称为蜘蛛,也称为机器人
! ?9 w7 s7 ~( R9 a- M# ~搜索引擎蜘蛛访问网站页面时类似于普通用户使用的浏览器,蜘蛛程序发出页面访问请求后,服务器返回HTML代码,蜘蛛程序把收到的代码存入原始页面数据库,搜索引擎为了提高爬行和抓取速度,都使用多个蜘蛛并发布爬行。
1 I5 l* M$ L* `' K9 D3 p+ n5 ? 蜘蛛访问任何一个网站时,都会先访问网站根目录下的robots.txt文件,如果robots.txt文件禁止搜索引擎抓取某些文件或目录,蜘蛛将遵守协议,不抓取被禁止访问的网址。* X7 C" h! p. D
和浏览器一样,搜索引擎蜘蛛也有标明自已身分的代理名称,站长可以在日志文件中看到搜索引擎的特定代理名称,从而辩别搜索引擎蜘蛛。
& P0 W) t; d* t8 d4 ^4 v4 W, h! H8 l! I- u' x. ]" d
2. 跟踪链接
$ ? e5 D+ S9 |' C 为了抓取网上尽量多的页面,搜索引擎蜘蛛会跟踪页面上的链接,从一个页面爬到下一个页面,就好像蜘蛛在蜘蛛网上爬行那样,这也就是搜索引擎蜘蛛这个名称的由来。
& y& O* D% L( v 整个互联网是由相互链接的网站及页面组成的。从理论上来说 ,蜘蛛从任何一个页面出发,顺着链接都可以爬行到网上的所有页面,当然,由于网站及页面链接结构异常复杂,蜘蛛需要采取一定的爬行策略才能遍历网上所有的页面。& d |1 y8 l/ P* B
$ H- G! b& p2 j1 Q( c 最简单的爬行遍历策略分为两种,一种是深度优先,另一种是广度优先。4 N9 B3 p; r2 I7 L1 {% E
所谓深度优先,指的是蜘蛛沿着发现的链接一直向前爬行,直到前面再也没有其他链接,然后返回到第一页面,沿着另一个链接一直往前爬行。
3 m" A8 K) G, B) y0 u: `( G
: n0 n& i) W# a6 I- p 如果2-20所示,蜘蛛跟踪链接,从A页面爬行到A1.A2.A3.A4.到A4页面后,已经没有其它链接可以跟踪就返回A页面,顺着页面上的另一个链接,爬行到B1,B2.B3.B4.在深度优先策略中,蜘蛛一直爬到无法再向前,才返回爬另一条线。$ f, [% z3 X4 U/ }5 L( E& c5 B2 j
- i6 m$ E! y9 \) \3 x
百度蜘蛛的爬行和抓取
1 M9 b! U7 Q4 ]6 S% I# p
$ I$ x6 e& M$ R9 x S: T7 ` 广度优先是指蜘蛛在一个页面上发现多个链接旮,不是顺着一个链接姨直向前,而是把页面上所有第一层链接都爬一遍,然后再沿着第二层页面上发现的链接爬向第三层页面。
9 e! q. D- \; k% H$ M/ t3 u如图2-21所示,蜘蛛从A页面顺着链接爬行到A1,B1,C1页面,直到A1页面上的所有链接都爬行完,然后再从A1页面发现的下一层链接,爬行到A2.A3.A4.……。页面
, S- z H0 @+ Q+ g, W: Ci
百度蜘蛛的爬行和抓取
: M1 G+ ^3 @! u( S
1 g' h1 w7 ?. N) |
M9 \- u2 d% z 从理论上来说,无论是深度优先还是广度优先,只要给蜘蛛足够的时间,都能爬完整个互联网。在实际工作中,蜘蛛的带宽资源,时间都不是无限的,也不可能爬完所有的页面。实际上最大的搜索引擎也只是爬行和收录了互联网的一小部分。0 `/ P: e$ h9 c7 j# y% _ B
深度优先和广度优先通常是混合使用的,这样即可以照顾到尽量多的网站(广度优先),也能照顾到一部分网站的内页(深度优先)。
8 p3 b6 K7 {# o0 k/ A% ^
- L" r, W6 B# R& x% | |