做网站的基本都知道蜘蛛是什么,其实蜘蛛就是一个搜索引擎的爬取程序,用来收录网站,然后在搜索引擎里面搜索呈现出来的页面。利用搜索引擎蜘蛛的爬取跟踪我们可以从中得到很多意想不到的信息从而更利于我们优化网站。
" Y) e" w' D- G4 u }
2 h, H b! P1 c1 Y5 E! W" X 1、 利用蜘蛛告诉我们死链接
% a& h' U! P' G1 s$ I7 q
, Y8 |% n9 d( \( u 死链接对于网站的危害是非常大的,我们都知道,可以使用robots.txt来对其进行屏蔽,但如何找出这些链接成为我们很头疼的问题,而搜索引擎蜘蛛会告诉我们哪些是真正的死链接,当蜘蛛爬取到一个死链接网页的时候,会在IIS日志里返回一个404状态码,这个时候就是告诉我们,这个网面是不可访问的,是一个死链接,所以我们只要查看IIS日志我们就知道搜索引擎蜘蛛提示我们网站有哪些死链接,然后我们再用robots.txt屏蔽掉即可,这样就不会让死链接对我们的网站造成影响了。
* r4 o/ s: b H/ ^, U3 d! G- k& }1 K# L
2、利用蜘蛛爬取的数量详细分析网站整体情况9 }& A9 e: R9 {. [9 d
, b: Y4 C/ A/ ~, h( F4 V+ A 我们可以通过IIS日志查询每天搜索引擎蜘蛛访问我们网站的次数,并且可以知道它访问了我们哪些页面,我们可以根据蜘蛛每天的爬取量就可以算出每个月蜘蛛的平均抓取量,这样我们就可以进行对比。
7 T) X* R3 ]# n/ w4 {
' L7 O6 V& |8 d% ]# L E5 T% Y 提升蜘蛛爬取量有以下两个因素) X; d+ p4 t# \9 C2 I+ t. x2 K
6 ^( U9 o& ~6 i. q3 N1 z6 O
1)外部链接质量和数量增加
+ t" d9 t1 y% e/ b0 [- E4 J7 a
& b0 L& c% e5 B* M8 y$ h 外链数量越多,蜘蛛爬取次数也就越多,同样外链的质量和权重越高,蜘蛛抓取网站的次数也就会越多了。( I. q. u% I3 Z1 N1 _, ~ E( s( H
" D: Y* _! b# v. h# b: I( U- Z 2)网站文章质量和更新频率1 L* { ^3 T3 B" n
' n: |2 C: D: P/ l" A7 s
网站文章质量越好,蜘蛛来爬取后放出文章的通过率就会越高,蜘蛛爬取的次数就会增加,同样的道理,更新频率越快,蜘蛛爬取的频率也会增加。4 \! g4 x* c8 p' D2 z
& e& @8 r( _7 L; z. s* c
从以上可以得出,如果网站每个月蜘蛛的爬取量是增加的,那我们就可以判断出来是由哪个因素引起的,也可以肯定网站权重也是随着蜘蛛爬取量上长而上升的,反之,蜘蛛的爬取量减少了,也可以确定,网站权重会随之下降。所以每天都要记录IIS日志的蜘蛛爬取量,然后根据这个来做网站优化的调整。1 |- D! f% t1 i* D* i
& ]1 K/ {; H4 c- m t+ A
3、根据IIS日志的蜘蛛爬取分析服务器的稳定性* w) g$ H6 H. I4 C4 t
# l8 L6 y" o& R$ e" G0 k6 h5 {
蜘蛛爬取我们的网站,如果网站不稳定,访问出了问题,蜘蛛就会返回503或500这样的状态码,并且也会出现200 0 64 这样的状态码,如果出现这种情况,首先要确定是什么时间产生的,需要马上联系服务器商或空间商,这样就可以马上解决我们所存在的问题。
8 V( T* R7 s" X1 r T4 f1 W0 e( k& h2 j% v9 \# U3 X
4、 利用IIS日志蜘蛛爬取深入分析
5 r& R) ~4 Z5 n
0 n$ ~9 ?% J/ t- o4 {; m$ O+ j 搜索引擎在爬取我们网站内容的时候,经常会出现有一些目录他在爬取之后就不再去重复爬取了,而有些目录甚至一些内页会重复的不断爬取,对于此我
; a) W1 k3 X6 Y) @ |
|