如果你的博客或网站是搭建在付费主机上,如果你是博客或网站的站长,如果你连原始访问日志是什么都不知道,或者对其根本不屑一顾,我只能说你是一个不称职的网站站长,一旦网站出问题,必定是束手无策!相信大家都在自己的网站上安装了网站统计的代码,如Google analytics、量子统计、百度统计、cnzz、51.la等,这些工具可以统计网站的流量,也就是网站**客可以看到的所有页面的访问量,但是这些统计工具都不能统计你主机上资源的原始访问信息,例如某个图片被谁下载了,也不能统计到那些没有添加统计代码的地方,比如后台操作页面。 * c3 q1 m& q/ P9 U
绝大多数收费主机都提供原始访问日志,网站服务器会把每一个访客来访时的一些信息自动记录下来,保存在原始访问日志文件中,如果你的主机不提供日志功能,建议你到期后还是换主机吧。日志中记录了网站上所有资源的访问信息,包括图片、CSS、JS、FLASH、HTML、MP3等所有网页打开过程载入的资源,同时记录了这些资源都被谁访问了、用什么来访问以及访问的结果是什么等等,可以说原始访问日志记录了主机的所有资源使用情况。
) h- e. n. v. f0 B
6 I& K: X# Z2 m# [分析网站日志有什么作用? 1 R& V- i$ G0 j7 k6 q( R- k
- z. ^' e# @4 u: ? c1 |' |- L% }
( E& u6 \* e' T$ C0 W; x) S1、我们可以比较准确的定位搜索引擎蜘蛛来爬行我们网站的次数,可以屏蔽伪蜘蛛(此类蜘蛛多以采集为主,会增加我们服务器的开销)点此识别Baiduspider真伪 ;
( U* o# o q/ r8 g8 k3 u2、通过分析网站日志,我们可以准确定位搜索引擎蜘蛛爬行的页面以及时间长短,我们可以依次有针对性的对我们的网站进行微调 ; ( M' d5 f% Y: X8 P, Y
3、http返回状态码,搜索引擎蜘蛛以及用户每访问我们的网站一次,服务器端都会产生类似301,404,200的状态吗,我们可以参照此类信息,对我们出现问题的网站进行简单的诊断,及时处理问题。 ( g; f2 q' r! b) C5 F$ i
) M0 q) F: m3 D1 O7 A8 q5 ~" N' U5 ^
网站日志文件存放在什么地方?
; \5 N5 {. U+ K% O0 o8 u3 |% J. N1 f- D7 j, b* R! w0 f
* K+ A3 n" F. j4 m" D% v* h一般的虚拟主机都提供日志文件,但是不同的虚拟主机系统会提供不同的LOG文件存储文件名,笔者使用的是万网的虚拟主机,日志文件存储在wwwlogs文件夹下。
/ O0 s: ^4 }* Q( k9 p* v
如何分析网站日志文件
& i! H& @+ z: |& ]( c9 W8 |8 Y7 ?6 W$ d+ \/ U( k2 G
' c3 v$ U; X0 N$ l/ X* ?' y {4 d网站日志文件里面的记录怎么看? {" Z/ a+ p* f& q7 p# {5 e
, L4 _, U% r5 v3 l' z
9 ?8 L0 P$ z! W* D5 n! s& o" `2 W原始访问日志每一行就是类似以下的记录:
5 H5 p b/ Q9 N116.231.220.179 - - [25/Mar/2015:11:21:15 +0800] "GET /blog/article/10.html HTTP/1.1" 200 8671 "[color=black !important]http://www.weiaipin.cn" "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:36.0)"
& p" Q7 p T0 }1 ~ b
4 ^# W) Q, c/ \# O$ N3 y: B6 y H2 d% } v
" g7 K g) @. A下面我们来说说这一行记录的意思:
, H* L3 `% o4 u4 A: }0 g k9 n; _3 w( N
116.231.220.179
8 x" k9 [. r6 G: t% L这是访客(也可能是机器人)的IP
; i4 e* b* y4 v U' j
4 ?$ R: z+ i" ^ j0 e[25/Mar/2015:11:21:15 +0800] ; [/ a V/ X: ~
这是访客访问该资源的时间(Date),+0800是该时间所对应的时区,即与格林威治时间相差+8个小时 ( U' m* P; q$ h$ X1 m# v/ |# ~
0 c- r' x* Q+ o4 j! q
"GET /blog/article/10.html HTTP/1.1"
) Z9 g3 {! {) E6 B. i& a7 W; p请求信息,包括请求方式、所请求的资源以及所使用的协议,该语句的意思就是以GET方式,按照HTTP/1.1协议获取网页/blog/article/10.html,10html为网站上的某个页面。 & o5 O9 h$ R; E1 ~( |
9 F1 ~$ u3 u7 X+ r3 m$ @
200 8671 8 X2 N( ?: y; T D8 o
200为该请求返回的状态码(Http Code),不同的状态码代表不同的意思,具体请阅读 HTTP 状态代码;8671为此次请求所耗费的流量(Size in Bytes),单位为byte & G2 Y4 [3 O/ ?" w) Q8 _% ?
. Z8 F- T& Q" Y5 w- a |, V"htt p://www. weiaipin .cn/"
* j4 O+ j2 `6 s0 y为访客来源(Referer)。这一段是告诉我们访客是从哪里来到这一个网页。有可能是你的网站其他页,有可能是来自搜索引擎的搜索页等。通过这条来源信息,你可以揪出盗链者的网页。 . h8 Q0 o" ^/ L8 H9 d% R, p
+ J0 r3 M9 y5 F1 u7 z/ P7 M"Mozilla/5.0 (Windows NT 6.1; WOW64; rv:36.0)"
( \ Y/ \# ~9 k4 v$ C% M为访客所使用的浏览器类型(Agent),这里记录了用户使用的操作系统、浏览器型号等信息。 4 f' G7 }# P) A
/ N$ c q3 f9 h' _2 [2 c& T8 j
如何分析网站日志中的内容? 2 b* ^$ m* G% \- k* }' L- J
. V* J: C" \# w8 F/ E+ O
2 I. \( M" y) F: z1、注意那些被频繁访问的资源
% g' A8 r4 Q8 Z如果在日志中,你发现某个资源(网页、图片和mp3等)被人频繁访问,那你应该注意该资源被用于何处了!如果这些请求的来源(Referer)不是你的网站或者为空,且状态码(Http Code)为200,说明你的这些资源很可能被人盗链了,通过 Referer 你可以查出盗链者的网址,这可能就是你的网站流量暴增的原因,你应该做好防盗链了。 , _- Y. h; f6 n ? ~8 F# [8 T8 [
. a' F- f. O6 l
2、注意那些你网站上不存在资源的请求
/ `0 D% K9 o- p8 ]如果某些请求信息不是本站的资源,Http Code不是403就是404,但从名称分析,可能是保存数据库信息的文件,如果这些信息让别人拿走,那么攻击你的网站就轻松多了。发起这些请求的目的无非就是扫描你的网站漏洞,通过漫无目的地扫描下载这些已知的漏洞文件,很可能会发现你的网站某个漏洞哦!通过观察,可以发现,这些请求所使用的Agent差不多都是Mozilla/4.0、Mozilla/5.0或者libwww-perl/等等非常规的浏览器类型,以上我提供的日志格式化工具已经集成了对这些请求的警报功能。我们可以通过禁止这些Agent的访问,来达到防止被扫描的目的,具体方法下面再介绍。
$ U, G% y, R$ @, w+ A, n w4 z6 L% }) P& Z
/ Q% ^) b# Z/ ?* I0 Z" c3、观察搜索引擎蜘蛛的来访情况
/ P$ k% B4 J$ _9 z, i通过观察日志中的信息,你可以看出你的网站被蜘蛛访问的频率,进而可以看出你的网站是否被搜索引擎青睐,这些都是seo所关心的问题吧。日志格式化工具已经集成了对搜索引擎蜘蛛的提示功能。常见搜索引擎的蜘蛛所使用的Agent列表如下: ! _+ D9 u( y) f8 b1 o$ A
Google蜘蛛 :Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
D6 t! ^4 N$ D4 H. O5 dBaidu蜘蛛 :Baiduspider+(+http://www.baidu.com/search/spider.htm)
+ x K! v3 }, m3 r1 v+ [8 u1 ~Yahoo!蜘蛛 :Mozilla/5.0 (compatible; Yahoo! Slurp/3.0; http://help.yahoo.com/help/us/ysearch/slurp)
5 T8 a3 D( v% U8 T8 Q+ X, qYahoo!中国蜘蛛 :Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html) : Q+ X: J H/ T! s4 A, j
微软Bing蜘蛛 :msnbot/2.0b (+http://search.msn.com/msnbot.htm)
5 O7 I; W# ~1 [7 vGoogle Adsense蜘蛛 :Mediapartners-Google
5 F9 x. o5 L, I0 L. L- C- n有道蜘蛛 :Mozilla/5.0 (compatible; YoudaoBot/1.0; http://www.youdao.com/help/webmaster/spider/)
% ~* o* j: O$ c# t3 D# w4 dSoso搜搜博客蜘蛛 :Sosoblogspider+(+http://help.soso.com/soso-blog-spider.htm) 0 j6 y! ?8 P1 }' w, u4 z
Sogou搜狗蜘蛛 :Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)
3 M0 j8 s. O1 e. WTwiceler爬虫程序 :Mozilla/5.0 (Twiceler-0.9 http://www.cuil.com/twiceler/robot.html) 2 | \; ?( `7 ]; V6 F/ J& o
Google图片搜索蜘蛛 :Googlebot-Image/1.0
* ~% b& o8 Q; F0 o! C7 T( V俄罗斯Yandex搜索引擎蜘蛛 :Yandex/1.01.001 (compatible; Win16; I)
* z6 N4 L; Y4 m" |Alexa蜘蛛 :ia_archiver (+http://www.alexa.com/site/help/webmasters)
3 H, m* g! O! t7 Y: u/ t2 qFeedsky蜘蛛 :Mozilla 5.0 (compatible; Feedsky crawler /1.0) 6 C# l1 L0 D: N8 t; y0 k# i# P( Q! \
韩国Yeti蜘蛛:Yeti/1.0 (NHN Corp.; http://help.naver.com/robots/) 3 x4 f, G, R( J( }# u! c- @4 C
$ L5 T: E) p \- J+ b Y* k' h ?# r
r! m B9 |3 p X7 ?. O! V4、观察访客行为
* _. {: Z" j7 ]! j! [通过查看格式化后的日志,可以查看跟踪某个IP在某个时间段的一系列访问行为,单个IP的访问记录越多,说明你的网站PV高,用户粘性好;如果单个IP的访问记录希希,你应该考虑如何将你的网站内容做得更加吸引人了。通过分析访客的行为,可以为你的网站建设提供有力的参考,哪些内容好,哪些内容不好,确定网站的发展方向;通过分析访客的行为,看看他们都干了些什么事,可以揣测访客的用意,及时揪出恶意用户。 6 u# y; K0 i4 l: q! t; f0 n7 @
4 u$ e+ G/ ~1 E, ]% @- H2 `2 D& z
常用网站日志分析软件有哪些? / {2 B. m0 ^% q* Y' x+ G, l
% [! A6 E+ ^: d% _- }$ L, } 5 {! D$ n, L5 c$ J, f$ _
笔者试用过很多网站日志分析工具,常用的并且功能又比较全面的大概有三款:光年SEO日志分析系统、逆火网站日志分析器、Web Log Explorer。
2 V4 z( X) F. z1 ^; j5 b5 f9 N, a9 z' M) z. _7 \
: \* r! `: N2 k: R
原文出处链接:http://www.weiaipin.cn/blog/article/31.html
6 P4 q- Z+ h9 u0 D! D$ t得知互动论坛原创作者:品哥3 P+ l' v+ h V! ^- v- Z5 \
日期:2015-07-08 |