我们要学会如何分析网站日志,通过网站日志文件我们可以很清楚的看到有哪些搜索引擎蜘蛛光临我们的网站,蜘蛛都爬取了哪些目录以及通过日志我们还可以发现网站表面上看不到的问题,如404等,网站默认是允许所有蜘蛛进行抓取,大家可以通过根目录下的robots.txt文件来控制蜘蛛的抓取目录以及允许哪些蜘蛛过来,这里就robots.txt文件怎么写就详细说了,小编下面就为大家简单介绍一下如何分析网站日志:( s- Z$ C8 \! |& b+ q0 p9 J
8 j6 W) D( W/ j; r
1、各搜索引擎抓取本站的情况* S7 Y) h# G. X
( ^2 o$ Q6 ?4 g e$ C. k6 b" d 每个搜索引擎都有自己的蜘蛛名称(机器人),通过网站日志可以看到哪些搜索引擎来光临自己的网站,爬取了哪些目录,以及蜘蛛过来的时间等,如百度蜘蛛是Baiduspider,我么可以Ctrl+F查找一下,查看百度是什么时间过来,抓取了哪些页面,通过查看蜘蛛爬取目录或页面的频率我们还能知道哪个目录或页面最吸引蜘蛛。) O" z ^+ y; V9 z
6 _0 j0 T6 s5 A" e5 o- p 2、网站目录抓取和收录情况; b. U' c# C, s
8 m5 I+ a( I& k+ }
一般网站的结构是树形或扁平结构,蜘蛛按照网站结构目录一层一层的抓取是合理的,如果发现某个目录爬取频率比较高,但是收录的内容少,这时候就要注意这个目录下页面(内容)的质量了,就算写不了原创,也要注意深度伪原创,千万不要大量采集。 Z' |; @: o2 @! q
2 ~( x$ ~9 ?$ k$ m5 {+ N 3、页面的抓取时间( J, O j4 \+ _/ f9 p$ w
7 ^# O0 w% J6 R 通过网站日志可以分析每个页面的抓取次数和抓取时间,从而了解蜘蛛的喜好和抓取规律,包括哪个时间点来的比较频繁,如果有新页面想要搜索引擎尽快收录,我们可以在搜索引擎蜘蛛爬取最频繁的页面上(如首页)加入新页面的入口,而且最好在蜘蛛来的最频繁的那个时间点之前添加好新的内容。/ F( G' s+ R1 |) K$ d* T% ^
4、页面状态码
% {* u: a/ r/ U+ e8 U( H8 r* \ http状态码,seo常见的有301,302和404,蜘蛛每爬取页面都会返回一个状态码,如果是200代表正常,如果是301说明这个页面是跳转页面,如果是302代表临时跳转,最重要的是404错误码,如果发现某个抓取返回的是404,我们要赶快诊断一下说明原因返回404(误删还是移走了),网站最好都设置一个404的页面,这样才对蜘蛛显得友好,遇到404的页面链接,百度站长工具有提交死链的工具,也去提交一下,让百度知道并处理。
0 V8 ^" R# |. ?! h1 V- q0 ?# Z* p0 D) _1 R5 S5 ]
其实分析网站日志很简单,看一遍就知道规律了,ip+时间+蜘蛛名+返回码+抓取目录,一条记录就这么多内容,没什么繁杂看不懂的。网上有一些日志分析的软件,看的更直观。
" q/ k( ?( n' Q
& F1 \2 p% d& k
# S( F( E9 c; p& c2 V7 p! @ |