|
引言:
`8 ^. @& X7 x- K: `
' J1 z2 `: e8 J( D
1 w a( _1 g: X: d4 Y' y 对于搜索引擎优化,很多seoer都没问题,但是把网站能优化到百度首页的却不多。经过最近一段时间的观察发现很多网站排名都处于中低端,排名不是太理想。
! \! v' @1 G" I% ]% L; A, x
f" x+ s: ^$ L% G' W5 F6 j. t
1 U! h* p% s# I9 g/ P- N* k9 ? 那么百度搜索引擎的整个工作原理是怎样的呢?杭州SEO陈宝文来告诉大家。
8 n: J" {6 X+ L+ ~
- k' r; O3 ~! r+ z
( p1 R8 y# f' T& ^# C f# M 搜索引擎工作原理可分为四个部分:抓取、过滤、收录、和排序,对此我是这样认为的。 9 M4 _8 L, W9 B8 G$ B$ e
8 Y5 [% | c9 Q( \7 K
" V4 t! ~1 O0 L
搜索引擎的整个搜索工作原理
4 O* J3 q5 m4 ^8 L" E
; @$ `( l& a( w
, P1 _" d# h9 i 6 n9 s2 O' ~0 z' o
一、抓取: ; L- q2 I) z$ c/ p) J
( d' I" h1 j- m( |. ~ 9 w6 ^9 @2 r9 G) G& o- n1 A! N
搜索引擎抓取程序蜘蛛可分为:百度蜘蛛(Baidu spider)、谷歌蜘蛛(Google spider)、360蜘蛛(360 spider)、雅虎蜘蛛(YAHOO spider)、搜狗蜘蛛(Sogou spider)等。
1 H" @% ?' \7 S4 r& b5 R
q* I/ d2 C6 T3 V; G7 D 1 N9 }8 H) ~ X8 I
既然知道了各大搜索引擎的蜘蛛名称,那么怎样让蜘蛛来抓取我们的网站内容呢?可分为以下三点:
6 a8 q, T0 t' u0 s8 u
% K! \* |1 _; Y" D! v4 b
+ z: Q/ T1 U+ S( o8 \9 B 1、外部链接:外部链接分为发布外链的链接和友情链接两种,外链也是网站外部优化的唯一方式,高权重的外链站可以给网站起到催化提升排名得作用,友情链接注意高质量的,也可以给网站带来意想不到的排名;
; m4 b3 n# ~: n
+ W4 v5 G! `2 a( ~" f( k & {* ~- ]2 {( R/ _1 R% b' j
2、提交链接:提交链接主要是新站刚上线未收录的时候用,可以通过百度站长平台提交网站首页链接; 8 m8 | U/ Z/ @" K! P+ o
" e: F: r; ]2 @, p+ f! S, l7 M- j: X ; h4 L: S3 V) i1 m" Q* D5 P4 }6 N
3、让蜘蛛自己来:对于前两点可以起到一定的排名作用,但是单凭前两点也是不够得,那么怎样让蜘蛛自己来抓取我们的网站内容呢?毋庸置疑,网站的内容是否是高质量的、网站内部布局是否合理、是否有网站地图、服务器是否稳定等等都占有一定的因素。 ' c' q5 J; e7 W# B" E. _
6 N; O3 i) I8 Y( N% X
& C: B" S7 B* Z5 K* j" `
当我们每天都在更新网站内容、发布外链的时候,那么怎样才能知道蜘蛛有没有来我们的网站抓取内容? - Q" J# A& G7 N$ L9 @# z' F
" J0 y& u* _% S( Y0 @" j& S) L2 M
4 ]1 i, k" I9 w$ r$ c* S6 h* x m3 d/ r% Z3 K
搜索引擎的整个搜索工作原理
; i# A: U. R! Z: ~0 c. Q
2 T/ W- q {3 j# u& n( P: l0 w) G! L& X7 Y" y7 @ |/ B
/ d- b. u8 a% J: ]8 ] 其一、可以通过百度平台的抓取频率(见上图),只要每天有压力反馈,那么就代表蜘蛛有来过我们的网站,并且抓取了一部分内容,回收到百度数据库; 5 }2 n& D4 v1 W. @5 J& J' U. _5 d8 |
. w0 w# _* r& _; h & G* Z7 E" s3 e
其二,通过服务期日志,一般命名位log的文件就是网站服务器日志。通过服务期日志可以看出,哪些搜索引擎来过我们的网站,访客的IP,还有一点就是我们的网站被攻击挂马了,也可以通过log文件看出攻击我们网站人的IP以及篡改了哪些页面。 9 i. w r% H- i* ~8 u8 A
2 A4 `# A3 ]* i7 z3 I
# \8 ~: ~ t0 X; J; K6 { 很多网站收录少或是排名上不来原因也在于蜘蛛的抓取因素,主要分为路径过长或是中文路径。 * n7 D) R3 R) }" s* N+ Y$ p
- r' W' f4 i, X& I8 n5 I% E& C
l, x5 s' q, N/ J' G0 J 路径过长就是一个网页的URL太过于长,超过64字节,那么后边的链接蜘蛛就无法抓取。如果是静态链接可能是网页的层次太深,这样搜索引擎会认为该页面不重要,从而可能影响网站收录;如果是动态链接,层次过深也不利于优化; ( _& K4 w, p: J$ X
* t! u2 D9 J: s, \2 q
/ A% h1 A5 ]1 f. P
另一种影响蜘蛛抓取的因素是中文路径,如果URL是中文路径,那么主机空间里的文件名称也是中文命名,由于很多空间不支持中文命名的文件,这样可能会导致网页加载缓慢、或是加载的URL乱码,从而导致搜索引擎识别不了。
( d# L4 @1 t" y. U2 V* z) V n6 b" \+ y( W" w6 g) t* \
9 c7 v0 g4 y" ~3 l2 M; T6 E0 K
二、过滤:
. e- M7 t1 x% u$ J
$ r6 y; F4 ^9 J : \& J+ l0 J2 Q! m1 I7 D) z
搜索引擎为什么要过滤抓取的内容?
4 ~1 I3 X7 v& g( w" V2 Z
, A5 z- }) Z! k' |3 X# {/ \
$ Z& P% V& g/ b6 M g8 m 由于现在互联网快速的发展,同时网站数量的与日俱增,那么也就会出现大量的高重复内容、低质量文章,有的内容中还存在着大量的死链接,这一步搜索引擎就是将这些低质量的网页过滤掉,为用户提供有价值的内容。
$ o! m2 F1 a+ p, P$ j/ S( o$ o( O! m; Q/ [/ n
9 E. {0 P1 |8 n
既然搜索引擎要过滤网站内容,那么影响过滤的因素有哪些呢? * \% u8 O1 d2 w+ R/ [# Q- {- q
3 o! a* O2 h O5 s 7 Z |( I: b/ |8 J( e
1、识别:搜索引擎抓取来的网页内容,有很多识别不了的,比如代码、图片、链接等等,所以我们就要对这一系列做出相应的解决措施,代码做到规范化、图片添加Alt属性、链接尽量使用静态(伪静态),不要出现中文路径的URL;
6 V% J/ {8 n: J5 Q) f7 r" t/ ]2 K/ Z, H
; b* {3 i7 ~1 p% m 2、页面质量:很多站长都喜欢抄袭别人的内容,从而充实自己的网站,对于这一点搜索引擎刚开始是抓去收录了,但是隔一段时间就会把这些低质量的内容删除掉,所以也就造成网站排名不稳定、甚至下降。
' N9 t2 B: s- ?0 M; f1 W' L+ D# |1 Y; r; G- b
! G- `- L, V$ y Y( `4 j# n* R9 U
三、收录: 4 @9 H; H* K! p0 e
* N1 R5 m/ N9 s K; R0 V, Y 7 g% a; J# b ^* c) ^' [
搜索引擎抓取了我们的网站内容,那么到底收录了多少网站内容呢? 7 ~2 ]# E9 A* Q, a2 b8 I5 a7 W
" r+ _6 I- r: V& r/ ]
! N& Y# |8 R/ V. n! i6 R5 }" {( D 查询网站收录情况可以使用站长工具,但是站长工具只能作为参考,具体的可以使用site:指令,查看相关域,比如:site:seo论坛chenbaowenseo站长论坛(带www和不带www的收录是不同的),这个关乎到网站的首选域;另一种方法就是通过百度站长平台工具查询网站收录情况。 4 w+ g" f7 z/ F! H( M% x; S
% Z/ M+ C+ Y' `- G M
% |% f$ q0 F/ U- w& B
很多网站收录少但又有很多网站收录较多这是什么原因? . [( e2 T4 K5 m
- {& Y8 p, K8 A9 E; _: {
, F: |8 l) J( b* h$ a
对于新站,刚开始收录少是很正常的,毕竟新站在百度眼里没有建立起信任、也没有权威,只要定时更新高质量的内容,和高质量的外部链接即可;
. M p7 l5 v+ G7 {
. F7 `: d; S' h0 _5 w$ W# C
) u* ~+ H7 Y5 I1 u 对于老站,收录很少的网站有很多,一般一个网页超过一个半月没有收录,那么就要看一下网页内容质量是否偏低、文字是否太少等原因。
% `4 ]' a g5 j3 B) Q9 i$ ?& f$ i. y, r! }
( z# K+ }) m( | 百度蜘蛛将每个网站内容收进数据库,进行相应的关键词权重计算,这样已达成排名的效果。 / E1 {* y; l# M9 ^
: t% T a4 k9 u7 w) r
$ C. o- X: F& E6 y四、排序: ) \# I7 a! s$ L
" `3 q; V; D6 V% ~ F6 ^2 U
' R. L/ v4 K9 k3 {4 b- E' a2 }. B
网站的排名是建立在搜索引擎的基础优化上,百度将计算好的关键词权重排在百度页,就是大家经常关心的排名上升下降。
1 k* v6 ~+ D2 N$ A: W 想要做好关键词的排名就要做好以下几点:
; d0 l$ o( z; W
3 R: `/ M0 o( q' Z 2 l x7 m& N; W4 o1 [; e$ q% m0 c- f
网站搭建布局、模板代码优化、URL链接静态、链接缩短、图文并茂、内容短句子、图片Alt属性、高权重的外部链接、高质量的友情链接,只要做好这些。然后就是循序渐进的更新网站内容、网站外链,排名就会慢慢的上来。 " Y( p6 W" B* Z5 K
& ?: m1 Z1 w/ y/ w# o8 N - d, _) C1 u( q4 ]( I# |
总结:
8 s1 L5 a% Q# E
2 V( j! K# V) I& X: i6 d
. @- i; w0 M8 D: m1 Q对于做搜索引擎优化,在我自己看来主要就是坚持力、执行力、以及脑子要转到快,这样才不会在互联网的大潮中拍死。
0 |6 m) U+ ~" ^9 t1 E9 M3 g0 v- E
: {3 B! d3 F' N. ]' F0 u% w: U
: y6 E5 d: J8 P& O% l( F$ J原文出处链接:http://SEO论坛chenbaowenseo站长论坛/96.html $ C6 Z% W" C& w! @6 E$ p; _
- o, q7 h3 F) R' p" \7 F0 Y搜外论坛原创作者:chenbaowen
8 j/ G; v; W, ]; A6 {4 i f, q
3 x& y: X6 m, _; M- S日期:2015—6—15
. F6 v$ z4 A8 D) a3 ]+ V" ?
: i2 g4 Q- r9 S# J: _2 _
3 d9 @+ {# ~3 V* t j1 z% ^! \. s) Z3 c% T
|