引言: : y4 f: W% _ u. n
5 s" M+ H) T; U) L 1 W/ l( W# F K
对于搜索引擎优化,很多seoer都没问题,但是把网站能优化到百度首页的却不多。经过最近一段时间的观察发现很多网站排名都处于中低端,排名不是太理想。 ) { s/ c$ U4 p+ k- r, Q( ]
c L9 E* U: I. t6 a. @2 S
# d9 i& P( ?1 |5 S: t+ a$ w: t
那么百度搜索引擎的整个工作原理是怎样的呢?杭州SEO陈宝文来告诉大家。
/ |4 z( O9 o4 b# R, s8 X+ ]# q* ` H$ P& G( c1 f! `
7 Z7 T* B0 c! p" F
搜索引擎工作原理可分为四个部分:抓取、过滤、收录、和排序,对此我是这样认为的。
$ @& F& y3 i) j% e1 y$ f( t3 B' b# c8 x" g5 v( b, X: w
i( u6 y5 L3 }5 |, ^2 [% [
搜索引擎的整个搜索工作原理
% M S" @ z' F& a2 S
, f* o6 M! L6 w- q9 J& @' q
2 @/ K. g8 w- }) X
8 E# y" u3 R& T" c) X9 }3 S一、抓取: 9 M5 C# v: b, p" [ R
7 \7 R+ H; N" V, p
3 p, g" W. W' n3 c" G
搜索引擎抓取程序蜘蛛可分为:百度蜘蛛(Baidu spider)、谷歌蜘蛛(Google spider)、360蜘蛛(360 spider)、雅虎蜘蛛(YAHOO spider)、搜狗蜘蛛(Sogou spider)等。 ' c9 f3 Z/ N$ F
& W6 _: y2 h/ G1 Z1 d
& k* a2 c- b3 `1 A* J0 X' W
既然知道了各大搜索引擎的蜘蛛名称,那么怎样让蜘蛛来抓取我们的网站内容呢?可分为以下三点:
5 W, Z0 F b, S: s* q+ D; y6 p* W) Z" h6 R: Y. N; e
9 X6 A8 h. m% u' N \ 1、外部链接:外部链接分为发布外链的链接和友情链接两种,外链也是网站外部优化的唯一方式,高权重的外链站可以给网站起到催化提升排名得作用,友情链接注意高质量的,也可以给网站带来意想不到的排名;
+ M |( Z, @- a: |6 O; y: y7 e2 N$ G3 r* C; [/ [4 Y# R
! B! w1 \/ Y- c" `3 a
2、提交链接:提交链接主要是新站刚上线未收录的时候用,可以通过百度站长平台提交网站首页链接; $ P+ a- b% L/ j3 O; ?
; C) _$ {5 W7 j5 f J0 z1 `$ f
1 |1 z( f# q, E6 Y1 J 3、让蜘蛛自己来:对于前两点可以起到一定的排名作用,但是单凭前两点也是不够得,那么怎样让蜘蛛自己来抓取我们的网站内容呢?毋庸置疑,网站的内容是否是高质量的、网站内部布局是否合理、是否有网站地图、服务器是否稳定等等都占有一定的因素。 9 x2 f: @3 |: Z4 }* w3 r/ \
9 m' v# _$ T" ]" j* ] M
# G9 y% ]) X, m H 当我们每天都在更新网站内容、发布外链的时候,那么怎样才能知道蜘蛛有没有来我们的网站抓取内容?
* o$ l" x1 Q/ u E0 L
) V! f8 k3 x5 G& z& } ) ? R }3 Y: ^; r
' Q9 s ]/ }- ~3 i
搜索引擎的整个搜索工作原理
% k: @/ b# h0 ~; F) T
4 V- n4 i* H1 \% t& |8 |+ j( t
8 [6 Y( @8 h7 N3 C( k
8 i; I1 Y& p! g8 W 其一、可以通过百度平台的抓取频率(见上图),只要每天有压力反馈,那么就代表蜘蛛有来过我们的网站,并且抓取了一部分内容,回收到百度数据库;
8 E5 T6 K9 k$ {2 w6 O3 R
* M& Q* A2 A+ E, m' P1 r$ l7 W. L G, @
2 T. j _% ~8 _& ~+ }' k; ^ 其二,通过服务期日志,一般命名位log的文件就是网站服务器日志。通过服务期日志可以看出,哪些搜索引擎来过我们的网站,访客的IP,还有一点就是我们的网站被攻击挂马了,也可以通过log文件看出攻击我们网站人的IP以及篡改了哪些页面。
* V% H @/ C$ ]9 {, F8 l$ q5 t. L% ~/ ^" D* t( G$ S% H9 U$ z2 f/ K
+ L+ o: w1 g9 Y7 u
很多网站收录少或是排名上不来原因也在于蜘蛛的抓取因素,主要分为路径过长或是中文路径。
6 w& ^& `; g+ E; F8 U( \' E" V8 e; ^+ s
& R. P* q4 @/ ?0 ? 路径过长就是一个网页的URL太过于长,超过64字节,那么后边的链接蜘蛛就无法抓取。如果是静态链接可能是网页的层次太深,这样搜索引擎会认为该页面不重要,从而可能影响网站收录;如果是动态链接,层次过深也不利于优化;
o2 q# W) ~% b4 b: z5 `6 s2 N2 `* ~
: k3 q2 g( P( S1 P
& p* q1 Q8 [9 U2 E% j0 @/ f 另一种影响蜘蛛抓取的因素是中文路径,如果URL是中文路径,那么主机空间里的文件名称也是中文命名,由于很多空间不支持中文命名的文件,这样可能会导致网页加载缓慢、或是加载的URL乱码,从而导致搜索引擎识别不了。 9 m+ \! h2 I' w, V+ ]. O! J
: a6 U9 C i8 s0 G" C
5 V( C2 q5 k" B5 T+ h' S二、过滤: 2 |/ Y& J' h9 M7 U' \! w
, }! X% O) I$ a8 J3 V1 h3 {" D
8 H+ @/ ^4 S, ]1 n" D; ^: | 搜索引擎为什么要过滤抓取的内容?
9 A& h# N+ n2 ^- v4 K) o( W* w9 f5 Z. `) g2 |9 w1 v% r
7 V; S. x- i6 W" j( ~3 f/ Y& T 由于现在互联网快速的发展,同时网站数量的与日俱增,那么也就会出现大量的高重复内容、低质量文章,有的内容中还存在着大量的死链接,这一步搜索引擎就是将这些低质量的网页过滤掉,为用户提供有价值的内容。 ! N- s. E4 s: m2 }
2 W2 a8 u8 U9 R/ q. @: O2 D
" B. E+ _7 Q5 ^% A1 X3 C4 R1 c 既然搜索引擎要过滤网站内容,那么影响过滤的因素有哪些呢?
' c$ d) I! }- P- y9 s8 i
, f- q7 T U3 N- Y D4 o
7 {6 F7 H+ Y) c. ~2 C0 x 1、识别:搜索引擎抓取来的网页内容,有很多识别不了的,比如代码、图片、链接等等,所以我们就要对这一系列做出相应的解决措施,代码做到规范化、图片添加Alt属性、链接尽量使用静态(伪静态),不要出现中文路径的URL; % b: G" ?% A$ o* g
, E" K3 g) I1 C6 L3 K
5 S7 N) o4 O. e8 \3 Y4 ~
2、页面质量:很多站长都喜欢抄袭别人的内容,从而充实自己的网站,对于这一点搜索引擎刚开始是抓去收录了,但是隔一段时间就会把这些低质量的内容删除掉,所以也就造成网站排名不稳定、甚至下降。 9 o" a8 J; T& n( O7 T
8 i& H6 x8 c) X- E
4 X& M- a/ R7 T% a6 g三、收录: 1 S" a. |+ X: M) y6 `! p
8 _7 \& Q! Y* a& L) G
0 K+ ]. t1 M3 \1 f9 n
搜索引擎抓取了我们的网站内容,那么到底收录了多少网站内容呢?
& Y4 p+ y. a/ L5 q- J& `; A! U) s5 h
& Y1 e: ^/ E4 E' n K) G
查询网站收录情况可以使用站长工具,但是站长工具只能作为参考,具体的可以使用site:指令,查看相关域,比如:site:seo论坛chenbaowenseo站长论坛(带www和不带www的收录是不同的),这个关乎到网站的首选域;另一种方法就是通过百度站长平台工具查询网站收录情况。
4 `/ X; Y3 B1 u
. m t; C5 I& F" T6 _
2 P# n: A+ \9 y4 a: X1 x 很多网站收录少但又有很多网站收录较多这是什么原因?
1 V+ a3 m; X6 F; B1 \5 o/ n w$ F
- i- H; B+ n9 [3 R
8 x+ y$ M" R8 P2 Q5 \ 对于新站,刚开始收录少是很正常的,毕竟新站在百度眼里没有建立起信任、也没有权威,只要定时更新高质量的内容,和高质量的外部链接即可; 9 M, W: M8 h+ {0 G5 C. p
( W( s9 b+ ]2 p4 L+ V w; n 7 B4 G _: z7 Q! X
对于老站,收录很少的网站有很多,一般一个网页超过一个半月没有收录,那么就要看一下网页内容质量是否偏低、文字是否太少等原因。
# t. G, i9 @3 F% Q0 \3 x
: N, s0 V* e9 e$ t8 y) p% u2 I) A
5 M& `+ t- M8 M; y& L | 百度蜘蛛将每个网站内容收进数据库,进行相应的关键词权重计算,这样已达成排名的效果。 0 ~5 l& a2 N' [1 K
" [/ f& \2 P' K
n" w3 b$ D6 c四、排序: 0 f' B: Q" }& T) I0 c: k+ A* A
9 E( Y+ S! F% a- D + x' _# R( z" Z+ S4 C
网站的排名是建立在搜索引擎的基础优化上,百度将计算好的关键词权重排在百度页,就是大家经常关心的排名上升下降。 % L o& j* E' ]+ _+ O
想要做好关键词的排名就要做好以下几点:
( P1 C. R \ E9 _) f* N) C* `
) F+ L* f9 B& u- Y1 E4 s6 q/ Z) { I( H5 S9 I- {8 Y# i- ^ J6 G
网站搭建布局、模板代码优化、URL链接静态、链接缩短、图文并茂、内容短句子、图片Alt属性、高权重的外部链接、高质量的友情链接,只要做好这些。然后就是循序渐进的更新网站内容、网站外链,排名就会慢慢的上来。
$ D/ O% ?. t1 j) i! o- |. J1 Z1 S( c- ?6 ?* C& x. P& h
- ~0 R3 C9 u7 X; s总结:
; l- y0 Y- [" A# ?1 r: E8 Z/ J0 G y7 f# N* |9 C
2 \( X1 e! z1 i% d4 H) K$ | T2 V
对于做搜索引擎优化,在我自己看来主要就是坚持力、执行力、以及脑子要转到快,这样才不会在互联网的大潮中拍死。 % I8 a( S/ H. s4 F3 _2 j
& k" k+ q3 x0 x/ S$ |3 e5 E; O3 A2 c: L. X, `. W' l. `' O5 G
$ i. U7 r7 q- Q. u4 Q, z
原文出处链接:http://SEO论坛chenbaowenseo站长论坛/96.html
8 O& t" L% |) L" f1 j% ~# ~. C- F' A% e
搜外论坛原创作者:chenbaowen ; N6 U' S9 n' q# ^$ A( v& H0 k7 j4 v
& `7 O9 i% D: u6 k6 o" {0 w日期:2015—6—15 8 j$ j8 i! k, V
u* W) P& n l3 {1 c _5 U
Q5 G& ~# e$ @0 G! ~' x0 a, l& C- j% r- O' F' k- F
|