引言: % w# X; V6 q7 ]3 Z( I
# j5 t2 r: q; n; w 1 ~, ]$ Y6 |) R' k$ W6 E( P
对于搜索引擎优化,很多seoer都没问题,但是把网站能优化到百度首页的却不多。经过最近一段时间的观察发现很多网站排名都处于中低端,排名不是太理想。
2 w; P0 o$ H3 w: H# ^1 M0 X1 h& {+ A" O1 f
0 n a% h* Y1 p1 Q. \2 i! ~ 那么百度搜索引擎的整个工作原理是怎样的呢?杭州SEO陈宝文来告诉大家。 ' Q# W5 W( V6 h! O( K8 y
3 G6 G* M( ?- w# [ ; g/ \$ e+ P, W5 k- O( X% W1 k; P+ ]
搜索引擎工作原理可分为四个部分:抓取、过滤、收录、和排序,对此我是这样认为的。
" _, j& J7 G. Y! A2 B
1 e q: S0 Z P* J 1 n: e/ \& ]3 e8 k
搜索引擎的整个搜索工作原理
" w. f/ a# v; A- `: r 9 W5 G) `% _, J, i4 x8 M* o$ b
, O) r+ W; G" A/ K: V
j$ x* |' e, Y/ T! n
一、抓取:
. t) X/ j; c: g& G2 X
* q) t2 e7 o B' y+ {' p- y
6 x8 [9 e w. V; `% E搜索引擎抓取程序蜘蛛可分为:百度蜘蛛(Baidu spider)、谷歌蜘蛛(Google spider)、360蜘蛛(360 spider)、雅虎蜘蛛(YAHOO spider)、搜狗蜘蛛(Sogou spider)等。
) g3 q$ \8 u' K# P+ H! N
2 _: G/ A4 {% l) A& D2 j
1 V, E& h N8 P 既然知道了各大搜索引擎的蜘蛛名称,那么怎样让蜘蛛来抓取我们的网站内容呢?可分为以下三点:
3 P2 [$ N4 N% ~0 u! Q; G! {$ ^+ A3 P _8 D4 G5 l% n7 F
6 d S4 }0 F$ A0 _7 G; `+ K% o
1、外部链接:外部链接分为发布外链的链接和友情链接两种,外链也是网站外部优化的唯一方式,高权重的外链站可以给网站起到催化提升排名得作用,友情链接注意高质量的,也可以给网站带来意想不到的排名; 9 v- g4 b4 n% U7 z
& {% q' I3 z/ u% [6 B" W3 f
/ C8 l" t/ i2 x6 M( ~# d 2、提交链接:提交链接主要是新站刚上线未收录的时候用,可以通过百度站长平台提交网站首页链接;
9 q" W) W! [- k# G8 e5 k; u5 `1 h
# Y) [0 Q+ K( k$ q1 t6 D% X & {0 `* e6 d, z9 H0 V8 i
3、让蜘蛛自己来:对于前两点可以起到一定的排名作用,但是单凭前两点也是不够得,那么怎样让蜘蛛自己来抓取我们的网站内容呢?毋庸置疑,网站的内容是否是高质量的、网站内部布局是否合理、是否有网站地图、服务器是否稳定等等都占有一定的因素。 - i0 o3 m* s4 q$ [
1 [' n- g/ @. l) I4 P
/ K% |) x t4 t* O4 w: y
当我们每天都在更新网站内容、发布外链的时候,那么怎样才能知道蜘蛛有没有来我们的网站抓取内容?
3 W, q* N" [+ Y' [8 o. O9 [; m, i; h5 p
% Y3 j0 E: L) G5 q3 B
6 W! h9 U; V, c7 m# G; z1 |
搜索引擎的整个搜索工作原理
% b% A- z! k3 i+ }1 D2 j" s
_/ _0 e3 f: c5 }
6 e. W' g; k- a! H( J( L( D5 M
+ B1 \& m: H9 |6 a; r. Z- f* } 其一、可以通过百度平台的抓取频率(见上图),只要每天有压力反馈,那么就代表蜘蛛有来过我们的网站,并且抓取了一部分内容,回收到百度数据库; / R( R- Y. f6 V0 L* R
( c7 K8 F. P' S* K9 a/ [ " D2 Z- i6 [2 o8 w0 S
其二,通过服务期日志,一般命名位log的文件就是网站服务器日志。通过服务期日志可以看出,哪些搜索引擎来过我们的网站,访客的IP,还有一点就是我们的网站被攻击挂马了,也可以通过log文件看出攻击我们网站人的IP以及篡改了哪些页面。
1 J) ]! T$ J9 Y7 |; ]
+ O D! u5 {2 x% A
# q6 T, H. l4 R$ U( O; ]; C 很多网站收录少或是排名上不来原因也在于蜘蛛的抓取因素,主要分为路径过长或是中文路径。 9 Z Q3 h4 [1 Q/ W7 V5 N
+ \0 ?2 d! |+ f9 [& n0 i; J1 C 1 F, b$ |+ `8 _5 i/ q4 C$ Y
路径过长就是一个网页的URL太过于长,超过64字节,那么后边的链接蜘蛛就无法抓取。如果是静态链接可能是网页的层次太深,这样搜索引擎会认为该页面不重要,从而可能影响网站收录;如果是动态链接,层次过深也不利于优化; 3 x. E6 P3 T" [3 O: }/ k! e, E0 ^
. A' o) u; }( d) ] _6 w$ B
% M; N6 l- a5 \2 X' B 另一种影响蜘蛛抓取的因素是中文路径,如果URL是中文路径,那么主机空间里的文件名称也是中文命名,由于很多空间不支持中文命名的文件,这样可能会导致网页加载缓慢、或是加载的URL乱码,从而导致搜索引擎识别不了。 * P" N: `1 ^* j/ G
: z- `8 V, q" W6 d$ L
$ f9 K8 O% e# r/ t
二、过滤: 8 z7 n* I# [$ s5 D, V+ r. Y2 I2 k
& h4 c' h* C' P4 q! F0 \; o " M# f$ O8 Z6 d+ N/ E7 M
搜索引擎为什么要过滤抓取的内容? / J9 m7 e2 j. F! L3 N( V0 Z
' v% x M F' H# F- d
" ^. X. f7 m# l# w 由于现在互联网快速的发展,同时网站数量的与日俱增,那么也就会出现大量的高重复内容、低质量文章,有的内容中还存在着大量的死链接,这一步搜索引擎就是将这些低质量的网页过滤掉,为用户提供有价值的内容。
/ H) {; T: `+ V1 N8 F& w& }9 E3 S6 J7 d# `
! P, b4 g2 I+ f! C 既然搜索引擎要过滤网站内容,那么影响过滤的因素有哪些呢? 9 [8 L6 E( \, x. n
; T: o: ^$ g6 F: F0 A. h3 `$ e
5 F3 x- R4 @; C: D; | 1、识别:搜索引擎抓取来的网页内容,有很多识别不了的,比如代码、图片、链接等等,所以我们就要对这一系列做出相应的解决措施,代码做到规范化、图片添加Alt属性、链接尽量使用静态(伪静态),不要出现中文路径的URL; 8 X S4 u4 ~, \' y1 j2 N/ ^5 I
& }" \4 M- k" W3 {0 ?) i
! i7 ]& H6 |8 ]: H# S 2、页面质量:很多站长都喜欢抄袭别人的内容,从而充实自己的网站,对于这一点搜索引擎刚开始是抓去收录了,但是隔一段时间就会把这些低质量的内容删除掉,所以也就造成网站排名不稳定、甚至下降。
" m1 \& o" R7 n* n0 g7 B' A- n! ]0 N1 j- s) ?
; E! m$ A5 l# W1 Q$ {5 R" X
三、收录: : E; Y8 d0 Y3 z+ }, q' o! F+ K7 P
9 [6 s! q {1 [( a # f' M" D; U9 z; \- }0 ~2 W
搜索引擎抓取了我们的网站内容,那么到底收录了多少网站内容呢? 7 `% C6 d1 A- i: j3 |
0 C* ~3 e" j! m. ]7 Z$ J
+ n8 m0 r C1 K: l( x) ~ 查询网站收录情况可以使用站长工具,但是站长工具只能作为参考,具体的可以使用site:指令,查看相关域,比如:site:seo论坛chenbaowenseo站长论坛(带www和不带www的收录是不同的),这个关乎到网站的首选域;另一种方法就是通过百度站长平台工具查询网站收录情况。
2 _- _$ w1 C! h5 _, G! G& S R' p w7 t+ A/ P8 c
; K) Q7 q2 L% ?% }8 J1 i" A2 q
很多网站收录少但又有很多网站收录较多这是什么原因? 2 o8 w2 [2 T% c% ` C
& K8 G( o% s8 k, U0 k1 _% `) y1 [% y( x
; \+ r7 U( x+ R5 R' } \
对于新站,刚开始收录少是很正常的,毕竟新站在百度眼里没有建立起信任、也没有权威,只要定时更新高质量的内容,和高质量的外部链接即可; ; S+ h6 i2 B2 y1 a9 X
5 [: b/ l$ V1 i# D, D( \1 [$ E& h + B& ^. \& s" Y1 J* }
对于老站,收录很少的网站有很多,一般一个网页超过一个半月没有收录,那么就要看一下网页内容质量是否偏低、文字是否太少等原因。 8 E& H9 J9 M. m/ H6 i
' {/ P- `( a4 b. J1 D& t1 o 9 I8 A' l+ H. i0 {/ a
百度蜘蛛将每个网站内容收进数据库,进行相应的关键词权重计算,这样已达成排名的效果。 & `4 B0 d P& i! ^& C# v) Q
. H: H" X- v% J- \ 5 {6 H- H9 I9 h' M/ z) w7 G
四、排序: % }; {! s: I" ? F3 w
9 v2 m& ^1 [" F. Q
/ {( t5 m' y$ f3 I网站的排名是建立在搜索引擎的基础优化上,百度将计算好的关键词权重排在百度页,就是大家经常关心的排名上升下降。 8 [' W# z0 A# `
想要做好关键词的排名就要做好以下几点: 5 |8 d7 o5 l6 m: K, Y
$ _8 I& T _$ U) c
b. k3 k! d1 a5 ^1 o; v 网站搭建布局、模板代码优化、URL链接静态、链接缩短、图文并茂、内容短句子、图片Alt属性、高权重的外部链接、高质量的友情链接,只要做好这些。然后就是循序渐进的更新网站内容、网站外链,排名就会慢慢的上来。
/ \7 D9 T+ P5 M4 J7 G$ B# B, y
2 u1 [* a/ m3 U% r 9 A7 j% M. I: x' F% I' n
总结: & P5 w5 v3 N& g1 r/ Z
/ E; o% Z& O* L2 k4 s% J4 ]1 b
3 W- c- L! V( {' C) J- C+ S. @对于做搜索引擎优化,在我自己看来主要就是坚持力、执行力、以及脑子要转到快,这样才不会在互联网的大潮中拍死。
- s* s+ P5 s3 _: D% N
6 Q+ a) z g& V' E: J; g& G& d$ ?0 t/ s2 h! B$ V
Z9 i2 m& w8 Z* p2 U% f& x' F
原文出处链接:http://SEO论坛chenbaowenseo站长论坛/96.html : W. o V: A4 P+ b* f* E% L
7 [" A( A6 q+ D! B2 c6 b. D5 k* n搜外论坛原创作者:chenbaowen
) U2 @3 a% j& b8 w4 g6 _8 k4 j1 ~
( K# \8 t3 i/ u! d- W+ N7 @, T: }8 C日期:2015—6—15 2 M& J8 t! C4 t4 `
' |4 E t/ i; v3 E 7 G% t) W3 u2 s( K
( m# v+ x- x. p! ?8 F1 [
|