引言: ' x$ B3 k3 B! k, {" s
4 g8 r& V" f5 h( P1 K" o
+ l2 v1 @' U J; D3 R 对于搜索引擎优化,很多seoer都没问题,但是把网站能优化到百度首页的却不多。经过最近一段时间的观察发现很多网站排名都处于中低端,排名不是太理想。 2 D9 i$ Y, E N/ @
$ i4 K0 \9 p J* V8 b! ~, w: B
j' _% O2 {# o: c5 m& s
那么百度搜索引擎的整个工作原理是怎样的呢?杭州SEO陈宝文来告诉大家。
) [( {9 Y! ?5 f! ^& U% O1 U3 b0 ]8 P
: F o- A" U8 w. J- `9 |; ?! L
搜索引擎工作原理可分为四个部分:抓取、过滤、收录、和排序,对此我是这样认为的。 / A+ F6 ?$ j5 L% G. X
7 p3 }; i% l6 c& T; O& p
8 u9 }, l5 p8 K3 p
搜索引擎的整个搜索工作原理
( V- Y5 _- e2 ~4 e) p3 a. b
: N* X8 M0 Y* \+ T: Z s$ p7 f1 i# D* M" ]! P$ e
+ v+ u; f7 z7 X! O/ |' L) s
一、抓取: F# @7 d# u! a& ^6 }; [
3 w/ ^5 g5 H! J3 l% g
% g; g. E# N6 b6 Q) m搜索引擎抓取程序蜘蛛可分为:百度蜘蛛(Baidu spider)、谷歌蜘蛛(Google spider)、360蜘蛛(360 spider)、雅虎蜘蛛(YAHOO spider)、搜狗蜘蛛(Sogou spider)等。
: L' i& O: A) f8 I8 n
+ i: s/ x1 ]- g- k; A; m9 U% N 6 [& v: T% P& j0 E
既然知道了各大搜索引擎的蜘蛛名称,那么怎样让蜘蛛来抓取我们的网站内容呢?可分为以下三点:
9 m( K2 Q, k$ m# M7 }5 i2 R6 M1 W' y7 K4 V! F* r7 D. U% S
7 P4 R/ S- S5 N. w0 R& P" k+ u ^
1、外部链接:外部链接分为发布外链的链接和友情链接两种,外链也是网站外部优化的唯一方式,高权重的外链站可以给网站起到催化提升排名得作用,友情链接注意高质量的,也可以给网站带来意想不到的排名;
; C/ ]) o: F9 w, d! t
2 J6 \3 l$ C' G- w$ v" i 3 g/ m/ L# y8 ^! G
2、提交链接:提交链接主要是新站刚上线未收录的时候用,可以通过百度站长平台提交网站首页链接; ( ^2 J: W2 ^1 Z. W& U8 N& [- A. W
& O3 n; [0 a3 e% A7 s' ]1 T 8 _2 J/ S1 j; v/ G: ]0 j
3、让蜘蛛自己来:对于前两点可以起到一定的排名作用,但是单凭前两点也是不够得,那么怎样让蜘蛛自己来抓取我们的网站内容呢?毋庸置疑,网站的内容是否是高质量的、网站内部布局是否合理、是否有网站地图、服务器是否稳定等等都占有一定的因素。
6 u9 D$ I# v* S! p+ v0 w1 C& d% v: t- B
: Q" n+ z6 x! b* v- [
当我们每天都在更新网站内容、发布外链的时候,那么怎样才能知道蜘蛛有没有来我们的网站抓取内容?
6 n. y; O% y1 u
. _6 n! _/ e. O 6 E; m2 \" z; X& l$ _& A6 x* ~. a" e
: ?. n# A, H, {$ m* A3 O0 T
搜索引擎的整个搜索工作原理
1 I/ F" k. B' l" L9 I, ^
0 L& o; q: _* R0 w4 L- H4 J3 P: {: c A
. G) `0 z0 q/ ?8 B( Y# m
其一、可以通过百度平台的抓取频率(见上图),只要每天有压力反馈,那么就代表蜘蛛有来过我们的网站,并且抓取了一部分内容,回收到百度数据库; 0 s* I; p6 m6 u6 O+ y2 }
. O+ {. z0 g% d9 |& u$ @
6 c9 s+ r6 J% ~
其二,通过服务期日志,一般命名位log的文件就是网站服务器日志。通过服务期日志可以看出,哪些搜索引擎来过我们的网站,访客的IP,还有一点就是我们的网站被攻击挂马了,也可以通过log文件看出攻击我们网站人的IP以及篡改了哪些页面。 : j4 Z" W5 y5 }' @3 f8 p
$ g9 Q3 m% a; R7 h) W* c
. F. k* A: J& }% Z5 e 很多网站收录少或是排名上不来原因也在于蜘蛛的抓取因素,主要分为路径过长或是中文路径。
) t( [: P2 a+ M/ q% c& U- k% _
: G x8 |8 H a$ s- ~" U: w' r: ^
" {9 Q8 G. s6 h, O 路径过长就是一个网页的URL太过于长,超过64字节,那么后边的链接蜘蛛就无法抓取。如果是静态链接可能是网页的层次太深,这样搜索引擎会认为该页面不重要,从而可能影响网站收录;如果是动态链接,层次过深也不利于优化; 4 B9 g9 [4 X p4 t
. R \! g8 p! R4 i0 X% z 3 ]7 X+ f9 N1 X+ D6 z
另一种影响蜘蛛抓取的因素是中文路径,如果URL是中文路径,那么主机空间里的文件名称也是中文命名,由于很多空间不支持中文命名的文件,这样可能会导致网页加载缓慢、或是加载的URL乱码,从而导致搜索引擎识别不了。 R) ?# X. I5 J( M) b
/ f+ j8 m8 j: N4 X, G' Z + o; U& W! c @' d( t+ ^ k8 K: v
二、过滤:
5 a0 s0 e! h# a# F
7 [: ]5 S# x2 ^+ S0 ~7 h. z 9 w' o, N5 G. w; d: l( X/ o1 W3 b) _
搜索引擎为什么要过滤抓取的内容?
+ X' B* N' m* i+ `. K! e5 j4 o+ G7 z" S$ y
& ^8 }2 C& S% n 由于现在互联网快速的发展,同时网站数量的与日俱增,那么也就会出现大量的高重复内容、低质量文章,有的内容中还存在着大量的死链接,这一步搜索引擎就是将这些低质量的网页过滤掉,为用户提供有价值的内容。
3 O7 O3 B9 _0 z1 Y. j5 V* W2 M ]
2 k, Q2 m7 B! O 4 x2 _; R2 G/ ~/ {
既然搜索引擎要过滤网站内容,那么影响过滤的因素有哪些呢?
' p! K. z( {! @0 g2 B+ u- e2 y. S; x) }9 P8 E5 k' y
9 s1 h" T; Z) R5 M6 I: B6 {
1、识别:搜索引擎抓取来的网页内容,有很多识别不了的,比如代码、图片、链接等等,所以我们就要对这一系列做出相应的解决措施,代码做到规范化、图片添加Alt属性、链接尽量使用静态(伪静态),不要出现中文路径的URL; # z& V7 l- W# t C
/ t" W( y* d! K0 N
) C) }$ h, ?" [: d, E6 O/ M 2、页面质量:很多站长都喜欢抄袭别人的内容,从而充实自己的网站,对于这一点搜索引擎刚开始是抓去收录了,但是隔一段时间就会把这些低质量的内容删除掉,所以也就造成网站排名不稳定、甚至下降。
n3 Z6 u, r& W: j r% G
5 K) s, C) n/ e; Y% I/ K! [1 R) a4 H
" ]; y( b+ t3 K2 q三、收录:
5 @" s- F j9 E r0 |, Z/ H; x: e; N- s& h
0 f. K% k- E8 y" K- P3 x$ {, w H
搜索引擎抓取了我们的网站内容,那么到底收录了多少网站内容呢? 8 C' X% R; z- L
7 ` V2 t/ [; X2 h 7 U, \) w' ]$ ]8 b6 s; Y
查询网站收录情况可以使用站长工具,但是站长工具只能作为参考,具体的可以使用site:指令,查看相关域,比如:site:seo论坛chenbaowenseo站长论坛(带www和不带www的收录是不同的),这个关乎到网站的首选域;另一种方法就是通过百度站长平台工具查询网站收录情况。 . E9 @1 P6 f. ?# |' \4 I
7 ~7 `% V. T+ _* e: f/ l0 B ' N$ j( z5 D7 t) q, o
很多网站收录少但又有很多网站收录较多这是什么原因?
: Z+ z* v0 X: Q+ D, p1 u+ ?% N& G, v& k8 N; A* R8 A
! S9 l$ q% B2 m8 z 对于新站,刚开始收录少是很正常的,毕竟新站在百度眼里没有建立起信任、也没有权威,只要定时更新高质量的内容,和高质量的外部链接即可; ! b3 V9 w. X) P% |. H, J
7 |8 ]6 `' D- P! b5 d
5 F4 d' G, ?0 j% P/ E! i5 [& I' z 对于老站,收录很少的网站有很多,一般一个网页超过一个半月没有收录,那么就要看一下网页内容质量是否偏低、文字是否太少等原因。 5 D, z# h& g) S) \- x
7 I% M6 M' g0 P7 v7 U: K
( z) B) Z6 w/ ^* T' s 百度蜘蛛将每个网站内容收进数据库,进行相应的关键词权重计算,这样已达成排名的效果。 * I, q3 N. D, f
; k4 [, M5 D; N6 U
# b+ S6 `3 q8 V1 B/ u; T4 l/ A四、排序: * ]9 G2 B/ }% |
4 T$ \4 |! G9 G4 g/ v! d# x
9 ]- r7 ^# i$ {6 M& V( i
网站的排名是建立在搜索引擎的基础优化上,百度将计算好的关键词权重排在百度页,就是大家经常关心的排名上升下降。 " G& a1 j, D/ T6 e+ {! Q9 p2 W6 u
想要做好关键词的排名就要做好以下几点:
8 ]9 q# n4 J9 l( h" L
5 B' l# j; a* U0 F) p0 r
7 G+ U$ R' h6 Y- V" j K- k 网站搭建布局、模板代码优化、URL链接静态、链接缩短、图文并茂、内容短句子、图片Alt属性、高权重的外部链接、高质量的友情链接,只要做好这些。然后就是循序渐进的更新网站内容、网站外链,排名就会慢慢的上来。 & U: L6 d) |9 K9 G
$ S: \8 b& r: Y& A ~7 j
% k9 R% w7 s. M1 E6 e i总结: ]( x. ^" e! C3 F4 b" C
' I3 A. Z" i3 f% {( {6 n0 i
* H4 ^+ f9 m, x, o对于做搜索引擎优化,在我自己看来主要就是坚持力、执行力、以及脑子要转到快,这样才不会在互联网的大潮中拍死。 & A e2 P8 f8 u& X$ ?0 D
5 J$ w+ S) t7 y+ e( {5 L
: _- g, c$ S6 p9 ]3 v9 F0 ~
$ a/ M0 C6 n+ A9 O
原文出处链接:http://SEO论坛chenbaowenseo站长论坛/96.html
~& a J: }% E& j4 c& Q
! X$ ?. d7 Q$ ?) A3 O搜外论坛原创作者:chenbaowen
. |$ i, a5 Z5 h% i8 e# y
" F% |% I( R1 t' i! z* {% c9 X日期:2015—6—15 ; y# g8 Y/ \% P, G( U
y6 v. l4 H+ R$ l; s0 Y
7 s2 S0 Y: O% G P
\6 j; ~( I& w |