引言:
5 z7 D# y& w; {+ P6 j, V# Q1 O0 O$ p* ]
2 I9 C" n2 q) h0 x 对于搜索引擎优化,很多seoer都没问题,但是把网站能优化到百度首页的却不多。经过最近一段时间的观察发现很多网站排名都处于中低端,排名不是太理想。
9 F( h: B) d7 O" B1 ]( N8 _: B4 i6 |( C% }
* l5 `5 y1 L" U0 R5 p( v 那么百度搜索引擎的整个工作原理是怎样的呢?杭州SEO陈宝文来告诉大家。
+ t4 `. ]" f& O
7 R0 d1 y" t. h- F& Z, \ 1 X; w' Y9 d6 U w6 c
搜索引擎工作原理可分为四个部分:抓取、过滤、收录、和排序,对此我是这样认为的。 ' ]" W \4 s8 x5 N0 X& ?* Y
4 H2 X# p2 ?( X* }- I+ y # b8 w' B& x( d& y1 n
搜索引擎的整个搜索工作原理
- \& L* f! ~' p1 e * \5 `3 r7 C; V* Q; \8 s- O
" `; \! F% N5 K3 h( b" g
" t+ {- |* s# k. e. I R+ s一、抓取: # B4 t4 `5 B4 l) K5 [. ?& l
$ [- P3 [7 S! \( C' f( x0 B ) u. [# @2 [1 I1 d/ f9 X
搜索引擎抓取程序蜘蛛可分为:百度蜘蛛(Baidu spider)、谷歌蜘蛛(Google spider)、360蜘蛛(360 spider)、雅虎蜘蛛(YAHOO spider)、搜狗蜘蛛(Sogou spider)等。
- x' ]8 O4 n- E6 ]0 K2 K& H7 P; O0 V2 g5 K+ \3 Q h* Z/ V
# @) ^( n% E a 既然知道了各大搜索引擎的蜘蛛名称,那么怎样让蜘蛛来抓取我们的网站内容呢?可分为以下三点: ; R& r; H# j- Q' d; K0 S6 t ^
1 R3 T' c! M8 s! [9 e% X# Q
) e6 I6 ^# @. e7 E* z% ?
1、外部链接:外部链接分为发布外链的链接和友情链接两种,外链也是网站外部优化的唯一方式,高权重的外链站可以给网站起到催化提升排名得作用,友情链接注意高质量的,也可以给网站带来意想不到的排名; ) J8 B7 @3 C2 x( X& `: O2 }+ a' _
5 ^5 d0 C0 \" o' V# _
1 C7 N: q9 s9 A7 D2 M
2、提交链接:提交链接主要是新站刚上线未收录的时候用,可以通过百度站长平台提交网站首页链接;
/ i% v) P9 U" K9 _- E6 }
, G9 W8 h3 O( }/ V1 Q: v- ^
/ ?5 ~- C5 Y, T. y' I% ^: R( o: T4 S% Y 3、让蜘蛛自己来:对于前两点可以起到一定的排名作用,但是单凭前两点也是不够得,那么怎样让蜘蛛自己来抓取我们的网站内容呢?毋庸置疑,网站的内容是否是高质量的、网站内部布局是否合理、是否有网站地图、服务器是否稳定等等都占有一定的因素。 : H, G! H; e/ H9 ]: v! M
4 M0 [0 i ~9 x! P; P) |, o
7 y( w- r- a/ ^
当我们每天都在更新网站内容、发布外链的时候,那么怎样才能知道蜘蛛有没有来我们的网站抓取内容?
- k* O% m {7 w$ z4 h: K+ J' t/ ]' a: k# V$ [8 l& Z& q
# N ?, `6 p9 l6 L% Y( O
1 `9 X3 [- b# ]- o/ x
搜索引擎的整个搜索工作原理
9 d4 ~! o/ S0 W6 ]3 U- } % W3 `. c5 s! P$ }& \1 V8 U
( V2 o9 \) d/ u) H1 r& _* M 3 Y8 l5 J! [/ o
其一、可以通过百度平台的抓取频率(见上图),只要每天有压力反馈,那么就代表蜘蛛有来过我们的网站,并且抓取了一部分内容,回收到百度数据库;
- m m8 T4 u- e# {$ o" V) y; d$ V0 a8 `
" `, P; }2 t) ~ 其二,通过服务期日志,一般命名位log的文件就是网站服务器日志。通过服务期日志可以看出,哪些搜索引擎来过我们的网站,访客的IP,还有一点就是我们的网站被攻击挂马了,也可以通过log文件看出攻击我们网站人的IP以及篡改了哪些页面。
% s+ O/ E1 q8 E+ b! d7 }. R
* I0 Q- u/ I7 x0 c7 | 2 u9 Y6 {* h" @2 R
很多网站收录少或是排名上不来原因也在于蜘蛛的抓取因素,主要分为路径过长或是中文路径。 / c/ ]0 a1 j; E: Y+ ~, S! m: \
4 p! F: r) _% [& Y, X. @" y6 `
. O/ G) w1 q- J 路径过长就是一个网页的URL太过于长,超过64字节,那么后边的链接蜘蛛就无法抓取。如果是静态链接可能是网页的层次太深,这样搜索引擎会认为该页面不重要,从而可能影响网站收录;如果是动态链接,层次过深也不利于优化; 3 @( c0 _; h( J J' E* z
+ w( A, }9 i, Z3 }1 e+ B
2 N* R& X, t; h 另一种影响蜘蛛抓取的因素是中文路径,如果URL是中文路径,那么主机空间里的文件名称也是中文命名,由于很多空间不支持中文命名的文件,这样可能会导致网页加载缓慢、或是加载的URL乱码,从而导致搜索引擎识别不了。
5 R7 B4 M3 `8 B" ~
: w5 P' b" u, \" P
/ I% Q4 C# Q: Q8 S二、过滤:
& \# X j# t4 ~: e/ f9 C6 `
+ I o5 `4 A6 i7 L( O# B- P' `, A
0 r/ [) N& e# i) V) c" X. Q2 {; E 搜索引擎为什么要过滤抓取的内容? $ ~/ O9 T- ~: S# ^. V, s/ @
" y) k) o3 l2 C& {
2 W/ M$ I6 a0 Z: ~
由于现在互联网快速的发展,同时网站数量的与日俱增,那么也就会出现大量的高重复内容、低质量文章,有的内容中还存在着大量的死链接,这一步搜索引擎就是将这些低质量的网页过滤掉,为用户提供有价值的内容。
$ @/ s0 p8 A5 p- W! `+ f1 ?, z$ l3 ~0 q& D2 h( o
+ g( x. ?+ h$ h$ e" g C3 N1 f/ n 既然搜索引擎要过滤网站内容,那么影响过滤的因素有哪些呢?
+ W) i3 W% M3 ?: d8 I8 u) l) e' t1 o& u9 d' h' ^, D
9 i ?% k- q9 g 1、识别:搜索引擎抓取来的网页内容,有很多识别不了的,比如代码、图片、链接等等,所以我们就要对这一系列做出相应的解决措施,代码做到规范化、图片添加Alt属性、链接尽量使用静态(伪静态),不要出现中文路径的URL; 8 G; Y& t5 P# R+ ]
9 K$ D& X1 c1 H3 g: z
6 |: W o; z& r* [: T4 S# j, Y% H/ b* I 2、页面质量:很多站长都喜欢抄袭别人的内容,从而充实自己的网站,对于这一点搜索引擎刚开始是抓去收录了,但是隔一段时间就会把这些低质量的内容删除掉,所以也就造成网站排名不稳定、甚至下降。
8 r, o; R- D. g% ]: p* D3 `2 S. e5 i
0 T- @6 r3 b) ?9 x& E4 |2 E
三、收录: 5 ~. F* s- K8 S" j o3 }" w4 E" ^
. \! h% k5 G6 m- M9 g- n
# y- k: t1 f: @
搜索引擎抓取了我们的网站内容,那么到底收录了多少网站内容呢?
# o1 h @4 J+ m8 A: U8 Y. n) M+ [2 O& D
" @( C) ]& H& W3 N0 i7 a* e @; @. a
查询网站收录情况可以使用站长工具,但是站长工具只能作为参考,具体的可以使用site:指令,查看相关域,比如:site:seo论坛chenbaowenseo站长论坛(带www和不带www的收录是不同的),这个关乎到网站的首选域;另一种方法就是通过百度站长平台工具查询网站收录情况。
# @& e ~5 b3 A% q# I" o. Q" w9 S2 l; P C3 W
8 X- b/ s5 H- O3 a8 f/ N
很多网站收录少但又有很多网站收录较多这是什么原因? 9 G& \4 u2 R5 |' b* H# [
/ Z8 K/ ?9 a) h0 P( a7 e4 Q
. R' S# L4 c7 j0 x% x9 a. M: Y 对于新站,刚开始收录少是很正常的,毕竟新站在百度眼里没有建立起信任、也没有权威,只要定时更新高质量的内容,和高质量的外部链接即可; $ O8 W U4 j: P6 c
# w( G8 \: x8 a
7 Z' V5 i9 [) y) M 对于老站,收录很少的网站有很多,一般一个网页超过一个半月没有收录,那么就要看一下网页内容质量是否偏低、文字是否太少等原因。 # R7 u8 |6 y# b8 G3 @
& A- ?' C% P7 { N: d+ y' c V T, }3 `+ L2 P6 K/ n$ H
百度蜘蛛将每个网站内容收进数据库,进行相应的关键词权重计算,这样已达成排名的效果。
% {% z. q$ @* R( s8 { D& s/ m- W! o* ~) D/ t2 T7 X; @- K
9 }$ j0 o) p J( E四、排序:
/ m5 B7 g) S2 p) J
- a0 T0 n4 l7 o
( ^0 L* k3 P5 n- f7 H网站的排名是建立在搜索引擎的基础优化上,百度将计算好的关键词权重排在百度页,就是大家经常关心的排名上升下降。
: Z8 M" Q1 f. @. x 想要做好关键词的排名就要做好以下几点:
* r6 w/ y9 J( t+ q) q! r8 h9 y# _: O' s: v+ Q5 [
h6 t1 W8 ]% i0 T. W1 U3 j$ O
网站搭建布局、模板代码优化、URL链接静态、链接缩短、图文并茂、内容短句子、图片Alt属性、高权重的外部链接、高质量的友情链接,只要做好这些。然后就是循序渐进的更新网站内容、网站外链,排名就会慢慢的上来。 ) J1 T5 v C0 B4 p9 U* J7 W" o# W
! I. W! v. x! E8 b6 z! R
0 e, {/ y, K; P总结: & q; W8 l2 X" F! J
. M0 ]* t" L9 s8 V t u6 V- S6 u
% F @/ m/ s7 f! y' }对于做搜索引擎优化,在我自己看来主要就是坚持力、执行力、以及脑子要转到快,这样才不会在互联网的大潮中拍死。 1 E0 X" _; \! [$ {8 X( z
; y% @: I& v! c6 i; h- ~7 U' E. l4 M
4 p) `2 T3 M! A* H' N8 l1 H9 {3 O
+ v! {2 \5 y7 N* ^, q原文出处链接:http://SEO论坛chenbaowenseo站长论坛/96.html , _( B! i' g% V
0 `1 f$ C, ^) o
搜外论坛原创作者:chenbaowen 2 O$ t! x* @$ s' _" i2 O
e6 _3 b O( o- |1 L& |日期:2015—6—15 3 z( W: {1 G6 ?. i3 W A8 U
, {; Q& ]) I( }: O( J& ^7 c8 i2 w
# [6 Y7 k9 j; s
! y; o) Z5 Y+ a |