引言:
& e* x& w$ Z+ g* b+ V: J) @$ ]1 _% l5 p
! A1 o8 N Q$ e( X) Q
对于搜索引擎优化,很多seoer都没问题,但是把网站能优化到百度首页的却不多。经过最近一段时间的观察发现很多网站排名都处于中低端,排名不是太理想。
) G# t; r& g7 l4 f$ \& F- D" U+ k" H" w, N
5 [6 f g' h3 N3 A 那么百度搜索引擎的整个工作原理是怎样的呢?杭州SEO陈宝文来告诉大家。 9 J% f ]0 F" f
7 a! E+ o: F7 v1 X # H8 A" I7 l! e4 {
搜索引擎工作原理可分为四个部分:抓取、过滤、收录、和排序,对此我是这样认为的。 ( i4 n2 l6 { l8 x+ D* T
: p2 `& @* F) e+ j
h0 [) R& d3 O
搜索引擎的整个搜索工作原理
) k: @* `! z, P+ D5 ]' @
# N# {: ~9 l$ U# `3 w k; B) z9 P7 o& ]: [
5 X7 A* d: g- B+ y3 F
一、抓取:
% [$ a/ `0 S- ]* u4 o3 e. R1 J/ A' ?% f: W* @( u8 y o& v9 Q
# n" Q4 v8 y& F: a" F- N搜索引擎抓取程序蜘蛛可分为:百度蜘蛛(Baidu spider)、谷歌蜘蛛(Google spider)、360蜘蛛(360 spider)、雅虎蜘蛛(YAHOO spider)、搜狗蜘蛛(Sogou spider)等。 3 o) \+ A, q2 A |0 m
8 S2 v( h8 H! _+ \8 l+ z
3 Z+ ]; i1 I5 i" j# U( V! ]
既然知道了各大搜索引擎的蜘蛛名称,那么怎样让蜘蛛来抓取我们的网站内容呢?可分为以下三点:
9 g# @; N( ]2 a) U' f2 S
$ g' Q0 ?0 D& O7 u - X# ^! o0 g2 _' `0 q8 v# p9 P
1、外部链接:外部链接分为发布外链的链接和友情链接两种,外链也是网站外部优化的唯一方式,高权重的外链站可以给网站起到催化提升排名得作用,友情链接注意高质量的,也可以给网站带来意想不到的排名;
0 }* H! y* @9 r) L
+ D0 I0 u7 O1 H$ u( x8 f9 g0 b9 P 1 j% b& Z# y# q D9 s
2、提交链接:提交链接主要是新站刚上线未收录的时候用,可以通过百度站长平台提交网站首页链接;
5 d4 ~3 W5 L8 _7 Q6 I6 p! i) q" M5 m- x! K8 R/ |
' S2 h+ H; S' P. I$ X 3、让蜘蛛自己来:对于前两点可以起到一定的排名作用,但是单凭前两点也是不够得,那么怎样让蜘蛛自己来抓取我们的网站内容呢?毋庸置疑,网站的内容是否是高质量的、网站内部布局是否合理、是否有网站地图、服务器是否稳定等等都占有一定的因素。
7 G! {8 O6 c. f' ?! s8 R
. f2 M/ Z1 P4 T. a$ S
+ r3 s8 v7 {- p Z) A6 Z S T9 C 当我们每天都在更新网站内容、发布外链的时候,那么怎样才能知道蜘蛛有没有来我们的网站抓取内容?
/ [( ^0 @' ~: o1 ?
8 j" R& T4 ^1 b e/ v7 H( h% S- ?% s
* j3 O* g* u/ {- d* M
" p' V C& `0 b# v7 U
搜索引擎的整个搜索工作原理
# o& n5 l% O# r3 `
5 u( N4 N# ^% B) Z8 O9 t! O/ @- s0 ^% @9 W
* d3 V4 |. r) k9 c
其一、可以通过百度平台的抓取频率(见上图),只要每天有压力反馈,那么就代表蜘蛛有来过我们的网站,并且抓取了一部分内容,回收到百度数据库; % b# R/ _, l1 T6 j' L8 B0 c
# @# I$ z" f- N& P p. X3 B * y4 |$ Q3 H. _9 i
其二,通过服务期日志,一般命名位log的文件就是网站服务器日志。通过服务期日志可以看出,哪些搜索引擎来过我们的网站,访客的IP,还有一点就是我们的网站被攻击挂马了,也可以通过log文件看出攻击我们网站人的IP以及篡改了哪些页面。
, }. B* I: n ~2 h
( w& W2 [! H6 {3 D0 o f2 \+ P6 ^
8 X/ t4 p0 v% t5 s 很多网站收录少或是排名上不来原因也在于蜘蛛的抓取因素,主要分为路径过长或是中文路径。 # T; U4 S& N9 P1 m4 {3 H/ L4 ?
. h7 L; ]: p. Z W3 [. v
' h% Z, n5 O- U- V! ^; M
路径过长就是一个网页的URL太过于长,超过64字节,那么后边的链接蜘蛛就无法抓取。如果是静态链接可能是网页的层次太深,这样搜索引擎会认为该页面不重要,从而可能影响网站收录;如果是动态链接,层次过深也不利于优化;
1 x5 L V) {7 B6 e8 p: d6 f' I, ?+ F. K4 [; r5 J2 [
) x9 u! r6 I5 n' z! \+ ]9 x
另一种影响蜘蛛抓取的因素是中文路径,如果URL是中文路径,那么主机空间里的文件名称也是中文命名,由于很多空间不支持中文命名的文件,这样可能会导致网页加载缓慢、或是加载的URL乱码,从而导致搜索引擎识别不了。
$ ]& G0 B4 S3 ?
( C0 J! ~. G w3 Q! M , t' |- [0 \) F O
二、过滤: ) n4 G) M! A, l
4 V Z0 q" x9 n( p" {
* a" _3 t( T0 w( ~4 \ 搜索引擎为什么要过滤抓取的内容?
5 Y6 h4 G1 w7 H4 `
) o" Y( H4 M* m `: U9 K# a0 I ; h7 o2 F2 h0 v N7 N# F. q
由于现在互联网快速的发展,同时网站数量的与日俱增,那么也就会出现大量的高重复内容、低质量文章,有的内容中还存在着大量的死链接,这一步搜索引擎就是将这些低质量的网页过滤掉,为用户提供有价值的内容。 4 N( a" D9 n7 [. M* }+ p
9 p- }( s$ g- F E( H, j! s, C
! i4 q# J+ E+ | 既然搜索引擎要过滤网站内容,那么影响过滤的因素有哪些呢?
! U; a" `1 f S% z5 l- ]9 o0 Y, T
; B! k5 x. o! r: D
1、识别:搜索引擎抓取来的网页内容,有很多识别不了的,比如代码、图片、链接等等,所以我们就要对这一系列做出相应的解决措施,代码做到规范化、图片添加Alt属性、链接尽量使用静态(伪静态),不要出现中文路径的URL; * S6 x- i! }& y0 M$ q9 l! a6 w& j" H
( A% J) C) o+ `" m1 m 2 k3 Q# X2 a/ u0 i0 T
2、页面质量:很多站长都喜欢抄袭别人的内容,从而充实自己的网站,对于这一点搜索引擎刚开始是抓去收录了,但是隔一段时间就会把这些低质量的内容删除掉,所以也就造成网站排名不稳定、甚至下降。
6 y( W) J; B, f
+ F0 ]1 q3 y$ V) F/ y% V k; D2 `0 v
) W5 x+ L6 N1 ^1 b6 Z5 q三、收录:
3 L: M9 U) k7 A/ b/ [
9 w: ?* f6 u- u3 a 0 L' S2 u& t! A& \
搜索引擎抓取了我们的网站内容,那么到底收录了多少网站内容呢? % D' M2 N, s, }9 ~0 j w
9 W6 [$ p) Q Z & p1 [6 ~8 \( m0 g5 C
查询网站收录情况可以使用站长工具,但是站长工具只能作为参考,具体的可以使用site:指令,查看相关域,比如:site:seo论坛chenbaowenseo站长论坛(带www和不带www的收录是不同的),这个关乎到网站的首选域;另一种方法就是通过百度站长平台工具查询网站收录情况。 9 z. Z9 ~) A7 C3 P( R4 W" }8 ]
5 H7 s; K: d# c$ `5 t
9 J% Y0 h4 A7 A3 z# Y
很多网站收录少但又有很多网站收录较多这是什么原因?
0 V, N1 o, x7 N) l3 S! m# s2 n5 N, S' V. C- [
- p' u: B$ s! G" A
对于新站,刚开始收录少是很正常的,毕竟新站在百度眼里没有建立起信任、也没有权威,只要定时更新高质量的内容,和高质量的外部链接即可; 6 s$ ^* `, b/ K1 ]3 t
! [4 L/ |8 L: f1 t9 b) b ! r% F9 O( y5 d/ \( G/ E
对于老站,收录很少的网站有很多,一般一个网页超过一个半月没有收录,那么就要看一下网页内容质量是否偏低、文字是否太少等原因。 . ?5 z; O% c1 s) R: ?
2 G* ?" ]4 }. f+ ?
9 V! w* B& r& ~. D; d3 o, N 百度蜘蛛将每个网站内容收进数据库,进行相应的关键词权重计算,这样已达成排名的效果。
8 l+ b# n+ t4 n( ^4 H7 e( U3 S' ^$ F; o# L
$ }! G$ w' k8 N a) `" {
四、排序:
+ |5 i: ?9 E; z& Q( ^
' J p" D$ l* m( }% B6 V9 X8 R
1 i9 s/ @$ V% n* i6 v7 T网站的排名是建立在搜索引擎的基础优化上,百度将计算好的关键词权重排在百度页,就是大家经常关心的排名上升下降。 ! [" P* ]2 v' |9 Z1 @# s9 A
想要做好关键词的排名就要做好以下几点: 9 b, y9 W$ p4 W3 k! Z( ^0 O) W: ~
" m7 c E2 B, F$ C3 A. _
5 b4 B7 g9 X# \" K4 y& Q
网站搭建布局、模板代码优化、URL链接静态、链接缩短、图文并茂、内容短句子、图片Alt属性、高权重的外部链接、高质量的友情链接,只要做好这些。然后就是循序渐进的更新网站内容、网站外链,排名就会慢慢的上来。 2 e/ z5 T& K& x1 p
, V6 I" g- t; }6 _
5 Z. d- g' H: k3 |( \; ?9 H6 r8 v
总结:
, ]$ |- M S0 e6 \! s6 x2 w4 E" n5 X7 K
" @, M; i; g+ b) s7 z
对于做搜索引擎优化,在我自己看来主要就是坚持力、执行力、以及脑子要转到快,这样才不会在互联网的大潮中拍死。
( t' r( M J: p& p6 r9 Z1 W. i
. p$ o+ v2 C% y% Y! y
D' Y0 h' p L 6 Q# l/ l3 }# |4 k
原文出处链接:http://SEO论坛chenbaowenseo站长论坛/96.html 4 n2 w! X8 [1 p* U: W
! Y: n9 n: ]4 f1 k% V
搜外论坛原创作者:chenbaowen
0 k" `* K5 H+ g8 {
0 o6 x! i( H7 h, ?: U日期:2015—6—15
- t4 `: K! N( Z7 |1 R
, S& X+ e6 U4 {! r& s 6 N: E) X6 k0 D; Y
2 U8 Q. Z+ o+ P* j; ^+ e* z @
|