得知互动
标题: 搜索引擎的整个搜索工作原理 [打印本页]
作者: swmozowtfl 时间: 2015-6-25 23:21
标题: 搜索引擎的整个搜索工作原理
引言:
0 Q( c* O1 u- u( T8 X: C' D
' N6 o! p" r* M" h
( C5 j- y, G. t
对于搜索引擎优化,很多seoer都没问题,但是把网站能优化到百度首页的却不多。经过最近一段时间的观察发现很多网站排名都处于中低端,排名不是太理想。
. v6 S0 e) L# e. d! a0 Q# I
4 N e" O T7 q
( b: }4 C6 t, V- M
那么百度搜索引擎的整个工作原理是怎样的呢?杭州SEO陈宝文来告诉大家。
2 i3 B& s2 s; C3 L7 }& J
+ m" F) A9 q% w# W
% U; A2 b6 W% {+ H# l& R( o 搜索引擎工作原理可分为四个部分:抓取、过滤、收录、和排序,对此我是这样认为的。
) P4 J, Y" J5 a- [' u
6 l s" M5 n" T
# b+ Y* z" ^3 i- }
(, 下载次数: 3)
/ b% t. L) z' c6 ^4 L3 q
, b' [) B) @1 w" ^# j
% ^; S( P" w$ z& O7 A
/ W! C3 a7 W, Y. o6 g$ m3 @5 x; f
一、抓取:
4 s) W4 {) I1 s5 s/ v) ^9 o9 t8 Z* c: T6 x" x" E7 d% k
6 D4 j+ {: _. N8 N5 o: e* c% {
搜索引擎抓取程序蜘蛛可分为:百度蜘蛛(Baidu spider)、谷歌蜘蛛(Google spider)、360蜘蛛(360 spider)、雅虎蜘蛛(YAHOO spider)、搜狗蜘蛛(Sogou spider)等。
. D$ t3 U! P! [
% i# @% |2 E" p5 |: B( A6 ^) G/ n
- O; y( k- X. f) @$ Y! d, J+ L# n- ?
既然知道了各大搜索引擎的蜘蛛名称,那么怎样让蜘蛛来抓取我们的网站内容呢?可分为以下三点:
9 V, X5 k. f" E6 K: R* Z4 W
4 v6 k+ i+ n1 l ]2 E
; a* M( w# R3 J5 b) t. u9 v" [: F/ ^ 1、外部链接:外部链接分为发布外链的链接和友情链接两种,外链也是网站外部优化的唯一方式,高权重的外链站可以给网站起到催化提升排名得作用,友情链接注意高质量的,也可以给网站带来意想不到的排名;
7 |% J, j0 l. p; E, f
) H/ s( P" D2 t: E- K1 D) {8 O% _
$ ~ n# i: K0 k+ F7 O) ^ 2、提交链接:提交链接主要是新站刚上线未收录的时候用,可以通过百度站长平台提交网站首页链接;
8 q. F' T5 I0 ?. k* ]
6 |, }! I" f7 d+ B/ p' R
- n) e x. u6 T$ ^, s 3、让蜘蛛自己来:对于前两点可以起到一定的排名作用,但是单凭前两点也是不够得,那么怎样让蜘蛛自己来抓取我们的网站内容呢?毋庸置疑,网站的内容是否是高质量的、网站内部布局是否合理、是否有网站地图、服务器是否稳定等等都占有一定的因素。
^0 d+ ]! ~' c# K% K
, A" P, V3 l! r4 v6 |
6 ?" i( l/ I" @8 o: f7 i, p- j
当我们每天都在更新网站内容、发布外链的时候,那么怎样才能知道蜘蛛有没有来我们的网站抓取内容?
( V9 f7 E/ W1 a. e$ d! ^( j$ J2 g
% F9 | G& J$ W
& X1 o5 j1 v) Z! ?7 X% \
2 S- u/ j# }) Z1 B( t
(, 下载次数: 6)
. S- ]7 b- c6 W# x- H& L
. J$ w, l* H" \; ]3 j
5 [7 E4 N# x' i' s$ v8 Q) w
" Q* v* E ?% T, F- l$ m 其一、可以通过百度平台的抓取频率(见上图),只要每天有压力反馈,那么就代表蜘蛛有来过我们的网站,并且抓取了一部分内容,回收到百度数据库;
. [; z+ m; G) c1 p* r
5 ^7 I/ x& \; \; r' Q0 C
8 }! q& W. i/ | O: y/ X
其二,通过服务期日志,一般命名位log的文件就是网站服务器日志。通过服务期日志可以看出,哪些搜索引擎来过我们的网站,访客的IP,还有一点就是我们的网站被攻击挂马了,也可以通过log文件看出攻击我们网站人的IP以及篡改了哪些页面。
: L) x0 x# ^8 v$ C4 x' J. R3 R
4 Q0 w" m4 G0 P( K9 `) [: z
& X$ o- k- W/ h9 [
很多网站收录少或是排名上不来原因也在于蜘蛛的抓取因素,主要分为路径过长或是中文路径。
6 h& G G+ }+ }9 F& p
: Z5 A: j1 W. @( M2 C. F5 u: e
9 T2 b1 q+ ]* J3 }: K3 }' h 路径过长就是一个网页的URL太过于长,超过64字节,那么后边的链接蜘蛛就无法抓取。如果是静态链接可能是网页的层次太深,这样搜索引擎会认为该页面不重要,从而可能影响网站收录;如果是动态链接,层次过深也不利于优化;
4 q5 N/ ^) u/ J6 S4 g# M% `
; r' j& y5 _% t/ l
# }0 ?! U$ b/ ^& n
另一种影响蜘蛛抓取的因素是中文路径,如果URL是中文路径,那么主机空间里的文件名称也是中文命名,由于很多空间不支持中文命名的文件,这样可能会导致网页加载缓慢、或是加载的URL乱码,从而导致搜索引擎识别不了。
, S* _+ r6 K; x) h5 H% v% W p8 X( p) ~
' L: X3 e4 D9 s8 A3 `6 V: M: Q' _
二、过滤:
# s! ]( Y0 I( P# A4 g2 G) n2 [+ ?4 ]9 c/ R$ @/ |
& Z$ L9 O5 C3 Y9 }0 \9 y
搜索引擎为什么要过滤抓取的内容?
) G0 T1 Q1 f( q. k5 x6 W- e
" K# a Q0 A# u h* v2 x. L
) u ?: x1 }: x. K2 Q9 S. T& R
由于现在互联网快速的发展,同时网站数量的与日俱增,那么也就会出现大量的高重复内容、低质量文章,有的内容中还存在着大量的死链接,这一步搜索引擎就是将这些低质量的网页过滤掉,为用户提供有价值的内容。
* F& e! H1 x' j# j& Q3 o7 ]$ @# e0 l# U+ V
7 Z2 [* ^# Q$ \7 s. x: n
既然搜索引擎要过滤网站内容,那么影响过滤的因素有哪些呢?
5 w4 m/ x# k9 a3 Y0 T/ [
8 S5 R- q- I# j$ F4 O& \) C
6 f* e" x4 [ N K
1、识别:搜索引擎抓取来的网页内容,有很多识别不了的,比如代码、图片、链接等等,所以我们就要对这一系列做出相应的解决措施,代码做到规范化、图片添加Alt属性、链接尽量使用静态(伪静态),不要出现中文路径的URL;
/ F- R9 D) p( y; A/ u2 E3 V5 i2 i! _2 c
) ^& h/ l: k* c% V2 M; k e 2、页面质量:很多站长都喜欢抄袭别人的内容,从而充实自己的网站,对于这一点搜索引擎刚开始是抓去收录了,但是隔一段时间就会把这些低质量的内容删除掉,所以也就造成网站排名不稳定、甚至下降。
5 c$ F2 D. O$ {2 o
/ H9 f3 t/ ?1 E- C
1 f* h4 `4 M9 \( T6 ]' L7 V0 x三、收录:
1 e' d* p2 [7 T" S$ }, ~; E" S! b
" j4 E/ B) r& E2 ?
/ E2 W$ c8 _* |8 Q7 w% V
搜索引擎抓取了我们的网站内容,那么到底收录了多少网站内容呢?
6 { t- W* R2 v/ }8 s) o2 E- s
7 o" _7 b: m1 w( d# e
# p# _) J1 e3 \" F! p; s8 P
查询网站收录情况可以使用站长工具,但是站长工具只能作为参考,具体的可以使用site:指令,查看相关域,比如:site:SEO论坛chenbaowenseo站长论坛(带www和不带www的收录是不同的),这个关乎到网站的首选域;另一种方法就是通过百度站长平台工具查询网站收录情况。
% s; k3 y' m- G# I3 i# `/ x# v* K
g1 @9 D/ k& X1 N# X
& R9 L& U( w- ]) ?1 h0 S% \
很多网站收录少但又有很多网站收录较多这是什么原因?
1 o: w4 k3 I- C" J' e
! l% Z, H$ b# Q$ ~0 b, ^
( R# o4 c U% g$ [3 _' ]- J
对于新站,刚开始收录少是很正常的,毕竟新站在百度眼里没有建立起信任、也没有权威,只要定时更新高质量的内容,和高质量的外部链接即可;
0 c6 n) g: J0 `( e: x3 I
3 c; K3 z( Q7 o$ v0 l
( m2 H7 y5 ^# }' O8 ? 对于老站,收录很少的网站有很多,一般一个网页超过一个半月没有收录,那么就要看一下网页内容质量是否偏低、文字是否太少等原因。
G# g0 T7 t5 h- @# |
# r ]: o4 b& V
! o/ F7 O* }1 Y* j/ b" U: E
百度蜘蛛将每个网站内容收进数据库,进行相应的关键词权重计算,这样已达成排名的效果。
9 ^# E" H( z7 r n4 D4 P4 ` g; v+ e' W- Y/ m: |
/ l# l7 E; L/ G$ v# f
四、排序:
# l! h% `* a9 M/ C
$ n- p- T/ T( L% I; \4 p
0 ~0 Z L. L2 L5 g7 u
网站的排名是建立在搜索引擎的基础优化上,百度将计算好的关键词权重排在百度页,就是大家经常关心的排名上升下降。
9 W. e5 ?9 u! ^) _& D 想要做好关键词的排名就要做好以下几点:
' z9 k y, K* |. D, T
, u% A, E5 ?) Z# r3 y8 J
( Z! @2 ]: c: A 网站搭建布局、模板代码优化、URL链接静态、链接缩短、图文并茂、内容短句子、图片Alt属性、高权重的外部链接、高质量的友情链接,只要做好这些。然后就是循序渐进的更新网站内容、网站外链,排名就会慢慢的上来。
- a& m" m4 ]( X! P8 q
) i- ]2 [- i4 w- W
0 ~, z0 F+ H2 s. l# h3 N. }0 L
总结:
j# @% j6 i: ?# V5 t0 v! v1 w: ?! L) n
0 r- J% i/ i- i$ h对于做搜索引擎优化,在我自己看来主要就是坚持力、执行力、以及脑子要转到快,这样才不会在互联网的大潮中拍死。
) c. s* V3 f3 r5 N
5 @9 e" K; Z P$ e& D
- ?& U: [& m; F
+ J( z& `# p! K8 T5 }- ]5 g8 c
原文出处链接:http://SEO论坛chenbaowenseo站长论坛/96.html
. {3 _4 y- E0 o9 [: z; ?) ?, G7 d- i w) x# @; j/ E# v" N, ~
搜外论坛原创作者:chenbaowen
. z2 C# a( C) U& y' `; L0 p) D% L9 n8 O% O/ _- F
日期:2015—6—15
" q- S& B' E9 B$ p5 [/ f5 W5 X' h+ o. S
, W. s' |6 r7 s1 o- c- k; o& E4 K
- {! k8 O+ ]7 h- Y* m8 R6 o+ ^
作者: swmozowtfl 时间: 2015-7-4 12:34
本人是文盲,以上内容文字均不认识,也看不懂是什么意思.
作者: 亮凌庚 时间: 2015-7-4 12:44
注:偶是女滴,千真万确,毋庸置疑!
作者: xiaoye 时间: 2015-7-4 12:50
这是安慰我啊~~还是垮我啊???怎么感觉又被扁了啊
作者: xiaoye 时间: 2015-7-4 12:54
你你你你 呵呵~~~~别这样哦.....
作者: 亮凌庚 时间: 2015-7-4 12:58
baidu是相当能折腾我了
作者: effoggikeftor 时间: 2015-10-8 10:19
真的 好久都没有这么笑了~ 好开心哦
作者: gevaemaidovef 时间: 2015-10-8 10:19
看起来好~~像啊~~~~~
作者: mwxny 时间: 2015-10-8 10:19
极品可以说是让你馨香满腹,三日不绝!!古人说的好:想要作文章,先要学做人。由作者的文章我们也可以揣测出作者定是成长在一个汗牛充栋,文化氛围浓厚而且精神面貌积 极向上的幸福家庭里面。在现在这个物欲横流,亲情冷淡的时代,能够在这样的家庭里
作者: gevaemaidovef 时间: 2015-10-8 10:19
在这个处女都要验证码的时代不得不弄个会员来当每天看贴无数基本上不回 后来发现很傻,很多比我注册晚的级别都比我高,我终于觉悟于是我就把这段文字保存在记事本里,每看一贴就复制粘贴一次。
作者: alapScady 时间: 2015-10-8 10:20
看,刚说你眼神不好,你还就来劲了不是.
欢迎光临 得知互动 (https://bbs.dezhifl.com/) |
Powered by Discuz! X3.4 |