12下一页
返回列表 发新帖

搜索引擎工作原理:预处理

8.8k 15
swmozowtfl 发表于 2015-9-5 21:03:18|湖北 | 查看全部 阅读模式
       在前天我们在狄吉堂网站优化博客中分享搜索引擎工作原理:蜘蛛如何爬行和抓取网页,今天我们接着分享搜索引擎工作过程中一个非常重要的阶段,预处理,也就是大家常说的索引。当用户在搜索引擎中输入搜索词之后,搜索引擎并不是根据用户的搜索词然后来计算页面给予排名的,而是事先在爬行和抓取页面的时候就进行了预处理,要不然也不可能在很短时间内根据搜索词展现出排名。
1 X1 D; R6 Q# k$ Z4 U+ v$ b( O! t; g' h; q
  p6 u0 S, g% U

搜索引擎工作原理:预处理

搜索引擎工作原理:预处理
6 M1 B7 T% W- _5 }' K. Q

5 t  K* a* B6 U( w" t+ b6 |
2 O9 F$ X. P4 O4 @$ L* S* k( t
       首先,搜索引擎会对爬行的页面进行筛选和提取文字信息,以便进行排名处理,通过搜索引擎的这个动作,我们知道在页面中添加meta信息,图片的alt标签,锚文本的文字设定,a标记中的title标签还是非常有必要的。
0 P( g. @8 Q7 B% v* L- {+ B
/ [2 _0 ?0 J) X. R# ~0 M; d

2 G( p2 v: E& N% x2 T" G) s* t  t" D       紧接着搜索引擎会对筛选出来的这一大堆文字进行分词处理,以此来判定哪些字可以组成一个词,比如狄吉堂网站seo,通常会被分成“狄吉堂”,“网站”,“SEO”。搜索引擎的分词过程一般有两种分法,一个是通过搜索引擎数据库中已经创建好的词典,另一种是根据日常统计,不过为了提高分词的效率,通常都是两种方法并行的。$ F, {9 G! F  O  ^$ R. s  w  `
! i2 h& X9 F5 ~1 j

& E+ R$ d- K1 d       通过词典进行分词,是指搜索引擎根据自己创建的词典,跟网页中提取的文字进行匹配,如果匹配成功的话,就算分出了一个词,而根据日常统计则是指搜索引擎对网络上提取的文本做了大量的分析,哪些字经常出现在一起,那么就会把它判定为一个词组,不过搜索引擎更喜欢的是比较长的最大匹配词组,也就是我们常说的长尾关键词,因为这样显示出来的搜索结果将会更加精确。关于搜索引擎是如何进行分组的,大家可以参考网站快照中带颜色的词,这里说明这只是一个参考,因为网站快照所能提供的分词信息很少,有时也并不能完全表达出搜索引擎的意愿。而我们在这个环节能进行优化的就是,通过页面标题,H1标签,关键词加粗的方式来提示搜索引擎,这是一个词组,同时还有强调的作用。; S1 s) ?. a4 B. m8 e% i0 S

1 b" _7 n+ X8 v9 y
: h: v3 [  x5 _3 E/ ]/ u
       当搜索引擎分词完毕后,接下来要进行的工作就是去除这些词中的干扰信息,俗称“去噪”,搜索引擎去噪主要从两方面进行去噪,一个是把这些词组中一些完全跟网站主题无关的词组去掉,比如我们文章中经常包含的一些“的”,“啊”,“然而”之类的助词,感叹词和副词,进行去噪的第二步则是把网站中没有用的模块中包含的词组去掉,比如免责声明,广告字段,版权信息,分页列表等等,通过去噪后剩余的内容才是搜索引擎想要的内容。# I& G8 V0 M# N& S; t
  T# d( N5 }, y& z4 {

7 e1 H( e1 H4 ?7 M, t0 \4 b       在搜索引擎获得了有用的信息之后,是不是我们就可以通过这些内容进行网页排名了?NO!接下来的这一步,我相信是很多站长比较心痛的一个环节——去重。搜索引擎会在这些得到的内容中提取出N个最能代表页面主题的关键词,进行指数分析,如果指数显示网上已经存在大量的相同信息,搜索引擎将会进行删除操作,这也就是为什么很多站长通过复制或转载来的文章不被收录展示的原因。在下一节的内容中,我们将会在狄吉堂网站SEO博客中继续跟大家分享搜索引擎工作原理中预处理的关键环节:正反向索引。/ z* c$ D4 j( [& Y

$ l/ E6 @8 X) L2 b! M" n5 b
1 s6 w8 A: E2 W* E
       原创文章如转载,请注明出处,本文首发于狄吉堂网站SEO优化博客
" H& F' l) U8 ?5 X  M& Q( O, X0 i1 j2 h/ I. |7 s* n2 M
8 U) i9 |6 J( t: y" K. o5 |
       原文出处链接:http://www.dijitang.com/youhua/377.html) ]6 a" d7 t' w7 U( R& L
       得知论坛原创作者:狄吉堂网络营销
; k1 M2 R# D* l0 Z2 M$ G8 h0 H       日期:2015-08-27  9 a. L6 Y( a# V, V0 B. K

  _* I7 ~. w% k4 M. M+ N5 _要不然也不可能       在前天我们在狄吉堂网站优化博客中分享搜索引擎工作原理:蜘蛛如何爬行和抓取网页,今天我们接着分享搜索引擎工作过程中一个非常重要的阶段,预处理,也就是大家常说的索引。当用户在搜索引擎中输入搜索词之后,搜索引擎并不是根据用户的搜索词然后来计算页面给予排名的,而是事先在爬行和抓取页面的时候就进行了预处理,要不然也不可能在很短时间内根据搜索词展现出排名。
6 L. k5 ]3 r4 @) ~( d+ \, E6 a0 x! X2 E6 n% M
8 |$ n( p" q  q2 R; i( z' V

搜索引擎工作原理:预处理

搜索引擎工作原理:预处理
, q5 G: b2 g5 q- D4 i

6 M7 Y8 n- B* _# h8 |0 G9 i0 `: l
, j' t5 b& T7 p" r5 o
       首先,搜索引擎会对爬行的页面进行筛选和提取文字信息,以便进行排名处理,通过搜索引擎的这个动作,我们知道在页面中添加meta信息,图片的alt标签,锚文本的文字设定,a标记中的title标签还是非常有必要的。6 s: S9 c  E( p: t4 ~7 G1 `& _4 ]9 H/ W
& ^, Z7 W: F, q* s( A* _8 x# j

7 I) R1 ]) t1 h: h       紧接着搜索引擎会对筛选出来的这一大堆文字进行分词处理,以此来判定哪些字可以组成一个词,比如狄吉堂网站SEO,通常会被分成“狄吉堂”,“网站”,“SEO”。搜索引擎的分词过程一般有两种分法,一个是通过搜索引擎数据库中已经创建好的词典,另一种是根据日常统计,不过为了提高分词的效率,通常都是两种方法并行的。3 k+ _- F3 G' s

3 ?/ N' v- _$ S1 o$ Z5 J0 x

6 C5 Z2 _1 [; o5 c# f) w. z       通过词典进行分词,是指搜索引擎根据自己创建的词典,跟网页中提取的文字进行匹配,如果匹配成功的话,就算分出了一个词,而根据日常统计则是指搜索引擎对网络上提取的文本做了大量的分析,哪些字经常出现在一起,那么就会把它判定为一个词组,不过搜索引擎更喜欢的是比较长的最大匹配词组,也就是我们常说的长尾关键词,因为这样显示出来的搜索结果将会更加精确。关于搜索引擎是如何进行分组的,大家可以参考网站快照中带颜色的词,这里说明这只是一个参考,因为网站快照所能提供的分词信息很少,有时也并不能完全表达出搜索引擎的意愿。而我们在这个环节能进行优化的就是,通过页面标题,H1标签,关键词加粗的方式来提示搜索引擎,这是一个词组,同时还有强调的作用。' }5 V) u8 o* e

7 B' T% g! H) g& U% L  h, j# }! j

3 p: L7 L; G; u: }! S2 N       当搜索引擎分词完毕后,接下来要进行的工作就是去除这些词中的干扰信息,俗称“去噪”,搜索引擎去噪主要从两方面进行去噪,一个是把这些词组中一些完全跟网站主题无关的词组去掉,比如我们文章中经常包含的一些“的”,“啊”,“然而”之类的助词,感叹词和副词,进行去噪的第二步则是把网站中没有用的模块中包含的词组去掉,比如免责声明,广告字段,版权信息,分页列表等等,通过去噪后剩余的内容才是搜索引擎想要的内容。" ?2 v" d- T9 U* [- i, z" |

/ g3 x) ]5 f' E! N9 o
  H. ^  _9 y' [3 f
       在搜索引擎获得了有用的信息之后,是不是我们就可以通过这些内容进行网页排名了?NO!接下来的这一步,我相信是很多站长比较心痛的一个环节——去重。搜索引擎会在这些得到的内容中提取出N个最能代表页面主题的关键词,进行指数分析,如果指数显示网上已经存在大量的相同信息,搜索引擎将会进行删除操作,这也就是为什么很多站长通过复制或转载来的文章不被收录展示的原因。在下一节的内容中,我们将会在狄吉堂网站SEO博客中继续跟大家分享搜索引擎工作原理中预处理的关键环节:正反向索引。4 [2 ~: S7 R$ ]6 {8 m

; J& t/ n' a% |+ l8 d; X

$ |7 d$ e" h& W$ U; F( O       原创文章如转载,请注明出处,本文首发于狄吉堂网站SEO优化博客$ g3 e8 w0 M2 W5 q1 \/ x
* P: B6 G! n; W8 i. F
+ ^/ R/ U" N% x7 z5 u5 @: n
       原文出处链接:http://www.dijitang.com/youhua/377.html
) M/ C, f3 j% |! d       得知论坛原创作者:狄吉堂网络营销. i" j8 N) d/ g6 l4 K
       日期:2015-08-27  
1 l, B9 O% V0 L: T, k
* m+ A# Q, D+ g$ Q4 o3 q这些之前还真不怎么知道,多谢群主 hug.gif 很不错的帖子,谢谢楼主分享谢谢分享!9 z+ }; I8 @5 R* Q
不错不错支持一下

回复|共 15 个

uyiejvpsjv 发表于 2015-9-10 02:12:40|北京 | 查看全部
我想骂我自己
ewxfh Lv.8 发表于 2015-9-10 15:21:43|河南 | 查看全部
这就是我斗胆的一点粗略分析,每天睡觉以前,我都会把您的帖子再三拜读,拜读。
uhxidjjr Lv.8 发表于 2015-9-10 17:36:51|美国 | 查看全部
还呕像.....
vhhvkphsfm Lv.8 发表于 2015-9-10 21:30:10|河南 | 查看全部
挨骂也是幸福~~~
cockyannesee 发表于 2015-9-10 22:42:10|河南 | 查看全部
做为老人!在吧里我都懒的都不想说话!送完经验我就走!
tidyd5y2y Lv.8 发表于 2015-9-11 01:08:55|美国 | 查看全部
…没我说话的余地…飘走
yuean6rfz 发表于 2015-9-11 21:02:05|上海 | 查看全部
相比他连说拜拜的 想法都没了 哈哈
cockyannesee 发表于 2015-9-11 21:12:16|美国 | 查看全部
哇~~` 你是不是投胎滴时候走错地方啦~``
coda71z7 Lv.8 发表于 2015-9-11 21:22:25|美国 | 查看全部
哈哈 小心被她看见哦~~~~
utgqmhdeij Lv.8 发表于 2015-9-12 00:58:42|美国 | 查看全部
呵呵 大家好奇嘛 来观看下~~~~
effoggikeftor 发表于 2017-4-11 10:49:22|美国 | 查看全部
楼猪.重量级人物阿.
gevaemaidovef 发表于 2017-4-11 10:46:59|北美地区 | 查看全部
我的我的 忘记了 呵呵
Mqokjdvq 发表于 2017-4-11 10:54:31|英国 | 查看全部
笨点也好~~~~
Acropozelan 发表于 2017-4-11 10:49:56|韩国 | 查看全部
这个站一周前刚刚有了点起色

回复

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

得知互动是一个融创意、设计、开发、营销、生活、互联网于一体的专业交流分享平台。
Copyright © 2026 站长技术交流论坛|互联网技术交流平台|Ai技术交流平台 版权所有 All Rights Reserved. Powered by Discuz! X5.0 鄂ICP备15006301号-5|鄂公网安备 42018502006730号
关灯 在本版发帖 扫一扫添加QQ客服 返回顶部
快速回复 返回顶部 返回列表