搜索引擎原理中,搜索引擎工作流程从大的方面有三点:数据采集、数据预处理、查询服务,这里和大家分享一下数据预处理,提亲说明的是,其中涉及一些专业的词汇,在我博客是加了锚文本的,这里没有,看不懂的可以去看原文。
+ g% ?1 ]! ?9 j5 q/ f& T- {: c8 n& K9 W( S* ?3 ?
搜索引擎原理:数据预处理(SEO必看)
" b7 f' T- Q3 E" j4 a2 u
+ M% h' }3 x* B; ?* H
8 Z: q: E2 k/ O8 s; l5 f. K- U( u r 在我们所述的“数据预处理”就是主要包含四个方面:关键词提取,“镜像网页”以及“转载网页”的消除,链接分析和网页重要程度的计算。
) `2 I8 Z( Y* |/ T' a3 l' g8 ?3 k" d. L) _
关键词提取:# l# H% _" c) C7 I, B* y9 u
1)在每一章网页,包含了大量的和主题内容无关的内容,像版权说明等等,关键词提取的任务,就是要提取出网页源文件的内容部分所含的关键词。提取的方法:一般类似与切词,将内容切成多个词组成的数组,再取出“在”“的”等无意义的词组,确定最终的关键词。(博主联想:关键词密度,关键词加粗,定向锚文本就是更具这一原因出现,方便搜索引擎更加简单的判断关键词)4 \6 n2 }- P B9 m% [
在后面的章节也会提到的DocView模型中会有更加详细的讲解,在关键词提取之前还有网页净化等多个步骤,出于书籍的编辑顺序考虑,在这里不详解,感兴趣的可以点击链接跳转查看:DocView模型,网页净化;4 T2 q3 N' j/ h% S/ ~4 P" v. M* q2 K; A
* H1 y( E+ N3 Y9 i3 j
重复或转载网页的消除:
. z: p. z. N7 f3 `8 t: o2 z1 T 1)天网的2003统计发现:网页的平均重复率为4,到目前的2015年,这个数字肯定已经破10。对于网名来说,拥有了更多访问有用信息的机会,对搜索引擎来说,浪费了大量的搜集网页的时间,以及网络宽带资源。具体实现方法,以后再讲。% x8 ]0 H E+ C+ c) `2 ~
# k5 O7 C& J3 J! V p) H1 {
链接分析:5 u2 M/ l9 ?6 x3 d5 s. d* a
1)链接分析中有提到两个概念,词频(TF):该关键词在关键词提取之后的关键词集合中的出现频率;7 Z& f: e) d, j2 ~% @' k# N
2)文件频率(DF):该关键词在所有文件中的出现频率,在所有文件中,该关键词在多少文件中出现;
T/ m0 q9 m( X+ X$ C 3)搜索引擎可以通过HTML文本标签,来确定关键词的重要性(博主联想:<h1>标签的使用就是通过这个得来);指向其他文件的链接,来判断(博主联想:定向锚文本的使用)
0 w7 ]7 L; ~. T5 S7 l0 h3 n; b$ @6 e; H) N
网页重要程度的计算:
3 Q) Z& F1 k$ {' v 1)搜索引擎需要将用户索引的结果,以列表的形式,展示给客户,并且在展示中满足用户的搜索需求,因此“网页重要程度”的概念出现了。% Q* l7 F' r: P
2)判定重要性的方法:人们通过参考文献重要性的评估方式,其核心就是–“被引用的最多的就是最重要的”。这种方式,恰好在HTML中超文本链接完美体现,谷歌的PR值(引用该页面的页面概述和引用该页面的页面重要程度)就是完美展现(博主联想:发外链就是该算法的完美体现)。(PageRank算法)9 ~$ K+ @, ^. d% t( {1 n+ i
3)和第二点出现的不同的地方在于,某些页面是被大量的指向其他页面,某些页面被其他页面大量引用,形成对偶的关系,于是HITS算法出现。(HITS算法)' Y% u0 n1 J+ d: X1 b& C
* X1 H, |5 z! e; R, \- M' ?* L0 q
搜索引擎原理:数据预处理(SEO必看)
) d6 t6 c/ k1 q a/ e9 `
. I9 Q7 G4 _% J) d 部分名词介绍:
) j% x. |4 l- @ a! _' ~7 y" w
% D$ D% C) K6 E: j6 Z3 c# N/ d “倒排文字:利用文档(已经采集到的网页)中所包含的关键词作为索引,文档则作为索引的着陆页(目标文档),常见的,就像纸质书籍中,索引就是文章关键词,书籍的具体内容或者说页面就是索引目标页。
( w, {% M2 G# Y1 i0 K+ F, A. f* j! _" @, }6 D
镜像网页:网页内容一模一样的,未做任何的修改: n$ e7 G1 f( P# i+ ^4 Y6 H f
转载网页:主要内容基本相同,但是多了少量的编辑信息. r) y! |, ?' J+ b+ `. |; A- }, p$ i$ A
$ p$ \1 Q$ K7 \) g- q0 I HITS算法:简单介绍,在HITS算法中,存在两种页面Authority(权威)页面和Hub(目录)页面,对于Authority页面A,指向A页面的Hub页面H页面越多,那么A页面的质量越高,同样的Hub页面H指向的Authority页面A的数量越多,质量越高,则H页面的质量也就越高。$ R v4 }, w4 T; t9 C& x9 }4 k
3 H# x3 p U9 s6 E; q% b 陈晨在最后总结一下,在搜索引擎原理这一本书,在介绍数据预处理这一块,包含的四个方面,在陈晨来看,链接分析就是用来判断网页重要程度的,所以可以划分为一类,合起来就是三个方面,一句话来说:重复或转载页面首先消除,然后提取关键词,加以DF,TF,链接,和算法来判断出网页重要程度。 k$ U6 Q8 o% x+ L
2 R% U }$ \; g7 [% }1 N$ @/ Q
% ~0 [& G/ T6 ^9 O# q4 v
f0 n" p" m; }! D" r! L: l原文出处链接:http://seo论坛simple-chen站长技术论坛/ssyqyl/194.html5 Z4 _$ q$ d: w l* L; e# O, c A
搜外原创作者:陈晨
8 x0 c* b d' [2 x2015-06-06 |