得知互动
标题:
搜索引擎原理:数据预处理(SEO必看)
[打印本页]
作者:
swmozowtfl
时间:
2015-6-10 12:21
标题:
搜索引擎原理:数据预处理(SEO必看)
搜索引擎原理中,搜索引擎工作流程从大的方面有三点:数据采集、数据预处理、查询服务,这里和大家分享一下数据预处理,提亲说明的是,其中涉及一些专业的词汇,在我博客是加了锚文本的,这里没有,看不懂的可以去看原文。
- G) h; z& N* a: U5 H
1 o% r' Q+ N7 K+ u! D; o
(, 下载次数: 4)
上传
点击文件名下载附件
# u) B6 m- {* M4 M: V
: X; B; d" i* |' m; O3 ?
% }+ N( \( [ B# n8 w
在我们所述的“数据预处理”就是主要包含四个方面:关键词提取,“镜像网页”以及“转载网页”的消除,链接分析和网页重要程度的计算。
3 G" w$ }5 F2 `! r/ R
7 Z$ r9 f! W! O
关键词提取:
2 Q3 ^' K& a j v5 y1 Z, ?9 ^
1)在每一章网页,包含了大量的和主题内容无关的内容,像版权说明等等,关键词提取的任务,就是要提取出网页源文件的内容部分所含的关键词。提取的方法:一般类似与切词,将内容切成多个词组成的数组,再取出“在”“的”等无意义的词组,确定最终的关键词。(博主联想:关键词密度,关键词加粗,定向锚文本就是更具这一原因出现,方便搜索引擎更加简单的判断关键词)
; A- s' q5 U/ a
在后面的章节也会提到的DocView模型中会有更加详细的讲解,在关键词提取之前还有网页净化等多个步骤,出于书籍的编辑顺序考虑,在这里不详解,感兴趣的可以点击链接跳转查看:DocView模型,网页净化;
{& d' E/ J/ ^6 q2 M
+ H7 x: P: D9 N! Y. X( B E* g
重复或转载网页的消除:
8 W- Z5 ?- M# ^% h" z
1)天网的2003统计发现:网页的平均重复率为4,到目前的2015年,这个数字肯定已经破10。对于网名来说,拥有了更多访问有用信息的机会,对搜索引擎来说,浪费了大量的搜集网页的时间,以及网络宽带资源。具体实现方法,以后再讲。
( X/ ]8 b$ m, D& b
, K- X; U& W) X3 D$ L! R3 y
链接分析:
" O8 e7 {* C+ N% J7 X( }4 `
1)链接分析中有提到两个概念,词频(TF):该关键词在关键词提取之后的关键词集合中的出现频率;
7 w& n f' \: L2 Q& n+ e
2)文件频率(DF):该关键词在所有文件中的出现频率,在所有文件中,该关键词在多少文件中出现;
4 B* N0 `* V0 v' _" h/ ]4 M
3)搜索引擎可以通过HTML文本标签,来确定关键词的重要性(博主联想:<h1>标签的使用就是通过这个得来);指向其他文件的链接,来判断(博主联想:定向锚文本的使用)
7 Y" ?' _+ N. d' ^, b. i
$ _0 V' |$ ^# N1 `
网页重要程度的计算:
, n' r! Z# E Q7 \! @
1)搜索引擎需要将用户索引的结果,以列表的形式,展示给客户,并且在展示中满足用户的搜索需求,因此“网页重要程度”的概念出现了。
9 U$ {& k! l" [2 B/ w
2)判定重要性的方法:人们通过参考文献重要性的评估方式,其核心就是–“被引用的最多的就是最重要的”。这种方式,恰好在HTML中超文本链接完美体现,谷歌的PR值(引用该页面的页面概述和引用该页面的页面重要程度)就是完美展现(博主联想:发外链就是该算法的完美体现)。(PageRank算法)
$ n7 `) m" K n3 H' s. P
3)和第二点出现的不同的地方在于,某些页面是被大量的指向其他页面,某些页面被其他页面大量引用,形成对偶的关系,于是HITS算法出现。(HITS算法)
$ l% F' x! u9 p( L7 q/ B
3 {* _) y' k) f
(, 下载次数: 13)
上传
点击文件名下载附件
# T2 A1 l- ]% }7 [. ~6 t2 I, f5 r
E& J8 G/ M; {2 v" ^2 c; z
部分名词介绍:
. L% B1 M7 v7 P, m5 `
" r. d Q& `/ P( h) w
“倒排文字:利用文档(已经采集到的网页)中所包含的关键词作为索引,文档则作为索引的着陆页(目标文档),常见的,就像纸质书籍中,索引就是文章关键词,书籍的具体内容或者说页面就是索引目标页。
3 u/ {" {1 L0 I% m: i& u
1 Q) S' q; d" P' u) |* ^
镜像网页:网页内容一模一样的,未做任何的修改
- T' v1 t9 W2 h
转载网页:主要内容基本相同,但是多了少量的编辑信息
* p7 {- @1 c7 ?2 B7 W9 Q
3 ^4 ]5 A; k Q8 ^
HITS算法:简单介绍,在HITS算法中,存在两种页面Authority(权威)页面和Hub(目录)页面,对于Authority页面A,指向A页面的Hub页面H页面越多,那么A页面的质量越高,同样的Hub页面H指向的Authority页面A的数量越多,质量越高,则H页面的质量也就越高。
2 X$ H0 L5 o# g; `. i0 a+ Y0 a
8 Z( X9 O: u- _+ @7 Q" Z4 I' C" s
陈晨在最后总结一下,在搜索引擎原理这一本书,在介绍数据预处理这一块,包含的四个方面,在陈晨来看,链接分析就是用来判断网页重要程度的,所以可以划分为一类,合起来就是三个方面,一句话来说:重复或转载页面首先消除,然后提取关键词,加以DF,TF,链接,和算法来判断出网页重要程度。
' N2 R6 ?# `7 t! {! M# s% v' n: ]4 W: ]
. A: @& I! D" Z: a' K# F
8 V! w2 @4 {# p7 x+ ?
$ ]+ @2 r% c$ W6 D# E) C
原文出处链接:http://SEO论坛simple-chen站长技术论坛/ssyqyl/194.html
' i; H% @/ j, R0 ^
搜外原创作者:陈晨
0 l9 `" `# q' W
2015-06-06
作者:
mwxny
时间:
2015-9-18 17:04
给我点愤怒.
作者:
wwdu926a
时间:
2015-9-18 17:04
机会就像水中的鱼,耐心等待就能上钩。
作者:
Mqokjdvq
时间:
2015-9-18 17:04
女人啊真是那句话~~~无理占三分~~忘记怎么说了 呵呵 ~~你帮我想想
作者:
mwxny
时间:
2015-9-18 17:05
都看了,这帖子有意思。
作者:
mwxny
时间:
2016-2-2 10:18
既然你诚心诚意地发贴了,那我就大发慈悲地回复你。为了防止此贴被秒沉,为了维护此楼的繁荣!贯彻爱与真实的邪恶,可爱又迷人的顶贴角色! 穿梭在贴吧之间的顶贴队!喵~就是这样
作者:
gevaemaidovef
时间:
2016-2-2 10:19
老天不公啊.....
欢迎光临 得知互动 (https://bbs.dezhifl.com/)
Powered by Discuz! X3.4