关灯
开启左侧

[SEO经验] 搜索引擎原理:数据预处理(SEO必看)

[复制链接]
swmozowtfl 发表于 2015-6-10 12:21:58 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题
 
搜索引擎原理中,搜索引擎工作流程从大的方面有三点:数据采集、数据预处理、查询服务,这里和大家分享一下数据预处理,提亲说明的是,其中涉及一些专业的词汇,在我博客是加了锚文本的,这里没有,看不懂的可以去看原文。
5 Y1 [8 {; w) y! U$ U  o) E8 [% x8 @1 x; k& F) U; S6 ]4 q( x

搜索引擎原理:数据预处理(SEO必看)

搜索引擎原理:数据预处理(SEO必看)

/ V4 q& l& o( H1 r) e

% ^- c& r& ^0 d8 \% K+ n7 T: V/ U( R( Y0 O
  在我们所述的“数据预处理”就是主要包含四个方面:关键词提取,“镜像网页”以及“转载网页”的消除,链接分析和网页重要程度的计算。- ^9 I4 e' N& Z% V& G7 i2 w' S
7 J. k( x: u3 F  n- o  @: ~9 m
  关键词提取:* T2 S* h) g& x- K0 T( P4 }
  1)在每一章网页,包含了大量的和主题内容无关的内容,像版权说明等等,关键词提取的任务,就是要提取出网页源文件的内容部分所含的关键词。提取的方法:一般类似与切词,将内容切成多个词组成的数组,再取出“在”“的”等无意义的词组,确定最终的关键词。(博主联想:关键词密度,关键词加粗,定向锚文本就是更具这一原因出现,方便搜索引擎更加简单的判断关键词)0 j8 t2 T* G, v3 M& R# p$ j3 x& F
在后面的章节也会提到的DocView模型中会有更加详细的讲解,在关键词提取之前还有网页净化等多个步骤,出于书籍的编辑顺序考虑,在这里不详解,感兴趣的可以点击链接跳转查看:DocView模型,网页净化;
  @# E8 ]0 g9 W8 J- E- G/ M1 r5 [7 ?3 X+ t
  重复或转载网页的消除:
% S9 [# A. }# t( g' h- L8 K: F8 Z3 `  1)天网的2003统计发现:网页的平均重复率为4,到目前的2015年,这个数字肯定已经破10。对于网名来说,拥有了更多访问有用信息的机会,对搜索引擎来说,浪费了大量的搜集网页的时间,以及网络宽带资源。具体实现方法,以后再讲。. Q% {9 \+ M' O& ?9 h

/ H/ T8 n/ |: `2 y  链接分析:
+ G. C- ^9 u7 A; r- |: t* _  1)链接分析中有提到两个概念,词频(TF):该关键词在关键词提取之后的关键词集合中的出现频率;
5 {# i8 H+ p: q2 V  2)文件频率(DF):该关键词在所有文件中的出现频率,在所有文件中,该关键词在多少文件中出现;8 O/ @9 w5 R  f" G; A4 t
  3)搜索引擎可以通过HTML文本标签,来确定关键词的重要性(博主联想:<h1>标签的使用就是通过这个得来);指向其他文件的链接,来判断(博主联想:定向锚文本的使用)3 t0 z/ ]( t1 N2 I8 l) S- p' J1 L2 Z

& K9 r# V6 }( `! i  网页重要程度的计算:% F+ e) B" V1 o& t5 @$ \, E3 Q
  1)搜索引擎需要将用户索引的结果,以列表的形式,展示给客户,并且在展示中满足用户的搜索需求,因此“网页重要程度”的概念出现了。
3 D: P  a8 B3 r  2)判定重要性的方法:人们通过参考文献重要性的评估方式,其核心就是–“被引用的最多的就是最重要的”。这种方式,恰好在HTML中超文本链接完美体现,谷歌的PR值(引用该页面的页面概述和引用该页面的页面重要程度)就是完美展现(博主联想:发外链就是该算法的完美体现)。(PageRank算法)8 ~0 x" B4 F# S7 _  F
  3)和第二点出现的不同的地方在于,某些页面是被大量的指向其他页面,某些页面被其他页面大量引用,形成对偶的关系,于是HITS算法出现。(HITS算法)
( ^: b/ D9 o0 A+ S! X/ D, {( r8 E6 H( G  ?+ D
                                                                          

搜索引擎原理:数据预处理(SEO必看)

搜索引擎原理:数据预处理(SEO必看)
' x' Y0 E( V- H, T* b+ X& {3 \# i

, P$ y/ Y4 y! a( n% q  z  r       部分名词介绍:  q7 d. P$ r7 C6 H* k
9 B+ v& s; E- _' _* K+ A& q( s) z- F
      “倒排文字:利用文档(已经采集到的网页)中所包含的关键词作为索引,文档则作为索引的着陆页(目标文档),常见的,就像纸质书籍中,索引就是文章关键词,书籍的具体内容或者说页面就是索引目标页。2 d8 M6 P/ O' |& R
* k( r2 ^8 K2 W- _8 _6 D4 Y
  镜像网页:网页内容一模一样的,未做任何的修改3 F- O6 K+ h& y7 C
  转载网页:主要内容基本相同,但是多了少量的编辑信息
6 j& E/ Z& y3 B" Q' K2 c3 |7 ]- A* M7 g9 U4 F
  HITS算法:简单介绍,在HITS算法中,存在两种页面Authority(权威)页面和Hub(目录)页面,对于Authority页面A,指向A页面的Hub页面H页面越多,那么A页面的质量越高,同样的Hub页面H指向的Authority页面A的数量越多,质量越高,则H页面的质量也就越高。0 D( R, W2 U4 d3 u8 v

, v5 [. J4 `7 Y  W8 N! d  陈晨在最后总结一下,在搜索引擎原理这一本书,在介绍数据预处理这一块,包含的四个方面,在陈晨来看,链接分析就是用来判断网页重要程度的,所以可以划分为一类,合起来就是三个方面,一句话来说:重复或转载页面首先消除,然后提取关键词,加以DF,TF,链接,和算法来判断出网页重要程度。
. [: R3 b/ T$ h- o9 z( I) G% {2 K+ m1 _

. W: t- V( t) z1 n7 @
/ M2 d7 v0 @2 p& }) K) B1 x原文出处链接:http://seo论坛simple-chen站长技术论坛/ssyqyl/194.html
+ h4 I4 ^/ R7 {. q5 \搜外原创作者:陈晨
3 r0 k7 u, f1 B( q3 m. C2015-06-06
 

精彩评论6

正序浏览
mwxny 发表于 2015-9-18 17:04:04 | 显示全部楼层
 
给我点愤怒.
 
wwdu926a 发表于 2015-9-18 17:04:23 | 显示全部楼层
 
机会就像水中的鱼,耐心等待就能上钩。
 
Mqokjdvq 发表于 2015-9-18 17:04:29 | 显示全部楼层
 
女人啊真是那句话~~~无理占三分~~忘记怎么说了 呵呵 ~~你帮我想想
 
mwxny 发表于 2015-9-18 17:05:31 | 显示全部楼层
 
都看了,这帖子有意思。
 
mwxny 发表于 2016-2-2 10:18:33 | 显示全部楼层
 
既然你诚心诚意地发贴了,那我就大发慈悲地回复你。为了防止此贴被秒沉,为了维护此楼的繁荣!贯彻爱与真实的邪恶,可爱又迷人的顶贴角色! 穿梭在贴吧之间的顶贴队!喵~就是这样
 
gevaemaidovef 发表于 2016-2-2 10:19:10 | 显示全部楼层
 
老天不公啊.....
 
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则


0关注

1粉丝

2503帖子

热门图文
热门帖子
排行榜
作者专栏

关注我们:微信订阅号

官方微信

APP下载

全国服务Q Q:

956130084

中国·湖北

Email:956130084@qq.com

Copyright   ©2015-2022  站长技术交流论坛|互联网技术交流平台Powered by©Discuz!技术支持:得知网络  

鄂公网安备 42018502006730号

  ( 鄂ICP备15006301号-5 )