搜索引擎原理：数据预处理（SEO必看）

swmozowtfl · 发表于 2015-6-10 12:21:58

搜索引擎原理中，搜索引擎工作流程从大的方面有三点：数据采集、数据预处理、查询服务，这里和大家分享一下数据预处理，提亲说明的是，其中涉及一些专业的词汇，在我博客是加了锚文本的，这里没有，看不懂的可以去看原文。

搜索引擎原理：数据预处理（SEO必看）

　　在我们所述的“数据预处理”就是主要包含四个方面：关键词提取，“镜像网页”以及“转载网页”的消除，链接分析和网页重要程度的计算。

　　关键词提取：
　　1）在每一章网页，包含了大量的和主题内容无关的内容，像版权说明等等，关键词提取的任务，就是要提取出网页源文件的内容部分所含的关键词。提取的方法：一般类似与切词，将内容切成多个词组成的数组，再取出“在”“的”等无意义的词组，确定最终的关键词。（博主联想：关键词密度，关键词加粗，定向锚文本就是更具这一原因出现，方便搜索引擎更加简单的判断关键词）
在后面的章节也会提到的DocView模型中会有更加详细的讲解，在关键词提取之前还有网页净化等多个步骤，出于书籍的编辑顺序考虑，在这里不详解，感兴趣的可以点击链接跳转查看：DocView模型，网页净化；

　　重复或转载网页的消除：
　　1）天网的2003统计发现：网页的平均重复率为4，到目前的2015年，这个数字肯定已经破10。对于网名来说，拥有了更多访问有用信息的机会，对搜索引擎来说，浪费了大量的搜集网页的时间，以及网络宽带资源。具体实现方法，以后再讲。

　　链接分析：
　　1）链接分析中有提到两个概念，词频（TF）：该关键词在关键词提取之后的关键词集合中的出现频率；
　　2）文件频率（DF）：该关键词在所有文件中的出现频率，在所有文件中，该关键词在多少文件中出现；
　　3）搜索引擎可以通过HTML文本标签，来确定关键词的重要性（博主联想：<h1>标签的使用就是通过这个得来）；指向其他文件的链接，来判断（博主联想：定向锚文本的使用）

　　网页重要程度的计算：
　　1）搜索引擎需要将用户索引的结果，以列表的形式，展示给客户，并且在展示中满足用户的搜索需求，因此“网页重要程度”的概念出现了。
　　2）判定重要性的方法：人们通过参考文献重要性的评估方式，其核心就是–“被引用的最多的就是最重要的”。这种方式，恰好在HTML中超文本链接完美体现，谷歌的PR值（引用该页面的页面概述和引用该页面的页面重要程度）就是完美展现（博主联想：发外链就是该算法的完美体现）。（PageRank算法）
　　3）和第二点出现的不同的地方在于，某些页面是被大量的指向其他页面，某些页面被其他页面大量引用，形成对偶的关系，于是HITS算法出现。（HITS算法）

搜索引擎原理：数据预处理（SEO必看）

部分名词介绍：

“倒排文字：利用文档（已经采集到的网页）中所包含的关键词作为索引，文档则作为索引的着陆页（目标文档），常见的，就像纸质书籍中，索引就是文章关键词，书籍的具体内容或者说页面就是索引目标页。

　　镜像网页：网页内容一模一样的，未做任何的修改
　　转载网页：主要内容基本相同，但是多了少量的编辑信息

　　HITS算法：简单介绍，在HITS算法中，存在两种页面Authority（权威）页面和Hub（目录）页面，对于Authority页面A，指向A页面的Hub页面H页面越多，那么A页面的质量越高，同样的Hub页面H指向的Authority页面A的数量越多，质量越高，则H页面的质量也就越高。

　　陈晨在最后总结一下，在搜索引擎原理这一本书，在介绍数据预处理这一块，包含的四个方面，在陈晨来看，链接分析就是用来判断网页重要程度的，所以可以划分为一类，合起来就是三个方面，一句话来说：重复或转载页面首先消除，然后提取关键词，加以DF，TF，链接，和算法来判断出网页重要程度。

原文出处链接：http://seo论坛simple-chen站长技术论坛/ssyqyl/194.html
搜外原创作者：陈晨
2015-06-06

mwxny · 发表于 2015-9-18 17:04:04

给我点愤怒.

wwdu926a · 发表于 2015-9-18 17:04:23

机会就像水中的鱼，耐心等待就能上钩。

Mqokjdvq · 发表于 2015-9-18 17:04:29

女人啊真是那句话~~~无理占三分~~忘记怎么说了呵呵 ~~你帮我想想

mwxny · 发表于 2015-9-18 17:05:31

都看了，这帖子有意思。

mwxny · 发表于 2016-2-2 10:18:33

既然你诚心诚意地发贴了，那我就大发慈悲地回复你。为了防止此贴被秒沉，为了维护此楼的繁荣！贯彻爱与真实的邪恶，可爱又迷人的顶贴角色！穿梭在贴吧之间的顶贴队！喵～就是这样

gevaemaidovef · 发表于 2016-2-2 10:19:10

老天不公啊.....

[SEO经验] 搜索引擎原理：数据预处理（SEO必看）

相关帖子

精彩评论6

浏览过的版块