关灯
开启左侧

[SEO杂谈] 内容关键词布局进阶:了解搜索引擎分词算法

[复制链接]
swmozowtfl 发表于 2015-6-25 23:21:25 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题
 
关键词布局,一直是seo头疼的事儿,一个良好的布局,可以为内容增加很大一部分权重,那么如何进一步的做好关键词布局,陈晨选择了看搜索引擎原理,这里和大家分享的是搜索引擎的分词算法,相信对大家有用!" U' K. |1 l, j. |' F# X  ~6 \

内容关键词布局进阶:了解搜索引擎分词算法

内容关键词布局进阶:了解搜索引擎分词算法
* [$ f  x8 h& T0 b  o
+ b6 _$ ~( I$ D6 z8 {/ M. V4 g  l
首先,中文和英文不同的是,英文单词之间有空格,而中文都是连贯在一起来操作的,在形式上,无法做出区分。所以中文文本在进行网页分析之前,需要将文本切分为多个词或者字。在目前检索中,主要可以分为按字检索和按词检索,其中按词检索,拥有更快的速度和较高的准确性。% |( ?, n) ^8 I; p
4 y( M& ?  ?8 d$ b$ j
自动分词系统算法介绍3 R7 O  v/ f3 c- l* {" x* o' X
分词系统基本方法:基于字符串匹配的分词方法和基于统计的分词方法。8 I. s: L& T* |  }. {5 n
3-1)基于字符串匹配:也称为机械分词,按照几个既定的策略,将等待分析的字符串和一个容量足够大的词典中的词条进行匹配,若在词典中找到同样的一个字符串,那么匹配成功。
  ]7 k; p& i2 ^) {# ~字符串匹配分词,按照扫描方向,可以分为:正向匹配和逆向匹配;按照不同长度有限匹配,可以分为:最大匹配和最小匹配;按照是否与词性标注相结合,可以分为:单纯分词方法和分词与标注相结合的一体化方法;
; d1 H9 E4 G! v/ I' \  b1 Z/ Y0 x
7 F! j* b% V9 j! p" r常用的机械分词方法:正向最大匹配,逆向最大匹配,最小切分(就是在每一句中切除的词量最少,而不是单个词字节最少) (盐城SEO联想:使用正向最大匹配,逆向最大匹配,和我们SEO中经常用到的关键词靠前,则排名越有利,是否存在关联), z! J" h6 [4 K8 `
同时,在机械分词法中,存在这样一个模型:ASM(d,a,m);4 k7 u6 W/ G" v& ?1 i9 S3 @3 f
- t- `) C# F+ t
d:匹配方向,+表示正向,-表示逆向;
5 B: `! F( W* k5 Qa:每次匹配失败后增加或减少字串长度(字符串),“+”就是增加一个,“-”就是减少一个;
+ m# I2 J8 N4 I5 F( ~m:最大或最小匹配标志,+为最大匹配,-为最小匹配。) I, D+ v$ F* d' F( h+ L9 R! C  ]- l
对于,中文汉字来说,ASM(+,=,+)是最为实用的方法。3 p: E2 a# o1 T1 i; s+ U2 n5 B  }

内容关键词布局进阶:了解搜索引擎分词算法

内容关键词布局进阶:了解搜索引擎分词算法

1 X1 A- r8 E8 R  O; C% |" B& G
% W5 v' B# h# d* V0 u# p3 X/ Y, v
9 E4 H/ l! D& F9 j+ X  E% u
3-2)基于统计的分词方法介绍:+ G3 P, K# }) v6 h- Z6 y
在表现形式上,词是多个字的稳定组合,所以说,在文章中,相邻的字同时出现的次数越多,那么越有可能是一个词,因此,字和字相邻出现的的频率可以大概的反应出词的可信率。2 {) b' ^' B9 W/ `0 a

# A7 X. U7 f, b5 d0 q5 g' Q通过公式:M(x,y)=log( P(x,y) / p(x)p(y) )来计算他们的互现信息,该互现信息体现了汉字之间结合的紧密程度,当M(x,y)的值大于某一阈值时,便可以确定这是一个词。
4 ^1 B& U( N5 }5 p( W' k1 J6 R* n5 `, E# Y4 L2 O% m8 I# |, B
因为,只需要对字组频率进行计算,不需要使用词典,所以叫做无词典分词方法,或者说统计分词方法。
. B' Q$ j7 Y; Q* L% L- R/ F# V+ B缺点:经常会抽出一些高频,但不是词的常用词组,如:“我们”“共同”“有的”等。
% m) E  q, v, T% b+ l& K- t
2 M8 o; b. A" J3 H所以在正常使用中,统计分词法,都会使用一部基本的分词词典(常用词词典),通过字符串分词系统,识别出常用词组,同时通过统计分词系统,识别出新词,生词,两者结合,即发挥出字符串匹配分词系统的速度快,效率高,又可以利用统计分词系统识别生词,自动消除歧义的优点。
; l, K2 @) m% E% F8 C9 A0 r2 {4 y7 d3 p0 B4 w
, _) i( ^$ x  @/ W: `! \
' R, H: V: _1 J0 R: Y7 h; J
原文链接:http://seo论坛simple-chen站长技术论坛/ssyqyl/273.html,点击可查看更多SEO必备的搜索引擎原理知识哦!
3 m9 h3 l2 D9 a8 v3 A. r7 o& \搜外作者:陈晨
0 b/ s! Y. B. [! k# d日期:2015-6-23 9:50:08
 

精彩评论9

正序浏览
Acropozelan 发表于 2015-9-25 14:07:39 | 显示全部楼层
 
经过你的指点 我还是没找到在哪 ~~~
 
Acropozelan 发表于 2015-9-25 14:07:40 | 显示全部楼层
 
今天统计好像出了问题
 
gevaemaidovef 发表于 2015-9-25 14:08:16 | 显示全部楼层
 
一个个全都骑到老大头上来了...
 
gevaemaidovef 发表于 2015-9-25 14:08:45 | 显示全部楼层
 
出来混 迟早都是要灌的——不灌水怎么混啊
 
alapScady 发表于 2015-9-25 14:08:52 | 显示全部楼层
 
极品可以说是让你馨香满腹,三日不绝!!古人说的好:想要作文章,先要学做人。由作者的文章我们也可以揣测出作者定是成长在一个汗牛充栋,文化氛围浓厚而且精神面貌积 极向上的幸福家庭里面。在现在这个物欲横流,亲情冷淡的时代,能够在这样的家庭里
 
tohme 发表于 2015-10-8 14:03:09 | 显示全部楼层
 
哇~~` 你是不是投胎滴时候走错地方啦~``
 
Mqokjdvq 发表于 2015-10-8 14:03:19 | 显示全部楼层
 
看,刚说你眼神不好,你还就来劲了不是.
 
Acropozelan 发表于 2015-10-8 14:03:32 | 显示全部楼层
 
卧虎藏龙里面半天云的人物个性。由此而言,作者是性格是完善的,想必经历过家庭的其 乐融融,也经历过种种人伦惨剧吧,把作者的创作潜质激发的淋漓尽致。
 
effoggikeftor 发表于 2015-10-8 14:04:07 | 显示全部楼层
 
到你的~~贴吧收藏~~~我的发言~`找
 
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则


0关注

1粉丝

2503帖子

热门图文
热门帖子
排行榜
作者专栏

关注我们:微信订阅号

官方微信

APP下载

全国服务Q Q:

956130084

中国·湖北

Email:956130084@qq.com

Copyright   ©2015-2022  站长技术交流论坛|互联网技术交流平台Powered by©Discuz!技术支持:得知网络  

鄂公网安备 42018502006730号

  ( 鄂ICP备15006301号-5 )