得知互动
标题:
内容关键词布局进阶:了解搜索引擎分词算法
[打印本页]
作者:
swmozowtfl
时间:
2015-6-25 23:21
标题:
内容关键词布局进阶:了解搜索引擎分词算法
关键词布局,一直是SEO头疼的事儿,一个良好的布局,可以为内容增加很大一部分权重,那么如何进一步的做好关键词布局,陈晨选择了看搜索引擎原理,这里和大家分享的是搜索引擎的分词算法,相信对大家有用!
/ c" w$ s, E! A5 e3 F N2 _/ g0 P" }
(, 下载次数: 9)
上传
点击文件名下载附件
( [9 L; f' c3 S& z7 H; p6 w# l3 [
, i& K$ G1 b2 j" d+ W
首先,中文和英文不同的是,英文单词之间有空格,而中文都是连贯在一起来操作的,在形式上,无法做出区分。所以中文文本在进行网页分析之前,需要将文本切分为多个词或者字。在目前检索中,主要可以分为按字检索和按词检索,其中按词检索,拥有更快的速度和较高的准确性。
. k0 P& [0 m4 [( v
' K, T8 ~- y! U$ P
自动分词系统算法介绍
* B/ x8 ^9 s- k" P. e
分词系统基本方法:基于字符串匹配的分词方法和基于统计的分词方法。
% ^, Y( ~. R: K# ~
3-1)基于字符串匹配:也称为机械分词,按照几个既定的策略,将等待分析的字符串和一个容量足够大的词典中的词条进行匹配,若在词典中找到同样的一个字符串,那么匹配成功。
2 r. r* y, t! W6 |! L. k
字符串匹配分词,按照扫描方向,可以分为:正向匹配和逆向匹配;按照不同长度有限匹配,可以分为:最大匹配和最小匹配;按照是否与词性标注相结合,可以分为:单纯分词方法和分词与标注相结合的一体化方法;
( u; f( `: ?( p
- m1 ^, b7 B0 m8 h: _
常用的机械分词方法:正向最大匹配,逆向最大匹配,最小切分(就是在每一句中切除的词量最少,而不是单个词字节最少) (盐城SEO联想:使用正向最大匹配,逆向最大匹配,和我们SEO中经常用到的关键词靠前,则排名越有利,是否存在关联)
3 C# ^8 r) B7 B ]' E
同时,在机械分词法中,存在这样一个模型:ASM(d,a,m);
1 o8 B8 Y) [2 Q4 t) ]& Q- h& z# V+ S
. |; X. _" y0 N8 o5 Q; j, l2 |
d:匹配方向,+表示正向,-表示逆向;
* g5 ^2 f# J# m7 E3 [
a:每次匹配失败后增加或减少字串长度(字符串),“+”就是增加一个,“-”就是减少一个;
b+ I( U5 h8 z# B3 t" g' {% A7 `
m:最大或最小匹配标志,+为最大匹配,-为最小匹配。
0 |1 s" @9 z7 x; W3 r$ k7 ? ^
对于,中文汉字来说,ASM(+,=,+)是最为实用的方法。
' `" f1 j5 G3 i6 E) P
(, 下载次数: 15)
上传
点击文件名下载附件
6 F1 {1 G8 a7 ~5 F4 a
: _' y& C/ r, Y+ @) [
( w' A$ w H! K- W0 S8 \
3-2)基于统计的分词方法介绍:
5 N. G* v0 K. q# s
在表现形式上,词是多个字的稳定组合,所以说,在文章中,相邻的字同时出现的次数越多,那么越有可能是一个词,因此,字和字相邻出现的的频率可以大概的反应出词的可信率。
) \) m6 m6 d; Y2 L5 Y
- P+ k7 E: H1 J7 g, T) j9 X
通过公式:M(x,y)=log( P(x,y) / p(x)p(y) )来计算他们的互现信息,该互现信息体现了汉字之间结合的紧密程度,当M(x,y)的值大于某一阈值时,便可以确定这是一个词。
! ^: T7 U3 _0 G2 G
& Y ]8 ?( M- y3 Z& z. J
因为,只需要对字组频率进行计算,不需要使用词典,所以叫做无词典分词方法,或者说统计分词方法。
4 r7 O: O G( _4 P! y! A
缺点:经常会抽出一些高频,但不是词的常用词组,如:“我们”“共同”“有的”等。
m; S5 Y: V! z
) T4 e7 F6 q* o0 Y: m# t8 e- U* O
所以在正常使用中,统计分词法,都会使用一部基本的分词词典(常用词词典),通过字符串分词系统,识别出常用词组,同时通过统计分词系统,识别出新词,生词,两者结合,即发挥出字符串匹配分词系统的速度快,效率高,又可以利用统计分词系统识别生词,自动消除歧义的优点。
; j; Z, T0 m' q" {/ [1 \6 H
* V+ U4 H; N- M* t
% q9 b* N" H( F; V8 z4 d1 Y
. A [ S, I2 s U- z* m
原文链接:http://SEO论坛simple-chen站长技术论坛/ssyqyl/273.html,点击可查看更多SEO必备的搜索引擎原理知识哦!
/ b/ T/ Z$ g) t! p9 W/ L" u O7 L
搜外作者:陈晨
% T/ L' O* V" N% W9 }5 J
日期:2015-6-23 9:50:08
作者:
Acropozelan
时间:
2015-9-25 14:07
经过你的指点 我还是没找到在哪 ~~~
作者:
Acropozelan
时间:
2015-9-25 14:07
今天统计好像出了问题
作者:
gevaemaidovef
时间:
2015-9-25 14:08
一个个全都骑到老大头上来了...
作者:
gevaemaidovef
时间:
2015-9-25 14:08
出来混 迟早都是要灌的——不灌水怎么混啊
作者:
alapScady
时间:
2015-9-25 14:08
极品可以说是让你馨香满腹,三日不绝!!古人说的好:想要作文章,先要学做人。由作者的文章我们也可以揣测出作者定是成长在一个汗牛充栋,文化氛围浓厚而且精神面貌积 极向上的幸福家庭里面。在现在这个物欲横流,亲情冷淡的时代,能够在这样的家庭里
作者:
tohme
时间:
2015-10-8 14:03
哇~~` 你是不是投胎滴时候走错地方啦~``
作者:
Mqokjdvq
时间:
2015-10-8 14:03
看,刚说你眼神不好,你还就来劲了不是.
作者:
Acropozelan
时间:
2015-10-8 14:03
卧虎藏龙里面半天云的人物个性。由此而言,作者是性格是完善的,想必经历过家庭的其 乐融融,也经历过种种人伦惨剧吧,把作者的创作潜质激发的淋漓尽致。
作者:
effoggikeftor
时间:
2015-10-8 14:04
到你的~~贴吧收藏~~~我的发言~`找
欢迎光临 得知互动 (https://bbs.dezhifl.com/)
Powered by Discuz! X3.4