关键词布局,一直是seo头疼的事儿,一个良好的布局,可以为内容增加很大一部分权重,那么如何进一步的做好关键词布局,陈晨选择了看搜索引擎原理,这里和大家分享的是搜索引擎的分词算法,相信对大家有用!
* l5 ~$ r V( j3 l; E
内容关键词布局进阶:了解搜索引擎分词算法
( E9 w( U; X) q& q) Y0 M
5 W% X$ j$ [2 u& v+ M4 ^! P4 q4 u! G
首先,中文和英文不同的是,英文单词之间有空格,而中文都是连贯在一起来操作的,在形式上,无法做出区分。所以中文文本在进行网页分析之前,需要将文本切分为多个词或者字。在目前检索中,主要可以分为按字检索和按词检索,其中按词检索,拥有更快的速度和较高的准确性。
- N2 }9 b3 m" l9 k" R
7 V, n/ E8 V" I" s自动分词系统算法介绍) ?4 _1 C: C F+ Q& a
分词系统基本方法:基于字符串匹配的分词方法和基于统计的分词方法。 s5 L4 T! {- x7 u/ b* h: ^
3-1)基于字符串匹配:也称为机械分词,按照几个既定的策略,将等待分析的字符串和一个容量足够大的词典中的词条进行匹配,若在词典中找到同样的一个字符串,那么匹配成功。* S8 j7 ^9 ^# R6 a: k7 Y+ m
字符串匹配分词,按照扫描方向,可以分为:正向匹配和逆向匹配;按照不同长度有限匹配,可以分为:最大匹配和最小匹配;按照是否与词性标注相结合,可以分为:单纯分词方法和分词与标注相结合的一体化方法;
3 i* c9 Z: L; p- @9 A8 H2 `3 b: D. A1 c$ y
常用的机械分词方法:正向最大匹配,逆向最大匹配,最小切分(就是在每一句中切除的词量最少,而不是单个词字节最少) (盐城SEO联想:使用正向最大匹配,逆向最大匹配,和我们SEO中经常用到的关键词靠前,则排名越有利,是否存在关联)9 F! W- x) y" i7 z3 `2 y* O8 ~
同时,在机械分词法中,存在这样一个模型:ASM(d,a,m);
5 O) c8 u/ U/ v$ K2 _+ |6 S
: B: R: r0 [2 j' `0 K1 kd:匹配方向,+表示正向,-表示逆向;' [" g/ z1 y$ z7 ~7 _
a:每次匹配失败后增加或减少字串长度(字符串),“+”就是增加一个,“-”就是减少一个;
( p G8 C+ _. i' lm:最大或最小匹配标志,+为最大匹配,-为最小匹配。3 M7 @) T1 w, M9 R/ x
对于,中文汉字来说,ASM(+,=,+)是最为实用的方法。' p2 u' W7 L0 _ ~
内容关键词布局进阶:了解搜索引擎分词算法
) u6 P1 s3 r/ V0 i, Q5 F$ {$ h, | 0 b8 E- _5 E0 \
) j1 }8 V: O: g$ C. q3-2)基于统计的分词方法介绍:
; U* d; p9 M/ n- R5 ?' \2 v0 v8 ^) Z在表现形式上,词是多个字的稳定组合,所以说,在文章中,相邻的字同时出现的次数越多,那么越有可能是一个词,因此,字和字相邻出现的的频率可以大概的反应出词的可信率。/ |8 |/ T6 M( d
' E( @ C1 \& P( l
通过公式:M(x,y)=log( P(x,y) / p(x)p(y) )来计算他们的互现信息,该互现信息体现了汉字之间结合的紧密程度,当M(x,y)的值大于某一阈值时,便可以确定这是一个词。
0 M8 Y; [' r' u9 f& H0 S
0 C/ a$ N. |$ X( z6 V1 U4 L因为,只需要对字组频率进行计算,不需要使用词典,所以叫做无词典分词方法,或者说统计分词方法。
+ \" x" B# H8 Q( r/ J9 c缺点:经常会抽出一些高频,但不是词的常用词组,如:“我们”“共同”“有的”等。
# X3 C$ |+ e- R7 w* E6 n% D$ w8 X1 X' }
所以在正常使用中,统计分词法,都会使用一部基本的分词词典(常用词词典),通过字符串分词系统,识别出常用词组,同时通过统计分词系统,识别出新词,生词,两者结合,即发挥出字符串匹配分词系统的速度快,效率高,又可以利用统计分词系统识别生词,自动消除歧义的优点。
9 F- G: }3 q9 q8 B# Z- A1 z
6 i5 g, r/ I! c1 J k: u' s- U; K
) @( I8 r; l/ b( ^4 Z- H$ J( t
' F& e1 j2 A M" p5 e5 K0 u原文链接:http://seo论坛simple-chen站长技术论坛/ssyqyl/273.html,点击可查看更多SEO必备的搜索引擎原理知识哦!- z/ @# X4 G4 x
搜外作者:陈晨
! [5 D' t K& X+ K7 l( \日期:2015-6-23 9:50:08 |