大家好,我是朋少,今天依然为大家带来百度分词算法,注意本文绝对不是采集或是抄袭网上的一些教科书里的文章,而是朋少花了近两个星期才得到一些感悟,现在在这里写给我最亲爱的喜欢我的同志们,也请你们记住–风一样的男子,朋少!
! K; ~, [- R/ ?, `一、百度分词算法(切词)概念
0 Z* H' [ }( m6 {0 z就是将词组打乱,按照一定的规则重组,然后搞成新的词,对新词进行匹配。
% F& j3 c6 d9 B二、百度分词的算法三种方式
5 [0 J3 ?) e% j- b" }Ⅰ基本字典的匹配分词 # a F4 [& C" n) d4 v) E9 X
根据目标词与已经有的字典里的词组匹配,扫描后匹配成字、词、句的形式 . p w" o/ X0 h! E8 F' A
1、按照方式、可分为正向匹配和反向匹配
; o/ G6 C4 U6 i5 U2、如果按方向和长度的匹配可以分为:正向最大匹配和逆向最大匹配 ( H2 Y9 s1 X c- p1 H
3、还有一种就是双向匹配,双向匹配就是从正向和反向两个来匹配。 / D, v ~6 `4 h3 t, C; D! [, E& j' Y
讲完上面两点之后,我们以“济南 seo朋少最帅”为例,讲解一下正向匹配和逆向匹配
) F: P4 Y( i* I3 S
深入百度分词算法的核心(实战)
$ U4 b R; ]7 n: r
3、混合匹配 - ~8 v3 e+ Q [
深圳蚂蚁搬家公司 可以匹配成深圳搬家公司 三个词并不连续,就是混合。 v6 y V' M6 U0 b
Ⅱ基于统计的匹配分词 " N, g2 |6 C' H! ]* G
基本统计的匹配其实可以举一个很简单的例子来说明,比如在没有iphone之前,我们搜“苹果多少钱”的时候,基本上来说是我们平时吃的苹果,而有了苹果手机之的呢,大量的人也人搜这个词,但是呢,他们都是找的苹果手机多少钱,这个时候,百度就会统计出苹果手机这个占的比例是比较大的,因而把苹果手机排在前面。以“最新苹果多少钱”为例子:
+ B) N6 T2 m4 q" p5 m0 z) L- S
深入百度分词算法的核心(实战)
3 R- s1 L1 W! b
) N# I/ f! q8 t, Z. rⅢ基于理解的匹配分词 ! v/ J! T# P# X+ v: Z$ z, B
这个基本上来说到现在为止,还没有真正的成熟,那么什么是基于理解的分词呢,就是搜索引擎通过大量的积累,然后可以找相近的词来进行匹配,这种情况下,可能匹配一些较少的词。大家看下面这个例子,基于理解的分词:
2 t8 _( M% }! k' |$ R0 \
深入百度分词算法的核心(实战)
2 ]6 K7 t' `' Q9 |教程到这里了,还会继续出百度分词算法的教程,因为一个人的标题写的怎么样,会决定他的排名以及以后的优化。请大家继续关注!
+ ~( ^( S, w2 u3 _ _
& x9 I( g7 F; n( B原文地址:http://www.niubseo.com/201412506.html ' X+ ~5 i0 G; N
搜外原创作者:kongdesen
3 E4 p9 q9 F. C9 r日期:2014-12-17 4 v& k. B$ t: u6 w. v
谢谢管理! 6 d% a2 O8 g2 x4 b0 E9 ?
7 @& t" M. N; |: @3 m好的标题加上好的关键词大家好,我是朋少,今天依然为大家带来百度分词算法,注意本文绝对不是采集或是抄袭网上的一些教科书里的文章,而是朋少花了近两个星期才得到一些感悟,现在在这里写给我最亲爱的喜欢我的同志们,也请你们记住–风一样的男子,朋少!
, d/ B% q# c3 l, q一、百度分词算法(切词)概念 ! d( {! O+ d$ R' A7 y
就是将词组打乱,按照一定的规则重组,然后搞成新的词,对新词进行匹配。
/ L! |0 O8 f% Z- R" X* ?/ b4 ^二、百度分词的算法三种方式 + H* A6 _, J! `, B/ J! O' D4 K
Ⅰ基本字典的匹配分词
3 }2 N, H% L9 U; {3 k3 J# y: W根据目标词与已经有的字典里的词组匹配,扫描后匹配成字、词、句的形式 % n3 J, T5 j# M" j# m# o6 v p
1、按照方式、可分为正向匹配和反向匹配
* K, L! a* n% b% g8 Z2、如果按方向和长度的匹配可以分为:正向最大匹配和逆向最大匹配
q1 V2 Z$ {0 z \ p3、还有一种就是双向匹配,双向匹配就是从正向和反向两个来匹配。 * s; D! b7 o1 j
讲完上面两点之后,我们以“济南SEO朋少最帅”为例,讲解一下正向匹配和逆向匹配 ( b7 v$ [5 W- ~1 b) d3 a7 o9 x
+ [. m1 k7 o: o9 N& A, Y3、混合匹配 : Z$ o; P2 u7 ]. c
深圳蚂蚁搬家公司 可以匹配成深圳搬家公司 三个词并不连续,就是混合。
# a& b6 l& B& Q+ p3 l- qⅡ基于统计的匹配分词
2 M9 G9 {* y3 }基本统计的匹配其实可以举一个很简单的例子来说明,比如在没有iphone之前,我们搜“苹果多少钱”的时候,基本上来说是我们平时吃的苹果,而有了苹果手机之的呢,大量的人也人搜这个词,但是呢,他们都是找的苹果手机多少钱,这个时候,百度就会统计出苹果手机这个占的比例是比较大的,因而把苹果手机排在前面。以“最新苹果多少钱”为例子:
* ^. W$ A4 T5 r) u5 s
8 @" h. S# e2 A, X. D, [1 I) w/ `Ⅲ基于理解的匹配分词
4 U7 z. C, _" O! z7 S ^! x- K1 n这个基本上来说到现在为止,还没有真正的成熟,那么什么是基于理解的分词呢,就是搜索引擎通过大量的积累,然后可以找相近的词来进行匹配,这种情况下,可能匹配一些较少的词。大家看下面这个例子,基于理解的分词: , F5 U- Q: d! `4 r9 C4 R7 r0 e
0 O+ ^6 W0 a8 J/ ]/ v. Y/ `! K
教程到这里了,还会继续出百度分词算法的教程,因为一个人的标题写的怎么样,会决定他的排名以及以后的优化。请大家继续关注!
( z7 j" N6 ?( c3 @7 f8 _
! Q$ @( q J4 G0 ?4 w1 {9 `原文地址:http://www.niubseo.com/201412506.html 8 A1 W) @) V! y: Z& S
搜外原创作者:kongdesen
& n1 ~1 d+ Z7 d9 h g0 S日期:2014-12-17 . U9 Q0 G8 x" o
谢谢管理! + U. y6 d4 [; l5 v6 `, u5 V0 ]
+ F, T9 U4 ?0 p- A9 Y1 G9 p起标题和选词斟酌的重要性百度真难捉摸 时时刻刻在变动 优化真难呢扫描后匹配成字、词、句的形式 |