得知互动

标题: 深入百度分词算法的核心(实战) [打印本页]

作者: swmozowtfl    时间: 2015-5-7 23:48
标题: 深入百度分词算法的核心(实战)
大家好,我是朋少,今天依然为大家带来百度分词算法,注意本文绝对不是采集或是抄袭网上的一些教科书里的文章,而是朋少花了近两个星期才得到一些感悟,现在在这里写给我最亲爱的喜欢我的同志们,也请你们记住–风一样的男子,朋少!
1 H& |' R% o! t" {- v' v. c
一、百度分词算法(切词)概念
+ P9 i. v: R& z' q! l  E
就是将词组打乱,按照一定的规则重组,然后搞成新的词,对新词进行匹配。

/ q7 `- V2 D# l  h/ C
二、百度分词的算法三种方式

8 P) v' k- F% g4 p; E. ?9 R
Ⅰ基本字典的匹配分词
) z& Q; o/ F$ z+ L6 w  H. _2 d
根据目标词与已经有的字典里的词组匹配,扫描后匹配成字、词、句的形式
( ], Z( o9 W2 n; K6 d) F% d
1、按照方式、可分为正向匹配和反向匹配

! i0 n& n0 J1 I. t$ M
2、如果按方向和长度的匹配可以分为:正向最大匹配和逆向最大匹配

' x5 y+ ~4 s+ Z. t% B0 {
3、还有一种就是双向匹配,双向匹配就是从正向和反向两个来匹配。

+ O0 M  P. j' f8 l  q
讲完上面两点之后,我们以“济南SEO朋少最帅”为例,讲解一下正向匹配和逆向匹配

9 k% N  A& x  _" i9 X% e4 @0 B+ K
(, 下载次数: 5)

- O" }$ d  B- \" e4 o. O" g2 c
3、混合匹配
+ z2 I; O; \1 ^2 N: _
深圳蚂蚁搬家公司 可以匹配成深圳搬家公司 三个词并不连续,就是混合。

0 a, F1 h9 x' t: z8 F# J1 A3 J
Ⅱ基于统计的匹配分词
% Q$ {, t5 Q2 c0 S
基本统计的匹配其实可以举一个很简单的例子来说明,比如在没有iphone之前,我们搜“苹果多少钱”的时候,基本上来说是我们平时吃的苹果,而有了苹果手机之的呢,大量的人也人搜这个词,但是呢,他们都是找的苹果手机多少钱,这个时候,百度就会统计出苹果手机这个占的比例是比较大的,因而把苹果手机排在前面。以“最新苹果多少钱”为例子:
3 l+ [) ]+ a( _( Q
(, 下载次数: 14)
: v! X# I; f2 _  Z# Y4 H

/ p9 r0 I* L) }! r. N
Ⅲ基于理解的匹配分词

" W3 g/ R" _1 b! a- N" a
这个基本上来说到现在为止,还没有真正的成熟,那么什么是基于理解的分词呢,就是搜索引擎通过大量的积累,然后可以找相近的词来进行匹配,这种情况下,可能匹配一些较少的词。大家看下面这个例子,基于理解的分词:
8 M' y% B4 {+ |+ A  G
(, 下载次数: 2)
* e0 _6 x1 A0 U
教程到这里了,还会继续出百度分词算法的教程,因为一个人的标题写的怎么样,会决定他的排名以及以后的优化。请大家继续关注!

8 l1 p& T" R4 y) z7 I' a; b  S: M: ]9 ?# s9 S  L/ w
原文地址:http://www.niubseo.com/201412506.html
1 E. t; A& b; X" l' R2 H
搜外原创作者:kongdesen

* N5 D. L* U3 L% o+ R8 J- o
日期:2014-12-17
, L4 a- R  ^+ {8 c
谢谢管理!
5 G- {: f" b, R
  ~2 j+ D- f- A0 l0 R; v' @
好的标题加上好的关键词
大家好,我是朋少,今天依然为大家带来百度分词算法,注意本文绝对不是采集或是抄袭网上的一些教科书里的文章,而是朋少花了近两个星期才得到一些感悟,现在在这里写给我最亲爱的喜欢我的同志们,也请你们记住–风一样的男子,朋少!

! f0 c' X# P* ~8 X- W8 ^- q
一、百度分词算法(切词)概念

1 O. o* {: ?0 O' u" b, {& v
就是将词组打乱,按照一定的规则重组,然后搞成新的词,对新词进行匹配。

6 \- ?! {$ f) \% _9 E  Y
二、百度分词的算法三种方式

$ d6 M7 A# u" z  o% a" _
Ⅰ基本字典的匹配分词
' E4 ^" D7 }2 A$ e/ b! R
根据目标词与已经有的字典里的词组匹配,扫描后匹配成字、词、句的形式

4 K( s) \: Q. y. _: ~4 ?
1、按照方式、可分为正向匹配和反向匹配
( Y2 [3 E8 ?$ {4 F, \, M
2、如果按方向和长度的匹配可以分为:正向最大匹配和逆向最大匹配

( z! X, I7 n! K+ c
3、还有一种就是双向匹配,双向匹配就是从正向和反向两个来匹配。

" c, f: I1 M% x8 o
讲完上面两点之后,我们以“济南SEO朋少最帅”为例,讲解一下正向匹配和逆向匹配
2 Q- `! i: G8 C$ D, G4 g: u4 h

- `% w" m, J1 O4 A3 w) G0 J1 N9 U                               
登录/注册后可看大图
! b& t6 U) A6 K9 ~) n3 M* Z
3、混合匹配
, M- v8 ^3 q) J+ _
深圳蚂蚁搬家公司 可以匹配成深圳搬家公司 三个词并不连续,就是混合。

/ m: v% P, {! U) o
Ⅱ基于统计的匹配分词

' b1 l$ z5 ^* e/ g
基本统计的匹配其实可以举一个很简单的例子来说明,比如在没有iphone之前,我们搜“苹果多少钱”的时候,基本上来说是我们平时吃的苹果,而有了苹果手机之的呢,大量的人也人搜这个词,但是呢,他们都是找的苹果手机多少钱,这个时候,百度就会统计出苹果手机这个占的比例是比较大的,因而把苹果手机排在前面。以“最新苹果多少钱”为例子:
6 l. F+ r; J9 F; ]- t/ s
; o7 }1 W% D& }
                               
登录/注册后可看大图

) L7 y' p; J' w$ F# f& u( N3 g

+ T) D4 j& K0 w8 r$ R. A+ U
Ⅲ基于理解的匹配分词
0 |8 `# j- z. ~1 Q; D& [
这个基本上来说到现在为止,还没有真正的成熟,那么什么是基于理解的分词呢,就是搜索引擎通过大量的积累,然后可以找相近的词来进行匹配,这种情况下,可能匹配一些较少的词。大家看下面这个例子,基于理解的分词:

& W' K3 m) m' w4 X& J5 L& ]6 A

) I4 v# Y8 S& I5 a; A( c                               
登录/注册后可看大图
$ R2 o' I+ l/ v
教程到这里了,还会继续出百度分词算法的教程,因为一个人的标题写的怎么样,会决定他的排名以及以后的优化。请大家继续关注!

/ E/ ^- n. j0 B; s( j5 x2 k/ A1 X/ ^
原文地址:http://www.niubseo.com/201412506.html

+ t) ^, I! R6 s
搜外原创作者:kongdesen
7 d2 ]1 ^- ^4 T' A" y
日期:2014-12-17
) c: T; N/ D/ A: }0 u8 r/ |! j
谢谢管理!

7 M- d$ V- i3 p2 M% U) [& {4 j( V( T
起标题和选词斟酌的重要性百度真难捉摸  时时刻刻在变动 优化真难呢扫描后匹配成字、词、句的形式
作者: Mqokjdvq    时间: 2016-1-5 21:02
刚才我还看见了呢.
作者: buingeEvineus    时间: 2016-1-5 21:03
既然你诚心诚意地发贴了,那我就大发慈悲地回复你。为了防止此贴被秒沉,为了维护此楼的繁荣!贯彻爱与真实的邪恶,可爱又迷人的顶贴角色! 穿梭在贴吧之间的顶贴队!喵~就是这样
作者: wwdu926a    时间: 2016-1-5 21:03
呵呵~~~~你怎么老这样说~~~
作者: Mqokjdvq    时间: 2016-1-5 21:03
baidu是相当能折腾我了
作者: tohme    时间: 2016-3-22 21:07
楼主,你要继续努力啊!你是bbs的希望啊!你是网络文学的希望啊!你是整个网络界的希望文学界的希望啊!你是整个人类的希望啊!你是整个太阳系的希望啊!你是整个异次元空间的希望啊!
作者: wwdu926a    时间: 2016-3-22 21:07
你可是难得来坐坐啊~~~
作者: Acropozelan    时间: 2016-3-22 21:07
这就是我斗胆的一点粗略分析,每天睡觉以前,我都会把您的帖子再三拜读,拜读。
作者: alapScady    时间: 2016-3-22 21:07
楼上的话等于没说~~~
作者: alapScady    时间: 2016-3-22 21:08
回来了 呵呵刚才在斗地主那 ~~~~




欢迎光临 得知互动 (https://bbs.dezhifl.com/) Powered by Discuz! X3.4