得知互动

标题: 深入百度分词算法的核心(实战) [打印本页]

作者: swmozowtfl    时间: 2015-5-7 23:48
标题: 深入百度分词算法的核心(实战)
大家好,我是朋少,今天依然为大家带来百度分词算法,注意本文绝对不是采集或是抄袭网上的一些教科书里的文章,而是朋少花了近两个星期才得到一些感悟,现在在这里写给我最亲爱的喜欢我的同志们,也请你们记住–风一样的男子,朋少!

' n6 i' S! C# q' ?& Y
一、百度分词算法(切词)概念

3 V' `0 w" O" M
就是将词组打乱,按照一定的规则重组,然后搞成新的词,对新词进行匹配。
) B% L$ z( N( d- a) }3 h! k; k
二、百度分词的算法三种方式

) q  N; D' c& q. {2 ~
Ⅰ基本字典的匹配分词
* H6 [) R8 e5 @- |' K- C
根据目标词与已经有的字典里的词组匹配,扫描后匹配成字、词、句的形式

  t0 C) u5 s# W& A+ I; M( n2 V
1、按照方式、可分为正向匹配和反向匹配

' N0 o% O5 ~8 z( b& X
2、如果按方向和长度的匹配可以分为:正向最大匹配和逆向最大匹配
. A' v; E: A# k9 l6 u: W( e! q
3、还有一种就是双向匹配,双向匹配就是从正向和反向两个来匹配。
3 O" D: v9 c$ I& b, a9 M2 y
讲完上面两点之后,我们以“济南SEO朋少最帅”为例,讲解一下正向匹配和逆向匹配

+ M* Z. |  J& ^, @* g
(, 下载次数: 5)

) [2 n8 j) B. s7 n* k8 M5 w, p* j0 k
3、混合匹配
1 w% ?" ~4 H1 Y4 c, m& O
深圳蚂蚁搬家公司 可以匹配成深圳搬家公司 三个词并不连续,就是混合。
8 u' R& O. w5 ^# r* L# D
Ⅱ基于统计的匹配分词

7 e5 `. f9 f. ?) J8 w8 Q
基本统计的匹配其实可以举一个很简单的例子来说明,比如在没有iphone之前,我们搜“苹果多少钱”的时候,基本上来说是我们平时吃的苹果,而有了苹果手机之的呢,大量的人也人搜这个词,但是呢,他们都是找的苹果手机多少钱,这个时候,百度就会统计出苹果手机这个占的比例是比较大的,因而把苹果手机排在前面。以“最新苹果多少钱”为例子:

, h( W# \5 Z% S  g5 ]. [
(, 下载次数: 14) - h9 O8 T' p% g6 z6 |* M" |

/ d* E) O3 h: b0 u  a1 n4 ]( }7 |
Ⅲ基于理解的匹配分词
1 n3 o( l0 G6 O
这个基本上来说到现在为止,还没有真正的成熟,那么什么是基于理解的分词呢,就是搜索引擎通过大量的积累,然后可以找相近的词来进行匹配,这种情况下,可能匹配一些较少的词。大家看下面这个例子,基于理解的分词:

7 f/ o! U* ^" y4 B# i
(, 下载次数: 2)
; L4 m( x+ d% p; z. b6 W" U
教程到这里了,还会继续出百度分词算法的教程,因为一个人的标题写的怎么样,会决定他的排名以及以后的优化。请大家继续关注!

; E! w8 f! g$ q! |; N) [1 K9 O- i; _4 T* d
原文地址:http://www.niubseo.com/201412506.html
6 g% z  T# q6 V% f% e. p: G
搜外原创作者:kongdesen
& V5 z0 w) k, \/ E! L) [
日期:2014-12-17
0 k' J! J8 h. W
谢谢管理!

, y! ]5 O% c( Z) u# {' D0 w! |/ c5 m3 B0 ~! A3 [8 A8 _! m
好的标题加上好的关键词
大家好,我是朋少,今天依然为大家带来百度分词算法,注意本文绝对不是采集或是抄袭网上的一些教科书里的文章,而是朋少花了近两个星期才得到一些感悟,现在在这里写给我最亲爱的喜欢我的同志们,也请你们记住–风一样的男子,朋少!

! X- y. T4 L8 ?& n8 ^
一、百度分词算法(切词)概念

3 }6 ?" N' p7 x
就是将词组打乱,按照一定的规则重组,然后搞成新的词,对新词进行匹配。

9 N! T) h; b6 \5 p" a- E% X: l
二、百度分词的算法三种方式
1 d8 L/ b) K) d1 C' X  i- d
Ⅰ基本字典的匹配分词
5 |/ y0 y% a( o% z: L; q. Q
根据目标词与已经有的字典里的词组匹配,扫描后匹配成字、词、句的形式

0 z$ T# J1 @' J+ C7 E- j* T: |0 g
1、按照方式、可分为正向匹配和反向匹配
* C! u+ m& w3 Y1 f; I
2、如果按方向和长度的匹配可以分为:正向最大匹配和逆向最大匹配
+ z( x( c3 U8 K6 h$ C/ o+ w3 A
3、还有一种就是双向匹配,双向匹配就是从正向和反向两个来匹配。

; ?  v+ `' b7 i/ ?8 U* E
讲完上面两点之后,我们以“济南SEO朋少最帅”为例,讲解一下正向匹配和逆向匹配
7 [, m1 Q1 y8 R9 ?- N/ H
; d5 Z/ u* p5 B( B# C
                               
登录/注册后可看大图
  i8 B: R3 G" d8 R& l) I7 @" t
3、混合匹配
6 A* S3 x, A) _4 f( z9 p; L
深圳蚂蚁搬家公司 可以匹配成深圳搬家公司 三个词并不连续,就是混合。
2 J9 D# |! x7 }+ p5 g+ G$ m( J
Ⅱ基于统计的匹配分词

  D' x1 Y/ m" S* K& a" c  D
基本统计的匹配其实可以举一个很简单的例子来说明,比如在没有iphone之前,我们搜“苹果多少钱”的时候,基本上来说是我们平时吃的苹果,而有了苹果手机之的呢,大量的人也人搜这个词,但是呢,他们都是找的苹果手机多少钱,这个时候,百度就会统计出苹果手机这个占的比例是比较大的,因而把苹果手机排在前面。以“最新苹果多少钱”为例子:

9 H( l7 V4 m! ]) ]$ g

8 T. U& M7 B1 n* c: m                               
登录/注册后可看大图
' A/ H7 V, h$ x% N

' a# B: u$ U- E1 V6 L
Ⅲ基于理解的匹配分词

4 a/ q# {7 `% [3 x
这个基本上来说到现在为止,还没有真正的成熟,那么什么是基于理解的分词呢,就是搜索引擎通过大量的积累,然后可以找相近的词来进行匹配,这种情况下,可能匹配一些较少的词。大家看下面这个例子,基于理解的分词:

" c" W; p7 ?7 r9 h/ g& \
7 c- {9 G  E: v! X1 u4 Q6 K
                               
登录/注册后可看大图
* u/ E. ^( J8 S. S) Z& e
教程到这里了,还会继续出百度分词算法的教程,因为一个人的标题写的怎么样,会决定他的排名以及以后的优化。请大家继续关注!

5 f$ k9 }! I) L
) ^0 d. K8 i1 w
原文地址:http://www.niubseo.com/201412506.html

: {+ z0 }$ j1 ^+ ]
搜外原创作者:kongdesen

* d4 s. Q- U0 e+ _3 l2 S
日期:2014-12-17
; F" L$ H4 ?, b2 J/ R# m" G( k
谢谢管理!
0 f; z& ^  z% B# j3 {# j7 G0 N
8 V; C  J- S5 I( n  I- e
起标题和选词斟酌的重要性百度真难捉摸  时时刻刻在变动 优化真难呢扫描后匹配成字、词、句的形式
作者: Mqokjdvq    时间: 2016-1-5 21:02
刚才我还看见了呢.
作者: buingeEvineus    时间: 2016-1-5 21:03
既然你诚心诚意地发贴了,那我就大发慈悲地回复你。为了防止此贴被秒沉,为了维护此楼的繁荣!贯彻爱与真实的邪恶,可爱又迷人的顶贴角色! 穿梭在贴吧之间的顶贴队!喵~就是这样
作者: wwdu926a    时间: 2016-1-5 21:03
呵呵~~~~你怎么老这样说~~~
作者: Mqokjdvq    时间: 2016-1-5 21:03
baidu是相当能折腾我了
作者: tohme    时间: 2016-3-22 21:07
楼主,你要继续努力啊!你是bbs的希望啊!你是网络文学的希望啊!你是整个网络界的希望文学界的希望啊!你是整个人类的希望啊!你是整个太阳系的希望啊!你是整个异次元空间的希望啊!
作者: wwdu926a    时间: 2016-3-22 21:07
你可是难得来坐坐啊~~~
作者: Acropozelan    时间: 2016-3-22 21:07
这就是我斗胆的一点粗略分析,每天睡觉以前,我都会把您的帖子再三拜读,拜读。
作者: alapScady    时间: 2016-3-22 21:07
楼上的话等于没说~~~
作者: alapScady    时间: 2016-3-22 21:08
回来了 呵呵刚才在斗地主那 ~~~~




欢迎光临 得知互动 (https://bbs.dezhifl.com/) Powered by Discuz! X3.4