得知互动

标题: 深入百度分词算法的核心(实战) [打印本页]

作者: swmozowtfl    时间: 2015-5-7 23:48
标题: 深入百度分词算法的核心(实战)
大家好,我是朋少,今天依然为大家带来百度分词算法,注意本文绝对不是采集或是抄袭网上的一些教科书里的文章,而是朋少花了近两个星期才得到一些感悟,现在在这里写给我最亲爱的喜欢我的同志们,也请你们记住–风一样的男子,朋少!
# D% S; ^3 x" ?" G4 G- T$ S
一、百度分词算法(切词)概念
2 @, G# A* B, T  f& k9 I# O# o8 W7 D
就是将词组打乱,按照一定的规则重组,然后搞成新的词,对新词进行匹配。
  {; x+ J. A* ~  p
二、百度分词的算法三种方式
# n- ]$ x: `5 V
Ⅰ基本字典的匹配分词
( n2 _/ T. ~  K; C
根据目标词与已经有的字典里的词组匹配,扫描后匹配成字、词、句的形式

6 D6 v. \5 ^& {- P4 l# [! x& j
1、按照方式、可分为正向匹配和反向匹配

0 @; X4 [# |# |# C  i9 b' P! l
2、如果按方向和长度的匹配可以分为:正向最大匹配和逆向最大匹配
" z/ N- d9 u6 [$ h  S/ M
3、还有一种就是双向匹配,双向匹配就是从正向和反向两个来匹配。
. C' d2 p! l0 n
讲完上面两点之后,我们以“济南SEO朋少最帅”为例,讲解一下正向匹配和逆向匹配
- w2 t2 g9 V- }6 Q, \5 y0 l! ?& o
(, 下载次数: 5)

$ Z3 q8 q! z- F' Z8 z! f# k7 [
3、混合匹配
% @( P% q# e' r; r
深圳蚂蚁搬家公司 可以匹配成深圳搬家公司 三个词并不连续,就是混合。
: r8 t: b1 U5 j; F0 u
Ⅱ基于统计的匹配分词

; q; f# E- _6 Y% B, u; y
基本统计的匹配其实可以举一个很简单的例子来说明,比如在没有iphone之前,我们搜“苹果多少钱”的时候,基本上来说是我们平时吃的苹果,而有了苹果手机之的呢,大量的人也人搜这个词,但是呢,他们都是找的苹果手机多少钱,这个时候,百度就会统计出苹果手机这个占的比例是比较大的,因而把苹果手机排在前面。以“最新苹果多少钱”为例子:

0 Y2 j2 G  e; d
(, 下载次数: 14)
6 h+ V; S, ~, H* L

6 J7 S( t6 ^# m+ I
Ⅲ基于理解的匹配分词

% t- n* _8 g1 f/ p6 \" T
这个基本上来说到现在为止,还没有真正的成熟,那么什么是基于理解的分词呢,就是搜索引擎通过大量的积累,然后可以找相近的词来进行匹配,这种情况下,可能匹配一些较少的词。大家看下面这个例子,基于理解的分词:

: \2 P% W& j! e' P
(, 下载次数: 2)
  ^6 G6 i, W0 l
教程到这里了,还会继续出百度分词算法的教程,因为一个人的标题写的怎么样,会决定他的排名以及以后的优化。请大家继续关注!

" A; @1 v9 j! l1 `& o' D% U0 {; l- U1 ~; [$ P
原文地址:http://www.niubseo.com/201412506.html

% J& }4 ]4 z" w, L8 b
搜外原创作者:kongdesen

- w9 n0 c* {. O- @
日期:2014-12-17

, F+ }7 F- S& d) L- l
谢谢管理!
% ]4 j4 ^! m' Y$ C* x( D

8 I5 c+ U, G) [9 U$ W好的标题加上好的关键词
大家好,我是朋少,今天依然为大家带来百度分词算法,注意本文绝对不是采集或是抄袭网上的一些教科书里的文章,而是朋少花了近两个星期才得到一些感悟,现在在这里写给我最亲爱的喜欢我的同志们,也请你们记住–风一样的男子,朋少!

% p" ]7 o0 V( [3 R* l: o9 x2 K
一、百度分词算法(切词)概念
! a' y2 T% b' R: ^+ u8 b, U
就是将词组打乱,按照一定的规则重组,然后搞成新的词,对新词进行匹配。

1 H7 Z4 G0 S5 o5 _" [& ^! v
二、百度分词的算法三种方式
. ~& H( W) S, X8 E: U; |6 ]
Ⅰ基本字典的匹配分词

0 }: \; {8 W. Z( h9 `' S4 G
根据目标词与已经有的字典里的词组匹配,扫描后匹配成字、词、句的形式

/ o# E1 H* m- f5 ^; B
1、按照方式、可分为正向匹配和反向匹配

, X" L  E  A3 s, M0 X' y
2、如果按方向和长度的匹配可以分为:正向最大匹配和逆向最大匹配

% s7 a2 M6 U9 y! J" {' r0 a. S! }
3、还有一种就是双向匹配,双向匹配就是从正向和反向两个来匹配。

$ U2 ^' t' @# s$ x; m
讲完上面两点之后,我们以“济南SEO朋少最帅”为例,讲解一下正向匹配和逆向匹配

/ }, [. {- ^. K- d

9 _1 z( |9 }" _! e                               
登录/注册后可看大图

6 B3 ~1 i; U0 A, u3 H' L! |# K
3、混合匹配
6 U  e2 N$ q: }! ]2 v
深圳蚂蚁搬家公司 可以匹配成深圳搬家公司 三个词并不连续,就是混合。
& n# c) X- Q7 |2 o0 ?4 g
Ⅱ基于统计的匹配分词

, [6 c5 p6 H( V5 M  L4 P/ A
基本统计的匹配其实可以举一个很简单的例子来说明,比如在没有iphone之前,我们搜“苹果多少钱”的时候,基本上来说是我们平时吃的苹果,而有了苹果手机之的呢,大量的人也人搜这个词,但是呢,他们都是找的苹果手机多少钱,这个时候,百度就会统计出苹果手机这个占的比例是比较大的,因而把苹果手机排在前面。以“最新苹果多少钱”为例子:

. [+ B4 _6 w) J1 V
$ O- G4 z0 C: h; N1 B4 h
                               
登录/注册后可看大图
# c0 t" G* _6 P

/ s. z. N0 `7 z3 E8 K# v
Ⅲ基于理解的匹配分词

- m1 e2 y5 ~" H* W4 I' A( }  S
这个基本上来说到现在为止,还没有真正的成熟,那么什么是基于理解的分词呢,就是搜索引擎通过大量的积累,然后可以找相近的词来进行匹配,这种情况下,可能匹配一些较少的词。大家看下面这个例子,基于理解的分词:

7 }/ g0 `" Q; W* f' r, J$ P  g* M
2 q) y0 p" J, n/ u7 B$ C0 @
                               
登录/注册后可看大图
+ K. i9 @- ^) C- h' V# Q9 t5 Y
教程到这里了,还会继续出百度分词算法的教程,因为一个人的标题写的怎么样,会决定他的排名以及以后的优化。请大家继续关注!
' v" ^7 i: F5 J

4 i7 j2 T4 y' L% X1 F. I
原文地址:http://www.niubseo.com/201412506.html
: D4 i, O8 D- G: L1 A
搜外原创作者:kongdesen
5 D; t; a, \" B$ |9 H. w; d
日期:2014-12-17
/ K- B1 a5 Q( D: Y9 D
谢谢管理!
/ ?2 ^. y$ S* Q6 p8 ~' Z
, f/ a9 N7 H/ F4 P
起标题和选词斟酌的重要性百度真难捉摸  时时刻刻在变动 优化真难呢扫描后匹配成字、词、句的形式
作者: Mqokjdvq    时间: 2016-1-5 21:02
刚才我还看见了呢.
作者: buingeEvineus    时间: 2016-1-5 21:03
既然你诚心诚意地发贴了,那我就大发慈悲地回复你。为了防止此贴被秒沉,为了维护此楼的繁荣!贯彻爱与真实的邪恶,可爱又迷人的顶贴角色! 穿梭在贴吧之间的顶贴队!喵~就是这样
作者: wwdu926a    时间: 2016-1-5 21:03
呵呵~~~~你怎么老这样说~~~
作者: Mqokjdvq    时间: 2016-1-5 21:03
baidu是相当能折腾我了
作者: tohme    时间: 2016-3-22 21:07
楼主,你要继续努力啊!你是bbs的希望啊!你是网络文学的希望啊!你是整个网络界的希望文学界的希望啊!你是整个人类的希望啊!你是整个太阳系的希望啊!你是整个异次元空间的希望啊!
作者: wwdu926a    时间: 2016-3-22 21:07
你可是难得来坐坐啊~~~
作者: Acropozelan    时间: 2016-3-22 21:07
这就是我斗胆的一点粗略分析,每天睡觉以前,我都会把您的帖子再三拜读,拜读。
作者: alapScady    时间: 2016-3-22 21:07
楼上的话等于没说~~~
作者: alapScady    时间: 2016-3-22 21:08
回来了 呵呵刚才在斗地主那 ~~~~




欢迎光临 得知互动 (https://bbs.dezhifl.com/) Powered by Discuz! X3.4