返回列表 发新帖

深入百度分词算法的核心(实战)

297.4k 9
swmozowtfl 发表于 2015-5-7 23:48:47|湖北 | 查看全部 阅读模式
大家好,我是朋少,今天依然为大家带来百度分词算法,注意本文绝对不是采集或是抄袭网上的一些教科书里的文章,而是朋少花了近两个星期才得到一些感悟,现在在这里写给我最亲爱的喜欢我的同志们,也请你们记住–风一样的男子,朋少!
4 X" P( }5 Z4 I2 d: L
一、百度分词算法(切词)概念

  I2 i' Q( z8 O, N0 O5 ]
就是将词组打乱,按照一定的规则重组,然后搞成新的词,对新词进行匹配。

. Y8 x6 |- s# S4 U4 V% @& [/ O
二、百度分词的算法三种方式
6 c7 f3 |+ K2 \+ r& U* E6 n
Ⅰ基本字典的匹配分词

9 I. q* a/ ~6 v( y: b* U
根据目标词与已经有的字典里的词组匹配,扫描后匹配成字、词、句的形式

& m7 Z: r/ m* r7 O% c
1、按照方式、可分为正向匹配和反向匹配

  j5 x+ v6 \8 B9 B" O
2、如果按方向和长度的匹配可以分为:正向最大匹配和逆向最大匹配
+ \2 _  ]4 M2 g9 r8 m7 ~
3、还有一种就是双向匹配,双向匹配就是从正向和反向两个来匹配。

7 {: F- k$ Z3 e, A- L
讲完上面两点之后,我们以“济南seo朋少最帅”为例,讲解一下正向匹配和逆向匹配

9 @/ S+ Y, R. h; j9 }6 ]2 K9 C& l7 P7 H

深入百度分词算法的核心(实战)

深入百度分词算法的核心(实战)

* V2 i& G1 ~! A, f, N( M
3、混合匹配

6 n2 _( N  r* T
深圳蚂蚁搬家公司 可以匹配成深圳搬家公司 三个词并不连续,就是混合。
8 d  K0 @: S2 J) u2 ^
Ⅱ基于统计的匹配分词
: p. t: P, r, }5 i. E3 a
基本统计的匹配其实可以举一个很简单的例子来说明,比如在没有iphone之前,我们搜“苹果多少钱”的时候,基本上来说是我们平时吃的苹果,而有了苹果手机之的呢,大量的人也人搜这个词,但是呢,他们都是找的苹果手机多少钱,这个时候,百度就会统计出苹果手机这个占的比例是比较大的,因而把苹果手机排在前面。以“最新苹果多少钱”为例子:
+ C4 i, t+ O8 j, e5 e' s* X+ c  q7 C" W

深入百度分词算法的核心(实战)

深入百度分词算法的核心(实战)
( d' G* T) j& O- i0 n7 u" G
; [' z1 \) i- F4 V' A8 T! y" f
Ⅲ基于理解的匹配分词

$ h) O' e% ]9 B& y) {7 \
这个基本上来说到现在为止,还没有真正的成熟,那么什么是基于理解的分词呢,就是搜索引擎通过大量的积累,然后可以找相近的词来进行匹配,这种情况下,可能匹配一些较少的词。大家看下面这个例子,基于理解的分词:
) q; T: [) k5 ]1 b3 \& C

深入百度分词算法的核心(实战)

深入百度分词算法的核心(实战)

1 [- g9 ~0 W  c; \
教程到这里了,还会继续出百度分词算法的教程,因为一个人的标题写的怎么样,会决定他的排名以及以后的优化。请大家继续关注!

5 P6 \+ p  e" e) P, U
- n( p8 k0 q4 g/ f# M1 B: |
原文地址:http://www.niubseo.com/201412506.html
2 o5 O1 y, [8 Y8 j
搜外原创作者:kongdesen
8 Z+ `% u: t5 F4 h, ^- l
日期:2014-12-17

4 G4 D5 h- D* M6 k
谢谢管理!

0 k/ f# G9 z- v7 o- X# n4 m% Y7 G, W6 t$ ]6 b% a
好的标题加上好的关键词
大家好,我是朋少,今天依然为大家带来百度分词算法,注意本文绝对不是采集或是抄袭网上的一些教科书里的文章,而是朋少花了近两个星期才得到一些感悟,现在在这里写给我最亲爱的喜欢我的同志们,也请你们记住–风一样的男子,朋少!

4 C2 z' Q3 a# ~
一、百度分词算法(切词)概念
: I3 ~8 @6 v- h* o
就是将词组打乱,按照一定的规则重组,然后搞成新的词,对新词进行匹配。

: ^" |+ F, Z$ H' `* r# o
二、百度分词的算法三种方式

$ L+ A  M! ]* b( E
Ⅰ基本字典的匹配分词
6 Y6 X0 a& O% c7 Y
根据目标词与已经有的字典里的词组匹配,扫描后匹配成字、词、句的形式
- k0 \5 |6 D) {3 A+ O2 H0 X
1、按照方式、可分为正向匹配和反向匹配
; `2 ?! |. P* L) _( x% @# U
2、如果按方向和长度的匹配可以分为:正向最大匹配和逆向最大匹配

1 x0 i8 ], j! L2 n
3、还有一种就是双向匹配,双向匹配就是从正向和反向两个来匹配。

. W% k& }; |$ J& D2 Z3 B
讲完上面两点之后,我们以“济南SEO朋少最帅”为例,讲解一下正向匹配和逆向匹配
5 l; H" W( }! E" n" [2 h
6 Z1 ^; p0 _  ~3 h. h0 O: x: \, g  U
                               
登录/注册后可看大图

- J) f! f2 I8 F8 l
3、混合匹配
0 f$ ?5 U% E/ J; C: l- a" F
深圳蚂蚁搬家公司 可以匹配成深圳搬家公司 三个词并不连续,就是混合。

% h6 S% ~# N) h: @. G3 O+ V! i7 m
Ⅱ基于统计的匹配分词
3 @# q- B) X; C" H9 t! Q
基本统计的匹配其实可以举一个很简单的例子来说明,比如在没有iphone之前,我们搜“苹果多少钱”的时候,基本上来说是我们平时吃的苹果,而有了苹果手机之的呢,大量的人也人搜这个词,但是呢,他们都是找的苹果手机多少钱,这个时候,百度就会统计出苹果手机这个占的比例是比较大的,因而把苹果手机排在前面。以“最新苹果多少钱”为例子:

( |2 b" [8 v/ D' R& `
( i) V+ i/ U9 b. P4 ^3 k
                               
登录/注册后可看大图
' p! O- e9 J6 Q  p  I% L% A

& w3 [: L8 y5 k) r2 O2 M
Ⅲ基于理解的匹配分词

/ f; o) l  m5 ]5 d) M8 b
这个基本上来说到现在为止,还没有真正的成熟,那么什么是基于理解的分词呢,就是搜索引擎通过大量的积累,然后可以找相近的词来进行匹配,这种情况下,可能匹配一些较少的词。大家看下面这个例子,基于理解的分词:
# F2 r9 c! N+ M

9 f: V7 s3 c6 ^& M6 Q                               
登录/注册后可看大图

5 C  B5 }) u0 _( w7 A
教程到这里了,还会继续出百度分词算法的教程,因为一个人的标题写的怎么样,会决定他的排名以及以后的优化。请大家继续关注!

; ^4 s7 N& g+ g
! ?7 V1 [  _# P% C( M' O5 J
原文地址:http://www.niubseo.com/201412506.html
: @6 d2 S9 i. i* b) z/ ?; o! O
搜外原创作者:kongdesen

) L# m5 S' H8 p, v( l# t1 }
日期:2014-12-17

7 U: X* B7 w& M7 [
谢谢管理!
0 C. v/ r1 f" {8 ]3 `
% c! S/ ]3 _3 B) ^$ }
起标题和选词斟酌的重要性百度真难捉摸  时时刻刻在变动 优化真难呢扫描后匹配成字、词、句的形式

回复|共 9 个

Mqokjdvq 发表于 2016-1-5 21:02:57|德国 | 查看全部
刚才我还看见了呢.
buingeEvineus 发表于 2016-1-5 21:03:22|美国 | 查看全部
既然你诚心诚意地发贴了,那我就大发慈悲地回复你。为了防止此贴被秒沉,为了维护此楼的繁荣!贯彻爱与真实的邪恶,可爱又迷人的顶贴角色! 穿梭在贴吧之间的顶贴队!喵~就是这样
wwdu926a 发表于 2016-1-5 21:03:36|韩国 | 查看全部
呵呵~~~~你怎么老这样说~~~
Mqokjdvq 发表于 2016-1-5 21:03:38|美国 | 查看全部
baidu是相当能折腾我了
tohme 发表于 2016-3-22 21:07:24|智利 | 查看全部
楼主,你要继续努力啊!你是bbs的希望啊!你是网络文学的希望啊!你是整个网络界的希望文学界的希望啊!你是整个人类的希望啊!你是整个太阳系的希望啊!你是整个异次元空间的希望啊!
wwdu926a 发表于 2016-3-22 21:07:43|美国 | 查看全部
你可是难得来坐坐啊~~~
Acropozelan 发表于 2016-3-22 21:07:48|法国 | 查看全部
这就是我斗胆的一点粗略分析,每天睡觉以前,我都会把您的帖子再三拜读,拜读。
alapScady 发表于 2016-3-22 21:07:51|美国 | 查看全部
楼上的话等于没说~~~
alapScady 发表于 2016-3-22 21:08:26|法国 | 查看全部
回来了 呵呵刚才在斗地主那 ~~~~

回复

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

得知互动是一个融创意、设计、开发、营销、生活、互联网于一体的专业交流分享平台。
Copyright © 2026 站长技术交流论坛|互联网技术交流平台|Ai技术交流平台 版权所有 All Rights Reserved. Powered by Discuz! X5.0 鄂ICP备15006301号-5|鄂公网安备 42018502006730号
关灯 在本版发帖 扫一扫添加QQ客服 返回顶部
快速回复 返回顶部 返回列表