关灯
开启左侧

[SEO经验] 深入百度分词算法的核心(实战)

[复制链接]
swmozowtfl 发表于 2015-5-7 23:48:47 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题
 
大家好,我是朋少,今天依然为大家带来百度分词算法,注意本文绝对不是采集或是抄袭网上的一些教科书里的文章,而是朋少花了近两个星期才得到一些感悟,现在在这里写给我最亲爱的喜欢我的同志们,也请你们记住–风一样的男子,朋少!
- W; n  z, q8 `9 T) `& d) D3 ~4 g1 v
一、百度分词算法(切词)概念
2 S$ H! ~( }2 I  O% m. O$ [
就是将词组打乱,按照一定的规则重组,然后搞成新的词,对新词进行匹配。

/ z+ V- O% p! [4 h( b
二、百度分词的算法三种方式
7 v, o! s$ p$ v/ _. t
Ⅰ基本字典的匹配分词
: p7 J8 a& ]/ j
根据目标词与已经有的字典里的词组匹配,扫描后匹配成字、词、句的形式

+ a( u; Z/ M! ~* `
1、按照方式、可分为正向匹配和反向匹配
" ~1 T. ~* U$ h9 `! Y1 [! z/ t$ s
2、如果按方向和长度的匹配可以分为:正向最大匹配和逆向最大匹配
& X5 V, V' x( i+ E% ~' ^
3、还有一种就是双向匹配,双向匹配就是从正向和反向两个来匹配。
, z3 a4 m! Q0 X2 y& W
讲完上面两点之后,我们以“济南seo朋少最帅”为例,讲解一下正向匹配和逆向匹配
/ L( F3 w6 q3 Y$ v" \

深入百度分词算法的核心(实战)

深入百度分词算法的核心(实战)

& c& j0 W0 T- n3 u9 o( I9 f, g
3、混合匹配
5 @" p, c9 _  P# W0 L' g  l' n
深圳蚂蚁搬家公司 可以匹配成深圳搬家公司 三个词并不连续,就是混合。
' o/ ^- v1 \0 S  D% h5 P
Ⅱ基于统计的匹配分词

+ R+ x/ K  R, b
基本统计的匹配其实可以举一个很简单的例子来说明,比如在没有iphone之前,我们搜“苹果多少钱”的时候,基本上来说是我们平时吃的苹果,而有了苹果手机之的呢,大量的人也人搜这个词,但是呢,他们都是找的苹果手机多少钱,这个时候,百度就会统计出苹果手机这个占的比例是比较大的,因而把苹果手机排在前面。以“最新苹果多少钱”为例子:
. y0 G( t# h! q, o% o

深入百度分词算法的核心(实战)

深入百度分词算法的核心(实战)
6 Q5 d6 |$ V2 P" b( Z0 i9 W

2 y4 k* L; |* v1 D8 J1 z" M7 i
Ⅲ基于理解的匹配分词
6 o6 H$ w) m8 ^2 O* U% O  T
这个基本上来说到现在为止,还没有真正的成熟,那么什么是基于理解的分词呢,就是搜索引擎通过大量的积累,然后可以找相近的词来进行匹配,这种情况下,可能匹配一些较少的词。大家看下面这个例子,基于理解的分词:
% K1 u, [7 a! W  A9 Y" d$ k  x

深入百度分词算法的核心(实战)

深入百度分词算法的核心(实战)

& p7 F! z) r$ y9 ?3 Z2 V( i
教程到这里了,还会继续出百度分词算法的教程,因为一个人的标题写的怎么样,会决定他的排名以及以后的优化。请大家继续关注!

" z7 g9 W' V& @2 B$ ~% {* s" K0 A# P, n$ w3 ]+ U4 ~& E
原文地址:http://www.niubseo.com/201412506.html

; K; N5 y9 [1 g- C3 c8 g. e8 P( |& C- Y
搜外原创作者:kongdesen

" {0 E+ t; F4 Q/ I
日期:2014-12-17

& Y# d) C9 @- g  e3 U" p) ]
谢谢管理!

! A  T) j; W9 d% A5 _# P( z5 L2 g$ `* G; \
好的标题加上好的关键词
大家好,我是朋少,今天依然为大家带来百度分词算法,注意本文绝对不是采集或是抄袭网上的一些教科书里的文章,而是朋少花了近两个星期才得到一些感悟,现在在这里写给我最亲爱的喜欢我的同志们,也请你们记住–风一样的男子,朋少!

* m5 C# L8 Z$ o( G- T
一、百度分词算法(切词)概念

8 Z, V( r8 n. Q% @! i' e
就是将词组打乱,按照一定的规则重组,然后搞成新的词,对新词进行匹配。

. A' L) a' E, F" w3 y$ p; y
二、百度分词的算法三种方式

0 r$ ]/ K5 r' `
Ⅰ基本字典的匹配分词

) L& ^/ s$ x; U6 p
根据目标词与已经有的字典里的词组匹配,扫描后匹配成字、词、句的形式

- {8 o8 i' C0 T
1、按照方式、可分为正向匹配和反向匹配
; w" V* Z/ A+ f! m0 z9 d. w( I
2、如果按方向和长度的匹配可以分为:正向最大匹配和逆向最大匹配

% x: G, |4 z$ `# t  Q
3、还有一种就是双向匹配,双向匹配就是从正向和反向两个来匹配。

4 t4 y4 C* D- v
讲完上面两点之后,我们以“济南SEO朋少最帅”为例,讲解一下正向匹配和逆向匹配
) j" n( @/ g0 W$ O* h: W
+ Z; {0 y, r, C' z$ g" a5 |/ K" L# N7 j
                               
登录/注册后可看大图

: i" p+ Y, t- t0 V( @1 J
3、混合匹配

. M# f  D& _$ ^6 ^$ l4 [. f+ `1 L2 I; H
深圳蚂蚁搬家公司 可以匹配成深圳搬家公司 三个词并不连续,就是混合。

2 c: d% w- q5 H8 s" ]+ y& K3 e9 T
Ⅱ基于统计的匹配分词
2 t, c/ ]0 n( d  p+ _6 J* L' x3 |% r
基本统计的匹配其实可以举一个很简单的例子来说明,比如在没有iphone之前,我们搜“苹果多少钱”的时候,基本上来说是我们平时吃的苹果,而有了苹果手机之的呢,大量的人也人搜这个词,但是呢,他们都是找的苹果手机多少钱,这个时候,百度就会统计出苹果手机这个占的比例是比较大的,因而把苹果手机排在前面。以“最新苹果多少钱”为例子:
: x$ J# g7 p0 m" O7 S$ P6 Q

# ]+ }5 M( d# H  g* ~5 j                               
登录/注册后可看大图

. w9 Z: U8 j- g" H+ P& y0 z! n
+ w2 p. ^8 V3 d# m
Ⅲ基于理解的匹配分词
- i. |3 J, L2 J) Z9 B! \
这个基本上来说到现在为止,还没有真正的成熟,那么什么是基于理解的分词呢,就是搜索引擎通过大量的积累,然后可以找相近的词来进行匹配,这种情况下,可能匹配一些较少的词。大家看下面这个例子,基于理解的分词:
* ^; I6 {( ~5 }8 |) g, ~
5 W6 @, t- P! q4 D7 H3 h
                               
登录/注册后可看大图

, w, Q  u& T, o" [, C* ^
教程到这里了,还会继续出百度分词算法的教程,因为一个人的标题写的怎么样,会决定他的排名以及以后的优化。请大家继续关注!
) d+ _8 S2 Z9 b# z0 A
- v& S* O  n% c0 V3 w) h
原文地址:http://www.niubseo.com/201412506.html

) e# u& g* R* S8 T* p9 C( q
搜外原创作者:kongdesen

; ]) e4 y; v& q% ?7 b
日期:2014-12-17
2 N; t! D& r# [/ ?' a+ @$ Y- X% m
谢谢管理!
& l# c# ]" c* v4 O0 Q$ Y& R
: @8 Z2 a+ T) J2 z6 ^
起标题和选词斟酌的重要性百度真难捉摸  时时刻刻在变动 优化真难呢扫描后匹配成字、词、句的形式
 

精彩评论9

正序浏览
Mqokjdvq 发表于 2016-1-5 21:02:57 | 显示全部楼层
 
刚才我还看见了呢.
 
buingeEvineus 发表于 2016-1-5 21:03:22 | 显示全部楼层
 
既然你诚心诚意地发贴了,那我就大发慈悲地回复你。为了防止此贴被秒沉,为了维护此楼的繁荣!贯彻爱与真实的邪恶,可爱又迷人的顶贴角色! 穿梭在贴吧之间的顶贴队!喵~就是这样
 
wwdu926a 发表于 2016-1-5 21:03:36 | 显示全部楼层
 
呵呵~~~~你怎么老这样说~~~
 
Mqokjdvq 发表于 2016-1-5 21:03:38 | 显示全部楼层
 
baidu是相当能折腾我了
 
tohme 发表于 2016-3-22 21:07:24 | 显示全部楼层
 
楼主,你要继续努力啊!你是bbs的希望啊!你是网络文学的希望啊!你是整个网络界的希望文学界的希望啊!你是整个人类的希望啊!你是整个太阳系的希望啊!你是整个异次元空间的希望啊!
 
wwdu926a 发表于 2016-3-22 21:07:43 | 显示全部楼层
 
你可是难得来坐坐啊~~~
 
Acropozelan 发表于 2016-3-22 21:07:48 | 显示全部楼层
 
这就是我斗胆的一点粗略分析,每天睡觉以前,我都会把您的帖子再三拜读,拜读。
 
alapScady 发表于 2016-3-22 21:07:51 | 显示全部楼层
 
楼上的话等于没说~~~
 
alapScady 发表于 2016-3-22 21:08:26 | 显示全部楼层
 
回来了 呵呵刚才在斗地主那 ~~~~
 
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则


0关注

1粉丝

2503帖子

热门图文
热门帖子
排行榜
作者专栏

关注我们:微信订阅号

官方微信

APP下载

全国服务Q Q:

956130084

中国·湖北

Email:956130084@qq.com

Copyright   ©2015-2022  站长技术交流论坛|互联网技术交流平台Powered by©Discuz!技术支持:得知网络  

鄂公网安备 42018502006730号

  ( 鄂ICP备15006301号-5 )