|
大家好,我是朋少,今天依然为大家带来百度分词算法,注意本文绝对不是采集或是抄袭网上的一些教科书里的文章,而是朋少花了近两个星期才得到一些感悟,现在在这里写给我最亲爱的喜欢我的同志们,也请你们记住–风一样的男子,朋少! 4 X" P( }5 Z4 I2 d: L
一、百度分词算法(切词)概念
I2 i' Q( z8 O, N0 O5 ]就是将词组打乱,按照一定的规则重组,然后搞成新的词,对新词进行匹配。
. Y8 x6 |- s# S4 U4 V% @& [/ O二、百度分词的算法三种方式 6 c7 f3 |+ K2 \+ r& U* E6 n
Ⅰ基本字典的匹配分词
9 I. q* a/ ~6 v( y: b* U根据目标词与已经有的字典里的词组匹配,扫描后匹配成字、词、句的形式
& m7 Z: r/ m* r7 O% c1、按照方式、可分为正向匹配和反向匹配
j5 x+ v6 \8 B9 B" O2、如果按方向和长度的匹配可以分为:正向最大匹配和逆向最大匹配 + \2 _ ]4 M2 g9 r8 m7 ~
3、还有一种就是双向匹配,双向匹配就是从正向和反向两个来匹配。
7 {: F- k$ Z3 e, A- L讲完上面两点之后,我们以“济南 seo朋少最帅”为例,讲解一下正向匹配和逆向匹配
9 @/ S+ Y, R. h; j9 }6 ]2 K9 C& l7 P7 H
深入百度分词算法的核心(实战)
* V2 i& G1 ~! A, f, N( M3、混合匹配
6 n2 _( N r* T深圳蚂蚁搬家公司 可以匹配成深圳搬家公司 三个词并不连续,就是混合。 8 d K0 @: S2 J) u2 ^
Ⅱ基于统计的匹配分词 : p. t: P, r, }5 i. E3 a
基本统计的匹配其实可以举一个很简单的例子来说明,比如在没有iphone之前,我们搜“苹果多少钱”的时候,基本上来说是我们平时吃的苹果,而有了苹果手机之的呢,大量的人也人搜这个词,但是呢,他们都是找的苹果手机多少钱,这个时候,百度就会统计出苹果手机这个占的比例是比较大的,因而把苹果手机排在前面。以“最新苹果多少钱”为例子: + C4 i, t+ O8 j, e5 e' s* X+ c q7 C" W
深入百度分词算法的核心(实战)
( d' G* T) j& O- i0 n7 u" G
; [' z1 \) i- F4 V' A8 T! y" f
Ⅲ基于理解的匹配分词
$ h) O' e% ]9 B& y) {7 \这个基本上来说到现在为止,还没有真正的成熟,那么什么是基于理解的分词呢,就是搜索引擎通过大量的积累,然后可以找相近的词来进行匹配,这种情况下,可能匹配一些较少的词。大家看下面这个例子,基于理解的分词: ) q; T: [) k5 ]1 b3 \& C
深入百度分词算法的核心(实战)
1 [- g9 ~0 W c; \教程到这里了,还会继续出百度分词算法的教程,因为一个人的标题写的怎么样,会决定他的排名以及以后的优化。请大家继续关注!
5 P6 \+ p e" e) P, U
- n( p8 k0 q4 g/ f# M1 B: |原文地址:http://www.niubseo.com/201412506.html 2 o5 O1 y, [8 Y8 j
搜外原创作者:kongdesen 8 Z+ `% u: t5 F4 h, ^- l
日期:2014-12-17
4 G4 D5 h- D* M6 k谢谢管理!
0 k/ f# G9 z- v7 o- X# n4 m% Y7 G, W6 t$ ]6 b% a
好的标题加上好的关键词大家好,我是朋少,今天依然为大家带来百度分词算法,注意本文绝对不是采集或是抄袭网上的一些教科书里的文章,而是朋少花了近两个星期才得到一些感悟,现在在这里写给我最亲爱的喜欢我的同志们,也请你们记住–风一样的男子,朋少!
4 C2 z' Q3 a# ~一、百度分词算法(切词)概念 : I3 ~8 @6 v- h* o
就是将词组打乱,按照一定的规则重组,然后搞成新的词,对新词进行匹配。
: ^" |+ F, Z$ H' `* r# o二、百度分词的算法三种方式
$ L+ A M! ]* b( EⅠ基本字典的匹配分词 6 Y6 X0 a& O% c7 Y
根据目标词与已经有的字典里的词组匹配,扫描后匹配成字、词、句的形式 - k0 \5 |6 D) {3 A+ O2 H0 X
1、按照方式、可分为正向匹配和反向匹配 ; `2 ?! |. P* L) _( x% @# U
2、如果按方向和长度的匹配可以分为:正向最大匹配和逆向最大匹配
1 x0 i8 ], j! L2 n3、还有一种就是双向匹配,双向匹配就是从正向和反向两个来匹配。
. W% k& }; |$ J& D2 Z3 B讲完上面两点之后,我们以“济南SEO朋少最帅”为例,讲解一下正向匹配和逆向匹配 5 l; H" W( }! E" n" [2 h
- J) f! f2 I8 F8 l3、混合匹配 0 f$ ?5 U% E/ J; C: l- a" F
深圳蚂蚁搬家公司 可以匹配成深圳搬家公司 三个词并不连续,就是混合。
% h6 S% ~# N) h: @. G3 O+ V! i7 mⅡ基于统计的匹配分词 3 @# q- B) X; C" H9 t! Q
基本统计的匹配其实可以举一个很简单的例子来说明,比如在没有iphone之前,我们搜“苹果多少钱”的时候,基本上来说是我们平时吃的苹果,而有了苹果手机之的呢,大量的人也人搜这个词,但是呢,他们都是找的苹果手机多少钱,这个时候,百度就会统计出苹果手机这个占的比例是比较大的,因而把苹果手机排在前面。以“最新苹果多少钱”为例子:
( |2 b" [8 v/ D' R& `' p! O- e9 J6 Q p I% L% A
& w3 [: L8 y5 k) r2 O2 MⅢ基于理解的匹配分词
/ f; o) l m5 ]5 d) M8 b这个基本上来说到现在为止,还没有真正的成熟,那么什么是基于理解的分词呢,就是搜索引擎通过大量的积累,然后可以找相近的词来进行匹配,这种情况下,可能匹配一些较少的词。大家看下面这个例子,基于理解的分词: # F2 r9 c! N+ M
5 C B5 }) u0 _( w7 A教程到这里了,还会继续出百度分词算法的教程,因为一个人的标题写的怎么样,会决定他的排名以及以后的优化。请大家继续关注!
; ^4 s7 N& g+ g
! ?7 V1 [ _# P% C( M' O5 J原文地址:http://www.niubseo.com/201412506.html : @6 d2 S9 i. i* b) z/ ?; o! O
搜外原创作者:kongdesen
) L# m5 S' H8 p, v( l# t1 }日期:2014-12-17
7 U: X* B7 w& M7 [谢谢管理! 0 C. v/ r1 f" {8 ]3 `
% c! S/ ]3 _3 B) ^$ }
起标题和选词斟酌的重要性百度真难捉摸 时时刻刻在变动 优化真难呢扫描后匹配成字、词、句的形式 |