大家好,我是朋少,今天依然为大家带来百度分词算法,注意本文绝对不是采集或是抄袭网上的一些教科书里的文章,而是朋少花了近两个星期才得到一些感悟,现在在这里写给我最亲爱的喜欢我的同志们,也请你们记住–风一样的男子,朋少!
9 k$ A5 k& X8 p) y$ V一、百度分词算法(切词)概念 8 `& A6 @" I1 V* D8 y9 n
就是将词组打乱,按照一定的规则重组,然后搞成新的词,对新词进行匹配。
2 H E7 }+ \: O' d二、百度分词的算法三种方式
8 {% U& E# v, L- b3 U E% KⅠ基本字典的匹配分词 4 X+ o1 J: ?4 X# L$ ^' S, ?
根据目标词与已经有的字典里的词组匹配,扫描后匹配成字、词、句的形式
3 P" ]# K, i# i1、按照方式、可分为正向匹配和反向匹配
' J! K3 u6 J& M: x2、如果按方向和长度的匹配可以分为:正向最大匹配和逆向最大匹配 4 }( A/ {* F) F
3、还有一种就是双向匹配,双向匹配就是从正向和反向两个来匹配。
) a# s* y$ ]/ L2 {9 Q6 w3 A讲完上面两点之后,我们以“济南 seo朋少最帅”为例,讲解一下正向匹配和逆向匹配 0 z4 E& i7 k$ H( d4 O5 @5 ?
深入百度分词算法的核心(实战)
$ D8 V7 j2 J8 E; ^1 z/ g( U
3、混合匹配
* T1 k& x K9 Z5 K$ Y深圳蚂蚁搬家公司 可以匹配成深圳搬家公司 三个词并不连续,就是混合。 + B# K J. w$ x. e( S
Ⅱ基于统计的匹配分词 - I- S$ ~. m+ o4 ^8 {
基本统计的匹配其实可以举一个很简单的例子来说明,比如在没有iphone之前,我们搜“苹果多少钱”的时候,基本上来说是我们平时吃的苹果,而有了苹果手机之的呢,大量的人也人搜这个词,但是呢,他们都是找的苹果手机多少钱,这个时候,百度就会统计出苹果手机这个占的比例是比较大的,因而把苹果手机排在前面。以“最新苹果多少钱”为例子:
& |3 x/ s8 N; c, _+ W# \
深入百度分词算法的核心(实战)
: J5 S* f1 H7 D1 [4 _) w/ {
4 h8 k% a/ f# T5 p7 @0 n
Ⅲ基于理解的匹配分词
9 A2 x) Q2 v$ `; Q这个基本上来说到现在为止,还没有真正的成熟,那么什么是基于理解的分词呢,就是搜索引擎通过大量的积累,然后可以找相近的词来进行匹配,这种情况下,可能匹配一些较少的词。大家看下面这个例子,基于理解的分词:
& Q: S/ i1 d3 J
深入百度分词算法的核心(实战)
7 l7 a# V, G) n* A: `教程到这里了,还会继续出百度分词算法的教程,因为一个人的标题写的怎么样,会决定他的排名以及以后的优化。请大家继续关注!
/ W$ D6 J4 E# L5 t1 ]( P$ s1 t8 n, S; j- {
原文地址:http://www.niubseo.com/201412506.html
6 d$ s) ^" U* M: m搜外原创作者:kongdesen % G. l$ Y4 ]+ b- A
日期:2014-12-17 & U+ w1 w1 L7 g# l5 E
谢谢管理! * L4 O3 p* e0 K# N4 H
+ }. J" c( Z$ }: C) y* f好的标题加上好的关键词大家好,我是朋少,今天依然为大家带来百度分词算法,注意本文绝对不是采集或是抄袭网上的一些教科书里的文章,而是朋少花了近两个星期才得到一些感悟,现在在这里写给我最亲爱的喜欢我的同志们,也请你们记住–风一样的男子,朋少!
0 M$ F' N- \1 s# S% N! _& I一、百度分词算法(切词)概念
- V3 l" Z4 {0 v! G就是将词组打乱,按照一定的规则重组,然后搞成新的词,对新词进行匹配。 0 I* h. O/ X& m( d$ y* u w
二、百度分词的算法三种方式 6 c* P! M8 s- w6 P; i
Ⅰ基本字典的匹配分词 % \' T' ^) F9 g" u6 a# u+ J
根据目标词与已经有的字典里的词组匹配,扫描后匹配成字、词、句的形式
2 g+ ]# O1 j+ y5 d1、按照方式、可分为正向匹配和反向匹配 & H& ^0 o; q G/ i. z; U, _
2、如果按方向和长度的匹配可以分为:正向最大匹配和逆向最大匹配
; J4 E s ]7 P3 q6 b3、还有一种就是双向匹配,双向匹配就是从正向和反向两个来匹配。 * k5 P0 G4 F! W& i% O( o; \; ?
讲完上面两点之后,我们以“济南SEO朋少最帅”为例,讲解一下正向匹配和逆向匹配
( c- b* n# W% G" y* H, A) A, K7 _+ T
" u9 \3 y. C; L9 a3 \3、混合匹配 2 y+ i4 X2 @& k% R! K2 g
深圳蚂蚁搬家公司 可以匹配成深圳搬家公司 三个词并不连续,就是混合。
, a# y* p8 G' ?# \5 P9 t6 X1 A' Q5 gⅡ基于统计的匹配分词
5 v# I1 H$ x: b! K. g基本统计的匹配其实可以举一个很简单的例子来说明,比如在没有iphone之前,我们搜“苹果多少钱”的时候,基本上来说是我们平时吃的苹果,而有了苹果手机之的呢,大量的人也人搜这个词,但是呢,他们都是找的苹果手机多少钱,这个时候,百度就会统计出苹果手机这个占的比例是比较大的,因而把苹果手机排在前面。以“最新苹果多少钱”为例子: " B* O1 R$ T1 I0 a D; i5 `! Q
/ j. H E! O9 \- ]
Ⅲ基于理解的匹配分词 ! R2 t3 z/ D4 j
这个基本上来说到现在为止,还没有真正的成熟,那么什么是基于理解的分词呢,就是搜索引擎通过大量的积累,然后可以找相近的词来进行匹配,这种情况下,可能匹配一些较少的词。大家看下面这个例子,基于理解的分词:
3 U4 m8 Y2 b4 M6 ?, M& t
) R/ ~2 ]# }/ z6 ]教程到这里了,还会继续出百度分词算法的教程,因为一个人的标题写的怎么样,会决定他的排名以及以后的优化。请大家继续关注!
. L+ v& S; I ~- r, j, c; i1 O+ Z/ B& f! W" Y ^7 _4 G1 e4 A7 N
原文地址:http://www.niubseo.com/201412506.html
" l" ]$ _9 g$ K搜外原创作者:kongdesen
% e3 {% [! K8 ?1 D G: d" u$ F7 M日期:2014-12-17
7 L* p7 u1 r/ X- G谢谢管理! ) V2 K. i2 R9 o/ u4 e- R
! @3 o9 `0 j# U, U起标题和选词斟酌的重要性百度真难捉摸 时时刻刻在变动 优化真难呢扫描后匹配成字、词、句的形式 |