返回列表 发新帖

深入百度分词算法的核心(实战)

297.4k 9
swmozowtfl 发表于 2015-5-7 23:48:47|湖北 | 查看全部 阅读模式
大家好,我是朋少,今天依然为大家带来百度分词算法,注意本文绝对不是采集或是抄袭网上的一些教科书里的文章,而是朋少花了近两个星期才得到一些感悟,现在在这里写给我最亲爱的喜欢我的同志们,也请你们记住–风一样的男子,朋少!

. t- f* t" \, f4 x8 y7 W5 V% A) s
一、百度分词算法(切词)概念
# E( y% b) J. ?( d% Y4 a4 |
就是将词组打乱,按照一定的规则重组,然后搞成新的词,对新词进行匹配。

1 i$ \6 L* `9 A0 `- n. W+ W
二、百度分词的算法三种方式
1 E+ D2 ~% }; G" K8 t
Ⅰ基本字典的匹配分词

7 a9 d9 k% k, R, Z3 p/ }
根据目标词与已经有的字典里的词组匹配,扫描后匹配成字、词、句的形式

  B1 F7 N5 B, W
1、按照方式、可分为正向匹配和反向匹配
( K, T3 ^" n) c$ G
2、如果按方向和长度的匹配可以分为:正向最大匹配和逆向最大匹配

3 S2 {2 w, k6 l$ e3 O( s
3、还有一种就是双向匹配,双向匹配就是从正向和反向两个来匹配。

# x2 s, e5 P8 ?  G$ n/ N% {
讲完上面两点之后,我们以“济南seo朋少最帅”为例,讲解一下正向匹配和逆向匹配
- k& w0 W5 k; D2 e% v

深入百度分词算法的核心(实战)

深入百度分词算法的核心(实战)
* q: P7 j0 {  I4 z8 b! I5 `
3、混合匹配
, |+ q0 r. }9 M) A: Z
深圳蚂蚁搬家公司 可以匹配成深圳搬家公司 三个词并不连续,就是混合。

( o( C3 G! _5 V' M, p0 F
Ⅱ基于统计的匹配分词

' @5 W9 b4 i6 y/ ~; E
基本统计的匹配其实可以举一个很简单的例子来说明,比如在没有iphone之前,我们搜“苹果多少钱”的时候,基本上来说是我们平时吃的苹果,而有了苹果手机之的呢,大量的人也人搜这个词,但是呢,他们都是找的苹果手机多少钱,这个时候,百度就会统计出苹果手机这个占的比例是比较大的,因而把苹果手机排在前面。以“最新苹果多少钱”为例子:
% z4 I: z2 c5 w8 q

深入百度分词算法的核心(实战)

深入百度分词算法的核心(实战)
/ M, y' B% c3 Q. e  x

' e8 K" E$ z8 G) U" g5 y
Ⅲ基于理解的匹配分词
# Y* y# f9 T$ B) j4 J" A- _
这个基本上来说到现在为止,还没有真正的成熟,那么什么是基于理解的分词呢,就是搜索引擎通过大量的积累,然后可以找相近的词来进行匹配,这种情况下,可能匹配一些较少的词。大家看下面这个例子,基于理解的分词:

, |1 P9 t! |7 C' S* s, H

深入百度分词算法的核心(实战)

深入百度分词算法的核心(实战)

0 f& @* j' G% l9 t
教程到这里了,还会继续出百度分词算法的教程,因为一个人的标题写的怎么样,会决定他的排名以及以后的优化。请大家继续关注!
7 X" D& T6 s, e

8 H+ i+ q3 S# T; g& d6 |
原文地址:http://www.niubseo.com/201412506.html

6 _. u1 ^5 X; A- u- W" ]
搜外原创作者:kongdesen
) s* M- _. x1 c* Q% j& ?! P: F" ^
日期:2014-12-17

4 I% g4 ]7 H, O+ Q1 v
谢谢管理!
* [* N& q! [$ {3 x2 s. V: f
. B+ J4 o& [/ N+ K/ p3 L( V
好的标题加上好的关键词
大家好,我是朋少,今天依然为大家带来百度分词算法,注意本文绝对不是采集或是抄袭网上的一些教科书里的文章,而是朋少花了近两个星期才得到一些感悟,现在在这里写给我最亲爱的喜欢我的同志们,也请你们记住–风一样的男子,朋少!

4 _( m) r! R) p0 e
一、百度分词算法(切词)概念
% k' b$ K5 M* Z) f& R6 \
就是将词组打乱,按照一定的规则重组,然后搞成新的词,对新词进行匹配。
" a" ]9 p5 r! q
二、百度分词的算法三种方式
1 L/ m7 D) Z! K( D: |- {( K
Ⅰ基本字典的匹配分词

; Q* a8 V9 }5 y6 u. v! ?% z
根据目标词与已经有的字典里的词组匹配,扫描后匹配成字、词、句的形式

! f5 |) k5 Y4 O( [8 k# R: F  d
1、按照方式、可分为正向匹配和反向匹配
. w  e- A* z& G1 ~1 u
2、如果按方向和长度的匹配可以分为:正向最大匹配和逆向最大匹配

; w" F$ s* v) O1 _! z7 H6 e" _4 ]
3、还有一种就是双向匹配,双向匹配就是从正向和反向两个来匹配。
' `4 {) }, j+ o
讲完上面两点之后,我们以“济南SEO朋少最帅”为例,讲解一下正向匹配和逆向匹配
# g+ x  M0 l: ]+ n+ S7 E5 s& x4 j
  Q+ ~/ L* U0 F
                               
登录/注册后可看大图
' q5 I9 X/ f% B- f+ }
3、混合匹配
: @2 A3 ?' Q, i( k  a6 s
深圳蚂蚁搬家公司 可以匹配成深圳搬家公司 三个词并不连续,就是混合。

- e" A4 s2 p( \1 e
Ⅱ基于统计的匹配分词
- z( H  J- k/ j4 P3 q
基本统计的匹配其实可以举一个很简单的例子来说明,比如在没有iphone之前,我们搜“苹果多少钱”的时候,基本上来说是我们平时吃的苹果,而有了苹果手机之的呢,大量的人也人搜这个词,但是呢,他们都是找的苹果手机多少钱,这个时候,百度就会统计出苹果手机这个占的比例是比较大的,因而把苹果手机排在前面。以“最新苹果多少钱”为例子:

  H% b0 X; }. a9 n

  Q6 G! Q$ E8 q5 ]( F                               
登录/注册后可看大图
, K6 f4 r. y/ u9 W2 e$ n

* C* p& h* S5 {. P/ F2 W6 f
Ⅲ基于理解的匹配分词
  ^6 b! o4 M) M$ ?1 V; `. T
这个基本上来说到现在为止,还没有真正的成熟,那么什么是基于理解的分词呢,就是搜索引擎通过大量的积累,然后可以找相近的词来进行匹配,这种情况下,可能匹配一些较少的词。大家看下面这个例子,基于理解的分词:

( ^8 k% l5 `& o& p2 R

$ L9 W- V5 e  a+ I5 m% x7 f                               
登录/注册后可看大图

; x' \% Z% q$ K, O
教程到这里了,还会继续出百度分词算法的教程,因为一个人的标题写的怎么样,会决定他的排名以及以后的优化。请大家继续关注!

3 Y. L& [! w! n  B9 L7 s3 {# h
- I1 O$ a0 i3 Y' F$ o  N* Y
原文地址:http://www.niubseo.com/201412506.html
# q/ m% [; e% z- L( n
搜外原创作者:kongdesen

) `5 h0 C7 M) v, x. ?8 s
日期:2014-12-17

0 M4 j- q; C! `. F
谢谢管理!

& O  A1 \/ W4 P7 j- |$ y4 h% E4 c# b+ N- [0 _, C& K
起标题和选词斟酌的重要性百度真难捉摸  时时刻刻在变动 优化真难呢扫描后匹配成字、词、句的形式

回复|共 9 个

Mqokjdvq 发表于 2016-1-5 21:02:57|德国 | 查看全部
刚才我还看见了呢.
buingeEvineus 发表于 2016-1-5 21:03:22|美国 | 查看全部
既然你诚心诚意地发贴了,那我就大发慈悲地回复你。为了防止此贴被秒沉,为了维护此楼的繁荣!贯彻爱与真实的邪恶,可爱又迷人的顶贴角色! 穿梭在贴吧之间的顶贴队!喵~就是这样
wwdu926a 发表于 2016-1-5 21:03:36|韩国 | 查看全部
呵呵~~~~你怎么老这样说~~~
Mqokjdvq 发表于 2016-1-5 21:03:38|美国 | 查看全部
baidu是相当能折腾我了
tohme 发表于 2016-3-22 21:07:24|智利 | 查看全部
楼主,你要继续努力啊!你是bbs的希望啊!你是网络文学的希望啊!你是整个网络界的希望文学界的希望啊!你是整个人类的希望啊!你是整个太阳系的希望啊!你是整个异次元空间的希望啊!
wwdu926a 发表于 2016-3-22 21:07:43|美国 | 查看全部
你可是难得来坐坐啊~~~
Acropozelan 发表于 2016-3-22 21:07:48|法国 | 查看全部
这就是我斗胆的一点粗略分析,每天睡觉以前,我都会把您的帖子再三拜读,拜读。
alapScady 发表于 2016-3-22 21:07:51|美国 | 查看全部
楼上的话等于没说~~~
alapScady 发表于 2016-3-22 21:08:26|法国 | 查看全部
回来了 呵呵刚才在斗地主那 ~~~~

回复

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

得知互动是一个融创意、设计、开发、营销、生活、互联网于一体的专业交流分享平台。
Copyright © 2026 站长技术交流论坛|互联网技术交流平台|Ai技术交流平台 版权所有 All Rights Reserved. Powered by Discuz! X5.0 鄂ICP备15006301号-5|鄂公网安备 42018502006730号
关灯 在本版发帖 扫一扫添加QQ客服 返回顶部
快速回复 返回顶部 返回列表