探讨搜索引擎是如何识别原创?
: @, F3 L3 i$ w+ j" n各大搜索引擎为了进一步提高用户体验度,不断在加强对原创内容的审核以及展现,那么,何为原创内容呢?虽然原创内容的定义很明确,但是对于搜索引擎而言,是一种机器语言算法,是结合诸多因素进行判别。
- w4 F, y% r4 z+ `. R: s 我们在网站运营过程中也有所体会,把握不少细节就能够总结许多经验,在这里就谈谈小编这几年的丰富经验,当然也有很多不足之处,望同仁们指出,促使自己更加不断的成长,以下是个人见解,还望相互交流学习,共同进步。- O' k# S, B" d
2 C) p/ I# b2 H# {# y5 L# H1 d# B( T
探讨搜索引擎是如何识别原创?
9 Q) r5 |, \; u' G; \) ^
搜索引擎判断原创的标准:) Z# G4 g1 F; P4 L/ r) `
1、服务器时间或蜘蛛爬行抓取时间# }+ S# F/ H% q- R" U0 A
内容是否原创判断的重要依据之一便是更新的时间先后,因此搜索引擎为根据内容更新时间去深入判断,也就是通过掌握服务器时间来把握,当然更应该结合各大蜘蛛对URL的爬行抓取时间做出更为精确的判断,当然由于蜘蛛爬行抓取是机器语言,相比大脑而言,还是不够机灵的,因此也存在原创内容判断失误的情况,当然为了弥补和改善这一情况,各大搜索引擎也推出相应的解决工具,比如:百度搜素引擎中的ping服务能够让搜索搜索引擎第一时间掌握内容更新时间。
+ Q7 Z- e* s" H$ U9 J: w9 c+ D 2、搜索引擎切词检索
* G0 B( g; G) s" g% b6 Z4 x! ~ 目前各大搜索引擎在判断内容是否原创时,最为重要的依据还必须是进行切词进行检索,通过数据库进行信息对比,是否存在重复性,通过此类方面对原创内容的判断相比而言较为准确,当然至于切词进行检索,有可能是某一句,某一段或者更多,相信随机性的可能性比较大,至于具体的情况需要深入了解搜索引擎机制了。原创内容的重要性很大,直接影响到网站的权重,故原创内容重点应该把握搜索引擎机制,当然用户才是第一位,两者也可兼得。6 p: H8 |# P, `# e2 a
3、百度原创识别“起源”算法
8 `4 o% q9 Q, D3 s$ }: s9 }. v 针对原创识别的问题,各大搜索引擎也在逐渐发力,比如:百度原创识别“起源”算法,首先主要是通过内容相识度来进行聚合存档建立数据库,其次进一步结合网站自身原创情况、作者口碑、发布时间、链接指向、用户评论、转发轨迹等多种因素进行判断,最后通过价值分析最终进行排序展示给搜索用户。当然由于诸多因素共同作用,同样也存在许多失误,只能说解决大部分所需,“起源”算法还在不断完善中。
9 b0 C& j& g' k5 k" v6 T- L 4、百度原创星火计划! C5 v6 n. R4 }$ P. k
搜索引擎为了满足更多用户的需求,提供高质量信任的内容,逐渐推出一系列相应措施,目前百度原创星火计划的实行和推广,也取得了初步的效果,一期对部分重点原创新闻站点的原创内容在百度搜索结果中给予了原创标记、作者展示等等,以此获得更好的展现,满足用户提高眼,并且站点在排序及流量上也取得了合理的提升。7 n9 W+ N" V6 L( s. C5 _
目前原创星火计划已经开始步入第二期,也提倡高质量原创站点主动进行申请,获得原创星火计划资格,内容得到百度搜索引擎的推荐以及更好的展现。 |