为什么先前观光者留下的体验和感触感染很主要o在万为这些身临其境的感触感染才干给后来者供给带进感,好比蚂蜂窝可以从 UGC 的纪行攻略里提掏出相似:“酒店间隔新宿趁魅站很近,乘坐地铁和 JR 线都很是便利,便利往新宿购物。酒店有地下通道可以纵贯新宿站,带着很年夜的箱子行走也不会太吃力”如许的句子,这是纯洁做买卖的 OTA 很难做到的。
而要能从已有的长篇年夜论的攻略中提掏出上述有用的酒店评价信息,就须要蚂蜂窝有一个技巧体系来将有价值的数据进行构造化。
陈罡嗣魅这个体系就是他们一开端就在做的“攻略引擎”(这个引擎在 2013 年有过一次周全的进级),由于他们自己是做搜刮引擎出生的团队,今朝团队里也有对折是研发的技巧职员。而在搜刮范畴里,语义剖析是很主要的一环——就好比“空”和“多”这两个相对的词,在金融范畴,和在旅游范畴,表义是完整纷歧样的。所以他们把语义剖析用在了攻略的数据剖析里,好比要怎么往鉴定用户写到“喷鼻格里拉”时指的是酒店仍是地名?这些都须要技巧往提取、然后构造化。
我看了一下蚂蜂窝构造化数据的后果,有两个比拟直不雅的例子,一个是用户此刻可以直接在攻略里看到被提掏出来的酒店 POI 信息,点击链接便可以直接导进预订页面。另一个是蚂蜂窝针对餐厅的点评页面里,它提掏出了一些最常被说起的字眼作为直不雅参考,好比“贵啊”、“味道一般”、“十年陈酿”、“”这些字眼,后果接近淘宝的评价体系。
所以在这个攻略引擎之下,酒店、餐厅、景点等等各项垂直的数据,都可以被从以往用户的长篇攻略中提掏出来,做成零丁的产物,用来做后续的贸易化等测验考试。
那么,要能把数据构造化做得好须要有什么前提?陈罡说第一是必需有海量 UGC 的量,第二就是攻略引擎实在有很高的技巧门槛。蚂蜂窝今朝按时光次序来看已经走过了三个阶段,第一个就是 UGC 的积聚阶段,做社区一开端要有真实内乱容发生是很不轻易的,第二个阶段就是用攻略引擎构造化数据,构造化做好之后,下一个阶段就是依据数据来做个性化推举。
他在年会的时辰和同事说,“以前我们是个 social 站长交换pany,我们从 2014 年要酿成 data 站长交换pany”。data 是不须要你花很长时光、完整往融进这个社区才干获得,它是中立客不雅的,就像水和煤气鼓鼓一样。有了 data,再把用户酿成一个有个性、有特质、可被刻画出来的人,就可认为他们供给个性化的办事了。
最后我问了下陈罡怎么看此刻完整从移动端发展起来的纪行分享社区,蚂蜂窝比拟之下有什么上风。陈罡的设法是,没有足够多的 UGC 量,就无法做年夜数据。而积聚 UGC 的量,除了时光的题目外,还有一个题目,就是 mobile 很难承载更多的办事,他之条件过一个概念,这个节点上 PC 和 mobile 的竞争就像航母和战役机的┞方争,航母是很牢固的后端,它可以承载更多的数据、更多样的办事类型和交互,这些是 mobile 承载不了的,所以纯做 mobile 的话,会缺掉一个很强的后端。别的他还提了一个概念,在蚂蜂窝上,有良多用户写纪行、分享出行经验,尔后这些经验可以再领导别人的出行,不竭来去从而形成一个正向的轮回,而其他的社区,几乎没有能形成正向轮回才能的公司。