【百道编按】业界各方都在争夺大数据这块高地,却只见谈论得热闹,未见确有实效的数据分析方法。有人质疑对于何为大数据,业界是否有正确的认识,我们热火朝天分析的真的是大数据吗?我们得听一听专业人士的意见。
All Brain,全球领先的按需领导服务提供者,服务对象为传媒出版业的高管,旨在提供企业未来业务的探索、挖掘、传承与执行。马尔塞洛•维纳是All Brain公司的创始人兼任事股东,他曾发文,犀利指出传媒出版业不该再唯“大数据”是瞻,错把小数据智能分析捧为大数据。
出版业应该认真看待智能数据分析,不要只拘泥于Excel表格上的数字或是数据库管理系统里销售数字的简单加减。我们不该再拿“大数据”这样的流行词给自己猛灌迷魂汤,这个词在行业外有非常明确的含义,用“智能数据分析”(是指对“小数据”进行智能分析)这个词更确切些。
今年1月的DBW大会(Digital Book World Conference)上,哈珀柯林斯的首席数字官尚塔尔•雷斯蒂-阿莱西这样形容:“聊起大数据,倒颇有点青春期的男孩子大谈自己有几个女友。”
当涉及到实际进行的有意义的数据分析时,每个人都会谈及它,却没有谁知道到底该如何实现,每个人都以为别人在做,每个人都声称自己正在做。
维纳的文中所指的皆为数据分析而非大数据。这两个不是一回事。
对于当今出版业的诸多利益相关者而言,面对Excel表格中的几千行数据,对它们进行信息分析就够让人伤脑筋的。但对于很多其他行业的人,却早已司空见惯。实际上,图书零售商和大型出版商早就在做这项工作,其中很多早已开始使用数据库管理系统(Database Management Systems,DBMS)和数据可视化工具来进行Excel等普通工具无法胜任的复杂数据分析了。虽然都是处理大量数据,DBMS和“大数据”却无甚联系。
有些数据分析需要更大型的技术基础和更复杂的方法,但这并不意味着这些数据就是“大数据”,只不过分析起来比较复杂罢了。
以下是区分普通的数据分析(我们不妨称之为“小数据”)与“大数据”的最重要的三大特征:
1. 大数据尤以大量无法由DBMS或更高级的RDBMS或ORDBMS(RDBMS,relational database management systems关系型数据库管理系统;ORDBMS,object-relational database management systems对象关系数据库管理系统)处理的非结构化数据构成。
2. 大数据需要分析巨量的数据,其数据的数量级以艾字节(百亿亿字节)计。也就是说,如果把含有1T内容的SSD存储卡叠放,1艾字节的数据叠起来有珠穆朗玛峰那么高。除了数据量巨大,大数据的另一大特点就是需要解决标准DBMS/RDBMS/ORDBMS与企业的工作流程和有效服务不匹配的问题。一个大数据分析系统从捕获、摄取、策展到搜索、建模、分析和可视化,再到存储、维护、共享、传递、安全性和可用性等关键操作都需要有足够的以数据为中心的处理进程。
3. 相较于数据总量相等但是分离的、集规模更小的数据,大数据分析旨在通过对相关集的数据展开分析以获取额外信息,从而挖掘出其中的相关性,并道出商业趋势。这并不包括任何硬性的、分而治之的算法来使数据规模更易于管理,因为这种做法会导致发现新趋势(即新相关性)的可能性更少。(换句话说,就是千万不要把数据拆分成无数的小的数据集。)
不止是出版商挠头,零售商往往也总会将大数据分析与高级数据分析搞混,不过也有可能只是为了简化与出版商的沟通交流才这么做的。Kobo新的白皮书中就提出了关于电子书阅读数据分析的十分有用的见解,并附上具体的例子写明出版商可以如何加以利用。然而,这本白皮书错误地将这些数据分析策略导向了大数据,而实际上这些只是对电子书阅读数据的创新性分析罢了。
它们根本不是前文所提及的以艾字节计的非结构化数据,正相反,这些数据架构得非常好:从任何一本电子书上都能收集到非常有意思的阅读行为方面的数据。出版上一千本电子书,能从中得出成沓的报告。当然了,要想有这样的产出,在处理原始数据的时候很需要一番功夫。通常还需要辅之以一种分而治之的方法以及强大的ORDBMS的基础设施与服务。我们通常指需要跟踪一些汇总的数据(仅标题级别)。如果Kobo使用大数据技术基础来对付小数据,他们能弄得更透彻的。
更精确的术语能有效减少出版业在这方面的困顿与混乱。对于诸多出版商来说,利用Kobo推荐的分析方法当然是极好的方法,即便是亚马逊、苹果、巴诺和谷歌这样的大型电子书零售商,如果它们也提供相似的电子书阅读数据甚至在白皮书中也能分享数据的话,就再好不过了。但是,这些都不该被误认为就是大数据。
最后,即使在中短期内真正的大数据分析只是少数几位大玩家的“专属”,还是有好消息的,那就是在一些组织中仍然有大数据技术发展的空间。大数据技术和方法还可以用来解决小数据的智能数据分析,并帮助组织提高效率和在数据驱动型决策上的判断。可扩展大数据技术所展现出的前景和创新性十分诱人,不止是巨头才能享有。正如我们常说的,未来难以预测,但我们可以创造未来。
(本文编辑 晨瑾)
发表评论前,请先[点此登录]