看到《大数据时代》的副题《生活、工作与思维的大变革》,我抱着将信将疑的态度。因为技术史一再告诉我们,技术预言的成功率是很低的。最著名的例子莫过于计算机刚诞生之时,多名物理学家或数学家表示少数几台计算机就足以满足全球的计算需求———这个错误预估常被张冠李戴至IBM的托马斯·沃森头上,并具体化为“5台”。
书中最吸引人的部分是丰富的实例。譬如,谷歌通过观察人们在网上的搜索记录,能够预测冬季流感在全美范围的传播,而且可以具体到特定的州。信用卡发行商Mastercard发现,如果一个人在下午四点左右给汽车加油,他很可能在接下来的一个小时内要去购物或下馆子并消费35-50美元———加油站附近的商家显然会对这一信息感兴趣。
更庞大而广泛的数据可轻易、廉价获得,这自然会冲击现有的商业模式和社会管理,为工程技术带来全新的可能; 从这个意义上,说大数据将带来大变革,亦不为过。这种变革是好是坏,尚未可知。但作者似乎太急于宣布新时代的到来。他将大数据时代的思维变革归纳为更多、更杂、更好:用全体数据取代随机样本;不执著于精确性而容忍混杂性;关注相关关系而不去追究因果关系。新时代究竟有多新?
有些评论者认为大数据预示着科学的未来,意味着传统的科学方法将被大数据分析取代;在我看来,恰恰相反。牛顿的万有引力正如托勒密《至大论》中的天球,不过是个方便的数学假设罢了,哪里有执着因果关系的影子呢?自古以来数理科学的实质就是追寻用数学表达的相关关系。“有效数字”的概念,也表明自然科学很清楚如何与混杂性打交道。大数据所前瞻的,自然科学中已用了两千多年。
其次,大数据的预测必然只能短期或小范围应用。早在上世纪上半叶,已有简单的数学指标用于预测股市、期市的走势,这些指标在发明之初非常灵验;而一旦为公众所熟知,便不那么灵了(虽然也不会完全不灵———那样的话,就不会有人再用,于是它便会再度有效)。大数据不能克服“社会科学”固有的悖论:观察对象一旦察觉到自己被观察,就会据此改变行为模式,而使得依据旧观察做出的预测失效。宏观经济学早已指出了通过扩大财政支出刺激经济在长周期中的无效性,即是一例。所以这类预测,除非只在小范围内秘密应用,否则只能是短期的。
即便只是短期应用,也存在可疑的价值导向问题。作者批评亚马逊说,虽然它的电子阅读器记录了读者反复标注和强调过的内容,却不把这些信息卖给作者或出版社。否则书商就能知道读者喜欢哪些段落而提高销量,作者就能知道哪些地方不受读者欢迎而根据读者喜好提高作品质量,出版社也能知道哪些主题的书籍更有可能成为畅销书。如果这些数据真的能做这样的商业利用,我倒觉得亚马逊雪藏它们是积德行善之举,避免既害了作者和读者又害了书商,甚至还从总体上害了出版业。
我最终的观感是:大数据既非福音书,也不全是毒苹果。作者自己强调:“所谓大数据思维,是指一种意识,认为公开的数据一旦处理得当就能为千百万人急需解决的问题提供答案。”实际上“大数据”不过就是由于信息技术的进步,为短期商业利润和短期社会管理提供的一些新可能性———虽然它们常常很有趣,但过分沉溺其中,就可能有这样的危险:忘记了商业利润并不等于社会价值———微博、微信用户花更多时间点击、刷新固然有利商家,但对他们自己或者对整个社会真是好事吗?谁为他们生活的碎片化、难以有大片整段时间作更严肃的思考、阅读、学习这一“看不见的损失”买单呢?类似的,如果社会管理者由于大数据能力的诱惑而日益依赖应急解决方法———也就是不去推敲因果关系,仅凭“可能的相关性”而头痛医头脚痛医脚的方法,谁去思考如何建设一个“长期和总体而言更良善的社会”这类大问题呢?
讽刺的是,“大数据”看上去最容易走极端的应用———在工程技术尤其医疗技术上的应用,反倒是最有可能基本无害的。如书中提到的,由一群健身迷、医学疯子以及技术狂人发起的“自我量化”运动———通过测量身体的每一个部位和生活中的每一件事来让生活更美好。但这种刻意为之的数据收集行为,与书中大数据在商业、社会管理中的应用归入同一范畴,显得颇为勉强。
不得不提一下的是,该书有另一类瑕疵,即几处引用古代史的不准确。譬如“对精确度的高要求始于13世纪中期的欧洲。那时候,天文学家和学者……采取了比以往更为精确的量化方式”(晚至哥白尼的时代,对预测精度的要求也并未超过2世纪)。又如“有记载的、最早的计数发生在公元前8000年的,当时苏美尔的商人……”(应不早于公元前4000年)。“译者注”有时还新增了错误,如“亚历山大图书馆藏书丰富,有据可考的超过50000卷”(少了一个零)。虽然专业范围之外难以苛求,但在作者谈论的这个“大数据时代”,信息不是随手可得的吗?
总的来说,这不失为一部有趣味性和前瞻性的书;但如果说这是新时代的预言书,则言之过甚。正如微软研究院首席研究员凯特·克劳福德在《外交杂志》上的批评:对社交网络用户数据的分析,反映的只是社交网络热衷人群的心理;对智能手机所收集数据的分析,则引导市政部门更关注智能手机所经过的路面是否坑洼———大数据提倡“以全体数据取代随机采样”,但除极少数理想化的事例(如书中所举的日本相扑界非法操纵比赛),它还是在采样———只是用“恰好方便”选取的一个小范围数据集的全体,代替了对更广泛数据集的随机采样。这样难免会引入新的弊端,可不慎乎?
发表评论前,请先[点此登录]