大数据的边界:被改变的与无法改变的
“大数据”的汹涌澎湃,让人们逐渐意识到,由此带来的,极有可能是一场发生在几乎所有领域的颠覆性革命。只是,虽然坊间有关大数据的论著很多,但敢于将这种趋势上升到“主义”高度的,恐怕非史蒂夫·洛尔莫属。身为在《纽约时报》撰稿长达二十余年的非虚构写作者和资深记者、编辑,因为长期从事数据科学报道,洛尔早在十多年前就敏锐地感受到“大数据”即将给人类带来的变化。而眼前的这本《大数据主义》,不同于此前的大多数同类论著的动人之处在于,它以一个在数据分析行业找到人生价值的年轻人、曾为脸谱网建立了最初的数据科学家团队的哈佛毕业生杰夫·哈梅巴赫的经历,以及人类数据时代的标杆——IBM公司的大数据生存法则为主线,在叙事中又穿插了大量相关人物的故事和观点,勾勒出了近几年大数据浪潮对人类生活诸多方面的深刻影响。
早在2012年初,史蒂夫·洛尔便先知先觉地以“大数据主义”为题,在《纽约时报》“周日评论”板块发表了一篇社论,网站点击量激增,很多读者还写了关于这篇文章的评论。《大数据主义》便是对上述主题进一步挖掘的成果。
杰夫·哈梅巴赫,这位曾在华尔街这个聪明人汇集的行业做金融数据分析,之后又加盟脸谱网,在从事数据科学研究的同时也为自己的人生赢得了财务自由。离开脸谱网后,他自己创办了一家名为Cloudera的公司,自任首席科学家,编写用于数据科学研究的软件。2012年夏天,年仅28岁的哈梅巴赫又转战医疗业,加入纽约西奈山伊坎医学院,领导一个数据小组,从事遗传信息的研究,为探索疾病模型的建立方法和治疗手段寻找突破口,这是他认为的目前能将数据科学研究投入应用的最佳途径。而作为一家有着上百年历史的科技巨头,IBM对数据技术的进展同样甚为关注,他们在较早时候就组建了研究团队,制定了战略方针,投入了大量资金,招募大批该领域的专家,团队人数至今已达2000人。其首席执行官甚至告诉洛尔:“我们把整个公司的前途都押在了大数据技术的应用上。”
大数据生存法则
自1946年计算机问世以来,便不可逆转地加速改变着人类的生活方式和进程。时至今日,海量存在于互联网及其他各处、能被人们获取的信息,早已由千字节(KB)、兆(MB)、千兆(GB)、太字节(TB),跃升为拍字节(PB)、艾字节(EB)、泽字节(ZB),乃至尧字节(YB)。据测算,如果将人类现存的信息全部汇集并存贮起来,需要用到的ipad,叠加起来的厚度可绕地球三分之二圈。正是这惊人的数据总量,使人类在处理信息时能经历从量变到质变的过程,就如同物质到了纳米级别,各种原有的特性都会发生惊人的突变,“大数据”概念的诞生,正是数据存量不断累积的必然结果。
面对不断生成的各种数据,尤其同一个系统或平台上生成的数据,尽管以人类的大脑很难理清它们相互之间的关系,对这些数据得以如此产生的前因后果更无法给出合乎逻辑的解释,但它们之间确实存在着一定的相关性。尽管以人类现有的理解能力看来,这种相关性并不十分清晰,甚至有几分神秘,但通过总结这一系列数据之间的生成规律,人们仍然可以比过去更为有效地决策,而不是像过去通常所做的那样,依靠个人直觉或是一些只可意会不可言传的经验来做出某个重要决定。因此,许多在过去看来无用的数据,今日都“变废为宝”了。举例来说,世界最大零售商沃尔玛通过对大数据统计和研究发现,男性顾客在购买婴儿尿片时,通常会顺便买上几瓶啤酒。尽管商家不知其中缘由,但还是果断推出了啤酒与尿布捆绑销售的促销方式,提升了啤酒销量。由此看来,正是大数据带来的定量分析方法,为人们的决策带来了新的参考依据。作为一种创新工具,它还催生了大量相关技术,如社交媒体、传感器信号、基因组信息等,不仅有利于经济增长,还可以帮助我们重塑构建世界的方式,甚至在一定程度上改变我们世界观。
尽管大数据技术刚刚起步,但如今可涵盖的应用领域已十分广泛:从挖掘数据帮助企业经营决策,到对社交媒体用户展开细致入微的数据分析,提高网站的广告点击率;从利用大数据培育性能前所未有的智能机器人,到推动一些传统产业的升级换代。此外,还有更为性命攸关的医疗行业的“大数据革命”。例如有人提出,许多慢性疾病并非个体基因引起,而是一种复杂的网络性紊乱,涉及从分子、细胞、组织、器官到人类社群的各个环节。因此他们将一组涉及年龄、病史、生活方式和环境等可能影响疾病的发生发展因素,通过复杂的数学模型,全部转化为数字,以便试验性地检测一个人三年内患上某种疾病的可能性。尽管从定量分析角度看,精密科学,如物理学、化学等学科更为成熟,预测结果也更准确,但人们仍在努力引导医疗行业向定量分析的方向发展,而非仅仅依靠经验对人的健康状况定性。
在美国某些研究机构中,大数据应用几乎可协助建立人类行为模型,帮助人们了解自身各种行为之间的关联关系,那些不曾为人所知的人类行为的奥秘也将慢慢得到破解。
另一个很有意思的例子,发生在IBM公司研制的智能机器人沃森身上。这个“人”在《危险边缘》节目中高超的信息处理速度,战胜了面对人类对手战无不胜的超级挑战者,令人想起当年深蓝战胜棋王卡斯帕罗夫的故事。似乎显得巧合的是,深蓝的发明者,同样是IBM公司,如今它又一次以辉煌战绩证明了在人工智能领域的领先地位,所不同的是,这次的胜利,离不开大数据技术的鼎力相助。
在IBM沃森实验室召开的一次学术会议上,人工智能专家希利斯更提出了一个极具前瞻性的观点:“机器人必须学会讲故事。”在希利斯看来,如果一个计算机系统只会提供答案,而不会“思考”和“解释”问题,那么无论运算速度多快,都不会有突破性的前景。这里所说的“讲故事”,其实就是在软件糅合数据、想法、推断,并形成决策时,对整个过程实施跟踪,让人们在使用过程中和过后都能知道计算机是如何一步一步完成其工作的。给出这样的解释,就能让人们知道机器人与我们之间的关系,也就是弄清楚,在整个决策过程中,有哪些部分工作是机器人完成的,有哪些是由人类所做的。
大数据真果真无懈可击?
既然如此神奇,大数据技术及其应用岂不是理应被当代渴望进步、增长的人们顶礼膜拜·史蒂夫·洛尔并不这样认为。大数据技术的应用,仅从其可靠性而言,就亟待改进。在近年来一些大公司的错误经营行为中,常常可找到大数据应用的影子。此外,伴随大数据技术渗透进人们生活的,还有个人隐私被泄露的风险。无论社交网络的使用,还是各种随身软件中内置的定位装置,甚至连个人的基因信息,都会在人们并不知情的情况下,被大数据拥有者有意或无意地获取,从而令个人信息的保护程序受到严重威胁。
这方面最典型的例子还要数安客诚公司。这家全美最大的数据代理商,在全球范围内收集了数亿名消费者的相关数据。这些公开或推断所得的信息包括年龄、种族、性别,党派,以及诸如对度假的期待、对健康的关注程度等非客观信息。在将这些数据归纳之后,这家网站就可轻易推断出大多数美国成年人在这些项目上的相关数据,其深入细致的程度无人可及。《纽约时报》的一位评论员甚至写道:“访问者登录之后就会发现,该网站不仅有大量与自己有关的信息,甚至还有描述详细的私生活,面对这种情况,他们可能会大吃一惊。”面对这种对个人隐私的严重侵犯,除了少数民间的隐私权倡导者提出抗议之外,无论从法律或技术层面,至今仍没能设计出有效的预防措施加以制止。
更为本质的问题还在于:尽管很多大型现代企业早已进入了“无法计量就无法管理”的时代,但在人类生活的其他方面,仍有许许多多重要的东西无法只用数据就可以说明或解决的。事实上,至少迄今为止,几乎所有能赋予我们的生活以终极意义的东西,如情感、信仰、人与人之间的爱,还有个体自身庄严阔大的精神世界,都绝不可能以数据来涵盖或表达。因此单纯的数据崇拜并非福音,面对人类生活的无数复杂微妙之处,任何形式的“大数据决策”,都有必要用谦卑来调和,以免误入歧途。