大数据之父舍恩伯格:互联网比你更了解你
牛津大学网络研究院网络监督及管理学教授,研究领域为网络经济。曾任哈佛大学肯尼迪学院信息监管科研项目负责人,哈佛国家电子商务研究中心网络监管项目负责人;曾任新加坡国立大学李光耀学院信息与创新策略研究中心主任。并担任耶鲁大学、芝加哥大学、弗吉尼亚大学、圣地亚哥大学、维也纳大学的客座教授。
有100多篇论文公开发表在《科学》、《自然》等著名学术期刊上,同时也是哈佛大学出版社、麻省理工出版社、通信政策期刊、美国社会学期刊等多家出版机构的特约评论员。
信息权威与顾问,咨询客户包括微软、惠普和IBM等全球顶级企业。早在1986年与1995年就担任两家软件公司的总裁兼CEO,1991年跻身奥地利软件企业家前5名之列,2000年被评为奥地利萨尔斯堡州的年度人物。
机构和国家政府高层的信息政策智囊,专注于信息安全与信息政策与战略的研究,是欧盟专家之一,也是世界经济论坛、马歇尔计划基金会等机构的咨询顾问,先后担任新加坡商务部高层、文莱国防部高层、科威特商务部高层、迪拜及中东政府高层的咨询顾问。
超过两年没穿的衣服会送人,拍得不好看的照片要当即删除
大数据之父舍恩伯格:互联网比你更了解你
时代周报记者 韩玮 发自上海
舍恩伯格又要戴着他标志性的约翰·列侬式的圆眼镜来中国了。
9月25日,时代周报举办2015“影响力·中国”秋季峰会,舍恩伯格将受邀出席,讲他最擅长的大数据。
最近两年,这位数据科学领域的权威学者每隔几个月就会出现在中国,而他所到之处,无不受到媒体、读者的簇拥。
舍恩伯格之所以在国内名声大噪,主要是因为他的两本畅销书、关于大数据的先河之作—《大数据:一场将改变我们生活、工作和思考方式的革命》(Big Data :A Revolution That Will Transform How We Live, Work, and Think,中文版又名《大数据时代》)以及《删除:大数据取舍之道》(Delete: The Virtue of Forgetting in the Digital Age)。前者揭示了大数据给人类带来的巨大改变,后者则尝试探索大数据时代人类应该如何构建积极而安全的未来。
作为最早洞悉大数据发展趋势的数据科学家,舍恩伯格在国内受追捧并不奇怪。毕竟,此刻的中国—国务院刚刚印发《促进大数据发展行动纲要》,提出推动大数据发展和应用在未来5-10年逐步实现的目标及主要任务。国内的大数据产业正迎来大发展时期。
而由于大数据太火,在这个新淘金时代,人们对舍恩伯格的兴趣不再停留于他的研究,还延伸至他本人以及他获得一系列学术成就的过程。
恰好,舍恩伯格是个性格有趣而经历丰富的人。比如,他曾因不想继承家业而与父亲争执数十年,最终走上学术之路。
代码少年
“我母亲以前经营一家电影院,我每年都会问她,过去一年最好的电影是什么?她总是说,我知道,是×××。但她总是错的。”
舍恩伯格常常在演讲中提起这个例子,尽管只是为了佐证大多数人都需要数据分析工具这个观点,但无意间却把很多人的兴趣引向了他的过去。
这位如今在全球数据科学领域极具名望的科学家其实算得上是“富二代”。他出生在距离莫扎特故乡奥地利萨尔茨堡两小时车程的一个小镇上,父亲是当地的税务律师,有自己的事务所;母亲则打理着小型电影院、花店等生意。
1966年,舍恩伯格出生那年,他的父亲买来了小镇上的第一台电脑,价格不菲。当时,镇上所有人都觉得他疯了,肯定会破产。而这台巨大的个人电脑运转时发出的嗡嗡声陪伴了舍恩伯格的整个童年。
小时候,舍恩伯格喜欢看阿斯特丽德·林德格伦的童话书。这位已故瑞典作家最著名的作品是那本充满想象力的《长袜子皮皮》。而那时的舍恩伯格梦想成为发明家,因为,让想法变成现实是一件特别诱人的事。
“如果还可以和林德格伦共进午餐,我想问她,她如何激发自身的想象力?爱因斯坦说过,想象力比知识更重要。”舍恩伯格说。
读书时,舍恩伯格最喜欢的科目是物理和数学,进而又对计算机着迷。十一二岁时,他就想用那台嗡嗡作响的电脑编程。
“当时,只有大学才有计算机,我就去当地大学报了一门编程课。但老师觉得我不可能学会,就让我自己玩。于是,我便在角落里自学。”到了高中时期,这位天赋异禀的少年先后在国际物理奥林匹克竞赛和奥地利青年程序员竞赛中获了奖。
17岁时,舍恩伯格第一次触网。当时,他无意间得到一个声音耦合器,其实不过是简陋的调制解调器—使用者得把电话听筒与之连接,从而激活以声音传送方式进行的数据传输。
在此之前,舍恩伯格听说过互联网,但从没体验过。于是,他捣鼓了好几个月,试掉了一大笔电话费,最终连上了一个提供初级的邮件、论坛等商业在线服务的无线电通讯网站“The Source”。此后,舍恩伯格便一发不可收拾,对网络着了迷。
1986年,年仅20岁、没读完大学的舍恩伯格“创业”了—成立杀毒软件公司Ikarus,并开发了一款当时奥地利最畅销的软件Virus Utilities。至今,百度百科对Virus Utilities的介绍上写着,这是一款剽悍的杀毒软件。1991年,年轻的舍恩伯格还被评选为奥地利最顶尖的5位软件企业家之一。
这段程序员的经历为舍恩伯格的未来打下了基础。许多年后,在《大数据时代》这本书中,舍恩伯格写道,真正的数据科学家是统计学家、软件程序员、图形设计师与作家的结合体。
父与子
在舍恩伯格的学术之路上,很难绕开的一个人物,就是买来了小镇上第一台电脑的父亲。
舍恩伯格与父亲的关系并不差。至今,他记忆最深的关于父母的细节是,每天晚餐后,父亲都会耐心听他讲述那天发生的事以及他的一些想法。舍恩伯格觉得,这是父亲的“超能力”。
不过,父亲始终不希望舍恩伯格满脑子想着如何成为计算机学家,尽管他迁就儿子喜欢计算机。这位在小镇上有头有脸的税务律师总在劝说自己的孩子尽早学完法律,继承家业。在子承父业和投身计算科学之间,舍恩伯格与父亲争执了数十年,直到后者去世。
而在20岁左右的年龄,舍恩伯格还是顺从父亲,先在奥地利萨尔茨堡大学读了法学本科。据说,因为法律太无趣,这位学霸硬是在3年半里读完了7年的书。
接着,父亲要求舍恩伯格继续在法律上深造,但这个年轻人心不甘情不愿,于是便赌气地只申请了一所学校—哈佛。他觉得,自己肯定不会被录取。
收到录取通知书那天,舍恩伯格以为是朋友开玩笑,于是按照上面的电话号码打过去斥责,“这是愚蠢的玩笑!”而电话另一头却有声音说,“不,这里是哈佛。有什么能帮你吗?”
这不是舍恩伯格唯一一次“厚积薄发”。其实,在学生时代的大部分时期,舍恩伯格虽然出色,但不是最出色的那个。但到了最后一个学年,他就像突然间开了窍,过去学过的东西顿时“融会贯通”了。于是,出乎所有人包括他自己的意料,他在毕业前的最后一次考试中获得了学生生涯唯一一次的全A。
而在美国最古老的法学院哈佛法学院,舍恩伯格开始觉得自己学的法律不再像本科时那么了无生趣。尽管如此,他依然不想学成后接手父亲的公司。
有记者采访舍恩伯格时曾问,“你后来为什么当上了大学教授?”他说,“我一直想成为发明家,直到我那个一直‘逼’我接手家业的父亲有天问我,如果不想做税务律师,你想做什么时,我才下定决心当大学教授。至少,对于我父母来说,这会是一个比发明家更容易接受、更受人尊敬的工作。”
从哈佛毕业后,舍恩伯格又拿到了萨尔茨堡大学的法学博士以及伦敦政经学院的理学硕士学位,并依照对父亲的承诺,在伦敦一所大学谋得了教职。
当时,舍恩伯格的父亲面对这样的局面依然感到有些失落,最后竟然猝然辞世。父亲去世的第二天,舍恩伯格选择离开伦敦,放弃自己的事业和学术,回到自家的镇子上,做起了以前无数次拒绝的税务律师。
“我的人生,和大多数人一样,既是连贯的,同时又屡受波折。我最初喜欢物理、数学,转而对计算机产生兴趣,进而关注数据安全和数据编码,并喜欢上了研究隐私法、知识产权法以及网络法。依照这个路径,数据逐渐成为我关注的重点。但我的生活又被一次次打乱。比如,父亲的离世让我放弃了原来的事业规划,回到了老家;但一年后,我又卖掉父亲的公司,艰难地重回学术圈;后来,偶然的机会让我得以到哈佛大学肯尼迪学院任教。某种意义上说,这些波折给我制造了意想不到的困难,但也带来了意想不到的机会。”舍恩伯格告诉时代周报记者。
大数据之父
自1998年始,舍恩伯格的学术研究步入正轨。他进入哈佛大学肯尼迪学院任教,并在那里度过了10年。此后,他曾在新加坡国立大学李光耀公共政策学院做过3年副教授,借机观察亚洲的信息政策,而今则在牛津大学互联网研究院担任治理与监管专业的教授。
这10余年间,互联网飞速发展,人们开始使用手机上网、聊天、购物,完成很多过去必须线下操作的事。而这些变化都被舍恩伯格陆续记录在论著里。
2010年,在舍恩伯格组织的一次研讨会上,几乎所有参会者发言时都开始提及社会运转模式正在发生某种改变,但谁也说不出这种变化的实质是什么。当时,《经济学人》的数据编辑肯尼思·库克耶(Kenn Cukier)也在会场,他不久前刚做过一期《大数据的冲击》的特刊报道。
那场研讨会后,舍恩伯格与库克耶进行了很多次深入交谈,“然后,我们决定合写一本书,探讨大数据对于当下的意义以及大数据时代的本质”。
2012年12月,舍恩伯格与库克耶合写的《大数据时代》出版。这本大数据研究的先河之作不仅广受媒体好评,还让舍恩伯格知名度大涨。
在书里,舍恩伯格通过各种例子展现大数据带来的改变。比如,一家叫Farecast的公司通过近十万亿条价格记录来预测美国国内航班的票价。到2012年为止,票价预测的准确率达到75%,使用Farecast票价预测工具购买机票的旅客,平均每张机票可节省50美元。
“大数据的核心是预测。它通常被视为人工智能的一部分,或者说是一种机器学习。但其实,这种定义具有误导性。大数据不是要教机器像人一样思考,相反,它是把数学算法运用到海量数据上来预测事情发生的可能性。”舍恩伯格写道。
在这本书里,舍恩伯格还提出了一个广为引用的观点—大数据关注的不是随机样本,而是全体数据;不是精确性,而是混杂性;不是因果关系,而是相关关系。
“具体来说,大数据的目的是全面的数据收集和分析;同时,我们要明白,在数据质量和数据数量之间要有一个平衡,所以,‘不是精确性,而是混杂性’,而‘不是因果关系,而是相关关系’,这是让我们意识到,因果关系不再是解释这个世界的唯一逻辑。”舍恩伯格告诉时代周报记者。
此外,舍恩伯格还是倡导大数据商业应用的第一人。在《大数据时代》中,他指出,如今的数据已经成为一种商业资本、一项重要的经济投入,可以创造新的经济利益。而这也是他屡屡被正在大力推动大数据产业发展的中国人当作座上宾的原因之一。
在关注数据的价值之余,舍恩伯格感兴趣的另一重要领域是如何避免数据被滥用。在早于《大数据时代》出版的《删除:大数据取舍之道》一书中,舍恩伯格提出了数字时代最大的问题:互联网记住了人们希望自己忘记的东西。当遗忘成为例外,记住变成常态,人类理性决策的能力就会受到威胁。所以,在大数据时代,所有人都应该享受“被遗忘的权利”。
事实上,舍恩伯格本人早早地为自己确立了一套关于删除的生活准则。比如,那些超过两年没穿的衣服会被他送人或处理;那些拍得不好看的照片,他会当即删除。因为,“如果不删除,在数字时代,互联网可能会比你自己更加了解你”。
舍恩伯格这些新颖的想法曾一度让读者直呼开了眼界。而目前,他告诉时代周报记者,自己的兴趣点转到了小型无人机上。其实,一直以来,舍恩伯格对飞机驾驶以及基于大数据分析的无人驾驶都颇感兴趣。只是不知道,这位数据科学家未来又会在这个问题上带来怎样“让人感觉脑洞大开”的思考。
对话舍恩伯格:
“只要他们不滥用权力,不必对数据寡头反垄断”
时代周报记者 韩玮 发自上海
9月13日,在接受时代周报记者独家专访时,舍恩伯格讲述了自己对大数据的一些理解,以及收获这些理解的过程。
影响最深的人是高中物理老师
时代周报:今年暑假,以艾伦·图灵为原型的传记电影《模仿游戏》在中国上映,感动了很多人。你看过这部影片吗?艾伦·图灵是计算机科学之父,他对你从事数据科学研究是否有影响?
舍恩伯格:我看过这部电影。事实上,很多年前,我就读过一些图灵的论著。你可能记得,我以前做软件公司时就需要编码,所以,图灵的书肯定要看。
不过,影响我最深的人不是图灵,而是我的高中物理老师。他让我开始接触到熵的概念、相对论、量子理论等。对于我来说,他就像是为我打开了通往新世界的大门。
时代周报:大家都认为你是当今最重要的数据科学家之一。我特别好奇,大数据给你本人的日常生活带来改变了吗?
舍恩伯格:我是大数据服务的“大用户”。平常,我会戴苹果手表,一直以来,它为我的身体健康提供了很多帮助;我也喜欢诸如亚马逊一类的电子商务公司,同时,还经常使用谷歌地图。此外,维基百科对我来说是个难得的好帮手,它让我比过去更加容易获得有用的信息,对我的帮助很大。
时代周报:我今年曾采访过畅销书《大停滞》(The Great Stagnation)的作者、美国经济学家泰勒·考恩。在谈到对大数据的看法时,他告诉我,“大数据被高估了,因为,大多数人都不知道他们手握的这些数据要用来干什么,企业也一样。大数据能帮助我们在某些边缘地带提高效率,比如针对性的广告,但它无法改变全局。这其中,最困难的是问对问题,并且找到问题背后特定的模式,再用数据去加以匹配。这非常难以实现。”你认同他的观点吗?
舍恩伯格:我非常欣赏泰勒·考恩,《大停滞》是一本很棒的著作。我还曾引用过这本书里的一些观点。但在大数据的问题上,我觉得他的观点是错误的,或许,这是因为这方面不是他所研究的核心专业领域。
大数据可减少资源不公平的危害
时代周报:现在,大多数行业提起大数据就言必称“这是一场行业革命,要颠覆过去”。你认为,大数据真的会颠覆那些传统行业吗?
舍恩伯格:会的,这种颠覆已经发生,并在快速进行。施乐帕罗奥尔托研究中心前主管约翰·西里·布朗(John Seely Brown)就发现,过去几十年,超大型企业的寿命正在缩短。与此同时,我们看到,就在最近几年,大数据驱动、估值达到数百亿美元以上的互联网企业不断涌现。在人类历史上,没有哪个时期在比今天更多的领域,发生比今天更快的变化。
时代周报:目前,中国存在百度、阿里巴巴、腾讯三大互联网巨头,分别统治着搜索、电商、社交三个领域,他们不断吸纳着用户的网上行为数据,几乎肯定会成为中国的数据寡头。你认为,在数据层面是否需要反垄断?
舍恩伯格:我认为必要的一点是,互联网要对新的创新主体保持开放的状态。只要大企业不滥用自己的权力,将那些更小但更好的初创企业赶出市场,那么,他们就不会制造太多的威胁。所以,我更关注的是这些企业的实际行为,而非他们的规模。
时代周报:除了数据,我知道,你还对教育问题有着深入研究。今年1月,你出版了一本名为《与大数据同行:学习和教育的未来》的新书,专门探讨大数据研究在教育领域的应用,以求真正实现因材施教。而中国教育的主要问题是教育资源分配不公平,大数据能解决这个问题吗?
舍恩伯格:大数据不能从根本上消除这种不公平,但是,通过大数据的手段,我们能以相对较低的成本提供高度个性化的教育,从而减少这种不公平带来的危害。换言之,大数据能让学生以很低的成本,获得至少像“私人家教”那样的订制教育。所以,大数据可以成为改变整个游戏的因子。