大数据时代五个真实的数据挖掘故事

2020/09/29 23:05

大数据时代：五个真实的数据挖掘故事

什么是大数据？中国确实没有大数据的土壤？这些质疑并非没有道理。
“差不多先生”、“大概齐”的文化标签一直存在。很多时候，各级政府不太需要“大数据”，形成决策的关键性数据只有一个数字比率（GDP）而已；其二，对于行业主管机构来说，它们拥有大量原始数据，但它们还在试探、摸索数据开放的尺度，比如说，是开放原始数据，还是开放经过各种加工的数据？是转让给拥有更高级计算和储存能力的大型数据公司，还是将数据开源，与各种各样的企业共享？其三，数据挖掘的工具价值并没有完全被认同。在这个领域，硬件和软件的发展并不十分成熟。

　　即便如此，没有人否认数据革命的到来，尤其在互联网行业。阿里巴巴的马云将大数据作为战略方向，百度的李彦宏用“框计算”来谋划未来。即便是CBA（中国男子篮球职业联赛）也学起了NBA（美国男篮职业联赛）五花八门的数据统计、分析与挖掘。

　　在过去两年间，大量的资本投资一些新型数据工具公司，根据美国道琼斯风险资源（Dow Jones VentureSource）的数据，在过去的两年时间里，11.7亿美元流向了119家数据库软件公司。去年，SAP市值已经超过西门子，成为德国市值最高的上市公司，而这样的业绩部分得益于其数据库软件HANA的商业化，去年一年时间里HANA带给SAP3.92亿欧元的收入，增长了142%。

　　但是，大数据还没法分析、挖掘出自己的直接变现能力。在截稿日时，我们再重新读维克托·迈尔-舍恩伯格（Viktor Mayer-Sch鰊berger）的《大数据时代：生活、工作与思维的大变革》一书，作者相信，未来，数据会成为有价值的资产。假以时日，它会大摇大摆地进入资产负债表里。

　　案例1：农夫山泉用大数据卖矿泉水

　　这里是上海城乡结合部九亭镇新华都超市的一个角落，农夫山泉的矿泉水堆头静静地摆放在这里。来自农夫山泉的业务员每天例行公事地来到这个点，拍摄10张照片：水怎么摆放、位置有什么变化、高度如何……这样的点每个业务员一天要跑15个，按照规定，下班之前150张照片就被传回了杭州总部。每个业务员，每天会产生的数据量在10M，这似乎并不是个大数字。
但农夫山泉全国有10000个业务员，这样每天的数据就是100G，每月为3TB。当这些图片如雪片般进入农夫山泉在杭州的机房时，这家公司的CIO胡健就会有这么一种感觉：守着一座金山，却不知道从哪里挖下第一锹。

徘徊的大数据门前：五个真实的数据挖掘故事
　　胡健想知道的问题包括：怎样摆放水堆更能促进销售？什么年龄的消费者在水堆前停留更久，他们一次购买的量多大?气温的变化让购买行为发生了哪些改变?竞争对手的新包装对销售产生了怎样的影响?不少问题目前也可以回答，但它们更多是基于经验，而不是基于数据。

　　从2008年开始，业务员拍摄的照片就这么被收集起来，如果按照数据的属性来分类，“图片”属于典型的非关系型数据，还包括视频、音频等。要系统地对非关系型数据进行分析是胡健设想的下一步计划，这是农夫山泉在“大数据时代”必须迈出的步骤。如果超市、金融公司与农夫山泉有某种渠道来分享信息，如果类似图像、视频和音频资料可以系统分析，如果人的位置有更多的方式可以被监测到，那么摊开在胡健面前的就是一幅基于人消费行为的画卷，而描绘画卷的是一组组复杂的“0、1、1、0”。

　　SAP全球执行副总裁、中国研究院院长孙小群接受《中国企业家》采访时表示，企业对于数据的挖掘使用分三个阶段，“一开始是把数据变得透明，让大家看到数据，能够看到数据越来越多；第二步是可以提问题，可以形成互动，很多支持的工具来帮我们做出实时分析；而3.0时代，信息流来指导物流和资金流，现在数据要告诉我们未来，告诉我们往什么地方走。”

　　SAP从2003年开始与农夫山泉在企业管理软件ERP方面进行合作。彼时，农夫山泉仅仅是一个软件采购和使用者，而SAP还是服务商的角色。

　　而等到2011年6月，SAP和农夫山泉开始共同开发基于“饮用水”这个产业形态中，运输环境的数据场景。

　　关于运输的数据场景到底有多重要呢？将自己定位成“大自然搬运工”的农夫山泉，在全国有十多个水源地。农夫山泉把水灌装、配送、上架，一瓶超市售价2元的550ml饮用水，其中3毛钱花在了运输上。在农夫山泉内部，有着“搬上搬下，银子哗哗”的说法。如何根据不同的变量因素来控制自己的物流成本，成为问题的核心。

　　基于上述场景，SAP团队和农夫山泉团队开始了场景开发，他们将很多数据纳入了进来：高速公路的收费、道路等级、天气、配送中心辐射半径、季节性变化、不同市场的售价、不同渠道的费用、各地的人力成本、甚至突发性的需求（比如某城市召开一次大型运动会）。

　　在没有数据实时支撑时，农夫山泉在物流领域花了很多冤枉钱。比如某个小品相的产品（350ml饮用水），在某个城市的销量预测不到位时，公司以往通常的做法是通过大区间的调运，来弥补终端货源的不足。“华北往华南运，运到半道的时候，发现华东实际有富余，从华东调运更便宜。但很快发现对华南的预测有偏差，华北短缺更为严重，华东开始往华北运。此时如果太湖突发一次污染事件，很可能华东又出现短缺。”

　　这种没头苍蝇的状况让农夫山泉头疼不已。在采购、仓储、配送这条线上，农夫山泉特别希望大数据获取解决三个顽症：首先是解决生产和销售的不平衡，准确获知该产多少，送多少；其次，让400家办事处、30个配送中心能够纳入到体系中来，形成一个动态网状结构，而非简单的树状结构；最后，让退货、残次等问题与生产基地能够实时连接起来。

　　也就是说，销售的最前端成为一个个神经末梢，它的任何一个痛点，在大脑这里都能快速感知到。

　　“日常运营中，我们会产生销售、市场费用、物流、生产、财务等数据，这些数据都是通过工具定时抽取到SAP BW或Oracle DM，再通过Business Object展现。”胡健表示，这个“展现”的过程长达24小时，也就是说，在24小时后，物流、资金流和信息流才能汇聚到一起，彼此关联形成一份有价值的统计报告。当农夫山泉的每月数据积累达到3TB时，这样的速度导致农夫山泉每个月财务结算都要推迟一天。更重要的是，胡健等农夫山泉的决策者们只能依靠数据来验证以往的决策是否正确，或者对已出现的问题作出纠正，仍旧无法预测未来。

　　2011年，SAP推出了创新性的数据库平台SAP Hana，农夫山泉则成为全球第三个、亚洲第一个上线该系统的企业，并在当年9月宣布系统对接成功。

　　胡健选择SAP Hana的目的只有一个，快些，再快些。采用SAP Hana后，同等数据量的计算速度从过去的24小时缩短到了0.67秒，几乎可以做到实时计算结果，这让很多不可能的事情变为了可能。

　　这些基于饮用水行业实际情况反映到孙小群这里时，这位SAP全球研发的主要负责人非常兴奋。基于饮用水的场景，SAP并非没有案例，雀巢就是SAP在全球范围长期的合作伙伴。但是，欧美发达市场的整个数据采集、梳理、报告已经相当成熟，上百年的运营经验让这些企业已经能从容面对任何突发状况，他们对新数据解决方案的渴求甚至还不如中国本土公司强烈。

　　这对农夫山泉董事长钟目炎目炎而言，精准的管控物流成本将不再局限于已有的项目，也可以针对未来的项目。这位董事长将手指放在一台平板电脑显示的中国地图上，随着手指的移动，建立一个物流配送中心的成本随之显示出来。数据在不断飞快地变化，好像手指移动产生的数字涟漪。

　　以往，钟目炎目炎的执行团队也许要经过长期的考察、论证，再形成一份报告提交给董事长，给他几个备选方案，到底设在哪座城市，还要凭借经验来再做判断。但现在，起码从成本方面已经一览无遗。剩下的可能是当地政府与农夫山泉的友好程度，这些无法测量的因素。

　　有了强大的数据分析能力做支持后，农夫山泉近年以30%-40%的年增长率，在饮用水方面快速超越了原先的三甲：娃哈哈、乐百氏和可口可乐。根据国家统计局公布的数据，饮用水领域的市场份额，农夫山泉、康师傅、娃哈哈、可口可乐的冰露，分别为34.8%、16.1%、14.3%、4.7%，农夫山泉几乎是另外三家之和。对于胡健来说，下一步他希望那些业务员搜集来的图像、视频资料可以被利用起来。

　　获益的不仅仅是农夫山泉，在农夫山泉场景中积累的经验，SAP迅速将其复制到神州租车身上。“我们客户的车辆使用率在达到一定百分比之后出现瓶颈，这意味着还有相当比率的车辆处于空置状态，资源尚有优化空间。通过合作创新，我们用SAP Hana为他们特制了一个算法，优化租用流程，帮助他们打破瓶颈，将车辆使用率再次提高了15%。”

　　案例2：阿迪达斯的“黄金罗盘”

　　看着同行大多仍身陷库存泥潭，叶向阳庆幸自己选对了合作伙伴。　　看着同行大多仍身陷库存泥潭，叶向阳庆幸自己选对了合作伙伴。
　　他的厦门育泰贸易有限公司与阿迪达斯合作已有13年，旗下拥有100多家阿迪达斯门店。他说，“2008年之后，库存问题确实很严重，但我们合作解决问题，生意再次回到了正轨。”

　　在最初降价、打折等清库存的“应急措施”结束后，基于外部环境、消费者调研和门店销售数据的收集、分析，成为了将阿迪达斯和叶向阳们引向正轨的“黄金罗盘”。

徘徊的大数据门前：五个真实的数据挖掘故事
　　现在，叶向阳每天都会收集门店的销售数据，并将它们上传至阿迪达斯。收到数据后，阿迪达斯对数据做整合、分析，再用于指导经销商卖货。研究这些数据，让阿迪达斯和经销商们可以更准确了解当地消费者对商品颜色、款式、功能的偏好，同时知道什么价位的产品更容易被接受。

　　阿迪达斯产品线丰富，过去，面对展厅里各式各样的产品，经销商很容易按个人偏好下订单。现在，阿迪达斯会用数据说话，帮助经销商选择最适合的产品。首先，从宏观上看，一、二线城市的消费者对品牌和时尚更为敏感，可以重点投放采用前沿科技的产品、运动经典系列的服装以及设计师合作产品系列。在低线城市，消费者更关注产品的价值与功能，诸如纯棉制品这样高性价比的产品，在这些市场会更受欢迎。其次，阿迪达斯会参照经销商的终端数据，给予更具体的产品订购建议。比如，阿迪达斯可能会告诉某低线市场的经销商，在其辖区，普通跑步鞋比添加了减震设备的跑鞋更好卖；至于颜色，比起红色，当地消费者更偏爱蓝色。

　　推动这种订货方式，阿迪达斯得到了经销商们的认可。叶向阳说：“我们一起商定卖哪些产品、什么产品又会热卖。这样，我们将来就不会再遇到库存问题。”

　　挖掘大数据，让阿迪达斯有了许多有趣的发现。同在中国南部，那里部分城市受香港风尚影响非常大；而另一些地方，消费者更愿意追随韩国潮流。同为一线城市，北京和上海消费趋势不同，气候是主要的原因。还有，高线城市消费者的消费品位和习惯更为成熟，当地消费者需要不同的服装以应对不同场合的需要，上班、吃饭、喝咖啡、去夜店，需要不同风格的多套衣服，但在低线城市，一位女性往往只要有应对上班、休闲、宴请的三种不同风格的服饰就可以。两相对比，高线城市，显然为阿迪达斯提供了更多细分市场的选择。

　　实际上，对大数据的运用，也顺应了阿迪达斯大中华区战略转型的需要。

　　库存危机后，阿迪达斯从“批发型”公司转为“零售驱动型”公司，它从过去只关注把产品卖给经销商，变成了将产品卖到终端消费者手中的有力推动者。而数据收集分析，恰恰能让其更好地帮助经销商提高售罄率。

　　“我们与经销商伙伴展开了更加紧密的合作，以统计到更为确切可靠的终端消费数据，有效帮助我们重新定义了产品供给组合，从而使我们在适当的时机，将符合消费者口味的产品投放到相应的区域市场。一方面降低了他们的库存，另一方面增加了单店销售率。卖得更多，售罄率更高，也意味着更高的利润。”阿迪达斯大中华区董事总经理高嘉礼对大数据的应用成果颇为满意。

　　案例3:数据权之争

　　拥有了数据就等于夺取了行业制高点，飞友网络科技公司CEO郑洪峰深知个中道理。

　　最近几年，随着移动互联网的兴起，一类关于航班动态的应用程序开始出现。通过一套算法，数据工程师们将机场航班实时动态转换成直观的信息，再传递给用户，让后者能够及时了解到航班的起飞、到达、延误、取消、返航、备降等状态，从而帮助用户更高效地安排行程计划。
目前这个市场上主要有三款应用产品，分别是航班管家、飞常准和航旅纵横，飞常准正是飞友科技推出的一款应用。三款应用中，航班管家和飞常准都是民营企业，上线时间较早，用户数较多；航旅纵横虽然上线最晚，却是由央企中国民航信息集团（中航信）开发，大有后来居上的趋势。

　　随着这个细分市场呈现三足鼎立的局面，一个问题浮出水面。郑洪峰向《中国企业家》直言，数据是这个行业最重要的资源。但是目前中航信垄断了大部分行业信息，使得飞常准必须通过购买和交换才能获得自己所需要的数据。

徘徊的大数据门前：五个真实的数据挖掘故事
　　“我们的数据成本是非常高的。”郑洪峰告诉本刊，“气象、航班信息、空域流量等信息有些是公开发布的，有些则需要公司向空管局、机场和航空公司购买或交换。”

　　对于郑来说，获取数据的过程就是一部血汗创业史。据其回忆，早年的各大机场、航空公司之间的数据是割裂的，为了获得准确的航班起降信息，郑洪峰和他的团队就去为这些政府机构、大公司提供技术支持，以此来交换所需要的数据。“我们必须放下身段，他们需要什么我们就做什么。”郑说道。因为飞常准是家小公司，决策链条短，效率高，通过多年的积累，郑洪峰打通了部分数据通道。

　　郑洪峰在民航系统工作近12年，其人脉和常识的积累成为飞常准的重要优势。1999年，他创建了民航资源网。现在，这家网站是中国最大的民航门户网站。2005年，他又创办了飞友，主要为飞行旅客提供机票搜索引擎等服务。从2008年开始，郑洪峰团队通过飞常准为用户提供航班动态服务。早期，飞常准的用户只是民航内部工作人员，很多机票代理商主动帮其推广，机场方面也常常用飞常准的应用来安抚因飞机延误而愤怒不已的乘客，而业内资深人士也常提供很多有价值的反馈信息。郑洪峰依靠民航内部的资源维持着自己的数据来源。但郑知道，这并不能长久。

　　郑洪峰的故事并不是孤例。中国一家大型电子商务公司的数据挖掘专家接受本刊专访时提到，现在，越来越多的电子商务公司需要预测非一线城市的物流状况。在这一过程中需要考虑当地交通拥堵程度和天气情况，如果当地政府可以提供这方面的相关数据，可以大大提高运作的效率。以交通数据为例，这位数据挖掘专家使用的是百度地图和高德地图，后来，他发现不能再用了：一方面，与这样的公司合作存在商业机密问题；另一方面，由于交通数据可能来自于这些公司的统计，失真度也是这位数据挖掘专家担心的。“我们非常希望政府能开放一些原始数据。”他继续说道，“我们也希望和领先者能平等地分享数据权，而不是数据成本增加了二三倍。”

　　郑洪峰和这位数据专家都担心数据垄断，希望政府公平公开地开放数据，这样的做法并非没有借鉴。美国有一个叫做flyontime.us的网站，用户可以从这个网站上获得航班信息和天气情况，其功能与国内的航班动态应用类似。但是值得一提的是，这个网站的数据来源是一个公开的美国政府网站data.gov。目前在上面大约有超过40万各种原始数据文件，涵盖了农业、气象、金融、就业、交通、能源等近五十个分类。此外，data.gov还有一个地理信息的子站点，专门提供地理信息相关的数据。美国官方表示，这个网站的目的是“方便公众更便捷地获得联邦政府数据，并通过鼓励创新来突破政府的围墙而创造性地使用这些数据。”

　　2006年经济学家唐·泰普斯科特（Don Tapscott）在《维基经济学》中指出，人类已经进入了共享时代：“失败者创建的是网页，而胜利者创建的是生机勃勃的社区；失败者创建的是有墙的花园，而胜利者创建的则是一个公共的场所；失败者精心守护他们的数据和软件界面，而胜利者则将资源与每个人共享。”这一理念后来被认为是网络2.0时代的核心理念。以用户为中心，注重用户交互，让用户参与共同建设的网络2.0同样适用于政府，最近几年各国政府的一系列举措标志着政府2.0时代的到来。

　　那么在大数据时代，中国政府做好准备了吗？

　　深藏的事实

　　飞常准的竞争对手也遇到了相同的困境。为了拿到第一手数据，航班管家非常卖力。它与各大机场合作，间接获得自己所需要的航班起降信息。2012年6月，航班管家与上海虹桥机场达成协议，航班管家可以直接从虹桥机场获得信息，包括航班的延误、取消以及登机口变更等一手信息，且提供的信息均与虹桥机场同步。可以预见，机场是其重要的数据来源。

　　面对竞争对手的步步紧逼，郑洪峰认为，正常的商业竞争并不是飞常准所焦虑的事。“开放与竞争对我们来说是好事。”

　　对于飞常准来说，央企中航信旗下的航旅纵横才是最大的威胁。“在一定程度上，它有垄断数据的嫌疑。”一位坚持匿名的专家说道。而面对记者的采访要求，航旅纵横以不便透露为由拒绝。目前，中航信拥有中国所有终端旅客详细的数据库，包括姓名、手机、消费习惯等，这是中航信最核心的资源。由于与航旅纵横母子公司的关系，非市场化的利益输送饱受诟病。

　　在有关民航信息的关键数据中，空域流量是影响中国航班正点率的主要原因，而这一数据掌握在空管局手里。“空管局也愿意将数据分享给航空公司、机场，甚至是一些小公司，它们这么多年也在努力，可中国有自己特殊的情况。”上述专家说道。

　　在中国，不到30%的空域对民航开放。和其它国家相比，中国是空域管制最为严格的国家之一。“民航系统也很头疼，七成多的空域属于国家机密，所以机场、空域关闭根本无法预知，何来公开的数据？”上述专家说道。

　　在航班信息中，准点率是非常重要的一条数据。郑洪峰以此对比中美两国差异。“在国外，像准点率这些关键数据都是由政府全部公开的，因为准点率会决定哪家航空公司可以获得哪些航线，是航线资源分配一个非常重要的参数。但是，在中国，这个数据却是各家公司自己搜集的。”换句话说，相关政府部门并没有掌握到第一手的数据来源，遑论数据开放了。

　　在石油、电信、铁路、民航等战略行业中，民航业的数据开放远远走在了其它行业的前头。上述电子商务公司的数据专家告诉本刊，设计物流工具时，他们更愿意与民航系统合作，不仅仅是快，还因为如果找相对封闭的铁路系统要一些关键性数据，“更难，更不靠谱。”数据专家说道。

　　“有时，政府也有担心，你要数据做什么？有时他们第一反应是，‘间谍’；第二反应是，你用来赚钱的，我会不会存在什么风险。”上述民航专家说。这位民航专家的一部分工作是为相关政府写内部报告，有时需要跟民航系统要一些关键性数据，即便如此，也免不了遭遇相关政府部门的怀疑。

　　中国传媒大学教授沈浩认为，现在的政府网站许多都是空架子，甚至大部分网站都很少更新，内容上也只是一些公告，而之前的决策过程并没有反映出来；与此同时，由于中国政府缺少推动力，尚无法建立像data.gov的数据平台。

　　另外，根据BNET商学院对中国政府部门的调查分析显示，政府部门以数据分析作为决策支撑并没有形成气候，将数据分析作为核心竞争力的只占5.6%，比起美国和英国等政府开源力度差距巨大。

　　此项调查的负责人，BNET商业英才网副总编周安利认为：政府部门依然缺乏对大数据的真正、全面的认识。在挖掘信息系统价值方面，数据分析也受制于管理体制和职能制约，及长期传统管理积累的习惯，业务驱动力不足，绩效考核不配套。所以中国政府部门对大数据可能产生的价值，以及如何利用数据分析实现政府的科学决策依然有相当长的距离要走。

　　数字生产力

　　如今，飞常准已经拥有300万月活跃用户，覆盖1万个国内航班，5万个国际航班。郑洪峰直言，飞常准的优势和主要收入来源就是利用大数据技术对数据进行收集、分析和加工。比如利用获得的收据，飞常准可以帮助保险公司制定航班延误保险，而这些都是政府和保险公司以前无法完成的。

　　以前，航班延误险存在一个问题，就是保险公司让用户去举证，用户必须有各种各样的纸质证明才能从保险公司拿到赔偿，而赔偿金额往往只有两三百块钱，因此用户都不愿意买这个险。“而现在，航班一落地，通过我们的数据和服务，保险公司就知道是否超过保险阀值，没超过的，用户可以直接从保险公司拿到钱，过程非常简单。”郑说道。与保险公司的合作，郑洪峰得到的回报是收取一小部分服务佣金。

　　数据开放不仅可以让小公司受益，而且可以让政府更加透明、负责任。美国政府前助理信息官、纽约大学法学院教授贝丝·诺维克（Beth Noveck)在她的《维基政府——运用互联网技术提高政府管理能力》一书中阐述了如何在数字化背景下，运用网络和大数据建立民主和高效的政府。“数据开放可以让体制内外的人一起参与进来，解决政府无法完成以及棘手的问题。”诺维克告诉《中国企业家》。

　　诺维克以感染率数据为例说明开放数据的作用。美国的医疗部门搜集了全美几乎所有医院的感染率，但是政府并没有足够的能力把这些数据转化为有价值的信息。可是，当这些数据被放在data.gov网站上以后，微软和谷歌却能够运用自己强大的技术能力制作了一幅数据地图。不管是研究机构或者是普通患者都能运用搜索引擎查找任何一家医院的感染率来决定是否住院。

　　而在中国互联网领域，此前受到虚假广告质疑的百度也开始与相关政府部门合作，利用后者的数据进行网络打假。百度相关负责人告诉《中国企业家》，以前百度需要从2000亿网页中筛查出有问题的假药网站，屏蔽虚假医疗信息非常困难，单纯依靠技术和管理手段的升级，难以达到打击假药的最佳效果。同时，百度作为一家企业，并不具备相关监管资质，这也是百度无法进行独立打击假药的问题所在。百度曾独立打击假药，但效果十分有限。

　　从2010年开始，百度联合卫生部、国家药监局等多个部委部门发起“阳光行动”，打击各类互联网不良及虚假信息，之后，百度与国家药监局正式达成战略合作，国家药监局的三大药品数据库，总计20余万个权威药品信息向百度开放，而且这些数据库将随着药监局的数据变化实时更新。用户可以通过通俗的商品名、专业的药品名、批准文号等多个途径，在百度搜索到药品的权威信息。

　　“作为5亿网民的互联网入口，百度一直以来都希望能利用搜索入口和平台优势，与各家具有数据资源优势的政府部门、权威机构联手，让权威信息全面入驻网络。”这位负责人说道，“重要的是，数据治国，相关政府部门也获得了很好的赞誉。”

　　中国传媒大学教授沈浩认为，虽然中国政府在2007年就发布了《政府信息公开条例》，但目前政府公布的数据大部分还是报告和报表，没有标准的格式，不能以数据的形式查到，因此也无法进行深入的分析、加工和挖掘。

　　“如果政府需要社会共享和分析这些数据，必须提供最原始的数据，这样的数据学术和商业上才能去应用它。”沈浩说，“你看data.gov的网站，在上面的联邦政府的数据库，都是以电脑可读取的格式发布的。”

　　郑洪峰也意识到这个难题。他有时候会给相关政府、大公司提供一些数据，他力求寻找一种标准格式。而在这样的方向上，中国的一些公司也在与政府一起努力。

　　高德软件有限公司三维应用事业部总经理赵珂告诉记者，以前的项目往往是政府立项再雇用公司去做，完成后政府拥有版权，这样导致数据市场不是市场经济而是投资拉动型的经济。而目前高德与地方测绘局采取的合作形式是授权模式，高德帮助政府采集数据。拥有了标准化的数据，相关政府就拥有了一个标准的基础数据库。“这是国家测绘局比较有远见的一个举措，相信我们未来和政府这类合作会越来越多。”赵珂说。

　　郑洪峰也相信，未来会更务实更市场化，歧视性的东西会越来越少。中国的数据会越来越开放，也会更加利用市场的机制去鼓励更多的商业用户用好航班的数据。

　　与此同时，郑洪峰也在以不同形式回馈于给他提供数据的政府相关部门和大公司，最近，他的团队正在撰写一份报告，名为《航班正点提高率计划》。

　　案例4：《纸牌屋》你学不会

　　凭借一部片子咸鱼翻身，这样的桥段在当下热播美剧《纸牌屋》身上重演，反转剧主角是美国一家视频公司Netflix，它的武器则是大数据。

　　首次进军原创剧就走红，Netflix不仅成为娱乐圈里的谈资，亦成为数据革命的代表。无论是《纽约时报》、《洛杉矶时报》还是最近一期的《经济学人》，严肃媒体们都在重要版面研究《纸牌屋》成功之道。获得如此密集关注，并非没有道理。《纸牌屋》不仅是Netflix网站上有史以来观看量最高的剧集，也在美国及40多个国家大热。Netflix产品创新副总裁托德·耶林（Todd Yelin）称，其表现甚至“比我们最大胆的梦想都要好”。

　　事实是，美国“白宫甄嬛传”、导演大卫·芬奇（David Fincher）和老戏骨凯文·史派西（Kevin Spacey），这些噱头只是用以吸引眼球的皮毛。最抓人的是，Netflix根据数据技术推导出《纸牌屋》的关键要素，喜欢BBC剧、大卫·芬奇和凯文·史派西的用户存在交集，这是多么酷的一件事。

　　中国的乐视网一直关注Netflix的发展路径。“值得研究的是Netflix如何从后端数据推导出前台生产。”乐视网副总裁何凤云说。这种做法与旧传统是背道而驰的，以美国著名的有线电视网络媒体公司HBO为例，它对导演强烈的个性抱以完全的信任，全权委任导演去制片、编剧、挑选演员。而在中国，几大视频网站在自制剧时都有自己的选片团队，由他们为观众选择与确定导演，挑选剧本。

　　多年前，依赖于种种技术，Netflix对数据的记忆能力已经炉火纯青。当一位用户通过浏览器登录Netflix账号，Netflix后台技术将用户位置数据、设备数据悄悄地记录下来。这些记忆代码还包括用户收看过程中所做的收藏、推荐到社交网络等动作。在Netflix看来，暂停、回放、快进、停止等动作都是一个行为，每天用户在Netflix上将产生高达3000多万个行为，此外Netflix的订阅用户每天还会给出400万个评分，300万次搜索请求，询问剧集播放时间和设备。没错，这些都被Netflix转化成代码，当作内容生产的元素记录下来。其首席内容官泰德表示，所有这些数据意味着，Netflix公司已经拥有“可寻址的观众”。

　　早年间，Netflix利用上述数据提供一项推荐引擎业务。比如说，数千万用户能在一个个性化网页上对影片做出1－5的评级，这些评级构成了一个巨大数据池，如今这个数据池容量已超过近百亿条。根据数据池，Netflix使用推荐算法来识别具有相似品味的观众，然后对这一群体做出相关内容的精准推荐。

　　Netflix要将巨大的数据池变为生产力并非易事。长年以来，为了提高算法精准，它持续地举办大型比赛，来提高自己的数据挖掘能力。2005年底，Netflix曾开放一数据集，并设立百万美元的奖金(netflix prize)，征集能够使其推荐系统性能上升10％的推荐算法和架构。这个数据集包含了超过48万个匿名用户对大约近2万部电影做的大约10亿次评分。

　　Netflix一直在寻找与自身匹配的数据挖掘工具。据一位前Netflix云数据库架构师的博客回忆，在2010年Netflix完成了两次迁移，其一是将Netflix的数据中心迁移到了Amazon AWS之中，其二是将Oracle数据库迁移至SimpleDB。而到了2011年又从SimpleDB迁移到Cassandra，利用Cassandra提供的路由配置，集群可以被部署在多个大洲。忘掉上述专业术语，一个小故事足以说明它们的意义。法国电影《不要告诉任何人》在美国的票房收入惨淡，只有600万美元。可Netflix的工程师并不相信这个数字，他们通过上述数据挖掘技术，找到了不易察觉的点击量，而这些才是被隐藏的事实。2011年时，Netflix决定播放《不要告诉任何人》。如Netflix预测的一样，这部电影在播放后立即在最受瞩目的节目中排到第四位。

　　然而，投资人并不看好Netflix的这些努力。投资人表面上相信Netflix的数据库是个大宝藏，但财务报表的数据呢？去年万圣节，Netflix董事长兼CEO里德·哈斯廷斯接到一位投资人电话，后者告知哈斯廷斯，他将从二级市场收购Netflix 10%的股份。投资人坚持认为Netflix气数已尽，这位投资人的计划是，进入Netflix董事会再建议哈斯廷斯卖掉Netflix。

　　早期，Netflix是北美家喻户晓的在线影片租赁提供商，它的主营业务是通过邮寄方式租赁DVD的模式赚取利润。然而，在互联网时代这个盈利模式逐渐式微。于是，Netflix将主营转向在线流媒体播放，其商业模式是付费用户通过PC、TV及iPad、iPhone收看电影、电视节目。但在逐步放弃高利润率的DVD业务，彻底转型低利润率的流媒体业务后，Netflix却遭遇营收增速放缓、成本费用激增的困境。2012年第三季度，尽管财报中营收和每股收益均超出分析师预期，股价却依然暴跌。美国知名专栏作家撰文称“Netflix被收购或许才是投资者最理想的选择”。

　　里德·哈斯廷斯别无选择。他决定反击投资人的短视，用事实告诉资本市场，数据不是花架子，而是地道的生产力。Netflix利用数据挖掘能力计算出可以赢的办法，1亿美元买下一部早在1990年就播出的BBC电视剧《纸牌屋》的版权，请来导演大卫·芬奇（David Fincher），并由老戏骨凯文·史派西（Kevin Spacey）担当男主角。

　　乐视网副总裁何凤云向本刊介绍，1亿美元买下的《纸牌屋》总共2季26集，计算下来单集成本约为400万美元，远远高于美国一般电视剧的单集制作成本——150万至200万美元，也只有《广告狂人》、《斯巴达克斯》这类热播美剧才能达到200万美元左右。算下来，对于Netflix而言，只有新增100万一年期合约付费用户才能收回上述成本。

　　Netflix并非没有计算过豪赌的回报，这样做不仅可以带来新增用户，更为重要的是它为Netflix开拓了上游市场，走上了自制剧之路。在《纸牌屋》之后，还将有四部自制剧在2013年登陆Netflix。这意味着，Netflix可以逐步降低对版权费用日趋高涨的好莱坞剧的依赖。

　　Netflix的故事，对于中国视频网站而言着实励志。他们与Netflix所面临的境遇相似：在美国国内，好莱坞的独家授权费用越来越高，版权成本上升导致资本开支加大。同时内容竞争越来越激烈，尽管在流媒体播放领域Netflix仍占据市场首位，但面临着HBO（美国家庭电视广播网）、Amazon（亚马逊）、Hulu、YouＴube的竞争，它们都在加大内容投入。

　　由于版权价格提升，国内知名的视频网站们，诸如优酷土豆、搜狐视频、乐视网、爱奇艺近两年也纷纷打造自制剧。

　　据乐视网高级副总裁高飞对本刊透露，虽然去年上半年版权价格曾达冰点，但是现在又很快回升，从一线卫视购买电视剧，平均购买价格每集几十万，意味着买下一整部剧不下千万。在此局面下，拿下《纸牌屋》中国地区的互联网独家播放权的搜狐视频，不得不上调版权采购预算，其2012年的版权采购成本为5000万美元，但2013年这一预算上调到8000万美元。“但我们拍一个自制剧，成本基本上也就三分之一，甚至不到这个数。”高飞说。

　　关键是如何制作自制剧？国内视频网站意识到数据的重要性，也积累了大量数据。比如乐视网通过分析用户收看时间，在今年推出午间自制剧场。“但真正细致到使用数据来决定导演、演员，中国还没有哪家公司敢说他们能做到这点。”何凤云说。

　　此外，即便是有了数据，中国的流媒体公司还不敢像Netflix那样将宝押在一部剧上，因为中国的付费市场尚未成熟，目前还主要依赖广告盈利，无法完全将用户需求作为中心。“Netflix选择了这个项目，投巨资去做，就是博一个必须赢。”乐视网高级副总裁高飞对《中国企业家》说，“期待中国市场也可以通过付费收视足以覆盖成本，但这要寄希望于未来大屏电视以及电视平台产品和服务的成熟，以及付费市场的快速成长。”

　　除此以外，一位视频行业的人士指出，在中国基于用户数据做出分析的同时，还要考虑广电审核的要素，一些领域与题材类型都要稍微收拢，“不是没法依赖数据，而是不能完全依赖数据，我们选择数据时也一定要结合中国国情。”

案例5：定制爱情

　　宅男们总幻想为自己定制一个女朋友，也许他们的愿望将不日达成。不是借助3D打印机，而是靠大数据时代的婚恋网站。

　　2012年底，网易旗下全新婚恋交友网站“花田”上线。花田以免费沟通为卖点，主打一二线城市中高端市场。摒弃了传统婚恋网站的“人工红娘”，花田不提供任何人工服务，从推荐到搜索全由系统自动完成。而业内的龙头老大世纪佳缘(Nasdaq:DATE)，也在换帅之后摩拳擦掌，试图用大数据的精准化运营，为在海量异性资料中疲于搜索的用户“指一条明路”。

　　一年前婚恋网站最爱喊“实名制”。通过对用户身份证或手机号码进行验证，网站可获得用户真实姓名、年龄、性别、地区等身份证数据，对防止诈骗有一定作用。但如今各家都有，这种传统打法就过气了。毕竟有身份证的人，不一定是有身份的人。婚恋网站已将条条框框的硬指标罗列齐全，使人几乎怀疑进入的是淘宝人肉市场。当身高、体重、年龄、学历等等都一一框定，一看还有2000个姑娘（小伙）符合要求，是时候让理性回归感性了。而这感性，又是建立在理性的数据分析之上。

花田.jpg

　　花田界面清新简洁，采用类似微博的信息流展示形式。首页是异性用户最近更新的图片、内心独白和文字传情，展示其生活方式、个人品味等软性资料。系统会自动推荐那些相对活跃、最近有信息流更新的人，这就促使用户拿出更新微博的劲头来更新花田，为花田积累了大量可供分析的软性数据。

　　“我们可以通过‘内心独白’来挖掘用户的性格特征。”网易花田负责人夏天宇说。夏天宇在网易已工作11年，此前他的团队负责网易微博的研发，而他最早的工作是Oracle数据库管理。

　　现在，他和他的团队正试图通过自然语言处理技术和语义分析方法来解码用户性格，实现“软硬兼施”的精准推荐。首先，他们运用切分词方法，从用户的“内心独白”中提取出现频率较高的关键词；再将这些关键词分类，如感性词汇或理性词汇；最后，通过文本分析、语义分析，从中挖掘出用户的性格是内向、外向、理想化还是现实派等等。这一技术目前还在测试中，2013年下半年会逐步投入使用。

　　自2012年12月28日向全国开放注册以来，花田注册用户已近25万，每日活跃用户4万人。虽然发展迅速，但较之业界前辈，花田用户少得甚至吸引不来骗子。但网易的技术储备却不容小觑。“有道”搜索提供的自然语言处理技术，被用于通过文本挖掘用户性格。网易自研的原本用于网易邮箱的人脸识别技术，更是婚恋网站求之不得的利器。

　　花田团队只有30多个人，大多是85后。他们在对海量软硬数据进行分析的基础上，总结出一些人物特征，建立出一定数量的人物模型。再分析具体用户，将其分门别类套入各种模型。这样，用户心仪其中某一个人，便可向其推荐这一类人。

　　这种模型不仅是性格模型，还包括外貌模型。“我们马上要推出人脸识别。比如你想找个像范冰冰的女生，你输入范冰冰，就会推荐给你很多范冰冰脸型的女生。”夏天宇介绍，花田的后台已经提取出范冰冰脸型的数据，之后还会推出几十种流行的男女明星脸型供用户选择。

　　更令人感兴趣的是，如果花田能够跨产品平台，结合网易门户、邮箱、游戏等其它网易资源进行大数据分析，是否就能向用户推荐与自身阅读习惯、工作习惯、娱乐习惯都匹配的对象呢？真正的大数据必然是跨平台的，而这点别家很难做到。

　　但跨平台数据提取在一定程度上又涉及用户隐私。大数据的底线在哪里？夏天宇认为，涉及到银行的数据绝对不可碰触。这个范围就很广泛。不过可以确定的是，网易不会在花田影响力和用户量都不足的时候开启跨平台数据分析。

　　“我希望花田能盖一个五层楼，每层装不同类别的人。一个收入五万块的人进来，也不感觉这里有很多屌丝。”夏天宇这样描述自己对花田的愿景。虽然少了王子配灰姑娘的浪漫童话，倒也实实在在为用户省去不少筛选麻烦。

　　数据分析不只可用于精准推荐，还能识别婚恋网站最为人诟病的造假和诈骗。2012年底，创始人龚海燕辞任世纪佳缘联席CEO后，另一联席CEO吴琳光担任CEO。吴琳光曾在空中网担任副总裁兼手机游戏事业部总经理。加入世纪佳缘后，他首先做的就是引入大数据来提高用户体验。世纪佳缘的数据分析团队开发出一套网警系统，由以往的被动等待用户举报骗子，改为主动出击。

　　“对我们来说，花篮托儿和酒吧托儿的危害最大。”世纪佳缘CEO吴琳光介绍，这两种人的特点是希望长期运营，不会像真正的诈骗犯，令受害者报案。钱虽不多，却最让人恶心。

　　酒吧托儿的特点是照片极美，却只有一两张。花篮托儿则是相貌堂堂、言语温柔的中年大叔，但只打电话不见面。忽有一天声称自己公司要开业，向女方求送花篮，骗个一两千块。他们的共同特点就是一上来便要联系方式，尽快离开网络平台，用电话这种难以管控的方式来建立亲密关系。

　　通过对骗子这些行为模式的数据分析，世纪佳缘制作出一套骗子识别模型，已经投入使用。令人捧腹的是，吴琳光本人也曾因测试产品，被这套网警系统抓个正着，“我符合坏蛋的特征，上来就找女性直接要联系方式。”

　　吴琳光向我们分享了一连串数据。比如，“剩女”大部分是生于1978年至1983年。

　　“因为计划生育，这一段人口暴涨，她们对应的1973年－1978年的男性人口相对不够，和她们同龄的男性又被85后的年轻姑娘抢去了。”吴琳光说，2009年、2010年婚恋网站大爆发，正是因为这帮人到了必须结婚的岁数。

　　又如，世纪佳缘正在尝试联运页游，越是在世纪佳缘里收不到信的人，玩页游的越多。
数百年前的媒婆们绝想不到，若干年后，一群技术出身的工程师们用冷冰冰的数据为痴男怨女保媒拉纤。

　　然而技术男们纵然辨得出喜恶，抓得住流氓，却也有棘手的技术难题，比如人脸识别。对外貌的判断感性而且私人化，向来是婚恋网站的难点。世纪佳缘一直在努力寻找合适的面部识别软件，但难度很大。吴琳光表示，他们正引入一款能够识别相似脸的系统，从用户过往的选择数据中总结归纳用户喜欢何种脸型，给用户推荐类似脸型的人。

　　花田虽然背靠网易大树，即将推出人脸识别功能，但这一技术目前止步于脸型识别。花田试图将更高级的人脸识别，如五官识别、夫妻相匹配作为自己的增值服务收费点，尚有待进一步的技术突破。

　　对于人类这样复杂的动物，数据究竟能做到什么程度？吴琳光说自己的理想是让用户一注册世纪佳缘，看到的推荐异性就个个都喜欢。但从身边常听到的各种抱怨看，实现这个目标尚需时日。