再识大数据
如果说在工业时代,生产原料是基于大自然馈赠的各种原子的产物,那么在信息时代,最基本的生产原料就是比特。而在比特之上,是承载各种信息价值的数据。对于信息时代的人们来说,没有什么比获得数据、拥有数据、分析数据和利用数据更重要的事情了。
近日,《CIOInsight/信息方略》记者就有关大数据与互联网的关系、大数据对业态的影响、成功利用大数据的商业模式等话题,采访了中国通信协会副理事长、国家信息化专家组咨询委员会委员、光纤传送网与宽带信息网专家邬贺铨先生。以下是经过编辑的对话。
被访者简介:邬贺铨,光纤传送网与宽带信息网专家,曾任信息产业部电信科学技术研究院副院长兼总工程师。现任国务院物联网领导小组组长、电信科学技术研究院副院长兼总工程师。国内最早从事数字通信技术研究的骨干之一。
相辅相成的大数据与互联网
CIOI:先来简单聊聊大数据吧。这是个持续发热的东西,特别是在今天这个信息消费的大背景刺激之下。那么在您看来,大数据有哪些具象的表现?
邬贺铨:我们的城市都有摄像头,一个小时产生很多的数据,几十万个摄像头,数据达到数百个TB,是很正常的事情,所以这个数据总量是非常大的。除了政府及公共机构以外,企业也产生大数据。比如说波音飞机,每个飞机的每趟航程,来回都会产生TB量级的数据。波音公司现在拥有的技术,可以做到每几毫秒都测一个数据,这样每年的数据有多大,可以想象。
中国联通对每个上网用户都有记录,一个月记录一万多条,对应的数据量是几百个TB。除此之外,国家电网公司、医疗单位也都是数据产生的大户。我们从医院的病例可以看到,一个大脑的CT扫描图,要让它分辨率很高,微米的数据量产生是4.5TB的数据。同时按照医疗规定,一个患者的数据要保存50年。像301医院,门诊量一万人;广州中山大学医院,2008年的数据是100个TB,到2013年是1000个TB。
还有大家都知道的淘宝网。去年光棍节每分钟几十个TB的数据。腾讯每天有5万次计算等。所以说,互联网上有很多大数据,每天都有更多的数据量产生。我这里还有一个国外的数据,美国的网站每分钟有72小时时长的视频监控上载,相当于全世界有6亿人同时看不同的高清电影。到了2016年,互联网可以在3分钟之内,传收300万小时的视频。这个数字相当于全世界生产34年不吃饭不睡觉才可以看完的电影。
现在全世界新产生的数据量每年增加14%,也就是说互联网每两年翻一番。2012年和2013年互联网所产生的流量,等于人们有意识以来,一直到2011年所产生的数据量总和,两年等于一万年。2011年全世界互联网总量1.8个GB。2020年,全世界的数据将达到40个GB。
CIOI:刚才您谈了很多互联网对大数据的影响。那么反过来,大数据的产生,又使互联网有了那些改变?
邬贺铨:大数据的出现,对互联网有很大的影响。就以传统路由器为例。路由器有传送功能,也有控制功能,还有业务功能。大数据出现后,我们发现网络上存在时空不对应的问题,很难判断哪个地方的流量最高。因此,现在可以把路由器的网络控制功能抽出来,形成一个网络控制系统;把业务功能抽出来形成业务系统。灵活实现控制平面的建构,对于大数据流量是一种改型。随着流量增大,大部分流量过路多,落地少。凡是在光强上做的,就别在电厂做,凡是在IP上可以做的,就不在IPO上做。另外,就是传统互联网IP地址表示主机的身份,这个很正常。但移动互联网的出现,使这个计算机从这里到那里,位置变了,用户的身份没有变——完成身份和位置的分离。
另外,现在被讨论很多的,IPV4向IPV6迁徙的话题,也是大数据对互联网的另一个影响。目前为止,必须要解决地址短缺问题,一些人不考虑跟互联网兼容的问题,甚至提出“后IP”概念。一般大家认为,“革命性”路线发展需要很长时间,10到15年,甚至更长。从这个意义上来说,我们现在的网络等不及,不可能15年以后再解决地址问题,因此,IPV6是一个必须然的选择。至于说未来,谁也不能保证任何一个技术是万全的。看到十几年之内,我们没有别的解决办法,就只能往这方面走。现在,IPV6有利于对地址真实身份的认知,对网络安全性有好处的。但过度到IPV6是一个长期过程,这个需要整个产业链方面的配合。
公共领域:未开采的大数据富矿
CIOI:还有一个跟大数据挖掘密切相关的话题,就是公共信息平台的建立。这也是信息消费的热点之一,您怎么看这个问题?
邬贺铨:我们北京的公交有一卡通,如果把这里面的数据收集起来,我们就能知道北京多少人从哪里换车,每天是个怎样的流向。
还有一个例子,上海的所有路口都有摄像头,每个摄像头后面都有电视屏,放在交通管理中心。一个交通管理中心再大也放不下这么多屏,因此10秒钟一轮换。通过大数据挖掘,可以把一条马路的交通组成一个视频,把整个上海交通组织像一张图,就像从直升飞机上俯视上海一样。
我这里还有一个以色列的例子。以色列首都的交通流量,不同颜色表示不同的事件,有些表示事故等。政府统计出来这些数据以后,通过广播告诉给所有开车的人。我们现在虽然有交通屏,但仅能看到堵车显示。但是却无法前进和后退。然而,在非常实时的提供到开车的每个人,这才是很好的服务。我们现在的问题是,有很多地方有很多有用的数据没有被挖掘,会挖掘的人却没有数据可挖。因此我说,公共领域的大数据挖掘,还是要把网络和生活结合起来。
另外,快到国庆了。国庆之前很多人在网上搜索旅游点,还有酒店信息,私家车的路线等。根据你的搜索,我们知道哪个旅游点最热,那条路会堵,真正发生在黄金周的情况,我提前就可以知道。因此,基于在这一点,地图服务,包括基于LBS的数据挖掘、信息开发,都很有可为。我了解的情况,百度成立了定位事业部,以地图为载体,覆盖到餐饮、KTV、上商场等。阿里有保护中心,在移动端加强与高德地图合作。腾讯推出会员卡,加上财富通和搜搜地图,你可以看到现在我们所有网络都要跟地图结合。要跟位置结合,要跟本地生活结合。
利用短信、微博、微信,我们可以收集热点和舆情。腾讯对每个用户都建档案,一个老头注册的时候说是18岁少女,无论用什么假名,你在网上时间长了一定露出你的本性。说的夸张一些,不但知道你是男是女,是老是少,还知道你是不是神经病。如果公安局要查,腾讯可以提供一堆神经病的IP地址。
大数据引发行业新业态
CIOI:您在一开始讲到大数据伴生的分离作用,这一点很关键,使得之前混在一起的功能,渐渐清晰起来。那么,随之而来会对数据中心会有哪些影响?
邬贺铨:信源中心和信息中心的分离,是信息技术走到今天,一个很重要的发展。到2015年,世界上的数据中心中,有一半多以上都会是云计算中心,且都是大容量的。云计算中心一般考虑放在什么地方?一般考虑气候、能源工业。我们国家云计算中心会向高纬度地区集中,比如说内蒙一些凉快的地方迁徙。像谷歌把它的云计算中心放在摩洛哥,因为那比较凉快。
现在,我们的数据中心大部分在北京、上海、广州;而未来,数据中心会放在内蒙偏远的地方。此外,将来云计算的出现会把用户以信息源为中心,向以能源为中心改变,也就是说,中心节点将发生变化。过去,上海、北京、广州是中心,现在随着大数据出现发现了不能这样做,我们需要增加这个数据和中心。美国网建互联中心有八个,我们现在有三个,中信部有计划增加这个中心。
还有一个影响,就是大数据的出现,会导致全球互联网的去中心化。现在,像谷歌这样的全球化公司,都纷纷在中国香港等地方上节点。这时候,对外的访问就没必要跨洋过海到美国去了。从这个意义上说,国际互连网流量比例必将下降,全球互联网呈现去中心化。
另外,大数据还会导致区域网络扁平化。随着大数据的出现,所有省之间都可以实现直连。而且,不这样安排,根本没有办法支持这么大的流量。
此外,还有一个影响,就是内容分配网络化。为了让用户更好更快的接收信息内容,我们要做内容分配网。国家电信运营商在靠近用户的地方建了很多CDN,这样可以适应大家更快访问视频。CDN的部署对互联网流量流向产生了影响,我们国家的国际互联网占比是降低的,我们的网间流量比例也是降低的;但同时绝对值增加,本地化的访问更多了,远端的访问降下来了。
CIOI:刚才讲的这些影响和改变,是不是在移动互联网也会有相似的问题?
邬贺铨:移动网络也一样。2009年,我国所有的移动通讯呼叫发生率,室内是63%,家里29%,办公室占14%。越是大数据时代这个比例会越高,室内转到WIFI,WIFI多了互相干扰,使用小蜂窝的技术,可以范围很小,损耗很小,因此调试率可以增加。一个蜂窝分成多个分布式的天线,这样有些蜂窝加上基站,但是蜂窝之间是统筹的,干扰统筹来解决数据量的传输问题。
CIOI:有关大数据的众多讨论中,一个很重要的话题就是数据价值的挖掘。有了那么多的数据资源,如何加以分析、加以利用,您有哪些好的例子可以分享?
邬贺铨:淘宝的CPI和国家统计的CPI不一样,但是淘宝的CPI更能反映我们的物价波动。国家统计局的CPI主要参数是食品。但除非是经济情况太差了,人们才会把食品开支省下来,否则不会省吃饭的钱。淘宝的数据中,包括了很多买服装首饰的部分。如果经济不好,就会反映出来。人人网通过客户关系的分析,游戏业务取得100%的增长。大家淘宝上买东西,阿里巴巴把你的IP地址记下来,拿出来让卖化妆品和卖服装人竞价买这个IP地址。百度搜索排名优先推荐,央视广告效果谁知道怎么样?央视去年的广告收入269亿人民币,百度广告收入229亿人民币,百度广告连增50%以上,央视才增多少?现在他们终于发现,原来百度是我的竞争对手。
另外,大数据还推动视频与互联网的融合。乐视网买到《甄传》的网络播出独家权,搜狐视频拿下了《中国好声音》的版权,还有腾讯视频参与《快乐男声》的选拔过程,有一些快男被淘汰了,还可以复活,靠在YY上买东西复活选手。
现在,基于大数据的互联网,已经变成一个新媒体的融合平台。大数据提供集资服务,阿里根据中小企业在平台上的表现,选出放心的中小企业,放贷一千多个亿,坏账率只有1.3%。2013年7月份的统计,阿里靠贷款每天利息一百万。京东收购了网民在线,从信用卡分期贷款,你在京东买东西留地址什么,他提供贷款。苏宁建立小贷公司解决贷款问题,为它的营销创造很好的条件。
CIOI:最后一个问题,是有关互联网企业的。您怎么看待在这场大融合中,互联网企业的角色?
邬贺铨:现在的互联网企业应该当轻运营商。我们看到,现在互联网企业除了管道需要运营商,其他东西都不需要依靠运营商,都需要独立判断。公安局有微信公众号,招商银行也有,这些都可以很好开发的,各种各样的增值服务在这里都可以出现。
电信运营商开展互联网活动,银行做电商,互联网企业做金融,阿里控制电商的入口,腾讯主刀线交入口,大家都希望到对方的业务领域做拓展。固定想做移动,移动想做固定,广播做电信,电信想做广播,运营的卖手机,手机的想做运营,现在很难区分大家的业务。我们看到自留地要种,别的也要搞。在这里,电商和搜索会产生新的业态。
互联网产生大数据,移动互联网和物联网进一步推动数据的暴涨。网络中心体现去中心化,大数据促进了信息融合和产业跨界结合。大数据引发更多新业态出现,这对互联网发展是机遇也是挑战,是对我们国家互联网创新能力的一次大考。