以“从大数据中挖掘大价值”为主题的“第二届中国大数据应用论坛”现场,中国工程院副院长邬贺铨先生首先以“大数据时代的发展趋势”为主题发表了精彩的演讲。
以下为演讲实录:
尊敬的北大的各位老师、各位专家、各位CIO,很高兴来参加这次论坛。最近这几天好像有点“CIO热”,上个礼拜Gartner在北京有CIO论坛,明天在上海也有CIO论坛,大数据论坛也是到处在开。今天的标题是“大数据应用”,我知道今天后面的几位报告人会讲到大数据在教育、医疗、商业等等方面的应用,所以我这里就只讲一下大数据时代的ICT趋势,会讲到四个方面的问题:大数据浪潮的到来、大带宽发展的趋势、大网络布局的演变、大数据挖掘的挑战。
第一,大数据浪潮的到来。绿色图表示每个网民人均每个月下载流量,1998年每个网民一个月只需要一兆流量,2003年就需要一百兆,2008年就是1G,到2014年每个月要10个G的下载量。右边的图是讲全世界互联网流量累计达到1EB所需要的时间,2001年需要一年,2004年需要一个月,而今年只需要一天。2012年去年全世界互联网一天的信息量大概是1EB,可以刻满1.68亿张DVD,。现在全世界新产生的数据量每年增加40%,每两年数据翻一番。2012年、2013年产生数据量总和是人类有历史以来到2011年产生数据量的总和,两年的数据量等于一万年的总和,这个数据规模为1.8ZB,假如把这个数据装在32G的IPad上,要装575亿个,把这些iPad摞起来,可以摞起两座中国的长城。2020年全球数据将达到40ZB,如果将数据装在光盘上,这些光盘总重量等于424艘尼米兹号航母。所以说,大数据时代到来了。
大数据有网络数据、企事业单位数据、政府数据,网络数据自媒体数据(比如社交网络、博客、微博等),有日志数据(比如搜索引擎,大家上网等等都会留下很多足迹),还有富媒体数据(视频、音频等等),每天的数据量很大。比如淘宝每天数据量就超过50个TB;新浪微博晚上高峰的时候一秒钟就要接收100万以上的响应请求;百度每天大概处理60亿次搜索请求,几十PB;中国联通每天记录用户上网条数,一秒钟记录83万条,一个月大概是300TB;国家电网信息中心目前累计收集了2PB的数据;北京公交一卡通,每天用公交一卡通的旅客有4000万刷卡记录,而北京地铁每天乘客1000万,把这些数据每天收集起来分析数据可以用于改善北京的交通状况,优化北京的公交线路。
最大的流量是视频。美国TouTube网站一分钟有72小时的视频上载,到2016年互联网上的忙时流量是720Tbps,相当于全世界有6亿人同时看不一样的高清电影。到2016年每3分钟互联网传送360万小时视频,相当于全球已经生产的全部电影。这个电影用什么量衡量呢?如果一个人要看3分钟所传送的电影,需要34年不吃饭、不睡觉才能看完。最近两个月在TouTube上载的视频量是美国三大电视台--ABC、NBC、CBS自1948年以来24/7/365连续播出的内容,可以看到视频流量非常大。
大数据无所不在。图中是美国的一家医院(UPMC),一年能收500TB数据;伦敦有200个交通摄像头,每天是8TB数据;伦敦才200个,北京有八十万个摄像头,数据量要比伦敦大得多了。还有其他方面的数据量,大数据无所不在。
就监控而言,很多城市的摄像头多达几十万个,一个月的数据就达到数十个PB。北京公安局规定,所有超市,只要有开放食品架的,全都要装高清摄像头,能清晰的拍摄到走在架前人的脸部,以防投毒,防用针管装艾滋病毒、传染病毒打到液体里等,那么产生的数据就更大了。飞机的汽轮机产生的数据是Twitter的七倍,例如波音787,它每一个飞行来回可产生TB级的数据,美国每个月收集360万次飞行记录;监视机队25000个引擎,每个引擎的数据一天产生588GB;空客380软件有10亿行,每30分钟产生10TB的数据;风力发电机装有测量风速、螺距、油温等多种传感器,每隔几毫秒测一次,用于检测叶片、变速箱、变频器等的磨损程度;一个具有500个风机的风场一年会产生2PB的数据。这些数据用于预防性维护,可使风机寿命延长3年即达到18年,每年每风机的成本将降低17%。根据上面监测的统计,今天所有企业的信息存储总量已达2.2ZB,未来几年将年增67%。
大数据的应用很多,比如淘宝,通过采集淘宝网上成交额比较高的390个类目的商品价格来搞出淘宝的CPI,比国家统计局公布的CPI更早的预测到经济状况。为什么?国家统计局统计的CPI主要根据是刚性的物品;比如食品,经济好、经济不好,人们都要吃饭,因此差别不大。可是淘宝上都是买化妆品、电子产品、服装,经济不好就会少买,因此淘宝CPI更能反映价格走势,一般来讲比我们国家统计局公布的CPI,能提前一个月到半个月预测到走势。中央首长到了淘宝看了以后就说“你们每天把淘宝的CPI送到中南海”。最近经济情况的下行压力很大,很多中小企业贷款很难,因为他们没用担保。阿里公司根据在淘宝网上中小公司遭遇的状况,筛选出财务健康、诚信企业,不要他们担保,阿里放贷300多亿元,坏账率仅0.3%。去年公布的四大商业银行坏账率是这个数字的13倍。商业银行是有担保的,而阿里没有担保。
Google把5000万美国人频繁的搜索跟美国疾控中心流感数据进行比较,一个地方发生流感肯定有很多人在网上搜索这些词汇,因此根据这些词汇出现频率可以判断这个地方出现流感,Google在2009年的甲型H1N1流感出现时,它比美国疾控中心提前几个月发布公告。Google前雇员创办了Climate公司,从美国气象局获得几十年的天气数据,并与各地的农业状况、土壤状况关联起来,尚有需求的农场主说“谁问我明天种什么能赚钱,我告诉你,如果我说错了,我的赔偿要比保险公司还要更高。”到现在为止,据说他们从来还没赔过,不像我们国家的农民只是根据简单的判断,今年猪肉贵了,明年大量养猪,明年猪肉就便宜了,然后年猪肉又贵了。所以农业上的大数据应用是很有帮助的。
第二,大带宽发展趋势。大数据必然驱动大带宽,这是全世界国际互联网干线的流量状况,根据美国的预测显示,2010年比2009年全世界的数据量增长了62%,按这个推断,10年国际互联网流量要增长1000倍,美国自身的互联网流量也是10年增长1000倍。这个曲线是全世界骨干网的流量,无论亚洲金融危机还是其他危机互联网,流量都不受影响,依旧保持高速增长。首先是光纤浏览,早年的是模拟的频分复用,90年代开启了光纤复用,当时叫数字的时分,TDM,当时一对光纤传2.5GB的三万电话电路;波分复用,一对光纤不仅仅可以传一个波长,可以同时传输多个波长,叫做波分复用。一对光纤在工程上已经传送1.6TB,相当于2000万电话电路。光纤通信虽然还可以采用更多的光纤技术,做到一对光纤传输16个TB,两亿电话电路。当然随着干线容量增加,我们希望系统更灵活,所以光互联网就出来了。总之,光纤传输能力十年扩大1000倍,目前来看还有很大发展空间,而且现在光纤光缆成本很低,中国生产世界一半的光纤光缆,同时也消耗了世界一半的光纤光缆,10年前中国的翻新光纤一公里卖到两千多人民币,去年报价是53元一公里光纤,现在光纤比面条便宜,极大地支撑了宽带化发展。可以看到,95年的时候数据总容量比较小,只有2.5G到10GB,波分数量也只有8到40个。到2010年可以看到,信道单波长已经做到100G,信道容量做到15个、50个波长。到2020年单波长要做到1T,总容量还会增大。右下角的图是中国联通169的网络,可以看到它每年都在扩容、增长。随着大数据时代来临,运营商还要大量的增加光纤容量。
另外,不单是干线容量增加,我们也希望用户节路带宽增加,所以新的运营商会推动“光纤到户”,实际上“光纤到户”是广义的,并不真正是’光纤到户”,而是光纤到大区、光纤到大楼。在中国光纤到了一个大楼之后剩下的路线很短了,也可以传高比特率。现在光纤传输用的是无源光网络,从局域端到用户端是一个光纤,快到用户家门口进行分支,这里面向行叫10分,下行是广播式的。这样用户的带宽能做到,现在可以上到100兆。说了光纤,除了有线,我们希望无线也是宽带的。第一代移动中国通信在90年代的时候中国就退网了,那个时候是模一的电路交换,带宽比较差,现在大家比较多用的是第二代移动通信,它是GSM CDMA,带宽当时只有几百K,3G带宽是Mbps,现在中国基本上都是增强型3G,几十M。前年上海世博会上周围搞了眼镜型的3G,也叫LTE实验,现在在全国已经有16个城市在开展实验了。