最近,工信部预计今年年底可能要发4G牌照,4G是在LTE基础上有进一步的改进,高速移动时就可以支持100M,低速在家里可以不要网线1G下载(这是峰值),在中国4G牌照没有发放的时候国际上已经开始第五代移动通信标准的研究了,第五代移动通信希望能够使用户享受到在运动状态下也能享受到1G峰值速率。当然每一代移动通信都是革命的,第一代移动通信蜂窝小区靠频率不同区分用户,叫做FDMA频分多址。第二代移动通信GSM是靠时分区分用户,叫TDMA时分多址,从第二代开始,第三代移动通信有CDMA的是码分多址,现在到第四代移动通信叫OFDMA,是正交频分多址,把频率的时间的、空间的因素都利用起来,使得移动通信的峰值速率平均每年加倍,10年1000倍。提高移动通信的峰值速率,当然这里面要付出很大的代价。你们可以看到,早年GSM只有kbps,后来到100k,到3G是Mbps甚至是10M量级,现在到LTE开始是百兆量级,随着移动通信峰值速率越来越高,我们的终端能力也越来越强,来不断提升终端的宽带化的能力。当然了,要提升这个能力现在面临很多挑战,比如说当手机离基站很近的时候,它可以直接从基站获得信号,当手机回到家里,可能楼的墙壁钢筋水泥太厉害了,这个时候穿不过去了,就要加上室内中继来接力,如果你在马路上当然你很靠近天线时没问题,当远离天线时要发展终端到终端,也就是你拿着手机走在路上,你没打电话、上网,但是不知不觉当了第三者,当了别人的二传手。
回到家里,最好转到WIFI上,节省带宽和频率。总体来说,未来我们需要通过多点协作、多个基站服务一个用户,通过中继、各种天线以及终端的接力以及异构的网络来支撑移动通信的宽带化。比如说这个基站是回龙观,很多人晚上会住在那,晚上基站会很忙。而白天这些人都上班了,回龙观那边用手机打电话、上网的人少了,基站忙闲不均,有潮汐效应,怎么办呢?把每个小区基带处理部分集中起来,成为一个基带池,每个蜂窝小区只剩下射频,如果某个蜂窝小区的资源富裕可以调整给另外一个小区用,当然了形成基带池的好处不仅仅实现忙闲调配,而且有利于运营商集中调控,节省能源,也有利于基站选址。现在老百姓环保意识比较强,不希望自己的楼顶放基站天线,一方面大家抱怨信号不好、希望基站加密,另一方面老百姓又抱怨这个可能会对身体有影响。但实际上,中国移动通信环保标准是全球最高的。
第三,大网络布局的演变。从图上可以看到,这是数据中心,整个高度是数据中心的总量,绿色部分是数据中心使用云计算的比例。我们可以看到,到2015年一般以上的数据中心都会用到云计算,连增22%。过去没有人谈云计算,80年代谈数据库、90年代谈IBC,现在谈云计算。实际上云计算应该更准确的是云服务,当然未来会发展成什么?不知道。云计算底层有一个基础设施,像我们很多企业把它的数据库托管到运营商那里,这就使用了云计算,使用了IaaS系统。IaaS里头有数据中心、存储器、服务器,如果仅仅这样还不够,对运营商来讲,无非是“数字房地产”。运营商希望进一步在上面增加开发工具,叫PaaS,可以提供JAVA、Web2.0一些开发工具、中间件等等,企业可以租用这些开发工具,开发企业要的一些软件,比如说数据挖掘等等。对于一些小企业而言,根本没有开发能力,因此干脆直接租用你的软件,这是SaaS。比如说现在谈大数据分析,哪个企业都希望大数据分析,但是每个企业去买这些数据分析软件是很不划算的,因此租用第三方的分析软件可能是一个方向。当然更进一步的有Business,有能力的企业可以在上面更多的开发。所以云计算并不是为大数据而诞生的,但云计算正好适应了大数据的需要。
另外一点,网络节点位置要从信源中心向能源中心扩展。我国有20个省市制定云计算规划,大规模数据中心建设成为各地发展热点,11个省市云计算投资均超过100亿元。内蒙要建云计算中心、他说他那里有煤、能源,而且气侯比较好;重庆市长说,别看我这里热,但是长江水比较冷,可以拿来降温,而且这里没有地震,我这里要尽云计算中心。按照工信部等八部委2013年1月14日发布的《关于数据中心建设布局的指导意见》,中国的数据中心要考虑气候环境、能源供应,建议我们国家的云计算中心向高纬度地区集中,也就是内蒙、西北这些地区。过去的数据中心放在上海、北京、广州这些地方,而将来数据中心一半是云计算中心,而它们更多要放到内蒙、西北,也就是说网络结点位置会从信源中心往能源中心拓展,实际上云计算会改变互联网的流量和流向。
另外,由于数据量非常大,过去运营商并不是每个省线路都互相直联的,往往通过北京互联,有些通过上海、广州。现在中国电信ChinaNet网络每个省之间都直联了。为什么?因为数据量太大了,所以希望网络要扁平化。过去我们都说什么东西都到IP层做交换,随着数据发展以后我们希望的路由器容量会很大,一个纯IP电的Tpbs的路由器,一个端口就一千瓦,功耗很大,如果光的类型的交换,一个端口才25瓦,而且大数据里面大量的数据是过路的,而不是落地的,因此现在改变了互联网的格局,凡是能在光层上做的交换绝不在电层上做,凡是能在MPI(层上做的交换绝不在IP层上做。过去我们常说什么东西都在要IP上交换,现在IP要变成包装,能不在IP上交换的绝不在IP上交换。
你可以看到,这是大数据的发展。另外,过去的路由器本身具有转发和控制功能,也有节点控制功能、业务控制功能,每个路由器都是独立的,也是自我的,它根据来的数据来选路,但是这样的方式很难适应大数据时空动态性,大数据产生的位置、发生时间可能是不均的,也不平衡,如果动态需求希望我们的网络也是动态的,那么传统路由器刚性的设计很难适应动态需求,因此现在提出SDN(软件定义网),希望把路由器里头操作系统提起来,然后把路由器控制集中,这样造成网络操作系统,而路由器就剩下传输与转发功能,这是执行机构,可以根据网络需求来集中调用配置,可以使网络变的更柔性化,这是软件定义网,能实现转发与控制分离。
大数据推动城域网体系的演变,早年我们都是大计算机连大服务器,后来常常很多时间提的是客户服务器,计算机连到服务器。当一个热门的节目所有终端都希望下载的时候,这个服务器就是瓶颈。因此就出来了P2P,也就是说,各个终端能力都很强,每个终端没必要全部下载下来,每个终端只下载其中一部分,各个终端下载不同的部分然后相互交换,我们叫做Peer-to-Peer,现在很多发现这个体系架构也需要改变了,因为大数据的出现,一个终端到一个服务器之间很多数据不是一个服务器能装得下的,当一个终端接入到一个服务器的时候,可能需要调用其他服务器存储数据来支持,因此最近五年我们国家接入网流量带宽增长了6倍,而城域网流量增长了22倍,有更大流量在服务器之间交换。也就是说,网络的体系会从客户服务器的垂直架构向服务器之间的水平架构优化。大数据推动了城域网体系的演变。
另外,由于数据量很大,所以现在Google、雅虎、亚马逊、腾讯、新浪、百度都纷纷的把它的数据通过CDN写到不同地方。腾讯总部在深圳,可是它把很多服务器放在北京、广州、上海等等,甚至分散到很多省,目的是缩短用户接入到服务器的距离,所以内容分配网应用而生,最近发展得很快,内容分配网会对整个互联网流量流向产生重大的影响。走了捷径,那么省间长途流量就可以下来。所以内容分配网拉近了信源和用户的距离。全球互联网去中心化,这个图是全世界用户互联网带宽,国际互联网带宽是增加的,但是比例是下降的。左上角的图就是美国全球各个州到美国的国际互联网的流量,除了上面的线是拉丁美洲,下来之后略有回升,其他的亚洲、欧洲、美国互联网国际流量比例是下降的,也就是说绝对值增加、相对值下降,这是因为很多东西只需要就近访问,并不需要跨洋越境了。
第四,大数据挖掘的挑战。大数据技术涉及到数据采集、数据存储、数据计算、数据挖掘、数据呈现、数据安全等,涉及到很多环节。比如说挖掘就需要对数据进行清洗,进行合并、压缩,要转换格式,然后进行统计分析,知识发现以及可视化处理。然后找出它的关联规则,分类、聚类,排序列,优化路径。这里涉及到一大批的数据挖掘的软件,简单来说,首先是MapReducers,左边的图上很多数据,不同颜色表示不同类型,首先通过Map把这些数据进行分类,不同业务类型的数据分到不同的存储服务器里头,这样就是为了简化运算,在分类过程当中数据是要加标签的,同时要把重复的去掉,这是进行大数据的预分析前的一些操作。另外,大数据需要有很多服务器。
曾经有人认为买高端服务器才可靠,后来Google首创利用低端的服务器,它认为没必要用高端,只要用低端服务器就够了,而低端服务器可靠性不好,怎么办呢?冗余配置。就是把一个数据拷到三个服务器里头,三个低端服务器的价格仍然比一个高端的服务器便宜,这样一来既提高可靠性又降低了成本。所以大数据的分析需要分布存储和冗余备份。还有Map Reducers要通过映射、调度,最后把结果归纳起来得出我们要得结果。大数据跟过去的分析不一样,过去的数据都是存下来,存到静止的数据库里头,然后再分析。而大数据每时每刻都有,比如说几毫秒就要送一个数据出来,飞机引擎也是不断的送数据出来,数据根本没有停止的时候,我们不可能等数据停下来再来分析,我们必须一边走一边分析,怎么办呢?过去的分析是静止的,叫做“带数据进程序”,现在的分析是在活动的,也就是“带程序进数据”。所以大数据分析也会带来很大的挑战。
另外,更难的挑战是非结构化的数据。所谓结构化就是说可以用文本表格等方式来表达,即便文本表格表达从语意理解还是比较难的。比如地震的时候,网络上为了监控舆情,看看究竟是正面的评论多还是负面的评论多,有一条信息说“当他发现他儿子还活着的时候,他抱头痛哭。”按照分析,“痛哭”肯定是负面的。但实际上这是正面的。这是因为什么呢?要让计算机懂得人的感情,这就难了。文字的分析况且这么难,那么对照片的分析就更难了,要通过OCR扫描出里面的文字,把文字作为标签加到照片上。照片还好说一点,而视频分析就更难了,你怎么找这个人?去年1月份周克华在南京杀了人,当时摄像头把他拍下来的,南京市调出几十万个摄像头视频,拍多长就要看多长,没有分析的办法就靠人看,所以这是很慢的。因此大数据互换智能化的处理、智能化的分析。
另外,大数据需要虚拟化和可视化。举个例子,上海江苏路,路上有很多摄像头,每个摄像头背后连一个电视屏幕,在交通管理中心的一面墙上放了很多屏。当然了,再大的墙壁也放不下全上海这么多交通摄像头,所以只能10秒钟显示一条马路的摄像头,这些都是分离的,一个一个看很难看出问题。我们希望通过软件把这条马路的摄像头合成一个视频,只要看这个视频就知道全马路摄像头的状况了。当然只有一条马路还不够,我们还要把它合成全上海一幅图,就像上海市领导坐着直升机俯视上海一样,看到上海市整个城市里头,在东京北纬某个纬度,在某个时刻段,哪段路交通堵塞。大数据,无论数据有多大,无论是PB还是TB,最重要结果都应该非常直观的一幅图。
Gartner公司在发布2012-2016的IT发展趋势,有五点:大数据、云存储、移动应用、社交网络、网络安全。我们可以看到其中最主要的是大数据。大数据推动ICT发展的时代,云计算、移动互联网、下一代互联网、大数据、物联网、社交网络,我叫做“大智移云”,你可以看到这些新的信息技术适应大数据新一代发展。
最后,宽带化、移动互联网、物联网、社交网络等催生大数据,大数据预示信息化发展进入新阶段,大数据是信息化新浪潮的结晶。为适应大数据的需求,光纤通信和移动通信加速宽带化。大数据加快了云计算、CDN和对等直联(或NAP)节点的部署,网络节点位置从信源中心向能源中心转移,信源中心向用户靠拢,互联网显现去中心化。大数据挖掘对数据采集、存储、分析、决策、呈现和安全等技术带来大挑战。谢谢大家!