一般来说,数据来源主要有三个层面:第一个层面是网络数据;第二个层面是网络传感器上面的数据;还有一些既不是网络也不是传感器的数据,比如政府以及企业部门所收集的数据,就属于第三个层面,即社会层面的数据。基于数据库,我们在应用的时候可以根据需要选择有用的数据,然后通过变换、利用,最终融合出来需要的东西。
谁在支持大数据
大数据产业涉及到很多方面,首先需要有一个大数据平台,还需要有宽带的存储设施、云计算等平台。
上世纪80年代以前国内主要是在电缆上面的传输系统,是模拟的。随后光纤通信技术进入了市场,在上世纪90年代初是一根光纤传2.5G,实际可以把很多波长利用起来,我们叫波分复用,进而通过多种技术可以把光纤传输能力再进一步提高,现在一对光纤在实验室可以传到16TP。除了光系统以外,移动通信也在飞速地发展,上世纪90年代以前的通信方式主要是打电话;后来第二代移动通信出现了,现在大家大部分使用的还是第二代移动通信,它是数字的交换,带宽比较窄;2009年中国发放3家3G牌照。在去年年底国务院批准发放了4G牌照,现在LET在中国很多地方布网和商用,实际上国际上已经启动了第五代通信网络应用,在家里不用网线就可以下载峰值达到50G,光纤的发展为大数据提供了很好的平台。
除了光纤和通信以外,计算机也是少不了的,上世纪50年代大型计算机,上世纪60年代小型计算机,上世纪80年代个人计算机,上世纪90年代笔记本电脑,到现在的智能型手机。全世界第一台计算机是1946年出现的,当时占地面积170平方米,那时候计算机的能力相当于会计手上拿的计算器;1975年美国国防部拿了500万美元买一台当时最先进的超级计算机,相当于我们现在的iphone4;1985年美国防部更新了超级计算机,相当于IPaD2;上世纪90年代买1G的闪存要1800美元,而现在只要0.25美分,所以随着计算机能力提升,大数据处理能力也相应提升。
另外,大数据也离不开软件,软件发展从单机到网络。早期的阿波罗登月飞行器软件只有4000行代码,现在波音飞机的软件有2万行,高铁有十几亿的行代码,我们用的智能手机操作系统也有上百万行的代码。软件能力的提升也方便了对大数据的挖掘。
除了软件以外,云计算是大数据里重要的基础设施。云计算下面有基础设施,提供服务器、存储器和网络。现在,每个单位可能都会有信息化系统,自建信息化系统很不经济且利用率不高。因此,委托第三方进行系统建设,就构成了云计算的基础设施服务,仅有基础设施服务是不够的,所以在云计算里通常都会增加平台服务,提供很多工具,有利于用户利用这些工具开发所需要的软件。尽管提供了工具,但是对于一些中小企业来讲,仍然没有能力利用这些工具开发软件。因此,云计算可以向更多公司提供租用软件,如客户关系管理、HR人力资源管理等等,另外,一些更大的企业可以自己在云计算开发事务性的企业管理软件。
有了宽带化、软件、计算机和云计算,是不是就一定能完全处理大数据呢?大数据比较难处理的是实现语义的分析,我们可以收集很多数据,但是如何让计算机来理解还有一定的困难。像Google与斯坦福的合作,用很多张图让计算机去看猫,计算机看了10天以后就发现很多图片里面都有一只动物,尽管样子不一样,但是基本是一个类型,所以计算机学会了这是猫,然后再把2万张从来没有看过的照片给它看,它的识别率是15%,从应用上来说这还是远远不够的,但这也表明训练计算机识别图像仍然是有可能的,未来大数据分析就是要训练计算能力能够代替人去处理需要理解的一些文字、照片、图片、视频。大数据需要实现虚拟化和可视化,因为虽然收集了很多数据,只有通过可视化、虚拟化方式才能被大多数人理解。
大数据带来新财富
大数据的产品包括了软硬件服务、关系数据库的软件、数据集成和数据资料服务,大数据开发平台、数据可视化平台、应用分析和应用视频服务以及一些视频软件和大数据专业咨询培训服务。各种各样应用设施以及软件、服务,构成了大数据设施产业基础。
大数据的产业设施有多大呢?2017年硬件可能占1/3,软件占1/3,服务占1/3还多一些,按咨询公司估计,到2017年全世界大数据市场大概超过500亿美元。到2016年,中国大数据应用的市场大概是100多亿元,当然这主要是应用,还没有完全包括所有的产品设施。
广义的大数据产业更广泛,包括大数据硬件,网络设备、存储器,关系数据库、非关系数据库一些分析软件,还有跟大数据有关的服务,但是广义大数据产业还要再拓展,如传统产业利用大数据应用而增值,用于工业、农业、商贸、交通、建筑、教育、环保、制造业等等。
大数据在风电行业就有很好的应用,通过风电检测可以发现风资源状况以及怎么样更好地利用;另外大数据在零售业也有很好的利用,沃尔玛通过大数据分析知道买A商品的用户和买B商品的用户分别有多少,而这些大数据开发有助于零售业的开发。大数据也可以应用到医疗领域,从而在医疗研发上一年可以减少200亿美元的开支,在医疗商业模式上也会节省几十亿美元。据麦肯锡公司统计,大数据可以给美国医疗保健每年提供3000亿美元的价值,给欧洲公共管理提供2500亿美元管理上的价值,给服务提供商带来6000亿美元年度盈余,给零售商带来60%的利润增加,给制造业带来50%成本的下降。大数据是新财富,价值堪比石油。
谁将从大数据里面受益呢,首先是制造业,因为企业多;第二是政府,大数据的一个特征就是开放,如果政府能够适当开放政府所掌控的数据,全世界都会从政府开放的数据当中受益,麦肯锡公司认为这大概会给全球经济每年带来23000亿美元到53000亿美元的红利。
总之,现在网络通信发展进入了大数据、智慧城市、物联网、移动互联网和云计算时代。大数据提升了决策智能化水平,大数据成为两化融合的抓手,大数据用于社会管理和民生服务将创造出显著社会效应,大数据对中国既是机遇也是挑战,全社会都需要重视和挖掘大数据的应用。