“大数据”是从英语“Bigdata”一词翻译而来,过去常说的“信息爆炸”、“海量数据”等等已经不足以描述这个新出现的现象,“大数据”一说就在近几年崭露头角,并首先为全球各大IT企业所重视。这些企业基于自身的商业目标,对“大数据”做出了各种解释,其中有一条已成共识:“大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。”
人类的判断、决心和行为需要依靠智慧,而这些智慧需要外部信息的不断输入,在未经处理以前,这些外部信息常常被叫作数据。不仅人群产生数据、机器产生数据、数据自身也产生数据,所有的天然和人造物体任何时间都在产生大量数据。而今天的信息社会发展得如此之快,近年来人类能够获取和存储的数据量正在急剧增长,其数量和复杂程度都达到人类难以应对的地步,但是汹涌而来的数据并不可怕,人们发现一旦它们得到充分利用,我们的智慧或许能够得到量子跃迁般的提升。
那么,有着如此神奇魅力的“大数据”到底是什么?它的与众不同之处在哪里?前景又会如何呢?
今天情景
这是个平常的上班日,你出门时照例先看天气预报再听交通广播。当然你懂的,能不能心情很爽地准时在办公室亮相可不仅取决这些。你无法知道的是,来路上那位出租车司机昨晚被人“碰瓷”诈了五百元,一早就脾气很坏;今天空气悬浮颗粒中花粉比例突然增高,你的过敏体质将会强烈反应;而你在途中查看iPhone找到一款满意的相机打算出差回来去下单,却不知道因为水灾,明天那款“泰国制造”的优惠折扣就要取消……
未来情景
X年后也是这一天。出门前你的手持设备已经收到了今天的天气、这一刻出行方式和路线的最佳方案(以后根据获取的新数据每分钟更新一次),包括要带好抗过敏药和餐巾纸的提醒。当你接近那辆出租车时,你被建议再等大约3分半钟可以换一辆(物联网报告刚刚监测到前面那位驾驶员有轻度的异常操作行为,需要继续观察);而当你长时间盯着那个型号相机的画面时,一个专题讨论组和微博的搜索和文本挖掘已经在“云”上自动完成,对其供应链模型分析的结论是,因产地水灾近期现货出现紧缺的概率高达87%……
上述对未来的描绘不是科幻电影中的场景,也不是商业广告中的宣传,而是即将发生在我们身边的事实。能够帮助我们提高智慧的各种数据本来都存在,而随着信息技术的发展,我们会有越来越多的设备和方法记录下人和自然界事物的各种行为,“大数据”由此产生。而那些每分钟更新的“万宝全书”则是分析这些数据而产生的智慧,它将为人们带来更加美好的生活。
智慧城市的“大脑”
如果将智慧城市比喻为人,将组成智慧城市感知功能的传感器比作人的五官,将连接传感器的网络比作神经,将控制和存储信息的云技术比作中枢,那么大数据就是智慧城市的大脑。
交通
当前,出行难问题对各大城市来说都迫在眉睫亟待解决。在信息技术的蓬勃发展时期,人们利用先进的传感技术、网络技术、计算技术、控制技术、智能技术,对道路和交通进行全面感知。例如在路面放置传感器,在路口安装监控视频,在车辆上配置全球定位系统(GPS),可以对每一条道路实时监控,对每一辆车进行控制,以提高交通效率和交通安全性。可是,如果要实现右上图表中的“未来情景”,上述技术仅仅达到“中枢神经”的控制层面,远没有发挥“大脑”的智慧。
大数据下的智慧交通,就是融合传感器、监控视频和GPS等设备产生的海量数据,甚至与气象监测设备产生的天气状况等数据相结合,从中提取出我们真正需要的信息,及时而准确地推送给我们,并且这些信息不是简单地告诉我们到达目的地的几条路径或是显示各种路况信息,而是直接提供最佳的出行方式和路线,从而省却了我们在多个信息中做出选择的麻烦。
医疗
医疗健康问题是城市快节奏生活下人们普遍关注的焦点。以往,我们总是在发现自己生病时看病就医,而且到了医院还要挂号、求诊、配药,大多数情况下还需要排队等候,容易形成就医难的困境。如今,由于电子医疗记录时代的来临,电子病历正逐渐为各大医疗机构所采用。在去医院前,可以通过网上预约挂号;在就医时,仅使用一张IC卡就能付费;医生还可以将问诊过程中的记录,病人的化验单、拍片等诊断数据输入电脑以备随时调用。
这些技术大大提高了医疗机构的工作效率,也使得病人有了良好的就医体验。然而,美国著名的医疗健康组织KaiserPermanente又往前多走了一步,该组织通过将下属所有医疗机构的电子病历记录标准化,形成多方位的大数据。这些需要在同一时间分析的众多因素包括病人基本资料、诊断结果、处方、医疗保险情况和付款记录等数据。将这些不同的数据综合起来,Kaiser的决策支持软件将提供给医护人员完整的病人历史,并选择最佳的医疗护理解决方案。
社会安全
每个市民的切身利益都与社会安全相关,当中的问题包括灾害天气、环境污染等城市的小毛小病,也有如火灾和犯罪等各种重大突发状况。这些层出不穷的安全问题无时无刻不在考验着城市的应急体系。幸好,我们有先进的信息技术支撑,确保当安全问题发生时,能第一时间发现,并且快速启动相应的应急预案来处理。
美国的纽约市在2003年3月建立了市民求助热线311电话中心,至今已经接听了1亿多个电话,日接待量达到5万多个。该系统能够向市民提供3600多个门类的信息和解答,可以用180种语言回答问题,其中有垃圾如何分类、下雪天学校何时停课、是否有恐怖袭击……。但该热线除了直接解决各种问题外,还有个重要的功能――为城市收集信息。每一通电话都被记录、并在地图上标记出来,以方便深入分析。其实,城市中每天所产生的数据不仅包含热线电话的记录,还包含其他与社会安全相关的数据,如社交网站上的信息、道路监控设备的信息等。城市管理者可以通过对数据的分析,察觉哪里出了什么样的问题,并安排处理它们的优先顺序;市民则能知道怎么去规避危险,在突发事件发生的情况下自己该做什么。所以,如何用好这些大数据,对城市管理者和市民来说都很重要。
科技创新的“种子”
产业转型升级依赖于科技创新,而科技创新又是一个螺旋上升的过程,这个过程萌芽于科学发现,生长于成果转化,收获于产业发展,产业发展又需要有新的科学发现来打破旧有的模式来获得重生。在这样一个往复循环的过程中,科学发现就成了科技创新的原点。
一直以来,科学发现主要基于实验和理论。在古代,人们利用自然法则来观察未知的世界。到了17世纪,以牛顿为代表的科学家试图对新现象做出预测,并且通过实验对各种假设进行检验。而现在,随着计算机性能的不断提高,研发人员可以精确求解大规模方程组,从而探索一些无法运用实验法和理论法的领域,例如气候建模和星系形成等。可是,这些研究正在被大数据淹没,数字信息从各种各样的传感器、工具和模拟实验那里源源不断地涌来,令数据的组织能力、分析能力和储存能力捉襟见肘。因而,在数据量快速增长之时,必须重新考虑科学研究发现的一整套方法。图灵奖得主、已故科学家吉姆?格雷针对这种情况提出了科学研究的“第四范式”。这第四种范式同样要用到性能强大的计算机,差别在于研发人员不是根据已知的规则编写程序,而是从各种各样的数据入手。他们用程序对海量数据进行挖掘,寻找隐藏在其中的关联;实际上,就是利用程序去发现未知的规律。2009年以来,微软研究院的科学家们致力于对第四范式和大数据的研究。有一个案例说明了他们的研究成果:
在20世纪80年代,有一家医院发现收治的充血性心力衰竭病人在节假日期间会飙升,他们只是注意到这一现象却没有深入研究。20年后,微软研究院对此现象及大量数据开发出了一套分析方法,可以相当准确地预测一名充血性心力衰竭病人在出院后的30天内会不会再次入院。其做法不是编一个程序对某个医生的提问进行分析,也不是对可能会有多少病人做一个总体的估计,而是来自一种“机器学习”的方法――利用程序对大数据进行分析挖掘的过程。这个大数据包括约30万名患者的数万个数据点。通过分析结果不同病例之间的差异,计算机能够“得知”最有可能再次住院的病人的特征。借助这个程序,医生在收治一个新病人时,把他的数据特征输进去就可以判断他“再进宫”的可能性。这样的预测工具能在改善病人健康状况的同时,还能省去一大笔医疗费用。