1.移动互联时代,数以百亿计的机器、企业、个人随时随地都会获取和产生新的数据
即便是在“摩尔定律”——每18个月芯片性能将提高1倍——的支撑下,硬件性能进化的速度也早已赶不上数据增长的速度,并且差距越来越巨大。
1分钟之内,新浪微博发送数万条微博,苹果应用商店下载次数以万计,淘宝卖出了几万件商品,百度产生了百万次搜索查询……所有这些行为都由海量的数据来呈现。
在去年12月12日电商的促销期,淘宝网推出“时光机”——一个根据淘宝买家几年来的购买商品记录、浏览点击次数、收货地址等数据编辑制作的“个人网购志”,从而记录和勾勒出让人感怀的生活记忆。背后,是基于对4.7亿淘宝注册用户网购数据的分析处理,这正是大数据的典型应用。
随着传统互联网向移动互联发展,全球范围内,除了个人电脑、平板电脑、智能手机、游戏主机等常见的计算终端之外,更广阔的、泛在互连的智能设备,比如智能汽车、智能电视、工业设备和手持设备等都连接到网络之中。基于社会化网络的平台和应用,让数以百亿计的机器、企业、个人随时随地都会获取和产生新的数据。
互联网搜索引擎是大数据最为典型的应用之一。百度日处理数据量达到数十PB,并呈现高速增长的态势。如果一张光盘容量为1GB,这相当于垒在一起的几千万张光盘。微软Bing(在中国为必应)搜索引擎,一周需要响应100亿次量级的搜索请求。通过和Facebook的合作,每天有超过10亿次的社交网络搜索请求通过Bing来处理。
短短的18个月,中国移动互联网流量增加了10倍。中国工程院院士邬贺铨说,随着社交网络的逐渐成熟、移动带宽迅速提升,更多的传感设备、移动终端接入网络,产生的数据及其增长速度比历史上任何时期都要多,互联网上的数据流量正在迅猛增长。邬贺铨认为,在云计算、物联网等技术的带动下,中国的移动互联网已经步入“大数据”时代。
而根据市场调研公司IDC的报告,全球信息总量每过两年就会增长一倍,2011年全球产生的数据总量为1.8ZB(1ZB约为百万PB),相比2010年增长了1ZB,相当于全球历史数据总和。
继云计算后,大数据(big data)成为信息技术领域最为热门的概念之一。
2.大数据有四个特征,最重要的是获得洞察力和价值
在IT业界,有人把大数据产业定义为:“建立在对互联网、物联网等渠道广泛大量数据资源收集基础上的数据存储、价值提炼、智能处理和分发的信息服务业”,或者如IT巨头概括大数据战略为:“致力于让所有用户能够从几乎任何数据中获得可转换为业务执行的洞察力,包括之前隐藏在非结构化数据中的洞察力”。
“总之是对大量、动态、能持续的数据,通过运用新系统、新工具、新模型的挖掘,从而获得具有洞察力和新价值的东西。”微软公司全球资深副总裁、微软亚太研发集团主席张亚勤博士接受记者采访时说。
虽然有多种解读,但业界一般认为,大数据有四个“V”字开头的特征:Volume(容量), Variety(种类), Velocity(速度)和最重要的Value(价值)。Volume是指大数据巨大的数据量与数据完整性。张亚勤说,IT业界所指的数据,诞生不过60多年。而一直到个人电脑普及前,由于存储、计算和分析工具的技术和成本限制,许多自然界和人类社会值得记录的信号,并未形成数据。几十年前,气象、地质、石油物探、出版业、媒体业和影视业是大量、持续产出信号的行业,但那时90%以上采用的是存储模拟信号,难以通过计算设备和软件进行直接分析。拥有大量资金和人才的政府和企业,也只能把少量最关键的信号,进行抽取、转换、装载到数据库中。
张亚勤认为,尽管业界对达到怎样的数量级才算是大数据并无定论,但在很多行业的应用场景里,数据集本身的大小并不是最重要的,是否完整才最重要。
Variety则意味着要在海量、种类繁多的数据间发现其内在关联。互联网时代,各种设备通过网络连成了一个整体。进入以互动为特征的Web2.0时代,个人计算机用户不仅可以通过网络获取信息,还成为了信息的制造者和传播者。这个阶段,不仅是数据量开始了爆炸式增长,数据种类也开始变得繁多。
“这必然促使我们对海量数据进行分析、处理和集成,找出原本看来毫无关系的那些数据的‘关联性’,把似乎没有用的数据变成有用的信息,以支持我们做出的判断。”张亚勤说。
Velocity可以理解为更快地满足实时性需求。数据的实时化需求正越来越清晰。对普通人而言,开车去吃饭,会先用移动终端中的地图查询餐厅的位置,预计行车路线的拥堵情况,了解停车场信息甚至是其他用户对餐厅的评论。吃饭时,会用手机拍摄食物的照片,编辑简短评论发布到微博或者微信上,还可以用LBS(基于位置的服务)应用查找在同一间餐厅吃饭的人,看有没有好友在附近……
张亚勤说,如今,通过各种有线和无线网络,人和人、人和各种机器、机器和机器之间产生无处不在的连接,这些连接不可避免地带来数据交换。而数据交换的关键是降低延迟,以近乎实时——这意味着小于250毫秒——的方式呈献给用户。
“但比前面3个‘V’更重要的,就是Value,它是大数据的最终意义——获得洞察力和价值。”张亚勤说,大数据的崛起,正是在人工智能、机器学习和数据挖掘等技术的迅速发展驱动下,呈现这么一个过程:将信号转化为数据,将数据分析为信息,将信息提炼为知识,以知识促成决策和行动。