昨日,2013年海尔商业模式创新全球论坛在青岛举行,在论坛上,牛津大学教授维克托.迈尔-舍恩伯格表示,大数据只是一个互联网的延续。随着大数据的革命,我们有越来越多的数据,可以收集、分析和一个我们要研究这个问题相关的更多的信息,但是大多数公司只使用了很少一部分的数据,他们只依赖于一小部分数据的样本,来去回答他们的这个管理方面的问题。但是这些数据可能不能够帮助他们揭示他们知道的第三个选择,因为样本太小的话,没有办法得到这方面的启示。如果要去做分析,去做决策,有的时候必须要利用好现在更多的信息。只有分析了所有相关现象、所有的数据,或者说大多数的数据,有的时候才能够看到此前没有看到的一些问题和选择。
舍恩伯格认为,数据的价值在变。以前小数据的时代,数据的价值是一次使用的价值,也就是在我们收集使用一次之后就没用了,但是在未来真正数据的价值在于一而再再而三地使用这些数据,它的价值从第一次使用到第二次使用,可能会翻四倍,所以数据的再使用更加重要。
舍恩伯格认为,大数据下一个大的世界,也就是那些能够提供功能最为丰富、数据量最大的数据平台的公司。
文字实录:
非常感谢邀请我参与本次论坛,我非常高兴来到海尔。我也感到很荣幸能够在这儿听到库斯玛诺教授的演讲,因为我是他的一位粉丝,我非常认同他的平台战略,在他演讲之后发言我很荣幸。
很多人问我到底什么是大数据,大数据只是一个互联网的延续,这个大数据的含义要丰富很多。我们谈到所谓的大数据,大数据到底能给我们带来什么,我们一定要超越互联网。很多人看到互联网想到在过去的十年当中,互联网已经从根本上改变了消费者和厂家之间的关系,就像消费者和用户他现在可以通过互联网的平台买书买家电,可以直接送到他们的家庭,这样一来的话交易的成本显著地降低了。但是,我觉得另外有一场即将到来的革命,有一家创业的企业,是由一位华盛顿大学计算机系的教授,他也是根据大数据创立了一系列的企业,之前他也创办了非常成功的大数据的企业,并把它出售。这些企业是做什么的呢?他到所有电子商务的公司去抓取数据,他可以抓取100万家电产品的11个价格数据,他每天都来抓这些数据,来预测每一个家电产品在未来一到两周价格的走向,比如说你要买一台洗衣机的话,你上这个网站找到你要购买的型号,网站就会告诉你这个洗衣机的价格在未来一周的走势到底会上升还是下降,这样一来对于用户来说就是你应该现在就购买还是再等一等。
这个数据的精度达到了77%,可以看到它对价格走势的预测非常精准,而且他们对自己提供的预测非常有自信,就是说如果消费者根据他们的预测购买,但是多付了钱的话,他愿意来补这个差价。他完全是基于这个大数据,基于250亿个数据点。对于用户来说通过他这个服务,每个家电平均可以节省102美金的价格。有人就会说这是一个大数据,因为他们使用了大量的数据,当然我们这种理解是情有可原的,到15年之前他们就开始收集大量的数据。
我们可以看一下人体的基因,也就是构成我们遗传线性的基因。每个人的基因都是不同的,我们一共有30亿对的DNA,十年之前这是我们对一个完整的认证DNA进行了测试,整个的花费达到了10亿美金,而且几乎花了10年的时间完成这项工作。到今天我们对一个人整个的基因测试,只要在一个实验室花2到3天的时间,花2000美金就够了。
这个就是我们人类科学能力巨大的变化,就是利用这种大数据所要达到的能力。这个是对于我们怎么样去组织和理解这个世界有非常大的影响。这个在指向数据之山的这种规模,来帮助我们解释需要多少的数据。
其实我们如果回述到1987年,在全世界我们大概有26.2亿比特的数据,那时候大多数的数据都是模拟数据,快进到2007年的20年之后,总的信息的量增长了100多倍,如果我要在这张图当中来描述这样的一个数据之山的话,这个比例真的是非常大,我很难画出来。所以你看到我们现在这个数据积累的速度是史无前例的快。你看到西方非常大的一个发明是15世纪印刷术的发明,那时候信息的翻倍要花50年,但是现在20年当中,我们这个信息的增长量就达到100倍,所以这是非常巨大的一个变化,这个是大数据带来的一种变化。
另外1997年几乎所有的信息都是模拟格式的,在2000年就是这个白色的柱子,75%的全世界的信息还是模拟格式的,只有25%是数字信息。就在13年之后也就是今天,你看98%的数据已经是数字信息,只有2%的是模拟格式,这一切都颠倒了。带来的结果就是我们可以很好地用这个数据的信息,更加易于用这些信息来去做用模拟数据能做的事情,所以从规模方面对于大数据来说它的变化非常大。
你看到最最重要的是什么呢?随着大数据的革命,它的特点就是更多更乱,还有相关性。这三个大数据的特点我们一定要重视,第一个我们现在有越来越多的数据,我们可以收集、分析和一个我们要研究这个问题相关的更多的信息了,不是所有的数据点都重要,而是这个问题我们在这个数据当中可以捕捉多少的信息,现在更多了。那么有的时候你可以看到总的数据是6.4万,你捕捉了6.39万,那几乎就是全部了,但是有的时候,我们用一部分的样本就可以让这个数据来说话,它能够给我们揭示出一个问题的实质。但是现在这些相关的信息越来越多了。我大多数打交道的公司现在还是只使用了很少一部分的数据,他们只依赖于一小部分数据的样本,来去回答他们的这个管理方面的问题。
但是大多数的情况下你可以看到,他们也能够得到很多的洞识,这些洞识能够帮助他们做出选择做出决策。但是这些数据可能不能够帮助他们揭示他们知道的第三个选择,因为样本太小的话你没有办法得到这方面的启示。如果你要去做分析,去做决策,有的时候你必须要利用好现在更多的信息。只有你分析了所有相关现象、所有的数据,或者说大多数的数据,有的时候你才能够看到你没有看到的一些问题和选择。所以我们要学会善用我们现在更多的数据。
现在大数据时代数据的第二个特点就是它看上去非常的混乱。我们总是希望事情有一个非常准确的、非常明确的方向,现在在这个大数据的时代,在这个微观的层面我们往往找不准方向。
随着这个特点有两个相关的特性,这就引到了我们第三个特点,就是相关性。我们要学会在这些数据当中找因果关系。在大数据当中,我们在他的面前一定要非常谦卑,我们必须要去问为什么,然后寻找这些数据之间的因果关系、他们的相关性。很多的情况下你只需要问为什么、什么就可以了。给大家举一个例子,这个例子就是机器翻译的例子。在20世纪50年代美国国防部对美国的研究人员授予9000万美元,让他们去打造一个软件,能够自动把俄语翻成英文。在冷战时期这个应用是非常需要的。在20世纪50年代研究人员觉得几年就可以解决这个问题,他们试着去教授计算机大概180个英语的语法规则和俄罗斯的语法规则,然后他们在语言的翻译当中试着去提取基本的规则,然后试着去教会计算机这些规则。在1962年他们发现他们大大的失败了,失败的非常惨,到最后他们要放弃这个项目。
25年当中也没发生什么,也没有什么太大的进展,突然之间有一个公司IBM想了一个创意,他们放弃理解为什么两个词会出现在一起?他们放弃了让计算机去理解为什么这两个词要搭在一起,他们只是采取了统计分析的方法,去寻求什么而不是为什么。然后他们把加拿大议会探讨的一些会议稿拿过来,因为加拿大有两种语言,一个是英语一个是法语,所以你看他们拿了几百万页的非常精确翻译的这两个语言之间的文稿,然后在电脑上进行了统计分析。就是英语的某一个词,大多数的时候翻译成什么样的法语词,然后法语词又是怎样翻译成英文。到最后,他们就找出了一些统计的相关性。他们没有回答为什么,而是回答了什么。然后呢,他们在这个机器翻译方面就达到了一个非常大的成就。而他们这样做的时候根本就没有去教授计算机语法规则。
那么IBM最大的问题,就是他们没有足够的数据。在那个时候大数据时代还没有到来,他们没有足够的数据。
再过15年另外一个公司出现了就是谷歌,谷歌用了绝对一样的做法,但是这次谷歌不仅仅拿了加拿大议会的会议稿,同时他也用了因特网上几十亿的页面,他们抓取了几十亿页面的数据,然后去进行统计分析,然后去分析一些翻译与词的相关性。在规模上这是非常大的一个增长,其实他们抓的这个样本比IBM抓的这个样本要多可能上千倍、上万倍甚至上百万倍。与此同时谷歌使用的因特网很多的数据都是非常乱的,但是因为他们在规模上做大了这么多,所以他们在质量上稍微有一点牺牲是没有问题,没有关系的。谷歌它的这个翻译可能质量并不是特别好,但是比我们IBM以前做的要好得多,这个主要是因为他们把这个混乱性和相关性解决得非常好,联系得非常好。
其实网络公司在这方面例子很多,但很多人会说这跟我有什么关系?我又不是网络公司。多伦多有一些研究人员他们在做什么?他们正在使用大数据的分析来去拯救一些早产儿,早产儿非常容易感染。我们一天会测他们的体温三到四次,但是往往他们感染之后再发现就太晚了,在那个时候给他们抗生素其实已经没什么用了。那么多伦多的研究人员都做了些什么呢?他们用了一些特殊的传感器收集早产儿的生命体征,一秒钟就能收集1200条数据,然后再积累几小时、几天、一个月,很多早产儿的数据。然后在这个基础上去做了相关性的分析。有一些数据质量非常高,有一些他们到最后进行了分析,发现了没有什么太大的用。通过这些数据的分析,他们发现他们可以在孩子的感染之前24小时就能够发现这个迹象,这是非常大的进展,他们能够拯救这些早产儿的生命。
他们通过这样的研究,就可以预测出孩子可能会感染,这和我们直觉相反,他们研究的结果就是一个孩子在感染之前生命体征不会出现混乱,反而会稳定。很多的医生在这之前他们在孩子体征变稳定之前肯定就高高兴兴下班了,但是在这个研究结果出台之后,医生在生命体征稳定之后他们必须要留下来,因为这显示着孩子更加有可能会感染。通过这个措施,早产儿的死亡率大大减少,这就是一个非常实际的例子,大数据能帮我们做什么。
现在对于早产儿的例子我们不知道为什么,但是我们知道是什么,这已经够了,因为这已经能够帮助我们救这些孩子的命了。当然对于商业来说,大数据能够做些什么呢?我希望大家在听我的发言之后能够意识到,关键的一点就是数据的价值在变。以前小数据的时代,数据的价值是他一次使用的这种价值,也就是他在我们收集使用一次之后就没用了,但是在未来真正数据的价值在于一而再再而三地使用这些数据,它的这个价值从第一次使用到第二次使用,可能会翻四倍,所以数据的再使用更加重要。
给大家举一些例子,沃尔玛可能有着实体店最大的数据库,它是世界上最大的零售商,所以这一点非常自然,非常易于理解。他们会记录每一笔交易,然后把这些交易的数据存在自己的电脑当中。几年之前他们大数据部门进行了一些数据分析的工作,他们发现就在热带风暴来临之前手电筒和电池的销售会上升,这个没什么奇怪,大家都想得到但是,与此同时他们也发现,poptarts这种食物的销售也会随之上升。这是一种非常甜的零食,他们不知道为什么。他们可能知道一点点为什么,但是他们不在乎。他们在乎的是,把这个poptarts放在收银台旁边和手电筒和电池放在一起,这个大大提升了它们在飓风来临之前的销售,这个就是大家在重新使用数据的时候可以得到的一些洞察。
我们再看看另外一个公司的例子。在以前电话公司可以监控我任何的一切,就像迈克尔刚才讲的几年以前这一切都变了。今天我们认为苹果或者三星或者海尔他们掌握着我,因为生产着我的手机,他们知道我们随时随地都在做什么,或者谷歌掌控着我,因为他们在制作安卓的操作系统。他们捕捉了所有的数据,但是也许是,也许不是,也许还有其它的公司,这样做自己的定位,就是在这个数据的流当中他们采取一个中介公司的定位。
inrix是一个西雅图的公司,它使用了微软的专利,它们所做的就是帮助人们导航,用实时的交通流量的数据来帮助上下班的人,然后帮助他们躲避交通堵塞。
inrix给你们展示实时的地图,然后告诉你们什么地方最堵。inrix它的数据来源是什么呢?是从苹果公司还是电讯公司?不是。每一个使用inrix应用的用户,与此同时也成为他们的一个传感器,他把他的车速的数据传给inrix,inrix有1亿个用户就有1亿个传感器,每天搜集的数据是40亿,对于美国的交通状况一目了然。所以inrix在整个数据服务的定位非常清晰。真正的实质是什么呢?也就是inrix拥有了这么大的数据进行了重复的使用,所以他们又给用户提供了巨大的价值,也就是说这个数据取之于民、用之于民。inrix通过数据的分析预测经济的健康度,因为整个交通的状况和经济增长的状况是紧密相关的,所以inrix是预见到了2009年的经济衰退,尽管那个时候所有的政治家都说是欣欣向荣的,但是他发现整个的交通状况有所减少或者是急剧下降,所以他就预测美国的经济要衰退。然后有很多的对冲基金也使用了inrix的数据,因为他们发现那些购物中心在周末的交通量和这些大卖场的销售额是相当有关系的,所以他们也是利用inrix的数据在这些企业发布季报的时候来买卖股票。所以inrix可以看到它通过这个大数据的分析和重复的使用,创造了巨大的价值。
给大家举另外一个例子,汉莎公司,它是全球很大的一家航空公司,有350架飞机。它需要非常精确的天气预报才可以更好地提供服务。天气预报在过去十多年当中由于模型更加的健全,可以看到这个精度提高了。但是这个精度还没有达到汉莎航空公司的要求,他说那我在飞机飞行的时候也收集了很多机舱外的像湿度、温度或者是气压等很多方面的数据,所有这些数据都是飞机一边在飞一边在收集的。但是飞机往往在收集这些数据之后就把这些数据放在一边了。但是汉莎说我们可以把这些数据重新再利用,等飞机一旦降落以后,就把在飞行过程当中收集的数据,当然这是由350架飞机收集的,数据一旦发回德国的总部就来进行分析。由于这个数据每天都是实时的,可以看到他们把整个天气预报精度提升了7%,大家可以想一想如果天气预报精度可以提高这么大的话,对整个航空公司的效益可以产生多大积极的影响?
再来看一家物流公司UPS,它在全球运货的卡车有6万辆,所有运货的车都有一个黑盒子,会收集位置、速度等很多信息,几乎是实时地把这些数据发回到UPS总部去,然后UPS总部会对这些数据进行分析。对于UPS而言,他希望通过这个数据的分析能够减少对车队的维护量。与此同时,还可以减少这些运货卡车的空驶率。UPS发现车辆右转的话要比左转快,因为左转要等灯,右转不用等灯。通过新的软件导航系统让更多车辆进行右转,即便转弯也是通过几个右转来实现。仅此一项改革,在2011年UPS整个行驶的里程数就减少了3000万英里,减少了1000万吨汽油的消耗和减少了3万吨二氧化碳的排放。但是比这个更好的是,通过这个数据的分析,UPS可以对车辆进行预防性的维护,所谓预防性维护也是你可以预见这个车辆部件,提前可以知道部件什么时候会出故障,你不用等到这个车实际抛锚了再维修,而是未雨绸缪把出故障的部件提前进行预测。对海尔而言,同样可以进行大家电的维护,而且这个数据也可以让这个设计师更好地设计出未来故障更少的产品,肯定会为用户创造更多的价值。
所以我们可以看到在全球发生的一个趋势,就是从原来的生产制造的思维方式到把自己视作一个数据的平台。在19世纪,科莫多莫瑞(音)就首先想到了这个事情,曾经因为一次事故受伤,然后他就不能在美国海军继续服役了,只能在办公室办公。他在办公室发现了大量的文件,他发现了很多的老船员的记录本,但是科莫多他说这些航行的记录是非常有价值的,他就雇佣了100个人,花了10年的时间对这些航程记录本进行了分析,然后分析每一条航线在哪一个季节是最佳的通行时间。他最终发现美国的舰队整个的航线选择效率是非常低效,但是如果能够通过这个新的优化的航线避开逆风的话,完全是可以提升美国舰队的效率。他就通过对老的航行记录本的分析设计了全新的航行图,极大地提升了美国舰队的效率,可以看到这是上个世纪的大数据,他花了10年的时间分析了这些数据,他把这些人称之为小的计算机。对这些数据量的分析完全创造了一个数据的平台,当然那时候他并没有把它称之为一个平台。迈克尔,对不起,这不是你用的词,但是他把它称之为一个浮动的观测站。他完全理解数据作为一个资源是非常有价值的。
从科莫多莫瑞150多年以前快进到现在,我们可以看到另外一家公司深刻地理解了这个趋势,这就是谷歌公司。大家可能听说过谷歌的无人驾驶汽车,这个汽车是专门收集街景,通过谷歌地图大家可以看到街景左右的实时状况。这个车在街上收集街景,这个也引起了人们对隐私的关注。谷歌的车不仅仅是拍照,还可以通过雷达来收集道路的一些信息。比如说交通信号灯的频率,还有在手机信号的信息,和wifi供应商的信息。可以看到它收集了大量的信息,因为谷歌完全理解这个车就是一个数据收集的平台,而且这些数据不仅仅是为了提供街景,而是可能更好地来改善他们的服务,他可以更好地改善安卓的手机定位,这样的话即便你的手机没有GPS手机信号的话也可以更精确地定位。通过这些信息,也可以更好地给谷歌正在开发的无人驾驶的汽车提供导航。谷歌完全理解这个车就是他们数据收集的平台,他们通过这个平台尽可能多的去收集数据。
可以看到随着数据量的增加,他们肯定在这个平台上可以确立自己的霸主地位。可以看到它将影响的下一个行业就是汽车行业。我们知道在汽车行业一个领先的厂商就是宝马公司,宝马公司最近也宣布他们将会给他们的车装备互联的功能,这个车在行驶的过程当中把收集的数据发回到宝马公司总部,而且他们对这一项服务是收一定费用的。但是,对用户而言这不仅仅是这么一项简单的服务,宝马公司是可以通过这种方式实时来收集关于这辆车和周边环境的一个功能,而且可以为用户提供预防性维护,而且可以更好地帮助汽车来定位,这种方式就可以成为我们刚才说的,成为inrix的公司。这样一来的话,他们就可以摧毁苹果公司,通过手机终端希望对这个用户的锁定。如果我是宝马公司一个用户的话,我可能非常喜欢这一项服务,我肯定希望这一项功能能够普及到更多的汽车当中,当然这里面存在一个开放的系统的问题,这是宝马公司必须要考虑的,这是他们一个差异化的战略还是收入的来源。
我觉得大数据下一个大的世界,也就是那些能够提供功能最为丰富、数据量最大的数据平台的公司。在家电行业如果有谁能够做到这一点的话,肯定获得大数据时代的成功。我相信海尔在这个领域具有巨大的优势和机会。如果有其他的一些配套的公司能够利用这些大数据为客户提供一些他们之前所没有想到的服务的话,肯定可以帮助这个平台的领导者获得成功。就像苹果公司,它通过运用的平台不光是让运用的开发者开发出大量的用户喜闻乐见的应用,而且可以给这些开发商提供大量的用户数据。现在我们可以看到这些应用终端是越来越增加,而且具备了大量的传感器,而且拥有了wifi的连接功能,你通过这些数据并不是来跟踪用户,而是可以进一步提升现有服务的质量,或者是推出之前想都没有想到过的全新的服务。
与此同时我们可以看到大数据时代所谓的专家也被摧毁了,因为在信息封闭的时代我们迷信专家,我们觉得他是足智多谋的或者是有理论的框架的。如果我去找一个医生,我说做一个手术,我说你做过多少手术?他说我这辈子就做三到四个手术,你会不会相信这样的医生呢?但是这种情况在大数据时代是不会发生的,就像谷歌他的首席设计师,他专门测试过他们的搜索框阴影到底应该有多少种,哪一种是最合适的。他的老板说你要测试这41个不同的阴影,他拒绝,他说1种就够了,然后他就辞职了。实际上我们看到不同的测试,谷歌公司发现一种特定的阴影的搜索框能够给他们带来更多的搜索量和更多的收入,这也是大数据时代的威力。
那么在小数据时代,收集数据的难度非常之大,我们有时候会把这些数据进行一些优化处理,比如说我来扔一个硬币,如果是正面,大家想一想硬币正面的概率是多少呢?50%,非常好,这是经典的教科书的回答。从现在开始,我们只是说就是50%的概率,我再来扔一次硬币,然后你就说我就不用看了,50%的可能,上次正面这次反面,我们把它称之为一种两维的世界、黑白的世界,是正面或者是反面的世界,我们称之为一个两元的世界,这是所谓在小数据时代的世界。而在大数据时代方法完全不一样了,我扔一个硬币如果是正面,我扔了一次之后就假定到现在为止这个概率是百分之百,因为我扔了一次是正面,然后我扔了第二次是反面。我扔了两次,这是50%对半开。再扔一次,这是一个2对1的一个概论,我不断扔硬币,每次的结果都是对这一个硬币的概率而不是通用的所有硬币的概率,完全有这个可能。有可能这个硬币正面的比重稍微大一点,那么它正面出现的概率就高一点,所以这样我们就可以从过去所有的经历,从过去每一个错误当中学习到新的知识,因为每一次对过去的错误的认识都可以帮助我们更好地来提升自己的数据,来改善我们对未来的预测。
对于谷歌而言,他们对每一次搜索的结果都要进行分析,来帮助他们更好地来预测未来搜索的结果,然后因此来改变他们的算法。
对于大数据时代,我们要有大数据的头脑和理念。我们一定要有一个正确的心态来去理解这些大数据的价值,对于我们的公司来说,对于我们的商业生态圈来说,对社会来说都是一样的。刚才张总裁也是讲到了这一点,我觉得他所说的和海尔所做的,都体现了这一点,体现了海尔对生态系统的重视,我们在全世界都应该做到这一点。
未来竞争优势将来自于何处呢?不一定来自于制造,我想说也不一定来自于真实,我觉得它是来自于数据的,还有收集、分析和使用数据的能力。在这个意义上来说,海尔它有非常大的优势,它可以成为全世界大数据的领导者来去创造丰富创新的大数据的一个生态圈。
那么,在这一切发生的时候,我们将会为之喝彩,谢谢。