雨中的飘荡的回忆简谱:大数据:数字世界的智慧基因//何谓大数据

来源:百度文库 编辑:中财网 时间:2024/04/27 21:30:00
分析应用大数据是获得智慧的关键、是产业创新转型的新路径、是科技创新的新范式

大数据:数字世界的智慧基因//

何谓大数据



日期:2011-11-08 作者:曹磊;陈薇娜;缪其浩;陈超 来源:文汇报
图片作者:
图片作者:
图片作者:
图片作者:              
    IBM公司把大数据概括成了三个V,即大量化(Volume)、多样化(Variety)和快速化(Velocity)。这些特点也反映了大数据所潜藏的价值(Value),或许可以认为,这四个V就是大数据的基本特征。
    
    “大数据”是从英语“Bigdata”一词翻译而来,过去常说的“信息爆炸”、“海量数据”等等已经不足以描述这个新出现的现象,“大数据”一说就在近几年崭露头角,并首先为全球各大IT企业所重视。这些企业基于自身的商业目标,对“大数据”做出了各种解释,其中有一条已成共识:“大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。”
    
    当然,大数据首先是数据量大。过去常用的千字节(KB)容量今天已像人民币的分币,人人口中已经是兆(MB)和吉(GB),专业的则在大谈太(TB),甚至是拍字节(PB)。这从一个侧面表明,数据容量增长的速度大大超过了硬件技术的发展速度,以至于引发了数据存储和处理的危机。
    
    然而,大数据不只是大。海量数据的危机并不单纯是数据量的爆炸性增长,它还牵涉到数据类型的改变。原来的数据都可以用二维表结构存储在数据库中,如常用的Excel软件所处理的数据,称之为结构化数据。但是现在更多互联网多媒体应用的出现,使诸如图片、声音和视频等非结构化数据占到了很大比重。有统计显示,全世界结构化数据增长率大概是32%,而非结构化数据增长则是63%,预计至2012年,非结构化数据占有比例将达到互联网整个数据量的75%以上。用于产生智慧的大数据,往往是这些非结构化数据。
    
    如果说大数据的特点是海量和非结构化,那也是不全面的。大数据带来的挑战还在于它的实时处理。在当今快速变化的社会经济形势面前,把握数据的时效性,是立于不败之地的关键。

产业升级“助推器”


日期:2011-11-08 作者: 来源:文汇报
图片作者:
图片作者:
图片作者:
图片作者:              
    大数据作为智慧城市的“大脑”正在悄然改变着人们的日常生活。与此同时,大数据也给城市的产业发展创造了前所未有的机遇。不管是在制造业还是服务业中,大数据在信息化技术革命之时,又将再一次推动产业转型升级,为新的经济发展方式开创变革契机。
    
制造业
    
    我们的制造业已在向信息化和自动化的方向发展。在产品的设计、生产和销售中,越来越多的企业使用如计算机辅助设计(CAD)、计算机辅助制造(CAM)等软件,数控机床、传感器等设备,物料需求计划(MRP)、企业资源计划(ERP)等系统。这些信息技术的应用在很大程度上提高了工作效率和产品质量,为人们带来了日益丰富的物质享受。
    
    然而,人的需求是无限和潜在的。制造业目前所面临的挑战就是在整个产业信息化之后,如何提升获取和开拓需求的能力,从而创造出更有价值的商品。如今,企业管理信息系统中存储的信息,各种工业传感器和数控设备中产生的数据,汇集到一起形成了大数据,将以提高生产效率为目标的信息化制造业转变成了以掌握用户需求为目标的智慧化制造业。例如,日本小松公司的挖掘机安装了GPS定位系统,在实时监控车辆运行情况的同时,还根据挖掘机每个月的工作时间,统计全年的工作情况,由此判断下一年度的市场需求。此外,我们还可以在产业链的各个环节中汲取大数据用之不尽的动力:从产品开发、生产和销售的历史大数据中找到创新的源泉,从客户和消费者的大数据中遇见新的合作伙伴,以及从售后反馈大数据中发现额外的增值服务。大数据为制造业的创新转型——无论是精益化提升还是服务化转型,提供了新的路径和方式。
    
服务业
    
    传统的服务业有着悠久的历史。当信息时代到来的时候,服务业就衍化出现了两种形态:一种是信息技术与服务业相结合的信息服务业,另一种是应用信息技术改造传统服务业而来的服务业。前者包括计算机软件服务、通信服务、信息咨询服务等,后者包括信息化改造后的商业、金融业、旅游业等。大数据恰恰就在这两者之间起到牵线搭桥的作用,一方面它使得信息服务业从提供软硬件技术服务升级到提供智慧解决方案,另一方面它将改变现有的服务业业态模式,将关注点转向数据。
    
    在信息服务业,耳熟能详的例子要数多家网络公司收集用户的网页点击行为来提供有针对性的推送服务了,但这些企业并不轻易使用自己收集到的数据。可能是出于对企业秘密的保护和对用户隐私问题的谨慎,他们没有充分利用大数据来挖掘巨大的价值。
    
    在零售业,美国的沃尔玛公司很早就开始利用日常交易数据的关联分析来赢得竞争优势。例如2005年卡特里娜飓风来袭之前,沃尔玛就从手电筒和电池的销售数据中分析出馅饼将在未来热销,将两者的关联归因为飓风来袭时导致停电使得方便食用的馅饼会受青睐。
    
    在金融业,银行可以从大量数据中发现信用卡欺诈和盗用,保险公司通过大数据能够找出可疑的权利要求,理财网站从统计的消费数据中来预测宏观的经济趋势。
    
    在旅游业,企业致力于旅游预订数据的处理,如微软的Bing搜索引擎,能够根据其存储的机票历史数据,帮助用户决定购买航班的最佳时间和最优惠价格。
    
    上述的例子有些或许还称不上大数据的应用,但对数据利用的成果已经初见端倪。可以预见,以大数据为源动力,服务业将获得更多的商业机会。

科技创新的“种子”


日期:2011-11-08 作者: 来源:文汇报
图片作者:
图片作者:
图片作者:
图片作者:              
    产业转型升级依赖于科技创新,而科技创新又是一个螺旋上升的过程,这个过程萌芽于科学发现,生长于成果转化,收获于产业发展,产业发展又需要有新的科学发现来打破旧有的模式来获得重生。在这样一个往复循环的过程中,科学发现就成了科技创新的原点。
    
    一直以来,科学发现主要基于实验和理论。在古代,人们利用自然法则来观察未知的世界。到了17世纪,以牛顿为代表的科学家试图对新现象做出预测,并且通过实验对各种假设进行检验。而现在,随着计算机性能的不断提高,研发人员可以精确求解大规模方程组,从而探索一些无法运用实验法和理论法的领域,例如气候建模和星系形成等。可是,这些研究正在被大数据淹没,数字信息从各种各样的传感器、工具和模拟实验那里源源不断地涌来,令数据的组织能力、分析能力和储存能力捉襟见肘。因而,在数据量快速增长之时,必须重新考虑科学研究发现的一整套方法。图灵奖得主、已故科学家吉姆·格雷针对这种情况提出了科学研究的“第四范式”。这第四种范式同样要用到性能强大的计算机,差别在于研发人员不是根据已知的规则编写程序,而是从各种各样的数据入手。他们用程序对海量数据进行挖掘,寻找隐藏在其中的关联;实际上,就是利用程序去发现未知的规律。2009年以来,微软研究院的科学家们致力于对第四范式和大数据的研究。有一个案例说明了他们的研究成果:
    
    在20世纪80年代,有一家医院发现收治的充血性心力衰竭病人在节假日期间会飙升,他们只是注意到这一现象却没有深入研究。20年后,微软研究院对此现象及大量数据开发出了一套分析方法,可以相当准确地预测一名充血性心力衰竭病人在出院后的30天内会不会再次入院。其做法不是编一个程序对某个医生的提问进行分析,也不是对可能会有多少病人做一个总体的估计,而是来自一种“机器学习”的方法——利用程序对大数据进行分析挖掘的过程。这个大数据包括约30万名患者的数万个数据点。通过分析结果不同病例之间的差异,计算机能够“得知”最有可能再次住院的病人的特征。借助这个程序,医生在收治一个新病人时,把他的数据特征输进去就可以判断他“再进宫”的可能性。这样的预测工具能在改善病人健康状况的同时,还能省去一大笔医疗费用。
    
    除“机器学习”以外,科学研究的第四范式还发展了另一种众包研究模式,使得科学发现不再是专业学者埋头于实验室的苦差事,而是全球科学家、学生和感兴趣的民众都可以参与的大众活动。谷歌公司在这个领域做了许多工作,他们开发了Google.org——这是一个利用谷歌在信息技术处理数据方面特长建立的全球公众都能够参与的科学研究平台。从2008年11月起,Google.org启动了名为“流感趋势”的项目,使用一种复杂的算法,对关于流感的网络搜索进行跟踪,从而对流感在人群当中传播的方式做出估计。其后,Google.org还组织了地球引擎项目,将大量的卫星图像和数据开放给公众,让每个人都可以对气候影响下的水源变化和沙漠化进行跟踪研究。这些项目都在寻求一种“长尾效应”,用来解决过去一直无法展开研究的科学难题。
    
    对社会科学的研究,大数据可能带来更为巨大的积极影响。由于每次观察和量度都必然会影响对象的行为,长期以来以人及其社会联系为对象的社会科学一直面临难以严密和精准的困难。多年前超市POS机开始使用,就使得商场得以进行数据挖掘,从而发现隐秘的消费规律;而目前微博和手机的普及、社交网络的广泛应用使得以往几乎不可能完成的一些人群活动规律研究成为可能。例如人群在物理上如何移动?人又何以“群分”?而全球无数监视器无时无刻不在把它的所见一网打尽。一旦快速廉价的图像分析技术突破,人群的许多细微感情、动作和行为都能够被观察分析,这将是研究发现行为规律、大大提升社会管理水平的大好机会,当然也给保护隐私和个人信息安全提出巨大挑战。
    
    尽管利用大数据的科学发现工作目前还只是一种设想,尚未出现实证的证明,但在大数据背后隐含的智慧力量是任何科学创新工具所不能比拟的,它赋予了科技发展一种全新的生命力,犹如深埋在创新土壤里的种子,等待未来的某一天结出丰硕的果实。

智慧城市的“大脑”


日期:2011-11-08 作者: 来源:文汇报
图片作者:
图片作者:
图片作者:
图片作者:              
    如果将智慧城市比喻为人,将组成智慧城市感知功能的传感器比作人的五官,将连接传感器的网络比作神经,将控制和存储信息的云技术比作中枢,那么大数据就是智慧城市的大脑。
    
交通
    
    当前,出行难问题对各大城市来说都迫在眉睫亟待解决。在信息技术的蓬勃发展时期,人们利用先进的传感技术、网络技术、计算技术、控制技术、智能技术,对道路和交通进行全面感知。例如在路面放置传感器,在路口安装监控视频,在车辆上配置全球定位系统(GPS),可以对每一条道路实时监控,对每一辆车进行控制,以提高交通效率和交通安全性。可是,如果要实现右上图表中的“未来情景”,上述技术仅仅达到“中枢神经”的控制层面,远没有发挥“大脑”的智慧。
    
    大数据下的智慧交通,就是融合传感器、监控视频和GPS等设备产生的海量数据,甚至与气象监测设备产生的天气状况等数据相结合,从中提取出我们真正需要的信息,及时而准确地推送给我们,并且这些信息不是简单地告诉我们到达目的地的几条路径或是显示各种路况信息,而是直接提供最佳的出行方式和路线,从而省却了我们在多个信息中做出选择的麻烦。
    
医疗
    
    医疗健康问题是城市快节奏生活下人们普遍关注的焦点。以往,我们总是在发现自己生病时看病就医,而且到了医院还要挂号、求诊、配药,大多数情况下还需要排队等候,容易形成就医难的困境。如今,由于电子医疗记录时代的来临,电子病历正逐渐为各大医疗机构所采用。在去医院前,可以通过网上预约挂号;在就医时,仅使用一张IC卡就能付费;医生还可以将问诊过程中的记录,病人的化验单、拍片等诊断数据输入电脑以备随时调用。
    
    这些技术大大提高了医疗机构的工作效率,也使得病人有了良好的就医体验。然而,美国著名的医疗健康组织Kaiser Permanente又往前多走了一步,该组织通过将下属所有医疗机构的电子病历记录标准化,形成多方位多维度的大数据。这些需要在同一时间分析的众多因素包括病人基本资料、诊断结果、处方、医疗保险情况和付款记录等数据。将这些不同的数据综合起来,Kaiser的决策支持软件将提供给医护人员完整的病人历史,并选择最佳的医疗护理解决方案。
    
社会安全
    
    每个市民的切身利益都与社会安全相关,当中的问题包括灾害天气、环境污染等城市的小毛小病,也有如火灾和犯罪等各种重大突发状况。这些层出不穷的安全问题无时无刻不在考验着城市的应急体系。幸好,我们有先进的信息技术支撑,确保当安全问题发生时,能第一时间发现,并且快速启动相应的应急预案来处理。
    
    美国的纽约市在2003年3月建立了市民求助热线311电话中心,至今已经接听了1亿多个电话,日接待量达到5万多个。该系统能够向市民提供3600多个门类的信息和解答,可以用180种语言回答问题,其中有垃圾如何分类、下雪天学校何时停课、是否有恐怖袭击……。但该热线除了直接解决各种问题外,还有个重要的功能——为城市收集信息。每一通电话都被记录、并在地图上标记出来,以方便深入分析。其实,城市中每天所产生的数据不仅包含热线电话的记录,还包含其他与社会安全相关的数据,如社交网站上的信息、道路监控设备的信息等。城市管理者可以通过对数据的分析,察觉哪里出了什么样的问题,并安排处理它们的优先顺序;市民则能知道怎么去规避危险,在突发事件发生的情况下自己该做什么。所以,如何用好这些大数据,对城市管理者和市民来说都很重要。