今天的IT已不是昨天的信息技术,已由信息技术(Information Technology)上升为智能技术(Intelligent Technology);昨天还为手机上的云助手、云地图、云杀毒的漫天彩云所陶醉的人们,今天却发现刚听得耳熟的海量数据又被风生水起的大数据之涛声淹没。面对今日的数据海啸之势及其引发的奇妙变化,戈登·摩尔先生能想到吗?
※海量数据到大数据,改变了什么?
海量数据,常常指数据的规模(Volume)和数据多样性(Variety);而大数据在强调规模和多样性的同时,还考虑数据产生和变化的速度(Velocity)以及数据的确定性(Veracity)。IBM的研究称,过去两年内产生的数据占据了整个人类文明所获得的全部数据的90%,这足以说明当今数据产生的速度和规模。数据的确定性(Veracity)是指,由于在Web2.0时代公众和机器导致数据不能像传统的作业系统那样对数据质量进行有效控制而会产生数据残缺、失真等噪音数据,而这种现象在大数据时代不可避免,由此而产生数据的确定性或可信性问题。尽管存在噪音数据,但在大多数情况下,由于数据的规模是巨大的(百T量级或P量级),整体数据的确定性是可信赖的。正如把数据比作一个人时,尽管现实中存在不高尚的人,但人的总体和主流群体永远是高尚善良的,是可信赖的。
大数据不是新瓶装老酒,变化的也不只是数据自身,更包含着数据存储和处理技术以及人们的思维方式。在Web1.0的时代,我们所关注的数据多是各类作业生产系统产生的数据,数据的结构化比较强,数据的质量控制有保障,如人力资源数据、电力管理和控制系统的数据;而在Web2.0时代,所关注的数据,其结构和规范性在弱化,半结构化和非结构化的数据在数字世界中占了越来越多的注意力。存储管理和处理大规模的非结构化数据对于传统的关系数据模型为核心的数据管理技术来说,已经太过为难了。目前,Hadoop技术已成为存储和处理大数据的备受青睐的技术,分布存储和并行计算已不是可用或不可用的了。传统的把数据从数据源传送到数据处理分析程序的模式悄悄地来了个180的大逆转;SAN模式数据存储与当前的Hadoop渐显不匹配;等等。
在大数据之前的时代,数据仓库、联机在线分析及数据挖掘等数据管理分析技术多应用在有大量数据的科学研究中,如生物科学的基因序列数据分析,或应用在超大型的企业中,如大型连锁企业沃尔玛的营销管理数据分析。而在大数据时代,新的数据管理和分析应用如雨后春笋般出现在网上购物推荐、在线阅读推荐、旅游点推荐、感情计算、社会管理等应用中。大数据时代,先进的数据管理和处理技术由殿堂来到了百姓身旁。数据是对客观事实的记录,在数据化社会,用事实说话变成了让数据说话,客观事实的影响力已转化为数据的力量。数据为王,得数据者得天下,已成为黄金定律。
大数据是一场前所未有的革命,深刻改变着开展科学研究、安排社会生活、实施政府管理等方面的思维方式;同时,也带来了巨大的发展机遇和挑战。政府、IT巨头及市场对大数据的把控与洞察的欲望在化为实际行动。奥巴马政府宣布启动了“大数据研究和发展计划”,把大数据提高到国家发展战略,6个联邦政府部门和机构要投资2亿多美元;IBM Oracle、Intel及Teradata等积极布局大数据产品研发和应用。
大数据之与信息化社会,等同于石油之与工业社会。大数据的竞争必将成为未来国家和企业间的竞争。
※“数字黄河”同样有大数据现象
把黄河放在流域自然系统、经济社会系统和生态环境系统的高维空间,会发现黄河治理开发与管理的背景空间既非常巨大、变化迅速又极为复杂。黄河源区自然环境和生态环境的变化引发黄河水塔水情的变化;黄土高原水土保持和生态修复的效果日益明显,加速着黄土高原地区的降雨产流、汇流以及水土流失产沙输沙的模式发生变化;最严格的水资源管理制度的实施,流域工业化、城镇化、农业现代化的加速发展都会导致人水之间的关系发生变化;水生态文明社会建设将会改变流域生态环境,而流域生态环境对流域水资源的要求也会随之发生变化,等等。这些变化都影响着黄河治理开发与管理的重大决策,如水沙调控体系建设、跨流域向黄河调水、水资源管理等。“数字黄河”必须充分采集记录这个背景空间真实状态的海量数据,并利用大数据技术进行挖掘分析处理,只有这样,才能为黄河治理开发与管理提供全方位、深层次的科学决策支持。对于“数字黄河”,大数据必将日益凸显其核心作用。
随着技术的进步,免费或比较便宜的卫星遥感数据越来越丰富、好用,能够反映黄河源区自然和其生态环境、黄土高原生态环境、流域农业和城镇化、气象信息等情况的卫星影像数据也越来越多。利用大数据技术对这类数据进行高效转换、萃取、融合、分析,将为研究掌握流域水情水资源的情势及水土保持工作提供必不可少的帮助。
第一次全国水利普查数据及其将来的定期更新维护,为我们提供了与黄河流域相关的海量数据。这些数据反映了流域水利工程、经济社会等方面的整体情况,充分利用大数据技术深层挖掘分析这些宝贵的数据,可有助于研究流域经济社会与黄河水资源之间的关系,可揭示其相互制约影响和促进发展的模式。
调水调沙数据(据记载,2002年调水调沙期间产生的数据就多达500万组)、水文断面常规测验原始水沙数据(断面垂线分点测验数据)、河势空间形态数据(有人工勘查获取的,也有通过卫星遥感获取的)、防洪工程数据等形成了与河道水沙、河势相关的海量数据,通过利用大数据技术对这些数据挖掘分析,可以为研究水沙演进规律、河势变化规律及工程部署方案优化提供强有力的支持。
还有,几十年来对河流、工程地质勘测形成的地质地貌数据、地理空间数据,等等。
大数据概念、理论技术以及大量成功案例的应用,并不止步于让我们能清醒地意识到“数字黄河”发展中存在的大数据现象,更重要的是告诉我们,在黄河治理开发与保护的科研和生产实践中要高度树立大数据的理念,用大数据的思维引导工作方式和思维方式的提升转变,很多情况下可取得一石两鸟之功。这就要求我们在日常的工作中注重数据的有效积累和整合,在注重数据的初次利用的同时要更加注重数据的二次开发利用。可以结合流域水资源评价、防洪工程评价、各类规划编制、水利工程论证等工作,有意识的采集、存储相关数据,并对数据进行规范化整合,形成数据的积累效应和开发利用价值。
众所周知,航空遥感及卫星遥感图像解译技术已广泛应用在黄河水土流失监测、河势变化、洪水监测、冰凌分析、污染物分析等方面,从原始遥感影像到专题数据的解译工作主要是采用机助目读解译的方式完成,相对于丰富的遥感数据而言,解译能力已成为一个瓶颈。在这个工作过程中,通常丢弃了专家目读原始图像时建立的图像特征数据与解译后具体对象之间的对应关系数据,而只保留解译判读形成的最后结果。从大数据的角度看,这类对应关系数据是比形成的结果数据还宝贵的财富;如果注意保存下来,经过长期积累就会形成规模价值,就可以利用大数据分析技术建立自动解译模型,大大提高图像解译的效率;等等。
作者简介:寇怀忠,男,教授级高工,黄河水利委员会总工程师办公室“数字黄河”办公室主任,黄河数学模拟系统研发首席专家。法国科学院(CNRS)重点实验室PRiSM博士,国家信息和自动化研究院(INRIA)博士后。从事数据挖掘与语义网络技术研究、“数字黄河”工程建设与管理工作。