马云5分钟开除4个员工:gis原理十六

来源:百度文库 编辑:中财网 时间:2024/05/04 07:56:10

§3.5 GIS的数据质量

    首先阐述了GIS数据质量的内容和类型,然后介绍了GIS数据质量的研究方法,详细介绍了数据采集中,数据处理中的数据质量评价。

一、GIS的数据质量的内容和类型

    GIS数据质量包含如下五个方面:位置精度、属性精度、逻辑一致性、完备性、现势性。空间数据的误差类型包括源误差、处理误差。

二、研究GIS数据质量的方法

    GIS数据质量需要有评估的标准。GIS数据质量的评价方法 包括直接评价法、间接评价法、非定量描述法。研究GIS数据质量的常用方法,包括敏感度分析法、尺度不变空间分析法、Monte Carlo实验仿真、空间滤波。

三、数据采集中数据质量的评价

    GIS中数据采集的方法通常可分为直接方法和间接方法两种。直接方法是指直接从野外采集,以获取观测数据、图像等,间接方法是指从已有的图件上进行采集。直接方法获取的数据受人差、仪差、环境等的影响,但已有传统的方法可以解决。间接方法获取的数据中,除了含有直接方法中的误差外,还有展绘控制点的误差、编绘的误差、制图综合的误差,数字化的误差等。

四、数据处理中数据质量的评价

    在GIS的数据处理中,几何纠正、坐标变换、格式转换等的计算,除了计算机字长的影响外,在理论上可以认为是无误差的,因此,数据处理过程中的主要误差集中在与应用直接相关的处理中。这里举出几个实例:数字高程模型(DEM)的精度、矢量数据栅格化的误差、多边形叠置产生的误差等予以说明。

一、GIS的数据质量的内容和类型

1、GIS数据质量的基本内容

    GIS数据质量包含如下五个方面:

    1° 位置精度:如数学基础、平面精度、高程精度等,用以描述几何数据的质量。

    2° 属性精度:如要素分类的正确性、属性编码的正确性、注记的正确性等,用以反映属性数据的质量。

    3° 逻辑一致性:如多边形的闭合精度、结点匹配精度、拓扑关系的正确性等。

    4° 完备性:如数据分类的完备性、实体类型的完备性、属性数据的完备性、注记的完整性等。

    5° 现势性:如数据的采集时间、数据的更新时间等。

2、空间数据的误差类型

    GIS空间数据的误差可分为源误差和处理误差。

(1)源误差

    源误差是指数据采集和录入中产生的误差,包括:

    1° 遥感数据:摄影平台、传感器的结构及稳定性、分辩率等。

    2° 测量数据:人差(对中误差、读数误差等)、仪差(仪器不完善、缺乏校验、未作改正等)、环境(气候、信号干扰等)。

    3° 属性数据:数据的录入、数据库的操作等。

    4° GPS数据:信号的精度、接收机精度、定位方法、处理算法等。

    5° 地图:控制点精度,编绘、清绘、制图综合等的精度。

    6° 地图数字化精度:纸张变形、数字化仪精度、操作员的技能等。

(2)处理误差

    处理误差是指GIS对空间数据进行处理时产生的误差,例如在下列处理中产生的误差就是处理误差。

    1° 几何纠正;

    2° 坐标变换;

    3° 几何数据的编辑;

    4° 属性数据的编辑;

    5° 空间分析(如多边形叠置等);

    6° 图形化简(如数据压缩);

    7° 数据格式转换;

    8° 计算机截断误差;

    9° 空间内插;

    10° 矢量栅格数据的相互转换。

(3)、GIS中的误差传播

    误差传播是指对有误差的数据,经过处理生成的GIS产品也存在着误差。误差传播在GIS中可归结为三种方式。

    1° 代数关系下的误差传播:这是指对有误差的数据进行代数运算后,所得结果的误差。

    2° 逻辑关系下的误差传播:即指在GIS中对数据进行逻辑交、并等运算所引起的误差传播,如叠置分析时的误差传播。

    3° 推理关系下的误差传播:这是指不精确推理所造成的误差。

二、研究GIS数据质量的方法

1、GIS数据质量的评价方法

(1)直接评价法

    1°用计算机程序自动检测

    某些类型的错误可以用计算机软件自动发现,数据中不符合要求的数据项的百分率或平均质量等级也可由计算机软件算出。例如,可以检测文件格式是否符合规范、编码是否正确、数据是否超出范围等。

    2°随机抽样检测

    在确定抽样方案时,应考虑数据的空间相关性。

(2)间接评价法

    所谓间接评价法是指通过外部知识或信息进行推理来确定空间数据的质量的方法。用于推理的外部知识或信息如用途、数据历史记录、数据源的质量、数据生产的方法、误差传递模型等。

(3)非定量描述法

    非定量描述法是指通过对数据质量的各组成部分的评价结果进行的综合分析来确定数据的总体质量的方法。

2、研究GIS数据质量的常用方法

(1)敏感度分析法

    一般而言,精确确定GIS数据的实际误差非常困难。为了从理论上了解输出结果如何随输入数据的变化而变化,可以通过人为地在输入数据中加上扰动值来检验输出结果对这些扰动值的敏感程度。然后根据适合度分析,由置信域来衡量由输入数据的误差所引起的输出数据的变化。

    为了确定置信域,需要进行地理敏感度测试,以便发现由输入数据的变化引起输出数据变化的程度,即敏感度。这种研究方法得到的并不是输出结果的真实误差,而是输出结果的变化范围。对于某些难以确定实际误差的情况,这种方法是行之有效的。

    在GIS中,敏感度检验一般有以下几种:地理敏感度、属性敏感度、面积敏感度、多边形敏感度、增删图层敏感度等。敏感度分析法是一种间接测定GIS产品可靠性的方法。

(2)尺度不变空间分析法

    地理数据的分析结果应与所采用的空间坐标系统无关,即为尺度不变空间分析,包括比例不变和平移不变。尺度不变是数理统计中常用的一个准则,一方面在能保证用不同的方法能得到一致的结果,另一方面又可在同一尺度下合理地衡量估值的精度。

    也就是说,尺度不变空间分析法使GIS的空间分析结果与空间位置的参考系无关,以防止由基准问题而引起分析结果的变化。

(3)Monte Carlo实验仿真

    由于GIS的数据来源繁多,种类复杂,既有描述空间拓扑关系的几何数据,又有描述空间物体内涵的属性数据。对于属性数据的精度往往只能用打分或不确定度来表示。对于不同的用户,由于专业领域的限制和需要,数据可靠性的评价标准并不相同。因此,想用一个简单的、固定不变的统计模型来描述GIS的误差规律似乎是不可能的。在对所研究问题的背景不十分了解的情况下,Monte Carlo实验仿真是一种有效的方法。

    Monte Carlo实验仿真首先根据经验对数据误差的种类和分布模式进行假设,然后利用计算机进行模拟试验,将所得结果与实际结果进行比较,找出与实际结果最接近的模型。对于某些无法用数学公式描述的过程,用这种方法可以得到实用公式,也可检验理论研究的正确性。

(4)空间滤波

    获取空间数据的方法可能是不同的,既可以采用连续方式采集,也可采用离散方式采集。这些数据采集的过程可以看成是随机采样,其中包含倾向性部分和随机性部分。前者代表所采集物体的实际信息,而后者是由观测噪声引起的。

    空间滤波可分为高通滤波和低通滤波。高通滤波是从含有噪声的数据中分离出噪声信息;低通滤波是从含有噪声的数据中提取信号。例如经高通滤波后可得到一随机噪声场,然后用随机过程理论等方法求得数据的误差。

    对GIS数据质量的研究,传统的概率论和数理统计是其最基本的理论基础,同时还需要信息论、模糊逻辑、人工智能、数学规划、随机过程、分形几何等理论与方法的支持。

三、数据采集中数据质量的评价

    GIS 中数据采集的方法通常可分为直接方法和间接方法两种。直接方法是指直接从野外采集,以获取观测数据、图像等,间接方法是指从已有的图件上进行采集。

    直接方法获取的数据受人差、仪差、环境等的影响,但已有传统的方法可以解决。间接方法获取的数据中,除了含有直接方法中的误差外,还有展绘控制点的误差、编绘的误差、制图综合的误差,数字化的误差等。

    地图数字化是获取矢量数据的主要方法之一,也是GIS中的重要误差源,是GIS数据质量研究的重点之一。在地图数字化中,原图固有误差和数字化过程中引入的误差是两个主要的误差源。下面对地图数字化的数据误差作一分析。

1、地图固有误差的来源和类型

    在地图的固有误差中,除了含有控制点和碎部点引入的误差外,至少存在下列误差:

    (1)控制点展绘误差

    展绘控制点是成图的第一步。当对地图的精度要求不高时,该项误差可不考虑。

    (2)编绘误差

    通常点状特征的编绘精度优于线状特征的编绘精度,即使都是线状特征,如果分辨率或宽度不同,编绘精度也不同。

    (3)绘图误差

    绘图误差是在绘图过程中产生的,其误差范围为0.06—0.18mm.。

    (4)综合误差

    综合误差的大小取决于特征的类型和复杂程度,又取决于采用的制图综合方法,如取舍、移位、夸大等,因此,综合误差极难量化。

    (5)地图复制误差和分版套合误差

    这些都是地图印刷中产生的误差,如地图复制误差的均方差为0.1—0.2mm。

    (6)绘图材料的变形误差

    地图一般印在纸上,随着温度和湿度的变化,纸张的尺寸也会变化。由于纸张在印刷时温度升高,纸张长度会伸长1.5%,宽度会伸长2.5%;而当纸张干燥和冷却后,其长度和宽度又分别收缩0.5%和0.75%。因此,在地图印刷完成后,图纸在长、宽方向上的净伸长分别为0.99%和1.73%。

    (7)特征的定义

    自然界中的许多特征并无明确的界限。例如,海岸线的位置、森林的边界等,但在地图上却有明确的位置。

2、数字化的误差

    目前的地图数字化方式主要有跟踪数字化和扫描数字化两种。数字化的精度主要受数字化仪的精度、数字化方式、操作员的水平、数字化软件的算法等的影响,常采用下列方法进行评价。

1°、自动回归法

    在对线划进行跟踪数字化的过程中,每隔一定时间和距离就记录一次坐标值,因此可以认为这些数据是序列相关的。即某一点误差的大小,除受该点本身的影响外,还受前一点误差的影响。

    由于跟踪数字化不仅是一个随机序列,而且是一个时间序列,因此可用数理统计中的时间序列分析法来确定数字化的误差。

2°、ε-Band法

    ε-Band法又称误差带方法,即在一条数字化线的两侧,各定义宽为ε的范围,作为该数字化线的误差带,也就是用ε的值来说明误差的范围,以及处理多边形叠置等的误差。该方法适用于任何类型的GIS数据,关键是如何给出合理的ε值。

3°、对比法

    把数字化后的数据,用绘图机绘出,与原图叠合,选择明显地物点进行量测,以确定误差。除了几何精度外,属性精度、完整性、逻辑一致性等也可用对比法进行对照检查。

四、数据处理中数据质量的评价

    在GIS的数据处理中,几何纠正、坐标变换、格式转换等的计算,除了计算机字长的影响外,在理论上可以认为是无误差的,因此,数据处理过程中的主要误差集中在与应用直接相关的处理中,下面举几个例子说明。

1、数字高程模型(DEM)的精度

    数字高程模型(DEM)的数据来源是多种多样的,建立DEM的技术也不一样。常用的方法是利用解析立体测图仪从立体航空像对上测得高程,或者是利用数字化的地图等高线进行内插获得。此外,地面测量、声纳测量、雷达测量等数据也可作为DEM的数据源。

    DEM的精度主要受原始资料的精度(采样密度、测量误差、地形类别、控制点等)和内插的精度(内插方法、地形类型、原始数据的密度等)的影响。在研究DEM的精度时,一般都假定已排除了粗差的影响,因为DEM的粗差难以探测。

    对DEM内插精度的估算方法有多种,但结论是相同的,即DEM的内插精度主要受原始采样点的采样密度的影响,与不同的插值方法的关系不很大。但在DEM精度评定的标准方面、地貌逼真度方面、DEM的粗差探测等方面仍没有得到圆满的解决。

2、矢量数据栅格化的误差

    矢量数据栅格化的误差可分为属性误差和几何误差两种。

    在矢量数据转换为栅格数据后,栅格数据中的每个像元只含有一个属性数据值,它是像元内多种属性的一种概括。例如,在陆地卫星图像上,每个像元对应的地面面积为80m×80m,像元的属性值是像元内各地物发射量的平均值。如果像元内有一部分物体的反射率很高,即使占像元的面积比例很小,对像元属性值的影响也很大,从而导致分类错误,且损失一些其它有用信息。因此,像元越大,属性误差越大。
    几何误差是指在矢量数据转换成栅格数据后所引起的位置的误差,以及由位置误差引起的长度、面积、拓扑匹配等的误差。几何误差的大小与像元的大小成正比。其中矢量数据表示的多边形网用像元逼近时会产生较严重的拓扑匹配问题。

    关于拓扑匹配误差问题,Frolov和Maling(1969)提出的最早的估算方法是考虑一个像元被一条实际边界线二等分时引起的误差问题。尔后,Goodchild(1980)重新研究了这个问题。

如果假设边界线为一条随机穿过像元的直线,则对每个由边界线切割的像元i,把其切除部分的平均面积定义为误差方差,其估算公式为:

                      

    其中,S是正方形像元的边长,a为常数。Frolov和Maling计算的a为0.0452,后来Goodchild建议改为0.0619。

    多边形面积误差的估算是按全部多边形边界像元的误差和来计算的。如果一个多边形的边界像元有m个,则其误差方差为:

                      

    边界像元的个数m可按多边形的边长来计算,且可简单地按下式计算:

                              

    其中N为多边形的总像元数目。

    Switzer(1975)提出了估计矢量数据栅格化的精度的另一种方法。其分析的前提是:假设误差仅仅是由栅格化引起的,不考虑观测误差。该方法的基本思想是,假设存在一幅理想的矢量地图,图上不同属性的制图单元由很细的线分开;对理想地图进行观测采样得到一幅具有规则格网的栅格地图,把这两幅图进行叠置比较。虽然理想地图是根本不存在的,但在这一假设下,可以提供一种仅利用栅格地图本身来估算矢量数据栅格化的精度的方法。该方法的具体计算过程从略。

3、多边形叠置产生的误差

    多边形叠置是GIS中常用的空间分析方法,但却会产生拓扑匹配误差、几何误差和属性误差。

    多边形叠置误差计算的思路是,先计算单幅图或单层图的误差,再计算叠置图的误差。因此,下面仅简要讨论单数据层的叠置问题。

    多边形叠置往往是不同类型的地图、不同的图层,甚至是不同比例尺的地图进行叠置,因此,同一条边界线往往是不同的数据,这样在叠置时必然会出现一系列无意义的多边形。所叠置的多边形的边界越精确,越容易产生无意义的多边形。这就是拓扑匹配误差。

    多边形叠置所形成的多边形的数量与原多边形边界的复杂程度有关。将两个分别含有V1和V2个顶点的多边形叠置后将产生至少3个,至多V1+V2+1个多边形。如果多边形之间具有统计独立性时,产生中等数量的多边形;如果是高度相关的,则产生大量无意义的多边形。

    多层叠置产生的无意义多边形实际上相当于矢量多边形栅格化引起的面积匹配误差。面积匹配误差因数字化精度的提高而减少,虽然无意义多边形的个数增多。

    不管是用人机交互的方法把无意义的多边形合并到大多边形中,还是根据无意义多边形的临界值,自动合并到大多边形中,以及用拟合后的新边界进行叠置,都会产生几何误差,既新边界可能会偏离已制图的边界位置(或真实位置)。为了保证人们习惯上认为重要的边界线的精度,如境界、河流、主要道路等,处理时应对这些边界上的点加权使他们能尽可能地不被移动。

    除了几何误差,实际上每个进行叠置的多边形本身的属性就是有误差的,因为属性值是分类的结果(如把植被分为不同的类别),而分类就会产生误差。多幅图的叠置会使误差急剧增加,以至使叠置出的结果不可信。