-- 作者:gengwei80
-- 发布时间:3/6/2006 8:59:00 AM
-- 一个空间数据挖掘原型系统的设计与实现
摘 要:简介空间数据挖掘技术及其与地理信息系统的集成,基于地理信息系统组件(MapX)和空间数据引擎(SpatialWare)设计和开发一个空间数据挖掘原型系统,侧重于空间特征规划、空间关联规则和空间分类规则的实现,并用实例数据进行系统性能和规则有效性的骓。结果表明,该原型系统是一个适用的、可扩展的空间数据挖掘工具。空间函数、挖掘过程的交互控制以及结果的评价等问题需要进一步研究。 关键词:空间数据挖掘;空间分析;地理信息系统 中图分类号:TP311 文献标识码:A 1 空间数据挖掘(SDMKD) 空间数据挖掘和知识发现(Spatial Data Mining and Knowledge Discovery,简称SDMKD)是指从空间数据库中制取隐含的知识、空间关系或非地存储在空间数据库中的其它模式[1,2]。由于空间数据的非结构化、多维度、多尺度等特征,SDMKD比一般的数据挖掘复杂,研究兴起也较晚。尽管如此,SDMKD仍可借鉴一般数据挖掘的思路以有相当一部分的算法。能够发现的知识(规则)主要有:空间特征规则、空间关联规则、空间聚类/分类规则、空间演变规则等。 GIS数据库是典型的空间数据库,其数据类型、内含的空间关系较事务型数据库更加丰富,且现有GIS缺乏含明确主义描述的数据库的高层知识发掘工具。将GIS中空间分析方法与一般数据挖掘技术相结合,可以在GIS数据库中发现各类知识,促进地理信息分析的自动化程度和智能地理信息系统的发展。在具体应用领域中,可辅助人们科学地认识地学现象的本质规律。 开发空间数据挖掘系统时需要做出两个重要选择:一是自发式还是交互式进行,后者可提高发现的效率,结果易于评价解。二是系统如何进行数据管理,基于GIS开发,利用了已有空间数据管理技术,重点实现数据挖掘功能,减少了开发工作量。 2 SDMKD原型系统结构 2.1 系统开发使用工具 实验系统使用的编程工具是VisualBasic6.0,开发平台是MapInfo系列产品中的GIS组件MapX5.0和空间数据引擎SpatialWare4.5,关系数据库管理系统采用Microsoft的SQL Server 2000。 2.2 系统总体结构与特点 系统总体结构如图1所示。已有空间数据挖掘系统或模块(如GEOMiner、ArcviewGIS的S-PLUS接口),都是用自己开发的或GIS软件开发商提供的GIS平台来实现空间数据管理和分析,对数据普遍采用文件与数据库共存的混合管理方式。该空间数据挖掘原型系统将空间数据和非空间数据统一存储在关系数据库管理系统中,由空间数据库引擎(SpatialWare)负责存取空间数据,利用其强大的空间数据管理、查询和分析的能力,完成空间数据挖掘中大量的空间信息抽取任务,而GIS组件(MapX)主要用于显示地图及挖掘结果的显示和承担部分数据挖掘的任务。这种开发模式与现存开发模式的最大区别是用空间数据库引擎和GIS组件代替专门的GIS基础软件实现空间数据管理和分析功能。其优点主要是:减少系统的功能冗余,提高系统一致性;能够管理海量空间数据,不需要分块,因此能够实现空间数据在逻辑上连续,在空间上无缝,有利于空间分析和数据挖掘的实施。 2.3 系统重点实现的挖掘方法与知识类型 空间数据挖掘可以在对象和像元两种粒度上来实施,两种粒度的数据挖掘各有优缺点,需要视挖掘目标和数据结构而先用或综合使用[3,5]。本实验系统建立在MapInfo系列产品之上,采用“空间实体+空间索引”的无拓扑矢量数据结构,可以在对象粒度上实施数据挖掘,进行空间数据的智能性分析;但不能直接实现像元(栅格)粒度的数据挖掘。 系统主要实现了基于对象粒度的三种规则知识:将面向属性归纳的方法(AOI)和决策树归纳学习算法(C4.5)分别应用于某林场小班数据,发现一般的空间特征规则和分类规则;将空间关联规则挖掘方法应用到宁夏森林资源分布和基础地理图层,获得空间关联规则。 3 关键技术 3.1 组件技术 组件式软件技术已经成为当今软件技术的潮流之一,为了适应这种潮流,GIS软件像其它软件一样,已经或正在发生着重大的改变,即由过去厂家提供全部系统或者具有二次开发功能的软件,过渡到提供组件由用户自己再开发的方向上来。无疑,组件式GIS技术将给整修GIS技术体系和应用模式带来巨大影响,同时也影响到空间数据挖掘技术集成。系统选择比较成熟的GIS组件MapX作为开发数据挖掘系统的工具之一。 3.2 涉及的主要SpatialWare空间函数 充分利用空间数据引擎SpatialWare提供的空间分析函数,对于减少空间数据挖掘的编程量和运算速度具有重要作用。系统涉及的空间函数主要有: 坐标系统轮换函数: HG_CSTransform(spatial_obj,form_cs,to_cs) 距离计算函数: HG_Distance(spatial_obj1,spatial_obj2) 空间合并函数: HG_Union(spatial_obj1,spatial_obj2) 空间关系函数(邻接、包含、在外): ST_Adjacent_To(spatial_obj1,spatial_obj2) ST_Contains(spatial_obj1,spatial_obj2) ST_Outside(spatial_obj1,spatial_obj2) 3.3 概念树构造、存放和可视化表达 归纳学习方法和多层次关联规则挖掘等方法都需要背景知识,即概念层次结构(Concept hierarchy),常以概念树的形式给出[4]。在空间数据库中,概念树分为两类:空间的和非空间(属性)的。本文结合领域知识,设计了多个概念树。 系统将概念树以关系形式存储在数据库中,由两个表格组成:一张表用来存放所有概念树的区别信息,主要字段有概念树标识码TID、概念树名TNAME;另一张表用来存放概念树的内容,主要字段有概念树标识码TID、概念树节点标识码NID、节点名NNAME、节点的父节点标识码NPID。 提取概念树时,先通过图层或属性信息获取概念树的标识,然后通过两表的关联从第二个表中得到某概念树的详细信息,并显示为可视化的树状图形,供用户确定并选择需要的概念层次。 4 实验与分析 4.1 利用面向属性归纳的空间特征规则挖掘方法发现某林场小班数据中地类的空间特征 面向属性归纳的空间特征规则挖掘方法有非空间属性支配和空间属性支配归纳算法,这里使用非空间属性支配算法。首选选取感兴趣的区域、属性项(小班地类)和地类概念层次树,并调整欲归纳的概念层,然后选择非空间属性支配算法,启动挖掘进程,同类相临者合并,异类包含且小于面积阈值(1.2hm^)者改变属性并合并,最终结果的误差不超过面积比重阈值(85%)。从运行结果(图2)可以看出,原927个空间数据经过系统运行后被归纳为55个新的空间对象,其中38个为林业用地,17个为非林业用地。结果真实而直观地反映出本林场小班地类分布的两个特征:一方面林业用地的区域相对比较分散,镶嵌于非林业用地这中;另一方面,林业用地在本林场东南半部最为聚集。 通过概念树和概念层次的灵活选择与配置,可以实现多种空间特征的知识挖掘。 4.2 利用空间关联规则挖掘算法获取某地森林资源与其它地理要素的空间关联规则 实验区森林资源分布图(图略)包括森林资源、公路、水系、境界等多个要素图层。在系统中根据需要选择不同的图层组合、确定不同的概念树层次以及规则的最小支持度和最小可信度,可以发现森林资源与多种地理要素间的空间关联规则。如选择森林资源、水系和交通图层,提取某区域数据作为挖掘对象,将森林资源概念树、水系(河流)概念树、交通线路概念树、空间关系概念树均确定为第二图层,并设定不同空间对象之间接近关系(g-close-to)的距离阈值为20km,最小支持度为0.3,最小可信度为80%,产生了如下关联规则: 规则1:is_a(X,农田林网)∧close_to(X,黄河)→close_to(X,公路)[66%,83%] 规则2:close_to(X,葫芦河)∧is_a(X,天然林)[36%,85%]...... 规则1描述的是“如果农田林网靠近黄河,那么它也靠近公路,该规则覆盖研究区域的66%的实例,可信度83%”。 规则2描述的是“如果森林靠近葫芦河,那么它是天然林,覆盖实例的36%,可信度为85%”。 4.3 决策树归纳学习方法C4.5挖掘森林资源分类规则 选取某林场小班属性数据作为实验数据,以林组为决策属性,以地类、海拔、林种、优势树种、起源、平均树高、平均直径、郁闭度、优势树种蓄积、公顷株数、公顷蓄积共11项属性作为可选分类属性。选择决策树学习算法(C4.5)对属性数据进行学习,并将决策树转化为规则,共36条,摘录其中5条如下 规则1:IF 林种=特用林 AND 海拔>2549.75 THEN 林组=过熟林 CV 23 CF 0.7442 规则2:IF 林种=特用林 AND 海拔≤2549.75 THEN 林组=近熟林 CV 34 CF 0.6604 规则3:IF 林种=用材林 AND 海拔≤2074.75 OR >2424.75 THEN 林组=过熟林 CV 75 CF 0.6552 规则4:IF 林种=水土保持林 AND 起源=人 THEN 林组=中龄林 CV 41 CF 0.7119 规则5:IF 林种=水源涵养林 THEN 林组=成熟林 CV 69 CF 0.5000 规则1描述的是“如果林种为特种用途林且海拔高于2549.75m,则林组为过熟林,共覆盖了23个实例,规则可信度为77.42%”。 规则4描述的是“如果林种为水土保持林且为人工林,则林组为中龄林,共覆盖了41个实例,规则可信度为71.19%”。 根据上述规则,可以分析林组的分布特征。如果将森林资源的遥感影像初步分类的矢量数据导入系统中,则可以通过产生分类规则来有效区分容易混淆的地类和林种等,从而改善分类精度。 5 结语 本文在地理信息系统组件(MapX)和空间数据引擎(SpatialWare)的基础上设计并开发了适用于地理信息系统的空间数据挖掘原型系统,将常用于关系型、事务型数据库的面向属性归纳方法、关联规则挖掘方法和决策树归纳学习方法扩展至空间数据库,并将其应用于从林业GIS中挖掘小班地类空间特征规则、森林资源与其它地理要素(如交通、水系)的空间关联规则以及森林资源分类规则。结果表明,该实验系统是一个实用的、能适用于GIS且能挖掘多种知识类型的数据挖掘工具。 实验结果同时反映出一些沿须解决的问题。譬如实验系统中设计的空间谓词与SpatialWare的空间关系函数基本一致,这不一定完全符合和满足空间数据挖掘的需要;产生的各类规则中有一部分理解起来比较困难,因此对挖掘过程的交互控制和结果的评价需要做进一步的研究。
|