所谓空间数据挖掘,是数据挖掘技术在空间数据集合中的一种应用,主要通过对空间数据的分析和比对,发现蕴含在数据中,不能够直观发现的关系、趋势、模式等特征,为预测未来现象提供依据,为系统决策提供支持。然而由于空间数据的特点和海洋地理信息系统应用的特殊性,空间数据挖掘与传统的数据挖掘方法也略有不同。本文在对空间数据挖掘技术进行深入研究的基础上,介绍了空间数据挖掘技术的主要原则,分析了该技术能够取得的潜在效果,并结合海洋地理信息系统的特点和需求,研究了空间数据挖掘技术在海洋地理信息系统中的应用方法和运行模式,为进一步完善该系统,更加充分地对海洋空间数据进行利用,提供依据。
一、空间数据挖掘的基本原则
⒈空间数据挖掘的概念
空间数据挖掘是空间数据库、计算机管理技术和决策技术发展到新阶段的产物。其集成了多种当前流行的技术,如人工智能、概率统计、专家系统、机器学习、空间数据库、模糊数学、网络技术和数据可视化技术等,是一种数据挖掘技术在空间数据领域的重要扩展和应用。
⒉空间数据挖掘的框架
当前,存在多种空间数据挖掘框架,例如由Maheus提出的多组件数据挖掘框架,由Hoslsheimer提出的特征挖掘框架,由Han提出的数据挖掘通用模型等。从适用性的角度考虑,最适合空间数据挖掘的框架应当为多组件数据挖掘框架,该框架的基本结构如图1所示。
图1空间数据挖掘框架
空间数据挖掘框架为整个空间数据挖掘过程提供依据,并为海洋地理信息系统中的数据分析和利用提供设计思路。
二、空间数据挖掘的内容
与空间数据处理不同,空间数据挖掘能够提取出隐含的知识、空间数据之间的关系和其他有价值的模式信息,从而能够进一步发现更多有用的知识,为其他系统和应用提供决策依据。
⒈空间关系
⒉对象特征
对象特征描述的是一种或多种对象实体所共有的属性特征,包括类型、尺寸、形状等其他常见或特殊的属性。并且如果数据样本的数量足够时,我们还能够获得对象的先验概率知识,例如海底沉积物的经纬度分布等。
⒊数据分类
通过空间分类规则,空间数据集中的数据能够被映射为特定的类,通常在数据预测的过程中使用。同时,分类规则是一种全局适用的知识,本质上是对数据集的一种抽象和一般化。
⒋数据聚类
通过聚类能够将类型相近的数据集合为一种类型,同时使得不同类型之间的差异最大化,而使得同一类型之间的差异最小化,能够应用于生成和划分多种异构信息。与分类规则不同,在聚类之前,并不知道划分的每一类的特征和属性,也不清楚数据能够被划分为哪些类别。
需要注意的是,在空间数据挖掘的过程中,挖掘的内容和结果,并不一定是以上几类的一种,而大多数需要涉及到多种。因为,在对信息进行分析和可视化的过程中,对一个对象的感知,仅仅知道其特征、空间关系、类别等的一种,并不能完全认识该对象,更无法深度挖掘该对象与其他对象存在的其他隐含关系,因而,在实际使用中,从实践角度考虑,我们需要获得包括以上各种内容的多种或全部,从而完成对对象的全维感知,也能够使得在下一步的挖掘中,获得的知识更加完备和详细。
三、空间数据挖掘流程
在传统的数据处理方法中,往往采用专家系统方法,采用处理规则或模板,将专家知识固化为某种知识的固定提取方法和处理措施。这种方法具有2个主要缺点:一是其仅仅能够对数据进行表面化的处理,而不能够进行多层次和持续的挖掘,因而这种数据处理方式,仅仅能够发现事先已知类型和符合规定的知识;二是其难以应对大量的数据,采用该种方法的数据处理系统,往往采用线性处理方法,对于某一类的数据处理往往需要遍历所有的规则和模板,造成不必要的算法复杂性,当数据量较大时,其效率较低。而空间数据挖掘算法,能够克服以上问题,采用聚类、分类等措施和循环迭代的方法,不仅能够发现大量隐含知识,同时能够处理海量知识,其主要过程有以下几个步骤:
⑴数据滤波:对于海上地理信息系统来说,其中包含了大量来自不同设备和不同种类的数据,由于海上环境的多变性,必然会存在错误和异常数据,为了确保能够得到正确结果,在对数据进行处理之前,需要对数据进行滤波,得到无噪声的可用数据;
⑵数据聚类:相比于数据分类,数据聚类具有更广泛的适用性,能够发现实现未被定义的数据类型。通过数据聚类,能够完善数据的结构性,从而为下一步数据挖掘提供依据;
⑶数据挖掘:当前数据挖掘、分类与分析的算法种类较多,主要的方法有神经网络、SVM等。需要注意的是,空间数据挖掘与传统方法不同,完成整个挖掘过程需要多次迭代。具体流程如图2所示。
图2空间数据挖掘流程图
四、空间数据挖掘在海洋GIS中的应用
海洋学和地图学数据是海洋地理信息系统中的重要组成部分,有着GIS数据的典型特征。因此,可以利用空间数据挖掘,最大化的发挥海洋测量和电子地图数据的价值,开发多种类型的应用,扩展海洋测绘和电子地图产品的种类,从而向用户提供丰富多样的服务。
⒈海底地形数据挖掘
海图是一种用来描述某个海域及其邻接陆地的地图,其中对于海底地形的描述主要采用虚线点迹表示。由于图幅限制,海图中的虚线点迹通常采用互相隔离和离散的形式出现,难以直观地表示出海底地形的全貌,从而为安全航线的划定造成不便。
使用空间数据挖掘中的统计学方法,能够从离散的虚线点迹中发现出海底地形走势的固有规律,从而建立一个等高线模型,结合可视化技术,我们能够得到海底地形的3D全景显示,从而能够方便直观地对海底地形进行分析和利用。
⒉海洋沉积物数据挖掘
海洋沉积物是海底地形的重要组成部分之一,同时也是航海导航、船舶抛锚和海底航行等活动的重要影响因素之一。
通过使用数据挖掘工具,如概率统计、模糊集理论和集群方法,海洋沉积物的分布区域和时空变化规律将能够被发现,使得船舶航行的安全性得到加强,同时水上航线的利用率也能够得到提高。此外,也能够为国防和海洋工程建设等活动,提供决策依据。
⒊航行障碍数据挖掘
在船舶的航行过程中往往需要考虑诸如暗礁、残骸、障碍物等,并及时进行规避以保证航行安全。尽管大多数航行障碍物的位置固定,但是由于洋流和其他原因,某些类型的障碍物将会发生移动。对于航行障碍物来说,其空间数据并不仅仅包括其所在位置信息和属性等,同时也包括其影响范围、移动趋势及其他时空信息。
在空间数据挖掘理论的支持下,海洋地理信息系统能够自动映射出航行障碍物所处的水域,并在不同的航行条件下,给出航行的安全指数。当船舶进入某个危险水域时,系统能够智能化地向船员发送警报,从而最大限度地保证船舶的航行安全。
⒋航行助航数据挖掘
助航设施,例如导航标记、海上浮标等,通常用来指示暗礁位置,或进行海洋观测,是一种重要的人工实施,使得船舶能够借助这些设施进行位置测量,航线导航和障碍规避。
航行助航数据储存了大量助航设施的属性特征和地理位置。这些知识并不仅仅反应了安全航道信息,还指示了海拔信息,可航行水深等信息。
使用空间数据统计分析及聚类,遗传算法和其他空间数据挖掘技术,系统能够根据助航设施的特征和级别进行重分类。最终,可以向船舶提供最优化的航线,实现自动化的航线选择等功能。
⒌水文数据挖掘
水文数据指示了水力、洋流等海水的物理和化学特征,包含潮汐、浪高、洋流速度、漩涡、冰山、浮冰等数据,以及盐度、密度、海水颜色等数据。
使用空间数据挖掘,系统不仅能够自动化地发现各种数据的隐含关系和规则,同时也能够在一定的需求下进行最优化分析和未来数据的预测,从而为决策提供有力支持。
五、结语
海洋地理信息系统是当前人类活动必不可少的信息化系统,其中产生和储存的海量数据,更蕴含着巨大的价值,随着大数据时代的来临,如何发挥这些数据的巨大作用,将是海洋地理信息系统下一步研究和完善的重点。本文对空间信息挖掘技术进行详细介绍,从该技术的基本原则、内容和流程等方面进行深入研究,并结合空间信息挖掘技术的特点,研究了其在海洋地理信息系统中的引用方法,为之后系统的进一步完善提供基础。