http://www.gissky.net- GIS空间站

我要投稿 投稿指南 RSS订阅 网站资讯通告:
搜索: 您现在的位置: GIS空间站 >> 技术专栏 >> 地理信息 >> 正文

空间点事件离群模式探测的普适性方法

作者:石 岩,邓…    文章来源:2014测绘学会    点击数:    更新时间:2014-12-28
摘要:空间离群模式探测是空间数据挖掘的一个研究热点。本文以带有空间位置属性的点事件为研究对象,针对现有方法的局限性,在扩展了空间离群模式定义基础上引入层次约束Delaunay三角网,发展了一种空间点事件离群模式探测的普适性方法(简称MCDTSOD)。首先,借助Delaunay三角网粗略地构建空间点事件间的邻接关系;然后,利用统计学方法针对Delaunay三角网的边长特性进行三个层次约束分析,以精化空间点事件的邻近域;最后,对具有空间邻接关系的点事件集合进行统计分析,以形成一系列空间簇,并通过一个统计约束指标提取数量较少的空间簇,即空间点事件离群模式。该方法不需要人为输入参数,并且通过模拟数据和实际数据实验表明本文提出的MCDTSOD方法可以有效识别各种类型空间点事件离群模式。

A General Method of Detecting Spatial Outlier Distribution Patterns for Point Events

Abstract: Spatial outlier detection is a research hotspot in the domain of spatial data mining. In view of the limitations of existing methods, this paper develops a general method of detecting spatial outlier distribution patterns for point events by considering spatial locations (abbreviated as MCDTSOD), where the definition of spatial outlier is extended and the multi-level constrained Delaunay triangulation is constructed. Firstly, the spatial adjacency relationships are roughly obtained from Delaunay triangulation. Then, three-level constraints are described and utilized for precise spatial adjacency relationships with the consideration of some statistical characteristics. Finally, those spatial point events connected by the remained edges are gathered to form a series of clusters. Those clusters which contain very few point events are regarded as spatial outlier patterns. It can be found that the MCDTSOD is not involved in any parameters. Experiments on both synthetic and real-world spatial datasets are utilized to demonstrate that the MCDTSOD can detect all kinds of spatial outliers with high efficiency.

Key WordsSpatial attribute; Spatial point events; Spatial outlier patterns; Multi-level constrained Delaunay triangulation

中图分类号P208     文献标识码:A

 

 

引言

近年来,空间离群模式探测已成为空间数据挖掘的一个重要研究分支,并广受关注[1][2]。空间离群模式探测旨在从海量空间数据中挖掘得到偏离整体或局部分布模式的小部分空间实体。在地理信息科学、环境学、社会经济学等诸多领域,空间离群模式并非是无意义的噪声数据,很可能蕴含着潜在的、未知的重要知识和规律,并在异常气候事件探测、环境监测、犯罪和疾病异常分布等实际应用中发挥着重要作用。

Hawkins最先提出离群点的概念,将其定义为“严重偏离其他对象的观测点,以至于令人怀疑它是由不同机制产生的”[3]。针对空间数据的特性,Shekhar 等将空间离群点定义为:“非空间属性与空间邻近域内其他实体差异显著,而与整体数据集相比差异可能不明显的空间实体”[4]。考虑到空间数据具有空间位置属性和非空间专题属性,从而可将空间离群模式大致分为两类:仅顾及空间位置属性的空间离群模式;同时顾及空间位置属性和非空间专题属性的空间离群模式。其中,第一类模式的实际应用主要是针对空间点事件(例如犯罪、疾病、地震、极端气候事件等)的离群模式探测,并且在这些应用中仅考虑空间点事件的发生位置,然而针对此类模式鲜有专门的系列性研究。为此,本文以空间点事件的离群模式为研究对象,发展一种基于层次约束Delaunay三角网的普适性探测方法-MCDTSOD

相关研究回顾及存在的问题分析

现有的传统离群点探测方法可大致分为:基于统计分布的方法[5]基于距离的方法[6][7]基于密度的方法[8-10]基于聚类的方法[11][12]。基于统计分布的方法依赖于数据服从的分布、离群实体的期望数量和类型等,需要进行大量的测试实验以确定原始数据的分布情况,从而导致此类方法的适用性不强。基于距离的探测方法将数据集中远离其他实体的对象识别为离群点,其主要缺陷在于仅对均匀分布的数据有效,对于非均匀分布的数据难免产生误判,且侧重于发现全局离群点,而忽略了偏离局部分布的离群点。基于密度的方法主要是根据实体与其邻域实体的密度差异定义其局部离群度LOF,可在非均匀分布的数据中有效识别全局和局部离群点,此后很多学者对此类方法进行了一些改进[9][10],能够在更加复杂分布的数据集中探测离群点和离群小簇。但是,该类方法需要输入大量参数,并且需要对实体的离群度进行深入分析以有效识别异常实体。基于聚类的方法是借助聚类手段(例如K-means[13])来探测离群模式,该方法严重依赖聚类方法的选择。

进而,许多学者基于Shekhar对空间离群点的定义发展了一系列探测方法,可大致分为:基于图形的方法[14]基于距离的方法[4][15][16]基于密度的方法[17][18]基于聚类的方法[19]基于模型的方法[20][21]。其中,基于图形的方法是根据空间邻近实体间的局部相关性绘制变量云、散点图等可视化图,进而利用人眼观察得到其中蕴含的空间离群点。该类方法仅可作为一类探索性分析方法,无法准确地自动提取空间数据集中的离群模式。基于距离的方法和基于密度的方法是传统离群点探测方法在空间数据集的扩展,均继承了传统方法的缺陷。基于聚类的方法是将聚类结果中不隶属于任何簇的空间实体识别为空间离群点,然而其主要目的在于发现空间簇,探测离群模式的能力有限[19]。基于模型的方法并非数据驱动,而是需要首先满足模型的假设条件,如假设空间数据服从某种分布,这在实际应用中难以准确获得,可能导致探测结果偏离实际情况。近年来,许多学者利用统计模型(例如高斯随机场)[20]、机器学习模型(例如自组织图)[21]等数学工具进行空间离群模式挖掘。

通过对现有研究总结分析可以发现,传统方法可扩展用于空间点事件离群模式探测,但是这些方法并非专门用于空间数据集,因而缺乏空间邻近关系的精确度量,并且仅将离群模式分为全局和局部离群,缺乏全面性。空间离群探测方法核心在于分析非空间属性差异,无法直接用于空间点事件离群模式的探测,但为空间邻近关系的度量、离群模式的扩展提供了重要思想。如图1所示,分别为三类空间点事件离群模式,其中图1(a)为全局离群模式,即明显偏离整体分布的空间点和空间簇;图1(b)为局部离群模式,即明显偏离局部分布的空间点和空间簇;图1(c)为将Shekhar定义的空间离群模式进行引申得到的内部离群模式,这类离群模式以密集小簇的形式存在于空间大簇的内部,包含较少的空间点事件使其不足以构成一类普遍聚集模式,但在实际应用中这亦是一类重要的离群模式。例如,某区域犯罪事件呈均匀分布,而在此区域内存在较小规模且不易被发现的密集区域,重点研究此类区域可有助于深入分析犯罪分布的发展规律,以有效抑制潜在大规模犯罪事件的发生。

针对空间点事件离群模式探测研究存在的问题和局限性,本文首先对空间点事件离群模式进行重新定义,进而基于层次约束Delaunay三角网发展一种空间点事件离群模式探测的普适性方法—MCDTSOD。下面将对MCDTSOD方法进行详细阐述。

  

(a) 全局离群模式                        (b) 局部离群模式                      (c) 内部离群模式

空间离群模式类型

Fig.1 Types of the spatial outliers

基于层次约束Delaunay三角网的空间点事件离群模式探测

首先,对空间点事件离群模式重新定义为:空间点事件数据集中偏离整体或局部普适聚集分布模式的孤立点、稀疏或密集极小丛簇即为空间离群模式。进而,顾及空间点事件数据集的特性,借助Delaunay三角网进行空间邻近域的构建和表达。由于连接全局离群模式、局部离群模式、内部离群模式与其他正常聚集分布模式的边特性互不相同,其中全局离群模式是在整体层次上距离正常聚集模式较远的孤立点和小簇,而局部离群模式、内部离群模式则从更加局部的层次偏离正常聚集模式的孤立点和小簇。鉴于此,本文对原始Delaunay三角网施加三个层次约束,并分别用来提取全局离群模式、局部离群模式和内部离群模式。具体过程主要包括三个步骤:对空间点事件数据集建立原始Delaunay三角网,实现空间点事件间邻接关系的粗略表达;依次从三个层次约束Delaunay三角网,实现空间点事件间邻接关系的精确表达;空间离群模式自动识别。下面对每个步骤进行详细描述。

3.1 空间邻接关系粗表达

    初始空间数据集呈离散状态,缺乏对空间实体间邻接关系的表达。若判断某空间点事件在空间整体和局部偏离普适分布模式的程度,可通过构建空间点事件的邻近域来实现。Delaunay三角网根据“外接圆规则”和“最大最小角原则”建立三角剖分,且不需要输入任何参数,已证明是一种建立空间点实体间邻接关系的有效工具[22-24]。但Delaunay三角网在复杂的空间数据集中不能准确描述空间点实体间的邻接关系。如图2所示,是对模拟空间数据集建立的Delaunay三角网,其中与红色虚线相交的边均为明显的误差边,通过误差边建立的邻接关系是不准确的。鉴于此,下面在利用Delaunay三角网粗略表达空间点事件间邻接关系的基础上,施加层次约束以逐步精化空间点事件间的邻接关系。

 

空间邻接关系的Delaunay三角网表达

Fig.2 The spatial neighborhood described by Delaunay三角网

3.2 空间邻接关系精描述

针对Delaunay三角网在表达空间点事件间邻接关系时存在的误差问题,下面采取一种三阶层次约束策略对原始Delaunay三角网进行修复以精确描述空间邻接关系。一些学者利用不同的边长约束指标对Delaunay三角网进行修复以用于空间聚类分析[23-25],并证明了其有效性。这些约束指标可以归纳为:

                            (1

式中:分别表示边集合中的平均边长和边长标准差;为可调节的系数,或为预设常数,或为随边长变化的量值。此类指标从根本上隶属于传统极值统计准则。仿这种形式,下面构造三个层次约束指标和一个离群簇提取指标实现空间点事件离群模式的层次探测。

定义一阶约束指标:对空间点事件数据集SPED建立Delaunay三角网,针对Delaunay三角网的所有边定义一阶约束指标,分别表达为:

                   

                           (2

式中:Delaunay三角网的任一边;的边长;Delaunay三角网的平均边长;Delaunay三角网的边长标准差;为适应系数。

Delaunay三角网的平均边长和边长标准差能从宏观层次较好地反映空间点事件数据集的整体分布,可以大致区分其中较长和较短的边。为了精确识别一阶整体分布中的长边,引入适应系数α,若某条边的长度大于一阶整体平均边长,则α<1,相应的一阶约束指标也越小,反之越大。通过此策略删除所有长度大于一阶约束指标的边,可以得到更新后的空间邻接关系,如图3(a)所示。可以看出,一阶整体长边已有效删除,并且分离得到全局离群点G2和离群簇G4,但在某些局部仍存在局部误差需要消除,这些局部误差区域蕴含着局部和内部的离群模式,如图3(a)虚线框所示。

定义二阶约束指标:经过一阶边长约束后,每个空间点事件与其更新后的邻接点事件构成一系列的二阶局部边,进而定义相应指标对二阶局部边施加约束,分别描述为:

               

                           (3

式中:为与空间实体连接的局部边集合的成员;的边长为局部边的平均边长;为对原始Delaunay三角网修复后通过空间邻接关系构成的子集,如图3(a),其中为隶属于空间点事件为与空间点事件相关的局部边的边长标准差;为适应系数。

以一阶约束后的各连通子图为分析单元,局部边的平均边长和边长标准差从局部层次表征了空间点事件数据集在各个局部的分布模式,通过附加适应系数β构成的局部约束指标能很好地识别局部较长边引起的误差。局部边过长使得适应系数β偏小,二阶约束指标相应较小;反之,适应系数β偏大,二阶约束指标相应较大。进而,删除大多数边长大于二阶约束指标的局部边,继续更新空间邻接关系,如图3(b)虚线框所示。与一阶约束后的结果对比发现,由于局部长边引起的剩余误差得到基本消除,并且分离得到了局部离群点G5和离群簇G6,但某些局部仍然存在误差使得内部离群模式无法得到完全分离。下面以局部边长标准差为分析对象,首先识别局部边长标准差较大区域,即边长分布非均匀区域,进而对此类区域施加三阶约束实现空间邻接关系的精确化。

定义三阶约束指标:经过以上二阶约束分析,每个空间点事件与其更新后邻接点事件构成分布较为均匀的三阶局部边,为进一步准确识别三阶局部边中的局部长边,首先通过约束空间点事件的邻域边长标准差识别全局和局部分布非均匀邻域:

                                        

                                                                (4

                         

                                                               (5

式中:空间点事件连接的邻域边长标准差;所在子图中所有点事件的邻域边长标准差集合;为适应系数。式(4)中,空间点事件的邻接点邻域边长标准差均值;为与空间点事件对应的邻域边长标准差的标准差;为适应系数。以子图中空间点事件邻域边长标准差为分析对象,通过与一阶约束指标和二阶约束指标类似的策略对其进行约束以找到子图中邻域边长标准差较大实体,该类实体的邻域边长标准差需要满足以下两个条件之一:

(i) 

(ii) 

需要注意的是,为了避免全局分布不均匀区域的影响,在计算局部分布不均匀区域识别指标时,忽略满足条件(i)的点事件。进而根据二阶约束指标对此类点事件的邻域边长施加约束以删除残余局部误差,通过以上约束分析操作成功分离得到内部离群模式G7。如图3(c)所示,通过本文提出的层次约束策略,可以发现原始Delaunay三角网中存在的误差在整体到局部的层次演变过程中被逐渐消除,并最终获取了精确的空间邻接关系,如图3(c)中点事件P2P3P4构成P1的空间邻域。

 

(a) 一阶约束                            (b) 二阶约束                            (c) 三阶约束

空间邻接关系的精描述

Fig.3 The precise spatial neighborhood

3.3 空间离群模式自动识别

通过获取的空间点事件间精确邻接关系可得到一系列连通子集,下面进一步探测这些连通子集中的孤立点和离群簇。

定义连通子集:针对任一空间点事件,以其空间邻域作为传递路径进行递归扩展,经过路径上的所有点事件构成一个连通子集G如图3(c) 

通过空间邻域形成的一系列两两分离的连通子集潜在着空间点事件数据集的各聚集分布模式和离群分布模式。根据本文对空间点事件离群模式的定义,层次约束Delaunay三角网已经实现孤立点、稀疏或密集极小丛簇与普适聚集分布模式的分离,因此本文针对“极小”特性定义以下指标进一步识别空间点事件离群模式:

定义空间离群模式识别指标:记各连通子集中含空间点事件的数目为Ni并构成集合N,进而对集合N中具有相同数值的单元进行合并达到分类的目的,从而构成新数据集N。例如数据集N={1, 1, 1, 2, 2, 5, 8, 10},通过对N中成员进行分类得到N ={1, 2, 5, 8, 10}。根据数据集N定义空间点事件离群模式指标为:

       

                                                                      (6

式中:Mean(N)SD(N)分别为各连通子集包含空间点事件个数分类后的平均值和标准差;γ为适应系数。Mean(N)SD(N)能够反映各连通子集中点事件个数的分布,通过适应系数γ则能够有效识别容量较小的子集。Ni越小则SOI越大,反之越小,将连通子集中容量小于此指标的子集视为空间离群簇。图4(a)所示为最终得到的各种类型空间点事件离群模式。

                            

各类空间点事件离群模式的识别

Fig.4 The identification of outlier patterns for all types of spatial point events 

3.4 算法复杂度分析

 建立Delaunay三角网的复杂度约为O(Nlog(N))

 Delaunay三角网中空间点事件的邻接点事件个数平均约为6,因此对其施加三层约束并建立空间邻域的复杂度总和为O(18N)

 根据空间邻域进行递归扩展的复杂度近似线性。

综上分析,本文方法的整体复杂度约为O(Nlog(N)),较高的效率能够适应有效分析空间海量数据集。

实验分析

下面设计两组实验验证方法的优越性、稳健性和有效性。实验一通过Acrgis10.0设计一组复杂模拟数据集(如图5所示),本文方法将与基于K邻近距离法[6]和基于密度的LOF[7]进行对比实验,以说明本文方法的优越性。实验二采用20082010年我国大陆地区夏季发生重度以上洪涝事件的气象站点分布数据(如图8所示),通过对此数据进行实验分析探测发现我国近年来夏季发生严重洪涝事件的空间离群分布模式,从而验证本文方法的实用性,图9为本文方法和两种经典方法的探测结果。所有实验结果中离群点模式和各离群簇模式分别用不同符号表示。

4.1 模拟实验

实验数据是通过模拟得到的一组复杂空间点事件数据集,如图5(a)所示,其中包含了全局离群点、全局离群簇、局部离群点、局部离群簇以及内部离群簇模式,并且各类离群模式具有任意形状和密度,具有很好的代表性和说明性。图5(b)为包含内部聚集离群簇模式的四个子区域的放大显示。

6和图7分别为本文方法探测结果和基于K邻近距离法、基于密度的LOF法的探测结果。从图6的实验结果可以发现,本文提出的MCDTSOD法不仅能够从不均匀分布数据中有效识别全局、局部空间离群模式,而且还能够探测隐藏在空间聚集簇中异常密集分布的内部空间离群模式。虽然在某些离群簇模式中,将极少数离群簇结构打乱而形成了离群点和子簇,但最终得到的离群模式与预先设置的结果完全一致。另外,两种经典方法的参数设置如下:K值分别设置为5101525;离群点数目设置为两类,一类为除内部离群模式外其他离群点的数目41,另一类为所有预设离群点数目85。如图7所示,当离群点数目设置为41时,基于K邻近距离法可以有效探测数据中的全局离群模式,而在分布复杂、密度不均匀的某些局部区域则忽略了一些局部离群模式,如数据分布右下角密集圆形簇和“”状簇附近的局部离群点和离群簇无法识别。另外,对于某些聚集模式(如“”状簇两段位置)的边界处则误判为离群模式。基于K-邻域的LOF法可以有效探测全局离群点、离群簇模式和局部离群点模式,但无法识别局部离群簇模式。当离群点数目设置为85时,两种方法均无法识别内部离群模式,而是将聚集模式(如中间的大球形簇)的边界点识别为离群点。

   

(a) 模拟数据                                      (b) 局部区域放大显示

模拟数据集

Fig.5 The simulated dataset

 

(a) 空间异常分布模式探测结果                              (b) 局部区域放大显示

本文方法探测结果

Fig.6 The results obtained by the method proposed in this paper

 

   

(i) K=5, N=41                  (ii) K=10, N=41                (iii) K=15, N=41                 (iv) K=25, N=41

   

(v) K=5, N=85                   (vi) K=10, N=85                (vii) K=15, N=85                (viii) K=25, N=85

(a) 基于K邻近距离方法探测结果

   

(i) K=5, N=41                 (ii) K=10, N=41                 (iii) K=15, N=41                 (iv) K=25, N=41

   

(v) K=5, N=85                   (vi) K=10, N=85                 (vii) K=15, N=85               (viii) K=25, N=85

(b) 基于K-邻域的LOF方法探测结果

各方法探测结果比较

Fig.7 The results obtained by different methods

4.2 实际应用

实验数据集来源于国家气象信息中心气象资料室,包括了1982-201130年间中国陆地区域486个站点的降水月均值数据,气象站点分布如图8(a)所示,其中站点相对均匀地分布于中国中部和东部地区,仅内蒙古自治区的站点较为稀疏,其他地区站点均较为密集分布。本文首先针对每个气象站点所记录的降水时间序列数据计算标准化降水指数SPIStandardized Precipitation Index),然后根据NDMCNational Drought Mitigation Center)对SPI指数的分类[26](列于表1),时间尺度设置为3个月,即考虑3个月累计降水量,从各站点中提取重度以上洪涝事件(即SPI≥1.5)发生的时间点,可以得到每年每月发生重度以上洪涝事件的气象站点。下面以夏季洪涝事件为研究对象,即若某站点在某年的678月任意一个月的SPI≥1.5,则认为此站点在该年夏季发生了重度以上洪涝事件。进而,选取近年来夏季发生重度以上洪涝事件的区域分布较为广泛的20082010年(如图8(b)(c)所示)作为离群模式探测的实际数据集。

标准化降水指数SPI分类

Tab.1 The classification of SPI index

事件类型       极端干旱     重度干旱     轻度干旱     正常     轻度洪涝     重度洪涝     极端洪涝

SPI指数        (-∞, -2]      (-2, -1.5]       (-1.5, -1]     (-1, 1)     [1, 1.5)       [1.5, 2)       [2, +∞)

 

  

(a) 中国气象站点分布            (b) 2008年夏季重度以上洪涝事件分布    (c) 2010年夏季重度以上洪涝事件分布

实际数据集

Fig.8 The real dataset

如图9(a)(b)(c)所示,分别为本文方法、基于K邻近距离法和基于K-邻域的LOF对实际数据集的探测结果,其中NR表示正常分布区域,OP表示离群点,OC表示各离群空间簇;另外,对于后两种方法均通过大量实验而获得较佳结果。针对2008年夏季重度以上洪涝事件分布数据,本文方法探测得到4个离群点和7个离群空间簇,这些离群模式分布于黑龙江中部、内蒙古东部、河北中部、长江下游、福建沿海以及云南中部等地区;另外,正常分布区域可明显大致分为ABC三个子区域,而各离群模式分大都分布于这三个子区域的过渡区域。在这些离群模式中,云南地区具有极其复杂的地形;长江下游为河流入海口,且以平原为主,因此地形、海洋同时影响降水量;福建沿海通常为台风登陆我国最先影响区域。综合以上可能的因素,可为本文方法探测得到的洪涝事件离群模式作出合理解释。进而,通过分析两种经典方法的探测结果可以发现:基于K邻近距离法可以粗略探测出部分离群模式(如云南中部、福建沿海以及黑龙江中部),但忽略了长江下游若干局部离群簇;基于K-邻域的LOF的探测结果与基于K邻近距离法类似,但可以识别部分长江下游的局部离群簇。另外,两种方法均无法准确探测云南中部的“链式”离群结构,并且在三个正常分布区域均有大量误判,如将分布稀疏的B区域识别为大量离群点。

针对2010年夏季重度以上洪涝事件分布数据,本文方法探测得到7个离群点和7个离群空间簇,这些离群模式分布于黑龙江北部和东部、环渤海湾、河北中部、浙江东北部等地区。另外,正常分布区域可大致分为AB两个子区域,而各离群模式分大都分布于这三个子区域的过渡区域以及外围区域。其中,黑龙江北部和东部具有山脉阻隔,环渤海湾地区夏季受到海风强烈影响,而浙江东北部沿海地区与其相邻内陆相比,受海洋、台风影响明显。这些都可作为解释这些区域的强降水具有离群模式的可能因素。进而,通过分析两种经典方法的探测结果可以发现:两种经典方法基本上可识别上述提到的离群模式,但准确度不够,如在环渤海湾区域出现一些漏判现象,基于K-邻域的LOF法则几乎不能识别此区域,并且这两种方法在两个正常分布区域均有大量误判,尤其在密度分布不均匀处。

通过模拟实验和实际应用分析,两种经典方法通过不断地调整参数可以得到相对较佳的探测结果,但缺乏对空间点事件之间邻接关系的严密分析,从而出现大量误判和漏判现象,这也更加说明了本文提出的层次约束Delaunay三角网策略的有效性和实用性。进而,本文方法的探测结果有助于研究产生此类离群模式的更深层次因素,对于研究我国气候变化规律、预测极端气候事件的空间离群模式乃至辅助政府作出相关决策具有重要意义。

 

(i) 2008年                                            (ii) 2010年       

(a) 本文方法探测结果

   

(i) 2008(K=5, N=26)         (ii) 2008(K=10, N=26)          (iii) 2010(K=5, N=40)         (iv) 2010(K=10, N=40)

(b) 基于K邻近距离方法探测结果

   

(i) 2008(K=5, N=26)         (ii) 2008(K=10, N=26)          (iii) 2010(K=5, N=31)         (iv) 2010(K=10, N=31)

(c) 基于K-邻域的LOF方法探测结果

异常气候事件空间离群分布模式探测结果

Fig.9 The results of spatial outlier distribution patterns of abnormal climate events 

 

结论与展望

本文提出了一种基于层次约束Delaunay三角网的空间点事件离群模式探测的普适性方法-MCDTSOD,通过实验分析发现:(1MCDTSOD方法稳健,并能有效地探测各种类型空间离群模式;(2MCDTSOD不需要人为输入参数,具有自适应性和实用性;(3MCDTSOD方法时间复杂度约为O(N(logN)),比其它方法效率高。

进一步的工作将主要集中在:(1)顾及多维非空间专题属性的空间离群模式异常探测;(2)对空间离群模式的有效性进行定量评估,本文对探测结果的评估主要源于已有先验知识;(3)扩展到时空维的时空离群模式探测。

 

参 考 文 献

 

[1] Pei T, Zhou C H, Luo J C, Han Z J, Wang M, Qin C Z and Cai Q. Review on the proceedings of spatial data mining research. Journal of Image and Graphics, 2001, 6(9): 854-860.

[2] Tan P, Steinbach M, Kumar V. Introduction to data mining [M]. Boston: Addison Wesley Press, 2006.

[3] Hawkins D M. Identification of outliers[M]. London: Chapman and Hall, 1980.

[4] Shekhar S, Lu C T, Zhang P S. A unified approach to detecting spatial outliers[J]. GeoInformatica, 2003, 7(2): 139-166.

[5] Barnett V, Lewis T. Outliers in statistical data[M]. John Wiley & Sons, 3rd ed: Wiley Series in Probability and Statistics, 1994.

[6] Knorr E M, Ng R T. Algorithms for mining distance-based outliers in large dataset[C]. In: Proceedings of the 24th VLDB Conference, New York, USA, 1998: 392-403.

[7] Ramaswamy S, Rastogi R, Shim K. Efficient algorithms for mining outliers from large data sets[C]. In: Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data, Dallas, USA, 2000: 427-438.

[8] Breunig M M, Kriegel H P, Ng R T, et al. LOF: identifying density-based local outliers[C]. In: Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data, Dallas, USA, 2000: 93-104.

[9] Chiu A L M, Fu A C. Enhancements on local outlier detection. In: Proceedings of 7th International Database Engineering and Applications Symposium, 2003: 298-307.

[10] Jin W, Tung A K H, Han J W, Wang W. Ranking outliers using symmetric neighborhood relationship[C]. In: Proceedings of the 10th Pacific-Asia conference on Advances in Knowledge Discovery and Data Mining, Berlin, 2006: 577-593.

[11] Jiang M F, Tseng S S, Su C M. Two-phase clustering process for outliers detection[J]. Pattern Recognition Letters, 2001, 22(6): 691-700.

[12] Al-Zoubi M B, Al-Dahoud A, A. Yahya A. New outlier detection method based on fuzzy clustering[J]. WSEAS Transaction on Information Science and Applications, 2010, 7(5): 681-690.

[13] Macqueen J. Some methods for classification and analysis of multivariate observations[C]. In: Proceedings of 5-th Berkeley Symposium on Mathematical Statistics and Probability. Berkeley, California, 1967: 281-297.

[14] Haslett J, Brandley R, Craig P, et al. Dynamic graphics for exploring spatial data with application to locating global and local anomalies[J]. The American Statistician, 1991, 45(3): 234-242.

[15] Chen D C, Lu C T , Kou Y F, Chen F. On detection spatial outliers [J]. Geoinformatica, 2008, 12:455-475.

[16] 李光强, 邓敏, 朱建军, 程涛, 刘启亮. 一种顾及邻近域内实体间距离的空间异常检测新方法[J]. 遥感学报, 2009, 2: 197-202.

[17] Chawla S and Sun P. SLOM: A new measure for local spatial outliers [J]. Knowledge and Information Systems, 2006, 9(4): 412-429.

[18] 薛安荣, 鞠时光, 何伟华, 陈伟鹤. 局部离群点挖掘算法研究[J]. 计算机学报, 2007, 30(8): 1455-1463.

[19] 李光强, 邓敏, 程涛等. 一种基于双重距离的空间聚类方法[J]. 测绘学报, 2008, 37(4): 482-488.

[20] Chen F, Lu C T, Boedihardjo A P. GLS-SOD: A generalized local statistical approach for spatial outlier detection[J]. In: Proceedings of the 16th ACM SIGKDD international conference on Knowledge discovery and data mining, New York, USA, 2010: 1069-1078.

[21] Cai Q, He H B, Man H. Spatial outlier detection based on iterative self-organizing learning model[J]. Neurocompuing, 2013, 117: 161–172.

[22] Tsai V J D. Delaunay triangulations in TIN creation: an overview and a linear-time algorithm[J]. International Journal of Geographical Information Systems, 1993, 7(6): 501-524.

[23] ESTIVILL-CASTRO V, LEE I. Multi-level clustering and its visualization for exploratory spatial analysis[J]. GeoInformatica, 2002, 6(2): 123-152.

[24] ESTIVILL-CASTRO V, LEE I. Argument free clustering for large spatial point-data sets[J]. Computers, Environment and Urban Systems, 2002, 26(4): 315-334.

[25] Deng M, Liu Q L, Cheng T, Shi Y. An adaptive spatial clustering algorithm based on delaunay triangulation[J]. Computer, Environment, Urban and Systems, 2011, 35(4): 320-332.

[26] Hayes M. Drought indices. Available online at: <http://www.drought.unl.edu/whatis/indices.htm>[accessed on 15 February 2003].

 

Tags:空间属性,空间点事件,空间离群模式,层次约束Delaunay三角网  
责任编辑:gissky
相关文章列表
没有相关文章
关于我们 - 联系我们 - 广告服务 - 友情链接 - 网站地图 - 中国地图